【 📚 書籍推薦】機器學習聖經:最完整的統計學習方法

前言

電腦與網路的發展完全改變了人們的學習、工作與生活方式,智慧化是電腦研究與開發的主要目標,過去的實踐證明統計機器學習方法是實現這一目標最有效的手段,因此希望透過李航老師《機器學習聖經:最完整的統計機器學習方法》一書帶領大家走進統計機器學習方法的世界。

本書的書寫方向與學習架構

本書追求系統性而且詳細的介紹統計機器學習方法,並著重在常用且重要的統計方法,特別關注於分類與標注問題的上。在書寫敘述上雖然採取每一個章節獨立介紹一種統計方法,但同時也力求讓這些獨立的章節在一個統一的框架下進行論述,因此讓讀者可以選擇整本閱讀,也可以省時採取單一章節閱讀。此外,對於每一種方法的說明深入淺出,舉出必要的推導證明與實例,讓讀者能確實掌握該方法的內容、本質。本書的內容將分為統三個部分: (1) 統計學習概論、 (2) 監督學習概論、(3) 無監督學習概論,且本書解說 10 種監督學習模型與 8 種無監督學習模型,內容十分詳細,最後在每章結尾附上重點整理,幫讀者進行統整,以便有效率的學習。

統計學習的框架與學習重點

首先,對於讀者而言,理解統計學習的架構是學習機器學習最重要的部分之一,因此作者先針對統計學習的概念開始闡述。為了讓讀者能夠容易了解統計學習的框架,作者將統計學習分成幾個部分:(1) 說明統計學習與機器學習的定義、研究物件與方法,(2) 說明統計學習的三大分類:監督學習、無監督學習、強化學習與統計學習的三大要素: 模型、策略與演算法,最後 (3) 介紹監督學習幾個重要概念,模型選擇與評估、正則化、交叉驗證、學習的泛化能力、生成模型與判別模型,希望透過分節的敘述方式,讓讀者對於統計學習的基本概念都有詳細的了解與認識。

監督學習的概念與代表模型

此部分將會介紹監督學習的概念,與主要三個面向,以及舉出分別代表這三個面向的模型,讓讀者能選擇適當的模型去應用在想解決的問題上。

監督學習 (supervised learning) 是指從標注資料中學習預測模型的機器學習問題,標注資料表示輸入輸出的對應關係,預測模型對給定的輸入產生對應的輸出,監督學習的本質是學習輸入到輸出的映射的統計規律,常見的監督學習有三大應用面向:(1)分類問題、(2)標注問題、(3)回歸問題。

(1) 分類問題

當輸出變數 Y 是有限個離散值時,預測問題變為分類問題,此時的輸入 X 可以是連續的也可以是離散的。監督學習從資料中學習一個分類模型或分類決策函數,又稱為分類器 (classifier);分類器輸出的預測稱為分類 (classification),可能的輸出稱為類別(class);分類的類別為多個時,稱為多類分類問題,本書主要討論二類分類問題。
本書介紹的分類模型:感知機、k近鄰法、單純貝氏法、邏輯回歸與最大熵模型、支持向量機、提升方法、決策樹

(2) 標注問題

標注 (tagging) 是分類問題的一個推廣,是更複雜的結構預測(structure prediction) 問題的簡單形式;標注問題的輸入是一個觀測序列,輸出是一個標記序列或狀態序列。標注問題的目標在於學習一個模型,使它能夠對觀測序列舉出標記序列作為預測。然而,可能的標記個數是有限的,但其組合而成的標記序列個數是依序列長度呈指數級增長的。
本書介紹的標注模型:隱馬可夫模型、條件隨機場

(3) 回歸問題

回歸 (regression) 用於預測輸入變數和輸出變數之間的關係,特別是當輸入變數的值發生變化時,輸出變數的值也會發生變化。回歸問題的學習等於函數擬合,選擇一條函數曲線使其極佳化擬合已知的資料且預測未知的資料。
本書介紹的回歸模型: k近鄰法、決策樹

無監督學習的概念與代表模型

此部分介紹無監督學習的概念與主要應用的四個面向,以及舉出分別代表這四個面向的模型,讓讀者能選擇適當的模型去應用在想解決的問題上。

無監督學習 (unsupervised learning) 又稱非監督學習,是指從無標注中的資料學習資料的統計規律或者說內在結構的機器學習。無監督學習可以用於資料分析或者監督學習的前處理,由於資料沒有標注,因此無監督學習通常需要大量的資料來挖掘資料所隱藏的規律,常見的無監督學習有四大面向:(1) 聚類問題、(2) 降維問題、(3) 話題分析、(4) 圖分析。

(1) 聚類問題

聚類 (clustering) 是將樣本集合中相似的樣本分配到相同的類、不相似的樣本分配到不同的類。聚類時,類別不是事先給定的,而是從給定的資料中統計出來的,然而類別的個數通常會事先給定。如果一個樣本只能屬於一個類,則稱為硬聚類(hard clustering),如果一個樣本可以屬於多個類則稱為軟聚類 (soft clustering)。
本書介紹的聚類模型:層次聚類、k均值聚類、高斯混合模型

(2) 降維問題

降維 (dimensionality reduction) 是將訓練資料中的樣本從高維空間轉換到低維空間,假設樣本原本存在於高維空間,則透過降維讓樣本呈現在低維空間以更好地表示樣本資料的結構關係。
本書介紹的降維模型:主成分分析(PCA)、奇異值分解(SVD)

(3)話題分析

話題分析是文字分析的一個技術,話題分析目的在發現文字集 合中每個文字的話題,然而話題分析需要假設有足夠數量的文字才能進行分析,如果只有少數幾個文字是不能做話題分析的,話題分析可以形式化為機率模型估計問題或降維問題。
本書介紹的話題分析模型:潛在語義分析(LSA)、機率潛在語義分析(PLSA)、潛在狄利克雷分配(LDA)、非負矩陣分解(NMF)

(4) 圖分析

很多應用中的資料是以圖的形式存在,圖資料表示實體之間的關係,包含有向圖、無向圖、超圖。圖分析(graph analytics)的目的是挖掘隱藏在圖中的統計規律或潛在結構,連結分析(link analysis)也是圖分析的一種。
本書介紹的圖分析模型:PageRank


以上內容擷取自李航老師《機器學習聖經最完整的統計機器學習方法》一書當中,更詳細的內容可從書中獲取,讀完此書能讓讀者對於機器學習的原理、方法、應用有相當大的幫助與了解,有興趣的讀者可以參考閱覽。

書籍連結: https://www.books.com.tw/products/0010929204

機器學習聖經:最完整統計學習方法

作者李航為ACL Fellow、IEEE Fellow 、ACM傑出科學家,現任字節跳動人工智慧實驗室總監。

留言討論區