【Python 機器學習】：混淆矩陣 - 驗證分類模型的瑞士刀

觀看次數： 20,409

當我們在進行監督式機器學習 (supervised learning) 的分類 (classification)分析後，我們會透過混淆矩陣 (confusion matrix) 來檢驗這個模型的好壞。

本文除了會教大家在 Python 當中使用套件來產生混淆矩陣以及整個模型預測後的分析報告外，也會透過圖表的方式說明混淆矩陣當中，所有數字的意思，以及他們數值背後所代表的意涵，讓大家在訓練好一個分類模型後，能有所依據來檢驗模型準確度的好壞。

使用 Python 產生混淆矩陣

from sklearn.metrics import confusion_matrix
cm=confusion_matrix(y_test,y_pred)
cm

透過上述的程式碼可以產生該模型預測的混淆矩陣。

y_test (ground truth) 是資料當中測試資料的目標陣列
y_pred (model prediction) 是模型根據X_test 去進行預測後的結果

也就是說 y_test 是真實情況的標籤陣列，而y_pred 則是模型預測出來的標籤陣列，而混淆矩陣就是根據這兩者產生的矩陣。

查看y_test當中的標籤個數

y_test.value_counts()

上述程式碼可以看出 y_test 當中 class_0 與class_1 的個數分別為 1692 與 163 個，本例子假設 class_0 為正例，因為其例子較多，class_1 為負例，方便後面進行說明。

將混淆矩陣畫出，加以解釋

import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(15,8))
sns.heatmap(cm,square=True,annot=True,fmt='d',linecolor='white',cmap='RdBu',linewidths=1.5,cbar=False)
plt.xlabel('Pred',fontsize=20)
plt.ylabel('True',fontsize=20)
plt.show()

從上述程式碼我們得出這張圖，我們可以清楚的將混淆矩陣表達，先說明本文章使用的例子，其 Y 的結果就是 class_0 (正例) 跟 class_1(負例)兩個分類，真實情況下為 class_0 的資料有 1692 筆 (1684+8)， class_1 的資料有 163 筆 (29+134)。

在混淆矩陣當中有四個方格，四個方格代表不同的意思

四個方格

(1) TP (True Postitive): 真實情況為class_0，預測也為class_0的個數有1684個
(2) FN (False Negative): 真實情況為class_0，預測為class_1的個數有8個
(3) FP (False Postitive): 真實情況為class_1，預測為class_0的數有29個
(4) TN (True Negative): 真實情況為class_1，預測為class_1的個數有134個
FP (又稱為偽陽性)就是統計學上的型一錯誤 (Type I Error)
FN (又稱為偽陰性)就是統計學上的型二錯誤 (Type II Error)
小技巧: 上面竟然都說是錯誤了，當然都是 F 開頭

常用的指標

(1) Accuracy(準確率)
- $$\frac{TP+TN}{TP+TN+FP+FN} = \frac{1684 + 134}{1855} = 0.98$$
- 準確率就是當他是 class_0(正例) 且預測為class_0(正例) 或是 class_1(負例) 且預測也為class_1(負例) 這兩種情況下都算是準確，因此根據上述公式即可算出準確率。
- 簡言之，準確率就是所有預測正確 (分子都是以T開頭) 的比例
(2) Precision(精確率):
- $$\frac{TP}{TP + FP} = \frac{1684}{1684 + 29} = 0.98$$
- 精確率的意思是在預測出是class_0(正例)的情況下，真實情況也為class_0(正例)的比率
- 精確率就是所有預測正例 (分母都是以P結尾) 中，真實也是正例的比率
(3) Recall(召回率):
- $$\frac{TP}{TP+FN} = \frac{1684}{1684+8} =0.99$$
- 精確率的意思是真實情況為 class_0 (正例) 的情況下，預測是 class_0 (正例) 的比率
- 精確率就是所有正例中，預測也為正例的比率
(4) F1 Score:
- $$F1=\frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} = \frac{2}{\frac{1}{0.98} + \frac{1}{0.99}} = 0.98$$

直接產出所有數值的報告

from sklearn.metrics import classification_report

print(classification_report(y_test,y_pred))

透過這個方法就可以省去所有的計算也不會怕理解錯誤算錯公式，我們可以看0.0那行的數值跟我們上述算出的一樣，因此也可以證明我們上述的理解是正確的，大家可以試著算出1.0那行的數值，當算那行數值時，則要反過來將class_1視為正例。

後記

說明混淆矩陣的文章很多，但有時候大家會覺得複雜，怎麼每篇解釋的都不太一樣，其問題是每位作者的預測與真實數據的講解表格位置不同，或是大家用的正例與反例不同，因此才會產生每篇都不一樣的錯覺，我覺得如果只是要解釋模型的各項數值，那可以直接用最後一個套件就能一目瞭然，然而如果想要完整了解每個數值的意義，不妨可以試著理解混淆矩陣的內容，謝謝大家，感謝觀閱。

【Python 機器學習】：混淆矩陣 – 驗證分類模型的瑞士刀