機器學習：鳶尾花資料集¶

賴岱佑¶

加載有用的套件。將隨機種子設置為 1。

%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import\
     LinearDiscriminantAnalysis as LDA
from sklearn.model_selection import cross_val_score
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn import metrics
from matplotlib.colors import ListedColormap
import numpy as np
np.random.seed(1)

加載鳶尾花數據集。檢查 NaN。選擇花瓣長度 (cm) 和花瓣寬度 (cm) 作為我們實驗的特徵。

data = load_iris(as_frame = True)
print(data.data.isnull().sum())
X = data.data.iloc[:,[2, 3]]
y = data.target

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

所有特徵的標準化。

sc = StandardScaler()
sc.fit(X)
X_std = sc.transform(X)

使用線性判別分析來分離所有特徵。

lda = LDA(n_components = 2)
lda.fit(X_std, y)
X_std_lda = lda.transform(X_std)

讓我們看一下特徵分離的圖表。用三種不同的顏色來呈現三種花。

plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.show()

因為鳶尾花樣本量太小。因此，使用 30% 的測試集。

X_train_std_lda, X_test_std_lda, y_train, y_test = train_test_split(\
    X_std_lda, y, test_size = 0.3, stratify = y)

測試集中有一個錯誤分類。該算法被稱為“支持向量機（SVM）”。在測試集中，有重疊部分。因此，使用“rbf”的內核能夠處理非線性決策邊界。

svc = SVC(kernel = "rbf", gamma = 1, C = 10, random_state = 1)
svc.fit(X_train_std_lda, y_train)
y_pred = svc.predict(X_test_std_lda)
print(f"misclassified: {(y_test != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")

misclassified: 1
Accuracy: 0.9777777777777777

找到錯誤分類的樣本並標記一個大符號“X”。

plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.scatter(X_test_std_lda[y_test != y_pred, 0], X_test_std_lda[y_test != y_pred, 1],\
           color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()

使用 KFold 評估數據集，它獲得了 97.3% +/- 0.013 的準確度。

scores = cross_val_score(estimator=svc,\
                        X=X_std_lda,\
                        y=y,\
                        n_jobs=-1)
print("CV accuracy scores: %s" % scores)
print("CV accuracy: %.3f +/- %.3f" % (np.mean(scores),\
                                     np.std(scores)))

CV accuracy scores: [0.96666667 0.96666667 0.96666667 0.96666667 1.        ]
CV accuracy: 0.973 +/- 0.013

檢查訓練集是否存在錯誤分類，訓練集中存在錯誤分類。到目前為止，數據集中有兩個錯誤分類。

y_pred = svc.predict(X_train_std_lda)
print(f"Misclassified: {(y_train != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_train, y_pred)}")

Misclassified: 1
Accuracy: 0.9904761904761905

在同一點有兩個重疊的樣本。該點標記了一個大符號“X”。

plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.scatter(X_train_std_lda[y_train != y_pred, 0], X_train_std_lda[y_train != y_pred, 1],\
           color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()

這個自訂函數是繪製決策區域。

def plot_decision_regions(X, y, classifier, resolution=0.02):

    # setup marker generator and color map
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot the decision surface
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    # plot class samples
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.6, 
                    color=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx], 
                    label=cl)

0 號和 1 號區域太小，這是過擬合。

plot_decision_regions(X_std_lda, y, classifier=svc)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()

現在，要更改 XGBoost 的 XGBClassifier。因為這是一個多分類問題，所以 eval_metric 應該設置為 merror。測試集中有一個錯誤分類。但 KFold 準確率有98%，優於 SVM。

xgb = XGBClassifier(use_label_encoder=False, eval_metric='merror', seed=1)
xgb.fit(X_train_std_lda, y_train)
y_pred = xgb.predict(X_test_std_lda)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_test, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_test, y_pred))

Accuracy on test data: 0.98
XGBClassifier KFold Accuracy: 0.98
Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       0.94      1.00      0.97        15
           2       1.00      0.93      0.97        15

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45

Confusion Matrix:
 [[15  0  0]
 [ 0 15  0]
 [ 0  1 14]]

接下來，檢查訓練集，有一個錯誤分類。但 KFold 準確率有 98%，優於 SVM。

y_pred = xgb.predict(X_train_std_lda)
accuracy = accuracy_score(y_train, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_train, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_train, y_pred))

Accuracy on test data: 0.99
XGBClassifier KFold Accuracy: 0.98
Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       1.00      0.97      0.99        35
           2       0.97      1.00      0.99        35

    accuracy                           0.99       105
   macro avg       0.99      0.99      0.99       105
weighted avg       0.99      0.99      0.99       105

Confusion Matrix:
 [[35  0  0]
 [ 0 34  1]
 [ 0  0 35]]

查看決策區域圖，將三個區域分開是公平的。擬合數據集，這是合適的。

plot_decision_regions(X_std_lda, y, classifier=xgb)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()

User Default Language
English	Polski
繁體中文	简体中文

Search This Blog

機器學習：鳶尾花資料集

機器學習：鳶尾花資料集¶

賴岱佑¶

Comments

Post a Comment

Popular posts from this blog

數位影像處理：最佳化處理策略之快速消除扭曲演算法

寫作：波蘭文學習之旅：1-1. 波蘭文字母與發音（注音版）

Python 日期與時間的處理

數位影像處理：最佳化處理策略之快速消除扭曲演算法

寫作：波蘭文學習之旅：1-1. 波蘭文字母與發音（注音版）

Python 日期與時間的處理

Visual Basic 6.0 (VB6) 程式語言案例學習 (10. 條碼列印程式)

Visual Basic .Net (VB.Net) 程式語言案例學習 (06. 題庫測驗系統)

修復損毀的 SQLite DB 資料庫

用１０種程式語言做影像二值化（Image binarization）

Visual Basic 6.0 (VB6) 程式語言案例學習 (04. 人事考勤管理系統)

解決 ValueError: If using all scalar values, you must pass an index

Visual Basic 6.0 (VB6) 程式語言案例學習 (07. 收據列印程式)