機器學習:鳶尾花資料集
加載有用的套件。 將隨機種子設置為 1。
In [20]:
%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import\
LinearDiscriminantAnalysis as LDA
from sklearn.model_selection import cross_val_score
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn import metrics
from matplotlib.colors import ListedColormap
import numpy as np
np.random.seed(1)
加載鳶尾花數據集。 檢查 NaN。 選擇花瓣長度 (cm) 和花瓣寬度 (cm) 作為我們實驗的特徵。
In [2]:
data = load_iris(as_frame = True)
print(data.data.isnull().sum())
X = data.data.iloc[:,[2, 3]]
y = data.target
所有特徵的標準化。
In [3]:
sc = StandardScaler()
sc.fit(X)
X_std = sc.transform(X)
使用線性判別分析來分離所有特徵。
In [4]:
lda = LDA(n_components = 2)
lda.fit(X_std, y)
X_std_lda = lda.transform(X_std)
讓我們看一下特徵分離的圖表。 用三種不同的顏色來呈現三種花。
In [5]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
color="blue", marker="o", alpha=0.5)
plt.show()
因為鳶尾花樣本量太小。 因此,使用 30% 的測試集。
In [6]:
X_train_std_lda, X_test_std_lda, y_train, y_test = train_test_split(\
X_std_lda, y, test_size = 0.3, stratify = y)
測試集中有一個錯誤分類。 該算法被稱為“支持向量機(SVM)”。 在測試集中,有重疊部分。 因此,使用“rbf”的內核能夠處理非線性決策邊界。
In [7]:
svc = SVC(kernel = "rbf", gamma = 1, C = 10, random_state = 1)
svc.fit(X_train_std_lda, y_train)
y_pred = svc.predict(X_test_std_lda)
print(f"misclassified: {(y_test != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
找到錯誤分類的樣本並標記一個大符號“X”。
In [8]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
color="blue", marker="o", alpha=0.5)
plt.scatter(X_test_std_lda[y_test != y_pred, 0], X_test_std_lda[y_test != y_pred, 1],\
color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()
使用 KFold 評估數據集,它獲得了 97.3% +/- 0.013 的準確度。
In [9]:
scores = cross_val_score(estimator=svc,\
X=X_std_lda,\
y=y,\
n_jobs=-1)
print("CV accuracy scores: %s" % scores)
print("CV accuracy: %.3f +/- %.3f" % (np.mean(scores),\
np.std(scores)))
檢查訓練集是否存在錯誤分類,訓練集中存在錯誤分類。 到目前為止,數據集中有兩個錯誤分類。
In [10]:
y_pred = svc.predict(X_train_std_lda)
print(f"Misclassified: {(y_train != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_train, y_pred)}")
在同一點有兩個重疊的樣本。 該點標記了一個大符號“X”。
In [11]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
color="blue", marker="o", alpha=0.5)
plt.scatter(X_train_std_lda[y_train != y_pred, 0], X_train_std_lda[y_train != y_pred, 1],\
color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()
這個自訂函數是繪製決策區域。
In [12]:
def plot_decision_regions(X, y, classifier, resolution=0.02):
# setup marker generator and color map
markers = ('s', 'x', 'o', '^', 'v')
colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
cmap = ListedColormap(colors[:len(np.unique(y))])
# plot the decision surface
x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
np.arange(x2_min, x2_max, resolution))
Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
Z = Z.reshape(xx1.shape)
plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
plt.xlim(xx1.min(), xx1.max())
plt.ylim(xx2.min(), xx2.max())
# plot class samples
for idx, cl in enumerate(np.unique(y)):
plt.scatter(x=X[y == cl, 0],
y=X[y == cl, 1],
alpha=0.6,
color=cmap(idx),
edgecolor='black',
marker=markers[idx],
label=cl)
0 號和 1 號區域太小,這是過擬合。
In [13]:
plot_decision_regions(X_std_lda, y, classifier=svc)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()
現在,要更改 XGBoost 的 XGBClassifier。 因為這是一個多分類問題,所以 eval_metric
應該設置為 merror
。 測試集中有一個錯誤分類。 但 KFold 準確率有98%,優於 SVM。
In [14]:
xgb = XGBClassifier(use_label_encoder=False, eval_metric='merror', seed=1)
xgb.fit(X_train_std_lda, y_train)
y_pred = xgb.predict(X_test_std_lda)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_test, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_test, y_pred))
接下來,檢查訓練集,有一個錯誤分類。 但 KFold 準確率有 98%,優於 SVM。
In [15]:
y_pred = xgb.predict(X_train_std_lda)
accuracy = accuracy_score(y_train, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_train, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_train, y_pred))
查看決策區域圖,將三個區域分開是公平的。 擬合數據集,這是合適的。
In [16]:
plot_decision_regions(X_std_lda, y, classifier=xgb)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()
Comments
Post a Comment