Skip to main content

機器學習:鳶尾花資料集

機器學習:鳶尾花資料集

機器學習:鳶尾花資料集

賴岱佑

加載有用的套件。 將隨機種子設置為 1。

In [20]:
%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import\
     LinearDiscriminantAnalysis as LDA
from sklearn.model_selection import cross_val_score
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn import metrics
from matplotlib.colors import ListedColormap
import numpy as np
np.random.seed(1)

加載鳶尾花數據集。 檢查 NaN。 選擇花瓣長度 (cm) 和花瓣寬度 (cm) 作為我們實驗的特徵。

In [2]:
data = load_iris(as_frame = True)
print(data.data.isnull().sum())
X = data.data.iloc[:,[2, 3]]
y = data.target
sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

所有特徵的標準化。

In [3]:
sc = StandardScaler()
sc.fit(X)
X_std = sc.transform(X)

使用線性判別分析來分離所有特徵。

In [4]:
lda = LDA(n_components = 2)
lda.fit(X_std, y)
X_std_lda = lda.transform(X_std)

讓我們看一下特徵分離的圖表。 用三種不同的顏色來呈現三種花。

In [5]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.show()

因為鳶尾花樣本量太小。 因此,使用 30% 的測試集。

In [6]:
X_train_std_lda, X_test_std_lda, y_train, y_test = train_test_split(\
    X_std_lda, y, test_size = 0.3, stratify = y)

測試集中有一個錯誤分類。 該算法被稱為“支持向量機(SVM)”。 在測試集中,有重疊部分。 因此,使用“rbf”的內核能夠處理非線性決策邊界。

In [7]:
svc = SVC(kernel = "rbf", gamma = 1, C = 10, random_state = 1)
svc.fit(X_train_std_lda, y_train)
y_pred = svc.predict(X_test_std_lda)
print(f"misclassified: {(y_test != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
misclassified: 1
Accuracy: 0.9777777777777777

找到錯誤分類的樣本並標記一個大符號“X”。

In [8]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.scatter(X_test_std_lda[y_test != y_pred, 0], X_test_std_lda[y_test != y_pred, 1],\
           color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()

使用 KFold 評估數據集,它獲得了 97.3% +/- 0.013 的準確度。

In [9]:
scores = cross_val_score(estimator=svc,\
                        X=X_std_lda,\
                        y=y,\
                        n_jobs=-1)
print("CV accuracy scores: %s" % scores)
print("CV accuracy: %.3f +/- %.3f" % (np.mean(scores),\
                                     np.std(scores)))
CV accuracy scores: [0.96666667 0.96666667 0.96666667 0.96666667 1.        ]
CV accuracy: 0.973 +/- 0.013

檢查訓練集是否存在錯誤分類,訓練集中存在錯誤分類。 到目前為止,數據集中有兩個錯誤分類。

In [10]:
y_pred = svc.predict(X_train_std_lda)
print(f"Misclassified: {(y_train != y_pred).sum()}")
from sklearn.metrics import accuracy_score
print(f"Accuracy: {accuracy_score(y_train, y_pred)}")
Misclassified: 1
Accuracy: 0.9904761904761905

在同一點有兩個重疊的樣本。 該點標記了一個大符號“X”。

In [11]:
plt.scatter(X_std_lda[y == 0, 0], X_std_lda[y == 0, 1],\
           color="red", marker="^", alpha=0.5)
plt.scatter(X_std_lda[y == 1, 0], X_std_lda[y == 1, 1],\
           color="green", marker="s", alpha=0.5)
plt.scatter(X_std_lda[y == 2, 0], X_std_lda[y == 2, 1],\
           color="blue", marker="o", alpha=0.5)
plt.scatter(X_train_std_lda[y_train != y_pred, 0], X_train_std_lda[y_train != y_pred, 1],\
           color="black", marker="x", s=1000, alpha=0.5, linewidth=2.0)
plt.show()

這個自訂函數是繪製決策區域。

In [12]:
def plot_decision_regions(X, y, classifier, resolution=0.02):

    # setup marker generator and color map
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot the decision surface
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    # plot class samples
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.6, 
                    color=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx], 
                    label=cl)

0 號和 1 號區域太小,這是過擬合。

In [13]:
plot_decision_regions(X_std_lda, y, classifier=svc)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()

現在,要更改 XGBoost 的 XGBClassifier。 因為這是一個多分類問題,所以 eval_metric 應該設置為 merror。 測試集中有一個錯誤分類。 但 KFold 準確率有98%,優於 SVM。

In [14]:
xgb = XGBClassifier(use_label_encoder=False, eval_metric='merror', seed=1)
xgb.fit(X_train_std_lda, y_train)
y_pred = xgb.predict(X_test_std_lda)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_test, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_test, y_pred))
Accuracy on test data: 0.98
XGBClassifier KFold Accuracy: 0.98
Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       0.94      1.00      0.97        15
           2       1.00      0.93      0.97        15

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45

Confusion Matrix:
 [[15  0  0]
 [ 0 15  0]
 [ 0  1 14]]

接下來,檢查訓練集,有一個錯誤分類。 但 KFold 準確率有 98%,優於 SVM。

In [15]:
y_pred = xgb.predict(X_train_std_lda)
accuracy = accuracy_score(y_train, y_pred)
print("Accuracy on test data: {:.2f}".format(accuracy))
scores = cross_val_score(xgb, X_std_lda, y)
print("XGBClassifier KFold Accuracy: {:.2f}".format(scores.mean()))
print("Report:\n", metrics.classification_report(y_train, y_pred))
print("Confusion Matrix:\n", metrics.confusion_matrix(y_train, y_pred))
Accuracy on test data: 0.99
XGBClassifier KFold Accuracy: 0.98
Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       1.00      0.97      0.99        35
           2       0.97      1.00      0.99        35

    accuracy                           0.99       105
   macro avg       0.99      0.99      0.99       105
weighted avg       0.99      0.99      0.99       105

Confusion Matrix:
 [[35  0  0]
 [ 0 34  1]
 [ 0  0 35]]

查看決策區域圖,將三個區域分開是公平的。 擬合數據集,這是合適的。

In [16]:
plot_decision_regions(X_std_lda, y, classifier=xgb)
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()

Comments

Popular Posts

波蘭文學習之旅:1-1. 波蘭文字母與發音(注音版)

最佳化處理策略之快速消除扭曲演算法

Python 日期與時間的處理

波蘭文學習之旅:1-1. 波蘭文字母與發音(注音版)

Image

最佳化處理策略之快速消除扭曲演算法

Image

Python 日期與時間的處理

Image

Visual Basic 6.0 程式案例學習: 10. 條碼列印程式 (2014版)

Image

Visual Basic .Net 程式案例學習: 06. 題庫測驗系統 (2014版)

Image

修復損毀的 SQLite DB 資料庫

Image

用10種程式語言做影像二值化(Image binarization)

Image

解決 ValueError: If using all scalar values, you must pass an index

Image

Visual Basic 6.0 程式案例學習: 04. 人事考勤管理系統 (2014版)

Image

Visual Basic 6.0 程式案例學習: 07. 收據列印程式 (2014版)

Image

佑佑的 Line 貼圖創作

貼圖作者網址:

https://line.me/S/shop/sticker/author/3883362

靜態貼圖

 
 
 
 
  牡羊座:狗狗角色

作者:佑佑
依照牡羊座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  金牛座:兔兔角色

作者:佑佑
依照金牛座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  雙子座:貓貓角色

作者:佑佑
依照雙子座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  巨蟹座:倉鼠角色

作者:佑佑
依照巨蟹座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
 
 
 
 
  獅子座:幼獅角色

作者:佑佑
依照獅子座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  處女座:松鼠角色

作者:佑佑
依照處女座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  天秤座:鴿子角色

作者:佑佑
依照天秤座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  天蠍座:鳳凰角色

作者:佑佑
依照天蠍座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
 
 
 
 
  射手座:人馬角色

作者:佑佑
依照射手座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  魔羯座:山羊角色

作者:佑佑
依照魔羯座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  水瓶座:海豚角色

作者:佑佑
依照水瓶座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
  雙魚座:小丑魚角色

作者:佑佑
依照雙魚座的個性優點、個性缺點、生活習慣、理財習慣、社交習慣、愛情觀、節假日、禮貌問候,所編撰的貼圖。星座只能當參考用,不會完全準確。
購買貼圖
 
 
 
 
  上班族都變成狒狒,心裡想要說的話。

作者:佑佑
最近在台灣走紅的狒狒,用擬人化的方式,變成上班族,畫出心裡的想說的話。
購買貼圖
  接案派遣的日常

作者:佑佑
接案派遣到其他公司的日常對話,有調皮、正經、日常對話。
購買貼圖
  貓女事務員的搞笑時刻

作者:佑佑
把行政人員在職場上遇到千奇百怪的事情畫出來,用可愛的貓女來擔任行政人員的代言人。
購買貼圖
  貓貓說每天都會用到的話

作者:佑佑
日常生活常見的短句,用小貓擬人化的方式呈現,比較親切可愛。
購買貼圖
 
     
  大人的煩惱特輯:小兔角色

作者:佑佑
錢包餓了,生活苦了。變美變健康?先讓我睡飽吧。心好累,我需要充電。
購買貼圖
     

動態貼圖

 
 
 
 
  牡羊座日常交際:狗狗角色

作者:佑佑
依照牡羊座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  金牛座日常交際:兔兔角色

作者:佑佑
依照金牛座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  雙子座日常交際:貓貓角色

作者:佑佑
依照雙子座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  巨蟹座日常交際:倉鼠角色

作者:佑佑
依照巨蟹座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
 
 
 
 
  獅子座日常交際:幼獅角色

作者:佑佑
依照獅子座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  處女座日常交際:松鼠角色

作者:佑佑
依照處女座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  天秤座日常交際:鴿子角色

作者:佑佑
依照天秤座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  天蠍座日常交際:鳳凰角色

作者:佑佑
依照天蠍座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
 
 
 
 
  射手座日常交際:人馬角色

作者:佑佑
依照射手座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  魔羯座日常交際:山羊角色

作者:佑佑
依照魔羯座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  水瓶座日常交際:海豚角色

作者:佑佑
依照水瓶座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
  雙魚座日常交際:小丑魚角色

作者:佑佑
依照雙魚座的個性,描繪日常生活的行為,供交際表達心情使用。星座只能當參考用,不會完全準確。
購買貼圖
 
     
  厭世報:鬍渣男

作者:佑佑
厭世總有個理由跟原因,實在是令人不爽,為什麼最倒楣的總是我?真希望明天就是世界末日,讓大家都一樣慘。
購買貼圖
     

表情貼

 
 
 
 
  貓貓說每天都用得到的表情貼

作者:佑佑
日常生活常見的表情用語,用小貓擬人化的方式呈現,比較親切可愛。
購買貼圖
  天秤座的表情貼:鴿子角色

作者:佑佑
日常生活常見的表情用語,天秤座的鴿子擬人化方式呈現,比較親切可愛。
購買貼圖
  天蠍座的表情貼:鳳凰角色

作者:佑佑
日常生活常見的表情用語,天蠍座的鳳凰擬人化方式呈現,比較親切可愛。
購買貼圖
  射手座的表情貼:人馬角色

作者:佑佑
日常生活常見的表情用語,射手座的人馬擬人化方式呈現,比較親切可愛。
購買貼圖
 
 
 
 
  魔羯座的表情貼:山羊角色

作者:佑佑
日常生活常見的表情用語,魔羯座的山羊擬人化方式呈現,比較親切可愛。
購買貼圖
  水瓶座的表情貼:海豚角色

作者:佑佑
日常生活常見的表情用語,水瓶座的海豚擬人化方式呈現,比較親切可愛。
購買貼圖
  雙魚座的表情貼:小丑魚角色

作者:佑佑
日常生活常見的表情用語,雙魚座的小丑魚擬人化方式呈現,比較親切可愛。
購買貼圖