機械学習におけるデシジョンツリーアルゴリズム

デシジョンツリーは、 教師あり学習手法 これは分類問題と回帰問題の両方に使用できますが、ほとんどの場合、分類問題を解決する場合に好まれます。これはツリー構造の分類子です。 内部ノードはデータセットの特徴を表し、ブランチは決定ルールを表します そして 各リーフノードは結果を表します。
デシジョンツリーには 2 つのノードがあります。 意思決定ノード そして リーフノード。 デシジョンノードは何らかの意思決定を行うために使用され、複数の分岐があります。一方、リーフノードはそれらの意思決定の出力であり、それ以上の分岐は含まれません。
決定またはテストは、指定されたデータセットの特徴に基づいて実行されます。

これは、与えられた条件に基づいて問題/意思決定に対する考えられるすべての解決策を取得するためのグラフィック表現です。

これは、ツリーと同様にルートノードから始まり、さらに枝を広げてツリー状の構造を構築するため、決定ツリーと呼ばれます。
ツリーを構築するには、 CARTアルゴリズム、 を表します 分類および回帰ツリーアルゴリズム。
デシジョンツリーは単に質問をし、その答え (はい/いいえ) に基づいてツリーをさらにサブツリーに分割します。
以下の図は、デシジョンツリーの一般的な構造を説明しています。

注: デシジョンツリーには、数値データだけでなくカテゴリデータ (YES/NO) も含めることができます。

デシジョンツリーを使用する理由

機械学習にはさまざまなアルゴリズムがあるため、特定のデータセットと問題に最適なアルゴリズムを選択することが、機械学習モデルを作成する際に覚えておくべき主なポイントです。デシジョンツリーを使用する 2 つの理由は次のとおりです。

デシジョンツリーは通常、意思決定を行う際の人間の思考能力を模倣するため、理解しやすいです。
デシジョンツリーはツリー状の構造を示しているため、その背後にあるロジックを簡単に理解できます。

デシジョンツリーの用語

ルートノード:ルートノードは、デシジョンツリーの開始点です。これはデータセット全体を表し、さらに 2 つ以上の同種のセットに分割されます。リーフノード:リーフノードは最終出力ノードであり、リーフノードを取得した後はツリーをさらに分離することはできません。分割:分割は、与えられた条件に従って決定ノード/ルートノードをサブノードに分割するプロセスです。ブランチ/サブツリー:木が分かれてできた木。剪定:剪定とは、木から不要な枝を取り除くプロセスです。親/子ノード:ツリーのルートノードは親ノードと呼ばれ、他のノードは子ノードと呼ばれます。

デシジョンツリーアルゴリズムはどのように機能しますか?

Javaのinstanceof

デシジョンツリーでは、指定されたデータセットのクラスを予測するために、アルゴリズムがツリーのルートノードから開始されます。このアルゴリズムは、ルート属性の値をレコード (実際のデータセット) 属性と比較し、その比較に基づいて分岐をたどって次のノードにジャンプします。

次のノードでは、アルゴリズムは属性値を他のサブノードと再度比較し、さらに先に進みます。ツリーのリーフノードに到達するまでプロセスが続行されます。以下のアルゴリズムを使用すると、プロセス全体をよりよく理解できます。

属性選択測定 (ASM)。

例：内定を持っている候補者がいて、その内定を受け入れるかどうかを決定したいとします。したがって、この問題を解決するために、決定木はルートノード (ASM による給与属性) から始まります。ルートノードは、対応するラベルに基づいて、次の決定ノード (オフィスからの距離) と 1 つのリーフノードにさらに分割されます。次の決定ノードはさらに 1 つの決定ノード (Cab 機能) と 1 つのリーフノードに分割されます。最後に、意思決定ノードは 2 つのリーフノード (承認されたオファーと拒否されたオファー) に分割されます。以下の図を考えてみましょう。

属性選択の尺度

デシジョンツリーを実装する際、ルートノードとサブノードに最適な属性をどのように選択するかという主な問題が発生します。そこで、このような問題を解決するために、と呼ばれるテクニックがあります。 属性選択メジャーまたは ASM。 この測定により、ツリーのノードに最適な属性を簡単に選択できます。 ASM には次の 2 つの一般的な手法があります。

情報の獲得ジニ指数

1. 情報の取得:

情報ゲインは、属性に基づいてデータセットをセグメント化した後のエントロピーの変化の測定値です。
特徴がクラスに関してどの程度の情報を提供するかを計算します。
情報利得の値に応じてノードを分割し、決定木を構築します。
決定木アルゴリズムは常に情報ゲインの値を最大化しようとし、最も高い情報ゲインを持つノード/属性が最初に分割されます。以下の式を使用して計算できます。

 Information Gain= Entropy(S)- [(Weighted Avg) *Entropy(each feature)

エントロピ： エントロピーは、特定の属性の不純物を測定するための指標です。データのランダム性を指定します。エントロピーは次のように計算できます。

Entropy(s)= -P(yes)log2 P(yes)- P(no) log2 P(no)

どこ、

「プリムのアルゴリズム」

S= サンプルの総数 P(はい)= はいの確率 P(いいえ) = いいえの確率

2. ジニ指数:

ジニ指数は、CART (分類および回帰ツリー) アルゴリズムで決定木を作成する際に使用される不純物または純度の尺度です。
高いジニ指数と比較して、低いジニ指数を持つ属性が優先される必要があります。
バイナリ分割のみが作成され、CART アルゴリズムは、Gini インデックスを使用してバイナリ分割を作成します。
ジニ指数は以下の式を使用して計算できます。

 Gini Index= 1- &#x2211;<sub>j</sub>P<sub>j</sub><sup>2</sup>

枝刈り: 最適な意思決定ツリーの取得

枝刈りは、最適な決定木を得るためにツリーから不要なノードを削除するプロセスです。

ツリーが大きすぎると過学習のリスクが高まり、ツリーが小さいとデータセットの重要な特徴をすべて捉えられない可能性があります。したがって、精度を低下させることなく学習木のサイズを縮小する手法は枝刈りとして知られています。木には大きく分けて2種類あります剪定使用されているテクノロジー:

コストの複雑さの削減エラーの枝刈りの減少。

デシジョンツリーの利点

人間が実生活で何らかの意思決定を行う際にたどるのと同じプロセスに従うため、理解しやすいです。
意思決定に関連した問題を解決するのに非常に役立ちます。
問題に対して考えられるすべての結果について考えるのに役立ちます。
他のアルゴリズムと比べて、データクリーニングの必要性が低くなります。

デシジョンツリーの欠点

デシジョンツリーには多くのレイヤーが含まれているため、複雑になります。
オーバーフィッティングの問題がある可能性がありますが、これは次の方法で解決できます。 ランダムフォレストアルゴリズム。
クラスラベルの数が増えると、決定木の計算の複雑さが増加する可能性があります。

デシジョンツリーの Python 実装

次に、Python を使用してデシジョンツリーを実装します。このために、データセット「」を使用します。 ユーザーデータ.csv 」、これは以前の分類モデルで使用しました。同じデータセットを使用することで、デシジョンツリー分類子を次のような他の分類モデルと比較できます。 KNN SVM、ロジスティック回帰など

手順も同じであり、以下に示します。

データの前処理ステップデシジョンツリーアルゴリズムをトレーニングセットに当てはめるテスト結果を予測する結果のテスト精度(混同行列の作成) テストセットの結果を視覚化します。

1. データの前処理ステップ:

以下は前処理ステップのコードです。

 # importing libraries import numpy as nm import matplotlib.pyplot as mtp import pandas as pd #importing datasets data_set= pd.read_csv(&apos;user_data.csv&apos;) #Extracting Independent and dependent Variable x= data_set.iloc[:, [2,3]].values y= data_set.iloc[:, 4].values # Splitting the dataset into training and test set. from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test= train_test_split(x, y, test_size= 0.25, random_state=0) #feature Scaling from sklearn.preprocessing import StandardScaler st_x= StandardScaler() x_train= st_x.fit_transform(x_train) x_test= st_x.transform(x_test)

上記のコードでは、データを前処理しました。データセットをロードした場所は次のようになります。

2. デシジョンツリーアルゴリズムをトレーニングセットに適合させる

次に、モデルをトレーニングセットに適合させます。このために、 デシジョンツリー分類子 からのクラス sklearn.tree 図書館。以下はそのコードです。

zip用のLinuxコマンド

 #Fitting Decision Tree classifier to the training set From sklearn.tree import DecisionTreeClassifier classifier= DecisionTreeClassifier(criterion=&apos;entropy&apos;, random_state=0) classifier.fit(x_train, y_train)

上記のコードでは、分類子オブジェクトを作成し、その中に 2 つの主要なパラメーターを渡しました。

'criterion='エントロピー':基準は分割の品質を測定するために使用され、エントロピーによって与えられる情報ゲインによって計算されます。ランダム状態=0':ランダムな状態を生成します。

これに対する出力は次のとおりです。

 Out[8]: DecisionTreeClassifier(class_weight=None, criterion=&apos;entropy&apos;, max_depth=None, max_features=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, presort=False, random_state=0, splitter=&apos;best&apos;)

3. テスト結果の予測

次に、テストセットの結果を予測します。新しい予測ベクトルを作成します y_pred。 以下はそのコードです。

 #Predicting the test set result y_pred= classifier.predict(x_test)

出力：

Javaのstring.replaceall

以下の出力画像には、予測出力と実際のテスト出力が示されています。予測ベクトルには実際のベクトル値とは異なる値がいくつかあることがはっきりとわかります。これらは予測誤差です。

4. 結果の精度のテスト（混同行列の作成）

上記の出力では、いくつかの誤った予測があることがわかりました。そのため、正しい予測と誤った予測の数を知りたい場合は、混同行列を使用する必要があります。以下はそのコードです。

 #Creating the Confusion matrix from sklearn.metrics import confusion_matrix cm= confusion_matrix(y_test, y_pred)

出力：

上の出力画像では、混同行列がわかります。 6+3= 9 件の間違った予測 そして 62+29=91 件の正しい予測。したがって、他の分類モデルと比較して、デシジョンツリー分類器は優れた予測を行ったと言えます。

5. トレーニングセットの結果を視覚化します。

ここでは、トレーニングセットの結果を視覚化します。トレーニングセットの結果を視覚化するために、決定木分類器のグラフをプロットします。分類子は、ロジスティック回帰で行ったように、SUV 車を購入したユーザーまたは購入しなかったユーザーについて「はい」または「いいえ」を予測します。以下はそのコードです。

 #Visulaizing the trianing set result from matplotlib.colors import ListedColormap x_set, y_set = x_train, y_train x1, x2 = nm.meshgrid(nm.arange(start = x_set[:, 0].min() - 1, stop = x_set[:, 0].max() + 1, step =0.01), nm.arange(start = x_set[:, 1].min() - 1, stop = x_set[:, 1].max() + 1, step = 0.01)) mtp.contourf(x1, x2, classifier.predict(nm.array([x1.ravel(), x2.ravel()]).T).reshape(x1.shape), alpha = 0.75, cmap = ListedColormap((&apos;purple&apos;,&apos;green&apos; ))) mtp.xlim(x1.min(), x1.max()) mtp.ylim(x2.min(), x2.max()) fori, j in enumerate(nm.unique(y_set)): mtp.scatter(x_set[y_set == j, 0], x_set[y_set == j, 1], c = ListedColormap((&apos;purple&apos;, &apos;green&apos;))(i), label = j) mtp.title(&apos;Decision Tree Algorithm (Training set)&apos;) mtp.xlabel(&apos;Age&apos;) mtp.ylabel(&apos;Estimated Salary&apos;) mtp.legend() mtp.show()

出力：

ディレクトリの名前を変更する

上記の出力は、残りの分類モデルとはまったく異なります。年齢と推定給与変数に応じてデータセットを分割する垂直線と水平線の両方があります。

ご覧のとおり、ツリーは各データセットをキャプチャしようとしていますが、これは過学習のケースです。

6. テストセットの結果を視覚化します。

テストセットの結果の視覚化は、トレーニングセットがテストセットに置き換えられることを除いて、トレーニングセットの視覚化と同様です。

 #Visulaizing the test set result from matplotlib.colors import ListedColormap x_set, y_set = x_test, y_test x1, x2 = nm.meshgrid(nm.arange(start = x_set[:, 0].min() - 1, stop = x_set[:, 0].max() + 1, step =0.01), nm.arange(start = x_set[:, 1].min() - 1, stop = x_set[:, 1].max() + 1, step = 0.01)) mtp.contourf(x1, x2, classifier.predict(nm.array([x1.ravel(), x2.ravel()]).T).reshape(x1.shape), alpha = 0.75, cmap = ListedColormap((&apos;purple&apos;,&apos;green&apos; ))) mtp.xlim(x1.min(), x1.max()) mtp.ylim(x2.min(), x2.max()) fori, j in enumerate(nm.unique(y_set)): mtp.scatter(x_set[y_set == j, 0], x_set[y_set == j, 1], c = ListedColormap((&apos;purple&apos;, &apos;green&apos;))(i), label = j) mtp.title(&apos;Decision Tree Algorithm(Test set)&apos;) mtp.xlabel(&apos;Age&apos;) mtp.ylabel(&apos;Estimated Salary&apos;) mtp.legend() mtp.show()

出力：

上の画像でわかるように、紫色の領域内に緑色のデータポイントがいくつかあり、その逆も同様です。したがって、これらは混同マトリックスで説明した誤った予測です。

TechCodeview

デシジョンツリー分類アルゴリズム

注: デシジョンツリーには、数値データだけでなくカテゴリデータ (YES/NO) も含めることができます。

デシジョンツリーを使用する理由

デシジョンツリーの用語

属性選択の尺度

1. 情報の取得:

2. ジニ指数:

枝刈り: 最適な意思決定ツリーの取得

デシジョンツリーの利点

デシジョンツリーの欠点

デシジョンツリーの Python 実装

1. データの前処理ステップ:

2. デシジョンツリーアルゴリズムをトレーニングセットに適合させる

3. テスト結果の予測

4. 結果の精度のテスト（混同行列の作成）

5. トレーニングセットの結果を視覚化します。

6. テストセットの結果を視覚化します。

デシジョン ツリー分類アルゴリズム

注: デシジョン ツリーには、数値データだけでなくカテゴリ データ (YES/NO) も含めることができます。

デシジョン ツリーを使用する理由

デシジョン ツリーの用語

属性選択の尺度

1. 情報の取得:

2. ジニ指数:

枝刈り: 最適な意思決定ツリーの取得

デシジョンツリーの利点

デシジョンツリーの欠点

デシジョン ツリーの Python 実装

1. データの前処理ステップ:

2. デシジョン ツリー アルゴリズムをトレーニング セットに適合させる

3. テスト結果の予測

4. 結果の精度のテスト（混同行列の作成）

5. トレーニング セットの結果を視覚化します。

6. テスト セットの結果を視覚化します。

デシジョンツリー分類アルゴリズム

注: デシジョンツリーには、数値データだけでなくカテゴリデータ (YES/NO) も含めることができます。

デシジョンツリーを使用する理由

デシジョンツリーの用語

デシジョンツリーの Python 実装

2. デシジョンツリーアルゴリズムをトレーニングセットに適合させる

5. トレーニングセットの結果を視覚化します。

6. テストセットの結果を視覚化します。