logo

機械学習のジニ指数

導入

機械学習は、データを処理および検査する方法を改革しました。デシジョン ツリー アルゴリズムは、分類および回帰タスクの有名な決定です。ジニ指数は、ジニ不純物またはジニ係数とも呼ばれ、デシジョン ツリー アルゴリズムで使用される重要な不純物の尺度です。この記事では、ジニ指数の考え方、その数式、機械学習への応用について徹底的に調査します。同様に、ジニ指数とその他の不純物指標を対比し、その限界と利点について話し、現実世界のアプリケーションの状況分析を検証します。いよいよこの辺で将来の研究用ベアリングを特集していきます。

ジニ指数とは何ですか?

ジニ指数は、統計的および通貨的設定における不純物または不平等の割合です。機械学習では、分類タスクの決定木アルゴリズムの不純物尺度として利用されます。ジニ指数は、無計画に選択されたテストが決定木アルゴリズムによって誤分類される確率を測定し、その値は 0 (完全に純粋) から 1 (完全に不純) まで変化します。

ジニ指数の計算式

ジニ指数は循環の不純度または不平等の割合であり、デシジョン ツリー アルゴリズムの不純度の尺度として定期的に使用されます。デシジョン ツリーに関しては、Gini インデックスを利用して、ツリーの各ノードでデータを分割するのに最適な特徴が決定されます。

ジニ指数の計算式は次のとおりです。

機械学習のジニ指数

ここで、pi は、物が特定のクラスの場所を持つ確率です。

たとえば、2 つのクラス An と B を使用した二項分類問題を考慮する必要があります。クラス An の確率が p で、クラス B の確率が (1-p) である場合、ジニ指数は次のように計算できます。 :

バイナリ分類問題の場合、Gini Index の値は 0.0 から 0.5 まで変化します。0.0 は完全に純粋なノード (すべての例に類似のクラスを持つ場所があります) を示し、0.5 は完全に不純なノード (テストは 2 つのクラスに均等に分散されます) を示します。 )。

分類問題でのジニ指数の使用

ジニ指数は通常、分類問題の決定木アルゴリズムにおける不純物の尺度として利用されます。デシジョン ツリーでは、すべてのノードが要素に対応し、その目的は、データを本質的に期待できるほど純粋なサブセットに分割することです。不純物の尺度 (ジニ指数など) は、すべてのノードで最適な分割を決定するために利用されます。

これを説明するには、バイナリ分類問題の決定木の例を考慮する必要があります。ツリーには年齢と収入という 2 つの要素があり、その目的は、個人が商品を購入するかどうかに関係なく予測することです。ツリーは、不純物の尺度としてジニ指数を利用して構築されます。

ルート ノードでは、クラス 0 またはクラス 1 の場所を持つ例の確率を考慮してジニ指数が計算されます。ノードは、ジニ指数の最も大きな減少をもたらすコンポーネントを考慮して分割されます。このサイクルは、停止基準が満たされるまで、サブセットごとに再帰的に再ハッシュされます。

ディシジョン ツリー

デシジョン ツリーは、分類タスクと回帰タスクの両方に使用されるよく知られた機械学習アルゴリズムです。モデルは、情報ハイライトの値を考慮してデータセットをより控えめなサブセットに再帰的に分割することによって機能し、後続のサブセットの不純物を制限することが決定されます。

ツリーの各ノードで、情報ハイライトの 1 つの値を考慮して決定が行われ、最終的な目標は、後続のサブセットが基本的に実際に期待できる限り純粋であることです。サブセットの純度は、ジニ指数やエントロピーなどの不純物の尺度によって定期的に推定されます。

デシジョン ツリー アルゴリズムは、回帰タスクだけでなく、バ​​イナリ分類タスクとマルチクラス分類タスクの両方にも利用できます。バイナリ分類タスクでは、デシジョン ツリーは、はいまたはいいえなどのバイナリ特徴の値を考慮して、データセットを 2 つのサブセットに分割します。マルチクラス分類タスクでは、デシジョン ツリーは、赤、緑、青などの直接的な特徴の値を考慮して、データセットを多数のサブセットに分割します。

ジニ指数と他の不純物指標の比較

ジニ指数とは別に、エントロピーや情報ゲインなど、デシジョン ツリー アルゴリズムで通常使用される他の不純物尺度があります。

エントロピ:

機械学習において、エントロピーは、大量のデータの不規則性または脆弱性の割合です。これは一般に、ジニ指数と並んで、決定木アルゴリズムにおける不純物の尺度として利用されます。

デシジョン ツリー アルゴリズムでは、エントロピーを利用して、ツリーの各ノードでデータを分割する最適なコンポーネントを決定します。目的は、分類の問題について最も多くの情報を提供するコンポーネントに関連する、エントロピーの最大の減少をもたらす要素を見つけることです。

機械学習のジニ指数

エントロピーとジニ指数はどちらも通常、デシジョン ツリー アルゴリズムの不純物尺度として利用されますが、さまざまな特性があります。エントロピーはクラス名の循環に対してより繊細であり、一般により多くの調整されたツリーを生成しますが、ジニ インデックスはクラス マークの流用にあまり影響を受けず、一般に分割が少なく、より制限されたツリーを作成します。不純物の測定の決定は、特定の問題とデータの属性に依存します。

情報の獲得:

情報の取得は、デシジョン ツリーを構築する際に分割の性質を評価するために使用されるアクションです。デシジョン ツリーの目的は、データを目的変数と同じくらい基本的に均一なサブセットに分割することで、後続のツリーを利用して新しいデータを正確に予測できるようにすることです。情報利得は、分割によって達成されるエントロピーまたは不純物の減少を測定します。最も注目に値する情報ゲインを持つ特徴が、デシジョン ツリーのすべてのノードで分割する最適な特徴として選択されます。

情報の獲得は、通常、デシジョン ツリーの分割の性質を評価するために含まれる尺度ですが、注目すべきものではありません。ジニ指数や誤分類率などのさまざまな尺度も同様に利用できます。分割基準の決定は、主な問題と利用されるデータセットの属性に依存します。

ジニ指数の例

「ポジティブ」と「ネガティブ」の 2 つのクラスを持つ 10 個の例のデータセットがある場合のバイナリ分類の問題を考慮する必要があります。 10 個の例のうち、6 個には「Positive」クラスが含まれ、4 個には「Negative」クラスが含まれています。

データセットのジニ指数を計算するには、まず各クラスの確率を計算します。

p_1 = 6/10 = 0.6 (正)

p_2 = 4/10 = 0.4 (負)

次に、その時点で、ジニ指数式を利用してデータセットの不純度を計算します。

ジニ(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0.6^2 + 0.4^2)

= 0.48

したがって、データセットのジニ指数は 0.48 です。

現在、2 つの潜在的な値「A」と「B」を持つ要素「X」でデータセットを分割する必要があるとします。コンポーネントを考慮して、データセットを 2 つのサブセットに分割します。

サブセット 1 (X = A): 4 陽性、1 陰性

サブセット 2 (X = B): 2 陽性、3 陰性

この分割のジニ指数の減少を計算するために、最初にすべてのサブセットのジニ指数を計算します。

ジニ(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0.32

ジニ(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0.48

次に、情報ゲインの公式を利用して、ジニ指数の減少を計算します。

IG(S, X) = ジニ(S) - ((5/10 * ジニ(S_1)) + (5/10 * ジニ(S_2)))

= 0.48 - ((0.5 * 0.32) + (0.5 * 0.48))

= 0.08

したがって、ハイライト「X」でデータセットを分割するための情報ゲイン (つまり、ジニ指数の減少) は 0.08 です。

この状況では、すべての要素の情報ゲインを計算し、最も注目すべき情報ゲインを持つ要素を選択すると、そのコンポーネントがデシジョン ツリーのルート ノードで分割する最適なコンポーネントとして選択されます。

利点:

ジニ指数は、デシジョン ツリーの分割の性質を評価するための広範な尺度であり、エントロピーや誤分類率などのさまざまな尺度よりもいくつか優れています。ジニ指数を使用する主な利点の一部を次に示します。

C++プロトタイプ関数

計算効率が高い: ジニ指数は、対数の計算を必要とするエントロピーなどのさまざまな尺度とは対照的に、それほど複雑ではなく、計算が高速な尺度です。

直感的な解釈: ジニ指数は単純明快で解釈できます。これは、セット内のクラス伝達に従って無作為にマークされた場合に、セットから無作為に選択された例が誤って分類される確率を測定します。

二項分類に適しています: ジニ指数は、目的変数に 2 つのクラスしかない場合の二項分類問題に特に強力です。このような場合、ジニ指数は別の指標よりも安定していることが知られています。

クラスの不均衡に対して堅牢: ジニ指数は、精度や誤分類率などのさまざまな尺度とは対照的に、クラスの不均衡に対してそれほど敏感ではありません。これは、ジニ指数が完全な数値ではなく、各クラスの例の一般的な範囲に依存するという理由によるものです。

過学習が起こりにくい: ジニ指数は一般に、さまざまな指標と対比してより控えめな決定木を作成するため、過剰適合の傾向が低くなります。これは、ジニ指数が一般にデータのより控えめな区画を構成する特徴を優先し、それによって過剰適合の可能性が減少するという理由によるものです。

短所:

ジニ指数には、デシジョン ツリーの分割尺度としていくつかの利点がありますが、同様にいくつかの欠点もあります。ジニ指数を使用する主な欠点の一部を以下に示します。

多くのカテゴリを持つ機能に対する偏見: 一般に、Gini インデックスは、データのより多くの分割やパーセルを作成できるため、多くのカテゴリまたは値を持つ特徴に傾きます。これにより、過剰適合が発生し、より複雑なデシジョン ツリーが生成される可能性があります。

連続変数には適していません: ジニ指数は、変数をカテゴリまたはビンに離散化する必要があり、情報の損失や正確性の低下を引き起こす可能性があるため、連続変数には適していません。

機能の相互作用を無視します。 ジニ指数は、各特徴の個々の予見力のみを考慮し、特徴間の相互作用を無視します。これにより、分割が不十分になり、予測の精度が低下する可能性があります。

一部のデータセットには理想的ではありません。 場合によっては、ジニ指数はデシジョン ツリーの分割の性質を評価するための理想的な尺度ではない場合があります。たとえば、目的変数が著しく傾いている、または不均衡である場合には、情報利得や利得比率などの別の尺度の方が適している可能性があります。

欠損値が存在するとバイアスが発生しやすくなります。 ジニ指数は、欠損値が最も有益かどうかに関係なく、一般に欠損値の少ない特徴に偏るため、欠損値が存在すると偏る可能性があります。

ジニ指数の実世界への応用

ジニ指数は、恐喝場所、信用スコアリング、顧客分割など、機械学習のさまざまなアプリケーションで利用されています。たとえば、恐喝の発見では、ジニ指数を利用して交換データの設計を区別し、奇妙な行動方法を認識できます。信用スコアリングでは、ジニ指数を利用して、収入、負債残高と手取り額の関係、ローン返済実績などの変数を考慮して債務不履行の可能性を予測できます。顧客部門では、ジニ指数を利用して、顧客の行動様式や傾向を考慮して顧客を分類できます。

今後の研究

デシジョン ツリー アルゴリズムでは際限なく使用されていますが、ジニ指数についてはまだ研究の余地があります。研究分野の 1 つは、多くのレベルの要因に対する傾向など、ジニ指数の限界に対処できる新しい不純物対策の進歩です。もう 1 つの研究分野は、ジニ指数を利用したデシジョン ツリー アルゴリズムの合理化です。たとえば、デシジョン ツリーの精度を高めるための調整技術の利用です。

結論

ジニ指数は、分類タスクのデシジョン ツリー アルゴリズムで使用される重要な不純物の尺度です。これは、無計画に選択されたテストが決定木アルゴリズムによって誤って分類される確率を測定し、その値は 0 (完全に純粋) から 1 (完全に不純) まで変化します。ジニ指数は単純かつ実行可能で、計算生産性が高く、例外に対して強力です。虚偽表示の発見、信用スコアリング、顧客分割など、機械学習のさまざまな用途に活用されています。ジニ指数にはいくつかの制限がありますが、その改善と新しい不純物対策の改善に関する研究の余地はまだあります。