データマイニングにおける階層的クラスタリング

階層的クラスタリングとは、以前に定義されたクラスターに基づいて連続するクラスターを決定する教師なし学習手順を指します。データをクラスターのツリーにグループ化することで機能します。各データポイントを個別のクラスターとして扱うことによる階層的クラスタリング統計。エンドポイントは、異なるクラスターのセットを参照します。各クラスターは他のクラスターとは異なり、各クラスター内のオブジェクトは互いに同じです。

階層的クラスタリングには 2 つのタイプがあります

凝集型階層クラスタリング
分裂的クラスタリング

凝集型階層クラスタリング

凝集クラスタリングは、類似したオブジェクトをクラスタにグループ化するために使用される階層クラスタリングの最も一般的なタイプの 1 つです。凝集クラスタリングは、AGNES (凝集ネスティング) としても知られています。凝集クラスタリングでは、各データポイントが個別のクラスターとして機能し、各ステップでデータオブジェクトがボトムアップ方式でグループ化されます。最初は、各データオブジェクトはそのクラスター内にあります。各反復で、クラスターは 1 つのクラスターが形成されるまで異なるクラスターと結合されます。

凝集型階層クラスタリングアルゴリズム

個人と他のすべてのクラスター間の類似性を判断します。 (近接行列を見つける)。
各データポイントを個別のクラスターとして考慮します。
類似したクラスターを結合します。
各クラスターの近接行列を再計算します。
単一のクラスターが得られるまで、ステップ 3 とステップ 4 を繰り返します。

樹状図を使用したグラフ表現を利用して、この概念を理解してみましょう。

与えられたデモンストレーションの助けを借りて、実際のアルゴリズムがどのように機能するかを理解できます。ここでは、クラスター間のすべての近接性が仮定されている以下の計算は行われていません。

6 つの異なるデータポイント P、Q、R、S、T、V があると仮定します。

ステップ1：

各アルファベット (P、Q、R、S、T、V) を個別のクラスターとみなして、他のすべてのクラスターから個々のクラスター間の距離を見つけます。

ステップ2：

ここで、比較可能なクラスターを 1 つのクラスターにマージします。クラスター Q とクラスター R が互いに類似しているため、2 番目のステップでそれらをマージできるとします。最後に、クラスター [ (P)、(QR)、(ST)、(V)] を取得します。

ステップ 3:

ここでは、アルゴリズムに従って近接度を再計算し、2 つの最も近いクラスター [(ST), (V)] を結合して、[(P), (QR), (STV)] として新しいクラスターを形成します。

ステップ 4:

同じプロセスを繰り返します。クラスター STV と PQ は同等であり、結合して新しいクラスターを形成します。これで [(P), (QQRSTV)] ができました。

ステップ5:

最後に、残りの 2 つのクラスターが結合されて 1 つのクラスターが形成されます [(PQRSTV)]

分裂的な階層的クラスタリング

分裂的階層クラスタリングは、凝集的階層クラスタリングの正反対です。分割階層クラスタリングでは、すべてのデータポイントが個別のクラスターとみなされ、反復ごとに、類似していないデータポイントがクラスターから分離されます。分離されたデータポイントは、個別のクラスターとして扱われます。最後に、N 個のクラスターが残ります。

階層的クラスタリングの利点

実装は簡単で、場合によっては最良の出力が得られます。
これは簡単で、より多くの情報を含む階層構造が作成されます。
クラスターの数を事前に指定する必要はありません。

階層的クラスタリングの欠点

大きなクラスターを破壊します。
異なるサイズのクラスターや凸形状を処理するのは困難です。
ノイズや異常値に敏感です。
一度実行されたアルゴリズムは変更または削除できません。