クラスタリングまたはクラスター分析は、ラベルのないデータセットをグループ化する機械学習手法です。次のように定義できます データ ポイントを、類似したデータ ポイントで構成される異なるクラスターにグループ化する方法。類似性がある可能性のあるオブジェクトは、別のグループとの類似性がほとんどまたはまったくないグループに残ります。
これは、ラベルのないデータセット内で形状、サイズ、色、動作などの類似したパターンをいくつか見つけて、それらの類似したパターンの有無に応じて分割します。
それは 教師なし学習 したがって、アルゴリズムには監視が提供されず、ラベルのないデータセットが処理されます。
このクラスタリング手法を適用すると、各クラスターまたはグループにクラスター ID が与えられます。 ML システムはこの ID を使用して、大規模で複雑なデータセットの処理を簡素化できます。
クラスタリング手法は一般的に次の目的で使用されます。 統計データ分析。
注: クラスタリングは、 分類アルゴリズム ですが、違いは使用しているデータセットの種類です。分類ではラベル付きのデータセットを操作しますが、クラスタリングではラベルのないデータセットを操作します。
例 : モールの実世界の例でクラスタリング手法を理解しましょう: ショッピング モールを訪れると、同様の使用法を持つものがグループ化されていることが観察できます。 Tシャツはあるコーナー、パンツは別のコーナーというように、野菜コーナーでもリンゴ、バナナ、マンゴーなどを別のコーナーにまとめて、探しやすいようにしています。クラスタリング手法も同様に機能します。クラスタリングの他の例としては、トピックに従ってドキュメントをグループ化することが挙げられます。
クラスタリング手法は、さまざまなタスクに広く使用できます。このテクニックの最も一般的な用途は次のとおりです。
- 市場セグメンテーション
- 統計データ分析
- ソーシャルネットワーク分析
- 画像のセグメンテーション
- 異常検知など
これらの一般的な使用法とは別に、次のような用途にも使用されます。 アマゾン 推奨システムでは、過去の製品検索に基づいて推奨事項を提供します。 Netflix また、この技術を使用して、視聴履歴に従って映画や Web シリーズをユーザーに推奨します。
以下の図は、クラスタリング アルゴリズムの動作を説明しています。さまざまな果物が、同様の特性を持ついくつかのグループに分類されていることがわかります。
クラスタリング手法の種類
クラスタリングの手法は大きく分けて ハードクラスタリング (データポイントは 1 つのグループのみに属します) および ソフトクラスタリング (データポイントは別のグループに属することもできます)。しかし、クラスタリングには他にもさまざまなアプローチが存在します。機械学習で使用される主なクラスタリング手法は次のとおりです。
パーティショニング クラスタリング
これは、データを非階層的なグループに分割するクラスタリングの一種です。としても知られています 重心ベースの方法 。パーティショニング クラスタリングの最も一般的な例は次のとおりです。 K-Means クラスタリング アルゴリズム 。
Javaメソッド
このタイプでは、データセットは k 個のグループのセットに分割されます。K は、事前定義されたグループの数を定義するために使用されます。クラスターの中心は、1 つのクラスターのデータ ポイント間の距離が別のクラスターの中心と比較して最小になるように作成されます。
密度ベースのクラスタリング
密度ベースのクラスタリング手法は、高密度領域をクラスターに接続し、密領域を接続できる限り任意の形状の分布を形成します。このアルゴリズムは、データセット内のさまざまなクラスターを識別し、高密度の領域をクラスターに接続することによってこれを実行します。データ空間内の密集した領域は、疎な領域によって互いに分割されます。
データセットの密度が変化し、次元が高い場合、これらのアルゴリズムではデータ ポイントのクラスタリングが困難になる可能性があります。
分布モデルベースのクラスタリング
分布モデルベースのクラスタリング手法では、データセットが特定の分布にどのように属するかの確率に基づいてデータが分割されます。グループ化は、いくつかの分布を共通に仮定することによって行われます。 ガウス分布 。
このタイプの例としては、 期待値最大化クラスタリングアルゴリズム ガウス混合モデル (GMM) を使用します。
階層的クラスタリング
階層的クラスタリングは、作成するクラスタの数を事前に指定する必要がないため、パーティション化されたクラスタリングの代替として使用できます。この手法では、データセットがクラスターに分割されてツリー状の構造が作成されます。これは、クラスターとも呼ばれます。 樹状図 。ツリーを正しいレベルで切断することで、観測値または任意の数のクラスターを選択できます。この方法の最も一般的な例は次のとおりです。 凝集型階層アルゴリズム 。
ファジークラスタリング
ファジー クラスタリングは、データ オブジェクトが複数のグループまたはクラスタに属することができるソフト手法の一種です。各データセットにはメンバーシップ係数のセットがあり、クラスター内のメンバーシップの程度に応じて決まります。 ファジー C 平均法アルゴリズム は、このタイプのクラスタリングの例です。ファジー K 平均法アルゴリズムとしても知られることがあります。
クラスタリングアルゴリズム
クラスタリング アルゴリズムは、上で説明したモデルに基づいて分類できます。さまざまな種類のクラスタリング アルゴリズムが公開されていますが、一般的に使用されるものはほんのわずかです。クラスタリング アルゴリズムは、使用しているデータの種類に基づいています。たとえば、一部のアルゴリズムは特定のデータセット内のクラスターの数を推測する必要がありますが、一部のアルゴリズムはデータセットの観測間の最小距離を見つける必要があります。
ここでは、機械学習で広く使用されている主に人気のあるクラスタリング アルゴリズムについて説明します。
クラスタリングの応用
以下は、機械学習におけるクラスタリング技術の一般的に知られている応用例です。