logo

教師なし機械学習

前のトピックでは、トレーニング データの監視下でラベル付きデータを使用してモデルをトレーニングする教師あり機械学習について学びました。しかし、ラベル付けされたデータがなく、指定されたデータセットから隠れたパターンを見つける必要がある場合も多くあります。したがって、機械学習でこのようなタイプのケースを解決するには、教師なし学習手法が必要です。

教師なし学習とは何ですか?

名前が示すように、教師なし学習は、トレーニング データセットを使用してモデルが教師化されない機械学習手法です。代わりに、モデル自体が、与えられたデータから隠されたパターンと洞察を見つけます。これは、新しいことを学ぶときに人間の脳で起こる学習にたとえられます。これは次のように定義できます。

一年を四半期に分けて
教師なし学習は、ラベルのないデータセットを使用してモデルがトレーニングされ、教師なしでそのデータに基づいて動作できる機械学習の一種です。

教師なし学習は、教師あり学習とは異なり、入力データはありますが、対応する出力データがないため、回帰問題や分類問題に直接適用することはできません。教師なし学習の目標は、 データセットの基礎となる構造を見つけ、類似点に従ってデータをグループ化し、そのデータセットを圧縮形式で表現します

例: 教師なし学習アルゴリズムに、さまざまな種類の猫と犬の画像を含む入力データセットが与えられたとします。アルゴリズムは特定のデータセットに対してトレーニングされることはありません。つまり、アルゴリズムはデータセットの特徴について何も知りません。教師なし学習アルゴリズムのタスクは、画像の特徴を独自に識別することです。教師なし学習アルゴリズムは、画像間の類似性に基づいて画像データセットをグループにクラスタリングすることでこのタスクを実行します。

教師あり機械学習

教師なし学習を使用する理由

以下に、教師なし学習の重要性を説明する主な理由をいくつか示します。

  • 教師なし学習は、データから有用な洞察を見つけるのに役立ちます。
  • 教師なし学習は、人間が自分の経験に基づいて考えることを学ぶのとよく似ており、本物の AI に近づきます。
  • 教師なし学習は、ラベルや分類されていないデータに作用するため、教師なし学習の重要性が高まります。
  • 現実の世界では、入力データと対応する出力が常にあるとは限らないため、そのようなケースを解決するには教師なし学習が必要です。

教師なし学習の仕組み

教師なし学習の仕組みは、以下の図で理解できます。

教師あり機械学習
教師あり機械学習

ここでは、ラベルのない入力データを取得しました。これは、データが分類されておらず、対応する出力も提供されていないことを意味します。ここで、このラベルのない入力データは、トレーニングするために機械学習モデルに供給されます。まず、生データを解釈してデータから隠れたパターンを見つけ、次に K 平均法クラスタリング、デシジョン ツリーなどの適切なアルゴリズムを適用します。

適切なアルゴリズムを適用すると、アルゴリズムはオブジェクト間の類似性と相違に従ってデータ オブジェクトをグループに分割します。

教師なし学習アルゴリズムの種類:

教師なし学習アルゴリズムは、さらに 2 つのタイプの問題に分類できます。

教師あり機械学習
    クラスタリング: クラスタリングは、最も類似性のあるオブジェクトが 1 つのグループに残り、別のグループのオブジェクトとの類似性が少ないかまったくないように、オブジェクトをクラスターにグループ化する方法です。クラスター分析では、データ オブジェクト間の共通点が見つかり、それらの共通点の有無に基づいてデータ オブジェクトが分類されます。協会: 相関ルールは、大規模なデータベース内の変数間の関係を見つけるために使用される教師なし学習方法です。これにより、データセット内で同時に発生する項目のセットが決まります。アソシエーションルールはマーケティング戦略をより効果的にします。たとえば、X アイテム (パンだとします) を購入する人は、Y (バター/ジャム) アイテムも購入する傾向があります。アソシエーション ルールの代表的な例は、マーケット バスケット分析です。

注: これらのアルゴリズムについては後の章で学習します。

教師なし学習アルゴリズム:

以下は、人気のある教師なし学習アルゴリズムのリストです。

    K 平均法クラスタリング KNN (k 最近傍法) 階層的クラスタリング 異常検知 ニューラルネットワーク 主成分分析 独立成分分析 アプリオリアルゴリズム 特異値分解

教師なし学習の利点

  • 教師なし学習ではラベル付きの入力データがないため、教師なし学習は教師あり学習と比較してより複雑なタスクに使用されます。
  • ラベル付きデータと比較してラベルなしデータを取得するのが簡単であるため、教師なし学習が推奨されます。

教師なし学習の欠点

  • 教師なし学習は、対応する出力がないため、本質的に教師あり学習よりも困難です。
  • 教師なし学習アルゴリズムの結果は、入力データにラベルが付けられておらず、アルゴリズムが事前に正確な出力を知らないため、精度が低くなる可能性があります。