教師あり学習と教師なし学習

機械学習は、明示的にプログラムされずにコンピューターに学習能力を与えるコンピューターサイエンスの分野です。教師あり学習と教師なし学習の 2 つの主なタイプは、機械学習。

で教師あり学習、マシンはラベル付きデータのセットでトレーニングされます。これは、入力データが目的の出力とペアになることを意味します。その後、マシンは新しい入力データの出力を予測する方法を学習します。教師あり学習は、分類、回帰、オブジェクト検出などのタスクによく使用されます。

教師なし学習では、マシンは一連のラベルなしデータでトレーニングされます。これは、入力データが目的の出力とペアになっていないことを意味します。その後、マシンはデータ内のパターンと関係を見つける方法を学習します。教師なし学習は、次のようなタスクによく使用されます。クラスタリング、次元削減、異常検出。

教師あり学習とは何ですか?

教師あり学習は一種の機械学習アルゴリズムラベル付けされたデータから学習します。ラベル付きデータは、正解または分類のタグが付けられたデータです。

教師あり学習はその名の通り、教師としてのスーパーバイザーの存在があります。教師あり学習とは、適切にラベル付けされたデータを使用してマシンを教育またはトレーニングすることです。つまり、一部のデータにはすでに正解のタグが付いています。その後、マシンには新しい例 (データ) のセットが提供され、教師あり学習アルゴリズムがトレーニングデータ (トレーニング例のセット) を分析し、ラベル付きデータから正しい結果を生成します。

たとえば、ゾウ、ラクダ、牛の画像のラベル付きデータセットには、各画像にゾウ、ラクダ、牛のいずれかがタグ付けされます。

教師あり学習

キーポイント：

教師あり学習には、ラベル付きデータからマシンをトレーニングすることが含まれます。
ラベル付きデータは、正解または分類を含む例で構成されます。
機械は入力 (果物の画像) と出力 (果物のラベル) の関係を学習します。
トレーニングされたマシンは、ラベルのない新しいデータに対して予測を行うことができます。

例：

識別したいフルーツバスケットがあるとします。機械はまず画像を分析して、形状、色、テクスチャなどの特徴を抽出します。次に、これらの特徴を、すでに学習した果物の特徴と比較します。新しい画像の特徴がリンゴの特徴に最も似ている場合、マシンはその果物がリンゴであると予測します。

gimp ウォーターマークを削除する

例えば , さまざまな種類の果物が入ったバスケットが与えられたとします。最初のステップは、次のようにさまざまなフルーツをすべて使用してマシンを 1 つずつトレーニングすることです。

オブジェクトの形状が丸く、上部にくぼみがあり、色が赤い場合は、次のようにラベル付けされます。 りんご 。
オブジェクトの形状が緑と黄色の長く曲がった円柱の場合、次のようにラベル付けされます。 バナナ 。

ここで、データをトレーニングした後、新しい別の果物、たとえばバスケットからバナナを与え、それを識別するように求めたとします。

マシンは以前のデータからすでに学習しているので、今回はそれを賢く使用する必要があります。まず、果物をその形と色で分類し、果物の名前が BANANA であることを確認して、バナナカテゴリに入れます。したがって、マシンはトレーニングデータ (フルーツが入ったバスケット) から物事を学習し、その知識をテストデータ (新しいフルーツ) に適用します。

教師あり学習の種類

教師あり学習は、アルゴリズムの 2 つのカテゴリに分類されます。

回帰 : 回帰問題は、出力変数がドルや重量などの実数値である場合に発生します。
分類 : 分類の問題は、出力変数が Red または blue 、疾患または疾患なしなどのカテゴリである場合に発生します。

教師あり学習では、ラベル付きデータを処理または学習します。これは、一部のデータにすでに正解のタグが付いていることを意味します。

1- 回帰

回帰は、住宅価格、株価、顧客離れなどの連続値を予測するために使用される教師あり学習の一種です。回帰アルゴリズムは、入力特徴から出力値にマッピングする関数を学習します。

いくつかの一般的な回帰アルゴリズム含む：

アメリカは都市はいくつありますか

線形回帰
多項式回帰
サポートベクターマシン回帰
デシジョンツリー回帰
ランダムフォレスト回帰

2- 分類

分類は教師あり学習の一種で、顧客が離脱するかどうか、電子メールがスパムであるか否か、医療画像に腫瘍が写っているかどうかなどのカテゴリ値を予測するために使用されます。分類アルゴリズムは、入力特徴から出力クラスにわたる確率分布にマッピングする関数を学習します。

いくつかの一般的な分類アルゴリズム含む：

ロジスティック回帰
サポートベクターマシン
ディシジョンツリー
ランダムフォレスト
ナイーブ・ベイ

教師あり学習モデルの評価

教師あり学習モデルの評価は、モデルが正確で一般化可能であることを確認するための重要なステップです。さまざまなものがありますメトリクス教師あり学習モデルを評価するために使用できますが、最も一般的なものには次のようなものがあります。

回帰用

平均二乗誤差 (MSE): MSE は、予測値と実際の値の間の平均二乗差を測定します。 MSE 値が低いほど、モデルのパフォーマンスが優れていることを示します。
二乗平均平方根誤差 (RMSE): RMSE は MSE の平方根で、予測誤差の標準偏差を表します。 MSE と同様に、RMSE 値が低いほど、モデルのパフォーマンスが優れていることを示します。
平均絶対誤差 (MAE): MAE は、予測値と実際の値の間の平均絶対差を測定します。 MSE や RMSE と比べて、外れ値に対する感度が低くなります。
R 二乗 (決定係数): R 二乗は、モデルによって説明されるターゲット変数の分散の割合を測定します。 R 二乗値が高いほど、モデルの適合性が優れていることを示します。

分類用

正確さ： 精度は、モデルが正しく行う予測の割合です。これは、正しい予測の数を予測の総数で割ることによって計算されます。
精度： 精度とは、モデルが行う肯定的な予測のうち、実際に正しい予測の割合です。これは、真陽性の数を陽性予測の総数で割ることによって計算されます。
想起： 再現率は、モデルが正しく識別したすべての肯定的な例の割合です。これは、真の陽性者数を陽性例の総数で割ることによって計算されます。
F1スコア: F1 スコアは、適合率と再現率の加重平均です。これは、精度と再現率の調和平均を取ることによって計算されます。
混同行列: 混同行列は、各クラスの予測数と実際のクラスラベルを示す表です。これを使用すると、モデルのパフォーマンスを視覚化し、モデルが問題を抱えている領域を特定できます。

教師あり学習の応用

教師あり学習は、次のようなさまざまな問題の解決に使用できます。

スパムフィルタリング: 教師あり学習アルゴリズムをトレーニングして、内容に基づいてスパムメールを識別および分類できるため、ユーザーは不要なメッセージを回避できます。
画像分類: 教師あり学習では、画像を動物、物体、シーンなどのさまざまなカテゴリに自動的に分類し、画像検索、コンテンツの管理、画像ベースの製品推奨などのタスクを容易にします。
医学的診断: 教師あり学習は、医療画像、検査結果、患者履歴などの患者データを分析して、特定の病気や状態を示唆するパターンを特定することにより、医療診断を支援します。
不正行為の検出: 教師あり学習モデルは金融取引を分析し、不正行為を示すパターンを特定できるため、金融機関が不正行為を防止し、顧客を保護するのに役立ちます。
自然言語処理 (NLP): 教師あり学習は、感情分析、機械翻訳、テキスト要約などの NLP タスクで重要な役割を果たし、機械が人間の言語を効果的に理解して処理できるようにします。

教師あり学習の利点

教師あり学習ではデータを収集し、以前の経験からデータ出力を生成できます。
経験に基づいてパフォーマンス基準を最適化するのに役立ちます。
教師あり機械学習は、現実世界のさまざまな種類の計算問題の解決に役立ちます。
分類と回帰タスクを実行します。
これにより、結果を推定したり、新しいサンプルにマッピングしたりすることができます。
トレーニングデータに必要なクラスの数の選択を完全に制御できます。

教師あり学習のデメリット

ビッグデータの分類は困難な場合があります。
教師あり学習のトレーニングには多くの計算時間が必要です。したがって、多くの時間を必要とします。
教師あり学習では、機械学習の複雑なタスクをすべて処理できるわけではありません。
教師あり学習では計算時間が膨大になります。
ラベル付きのデータセットが必要です。
それにはトレーニングプロセスが必要です。

教師なし学習とは何ですか?

教師なし学習は、ラベルのないデータから学習する機械学習の一種です。これは、データに既存のラベルやカテゴリがないことを意味します。教師なし学習の目標は、明示的なガイダンスなしでデータ内のパターンと関係を発見することです。

教師なし学習とは、分類もラベルも付けられていない情報を使用してマシンをトレーニングし、ガイダンスなしでアルゴリズムがその情報に基づいて動作できるようにすることです。ここでのマシンのタスクは、データの事前トレーニングを行わずに、類似点、パターン、相違点に従って未分類の情報をグループ化することです。

教師あり学習とは異なり、教師は提供されないため、マシンに対するトレーニングは行われません。したがって、マシンは、ラベルのないデータ内の隠れた構造をそれ自体で見つけることができないように制限されます。

Javaのstr.replace

教師なし学習を使用して、収集された動物データを調べ、動物の特性と行動に従っていくつかのグループを区別できます。これらのグループ化はさまざまな動物種に対応している可能性があり、既存のラベルに依存せずに生物を分類できます。

教師なし学習

キーポイント

教師なし学習により、モデルはラベルのないデータ内のパターンと関係を発見できます。
クラスタリングアルゴリズムは、固有の特性に基づいて類似したデータポイントをグループ化します。
特徴抽出によりデータから重要な情報が取得され、モデルが意味のある区別を行えるようになります。
ラベルの関連付けでは、抽出されたパターンと特性に基づいて、クラスターにカテゴリを割り当てます。

例

犬と猫の両方を含む、ラベルのない画像の大規模なデータセットでトレーニングされた機械学習モデルがあると想像してください。モデルはこれまでに犬や猫の画像を見たことがなく、これらの動物に対する既存のラベルやカテゴリもありません。あなたのタスクは、教師なし学習を使用して、新しいまだ見たことのない画像内の犬と猫を識別することです。

例えば 、見たことのない犬と猫の両方がいる画像が与えられたとします。

したがって、機械は犬と猫の特徴について何も知らないので、それを「犬と猫」として分類することはできません。しかし、類似点、パターン、相違点に従ってそれらを分類することができます。つまり、上の図を 2 つの部分に簡単に分類できます。最初のものには、次のようなすべての写真が含まれる可能性があります。犬それらの部分と 2 番目の部分には、次のようなすべての写真が含まれる可能性があります。猫それらの中で。ここでは、これまで何も学習していません。つまり、トレーニングデータや例がありません。

これにより、モデルが独自に動作して、これまで検出されなかったパターンや情報を発見できるようになります。主にラベルのないデータを扱います。

教師なし学習の種類

教師なし学習は、アルゴリズムの 2 つのカテゴリに分類されます。

クラスタリング : クラスタリング問題は、購買行動による顧客のグループ化など、データ内の固有のグループ化を発見したい場合に使用されます。
協会 : 相関ルールの学習問題では、X を購入する人は Y も購入する傾向があるなど、データの大部分を記述するルールを発見する必要があります。

クラスタリング

クラスタリングは、類似したデータポイントをグループ化するために使用される教師なし学習の一種です。クラスタリングアルゴリズムデータポイントをクラスターの中心に近づけたり、他のクラスターのデータポイントから遠ざけたりすることを繰り返して作業します。

企業対企業

排他的（パーティショニング）
凝集性
重複
確率的

クラスタリングの種類:-

階層的クラスタリング
K 平均法クラスタリング
主成分分析
特異値分解
独立成分分析
混合ガウスモデル (GMM)
ノイズを含むアプリケーションの密度ベースの空間クラスタリング (DBSCAN)

アソシエーションルールの学習

相関ルール学習は、データ内のパターンを識別するために使用される教師なし学習の一種です。アソシエーションルール学習アルゴリズムは、データセット内のさまざまな項目間の関係を見つけることによって機能します。

一般的な相関ルール学習アルゴリズムには次のものがあります。

アプリオリアルゴリズム
エクラアルゴリズム
FP成長アルゴリズム

教師なし学習モデルの評価

教師なし学習モデルの評価は、モデルが効果的で有用であることを確認するための重要なステップです。ただし、モデルの予測を比較するためのグラウンドトゥルースデータがないため、教師あり学習モデルを評価するよりも困難になる可能性があります。

教師なし学習モデルの評価に使用できるさまざまな指標が多数ありますが、最も一般的なものには次のようなものがあります。

シルエットスコア: シルエットスコアは、各データポイントが独自のクラスターメンバーとどの程度うまくクラスター化され、他のクラスターから分離されているかを測定します。範囲は -1 から 1 で、スコアが高いほどクラスタリングが良好であることを示します。
カリンスキー＝ハラバスのスコア： Calinski-Harabasz スコアは、クラスター間の分散とクラスター内の分散の間の比率を測定します。値の範囲は 0 から無限大で、スコアが高いほどクラスタリングが優れていることを示します。
調整後のランド指数: 調整された Rand インデックスは、2 つのクラスタリング間の類似性を測定します。範囲は -1 から 1 で、スコアが高いほど、より類似したクラスタリングを示します。
デイビス・ボールディン指数: Davies-Bouldin インデックスは、クラスター間の平均類似性を測定します。範囲は 0 から無限大で、スコアが低いほどクラスタリングが良好であることを示します。
F1スコア: F1 スコアは、精度と再現率の加重平均です。これらは、分類モデルを評価する教師あり学習で一般的に使用される 2 つの指標です。ただし、F1 スコアは、クラスタリングモデルなどの教師なし学習モデルを評価するために使用することもできます。

応用教師なし学習の

教師なし学習は、次のようなさまざまな問題の解決に使用できます。

異常検出: 教師なし学習により、データ内の異常なパターンや通常の動作からの逸脱を特定でき、不正行為、侵入、システム障害の検出が可能になります。
科学的発見: 教師なし学習は、科学データの隠れた関係やパターンを明らかにし、さまざまな科学分野での新しい仮説や洞察につながります。
レコメンデーションシステム: 教師なし学習により、ユーザーの行動や好みのパターンと類似点を特定し、ユーザーの興味に合った製品、映画、または音楽を推奨できます。
顧客のセグメンテーション: 教師なし学習により、同様の特性を持つ顧客のグループを特定できるため、企業はマーケティングキャンペーンのターゲットを絞り、顧客サービスをより効果的に向上させることができます。
画像分析: 教師なし学習では、内容に基づいて画像をグループ化し、画像分類、物体検出、画像検索などのタスクを容易にします。

利点教師なし学習の

トレーニングデータにラベルを付ける必要はありません。
次元削減は、教師なし学習を使用して簡単に実現できます。
データ内のこれまで知られていなかったパターンを見つけることができます。
教師なし学習は、ラベルのないデータから、他の方法では得られなかった洞察を得るのに役立ちます。
教師なし学習は、何を探すべきかを指示されずにデータ内のパターンや関係を見つけるのに適しています。これは、データについて新しいことを学ぶのに役立ちます。

短所教師なし学習の

トレーニング中に事前に定義された回答がないため、精度や有効性を測定することが困難です。
多くの場合、結果の精度は低くなります。
ユーザーは時間をかけて、その分類に従うクラスを解釈してラベルを付ける必要があります。
教師なし学習は、欠損値、外れ値、ノイズの多いデータなどのデータ品質に影響を受ける可能性があります。
ラベル付きデータがないと教師なし学習モデルのパフォーマンスを評価することが難しく、その有効性を評価することが困難になります。

教師あり機械学習と教師なし機械学習

パラメーター	教師あり機械学習	教師なし機械学習
入力データ	アルゴリズムはラベル付きデータを使用してトレーニングされます。	ラベルのないデータに対してアルゴリズムが使用されます
計算の複雑さ	より簡単な方法	計算的に複雑
正確さ	高精度	精度が低い
クラス数	クラス数がわかっている	クラス数は不明
データ分析	オフライン分析を使用する	データのリアルタイム分析を使用します
使用されるアルゴリズム	線形回帰およびロジスティック回帰、ランダムフォレスト、マルチクラス分類、デシジョンツリー、サポートベクターマシン、ニューラルネットワークなど。	K-Meansクラスタリング、階層型クラスタリング、KNN、アプリオリアルゴリズムなど
出力	必要な出力が得られます。	望ましい出力が得られません。
トレーニングデータ	トレーニングデータを使用してモデルを推論します。	トレーニングデータは使用されません。
複雑なモデル	教師あり学習よりも大規模で複雑なモデルを学習することはできません。	教師なし学習を使用して、より大規模で複雑なモデルを学習することが可能です。
モデル	モデルをテストできます。	モデルをテストすることはできません。
として呼ばれます	教師あり学習は分類とも呼ばれます。	教師なし学習はクラスタリングとも呼ばれます。
例	例: 光学式文字認識。	例: 画像内の顔を検索します。
監督	教師あり学習では、モデルをトレーニングするために教師が必要です。	教師なし学習では、モデルをトレーニングするための教師は必要ありません。

結論

教師あり学習と教師なし学習は、さまざまな問題を解決するために使用できる 2 つの強力なツールです。教師あり学習は、目的の出力がわかっているタスクに適していますが、教師なし学習は、目的の出力が不明なタスクに適しています。

よくある質問（FAQ）

1. 教師あり機械語と教師なし機械語の違いは何ですか?

教師あり学習と教師なし学習は、機械学習への 2 つの基本的なアプローチであり、トレーニングデータと学習目的が異なります。
モック抽象クラスを挿入する方法

教師あり学習 これには、ラベル付きデータセットで機械学習モデルをトレーニングすることが含まれます。各データポイントには、対応するラベルまたは出力値が含まれます。このアルゴリズムは、入力データを目的の出力にマッピングすることを学習し、新しい未知のデータを予測できるようにします。

教師なし学習 一方、はラベルのないデータセットを扱います。このデータセットでは、データポイントにラベルや出力値が関連付けられていません。

2. 教師あり学習とは何ですか?

教師あり学習は機械学習の一種で、ラベル付きデータセットでアルゴリズムがトレーニングされ、各データポイントが対応するラベルまたは出力値を持ちます。このアルゴリズムは、入力データを目的の出力にマッピングすることを学習し、新しい未知のデータを予測できるようにします。

3. 一般的な教師あり学習アルゴリズムとは何ですか?

一般的な教師あり学習アルゴリズムには次のものがあります。

分類： カテゴリをデータポイントに割り当てるために使用されます。例には、サポートベクターマシン (SVM)、ロジスティック回帰、デシジョンツリーなどがあります。

回帰: 連続した数値を予測するために使用されます。例には、線形回帰、多項式回帰、リッジ回帰が含まれます。

4. 一般的な教師なし学習アルゴリズムとは何ですか?

一般的な教師なし学習アルゴリズムには次のものがあります。

クラスタリング: 類似性に基づいてデータポイントをクラスターにグループ化します。例には、k-means クラスタリングや階層的クラスタリングが含まれます。

次元削減: 最も重要な情報を維持しながら、データセット内のフィーチャの数を削減します。例には、主成分分析 (PCA) やオートエンコーダーが含まれます。

5. 教師なし学習とは何ですか?

教師なし学習は、ラベルのないデータセットでアルゴリズムがトレーニングされる機械学習の一種で、データポイントには対応するラベルや出力値がありません。このアルゴリズムは、明示的なガイダンスなしでデータ内のパターンと構造を識別する方法を学習します。

6. 教師あり学習と教師なし学習をいつ使用するか?

ラベル付きデータセットがあり、新しいデータの予測を行いたい場合は、教師あり学習を使用します。ラベルのないデータセットがあり、データ内のパターンや構造を識別したい場合は、教師なし学習を使用します。