機械学習モデルは、トレーニング プロセスの出力の数学的表現として定義されます。 機械学習は、経験と古いデータを通じて自動的に改善し、モデルを構築できるさまざまなアルゴリズムの研究です。機械学習モデルは、以前の経験やデータに基づいてパターンや行動を認識するように設計されたコンピューター ソフトウェアに似ています。学習アルゴリズムはトレーニング データ内のパターンを発見し、これらのパターンをキャプチャして新しいデータに対して予測を行う ML モデルを出力します。
顔の表情に基づいてユーザーの感情を認識するアプリを作成する ML モデルの例を理解しましょう。したがって、このようなアプリの作成は、さまざまな感情がラベル付けされた顔の画像をフィードしてモデルをトレーニングする機械学習モデルによって可能になります。このアプリがユーザーの気分を判断するために使用されるときは常に、すべてのフィード データを読み取り、ユーザーの気分を判断します。
したがって、簡単な言葉で言えば、 機械学習モデルは、何かまたはプロセスを簡略化して表現したものです。 このトピックでは、さまざまな機械学習モデルとその手法とアルゴリズムについて説明します。 。
機械学習モデルとは何ですか?
機械学習モデルは、新しいデータ内のパターンを見つけて予測を行うようにトレーニングされたプログラムとして理解できます。これらのモデルは、入力データの形式でリクエストを受け取り、入力データに対して予測を行い、それに応じて出力を提供する数学関数として表されます。まず、これらのモデルは一連のデータでトレーニングされ、次にデータを推論し、フィード データからパターンを抽出し、それらのデータから学習するアルゴリズムが提供されます。これらのモデルがトレーニングされると、目に見えないデータセットを予測するために使用できます。
さまざまなビジネス目標やデータセットに基づいて、さまざまなタイプの機械学習モデルが利用可能です。
機械学習モデルの分類:
さまざまなビジネス目標とデータセットに基づいて、アルゴリズムには 3 つの学習モデルがあります。各機械学習アルゴリズムは、次の 3 つのモデルのいずれかに落ち着きます。
- 教師あり学習
- 教師なし学習
- 強化学習
教師あり学習はさらに 2 つのカテゴリに分類されます。
- 分類
- 回帰
教師なし学習は、次のカテゴリにも分類されます。
- クラスタリング
- アソシエーションルール
- 次元削減
1. 教師あり機械学習モデル
教師あり学習は、入力データがトレーニング データと呼ばれ、出力として既知のラベルまたは結果を持つことを理解するための最も単純な機械学習モデルです。つまり、入力と出力のペアの原理に基づいて機能します。トレーニング データ セットを使用してトレーニングできる関数を作成する必要があります。その後、その関数が未知のデータに適用され、ある程度の予測パフォーマンスが得られます。教師あり学習はタスクベースであり、ラベル付きデータセットでテストされます。
現実の単純な問題に対して教師あり学習モデルを実装できます。たとえば、年齢と身長で構成されるデータセットがあるとします。そうすれば、年齢に基づいてその人の身長を予測する教師あり学習モデルを構築できます。
教師あり学習モデルはさらに 2 つのカテゴリに分類されます。
回帰
回帰問題では、出力は連続変数です。一般的に使用される回帰モデルのいくつかは次のとおりです。
a) 線形回帰
線形回帰は、1 つ以上の入力変数を使用して 1 つの出力変数を予測する最も単純な機械学習モデルです。線形回帰の表現は、入力値のセット (x) とそれらの入力値のセットに対する予測出力 (y) を組み合わせた線形方程式です。これは線の形で表されます。
Y = bx + c。
線形回帰モデルの主な目的は、データ ポイントに最もよく適合する最適直線を見つけることです。
線形回帰は、多重線形回帰 (最適な平面を見つける) および多項式回帰 (最適な曲線を見つける) に拡張されます。
b) デシジョンツリー
設定メニューアンドロイド
デシジョン ツリーは、回帰問題と分類問題の両方に使用できる一般的な機械学習モデルです。
デシジョン ツリーでは、意思決定とその考えられる結果と結果のツリー状の構造が使用されます。この例では、各内部ノードは属性のテストを表すために使用されます。各分岐はテストの結果を表すために使用されます。デシジョン ツリーに含まれるノードが多いほど、結果はより正確になります。
デシジョン ツリーの利点は、直観的で実装が簡単であることですが、正確性に欠けます。
ディシジョン ツリーは以下の分野で広く使用されています。 オペレーションズリサーチ、特に意思決定分析、戦略計画 、主に機械学習です。
c) ランダムフォレスト
ランダム フォレストは、多数の決定木で構成されるアンサンブル学習手法です。ランダム フォレスト内の各デシジョン ツリーは結果を予測し、過半数の投票による予測が結果とみなされます。
ランダム フォレスト モデルは、回帰問題と分類問題の両方に使用できます。
分類タスクの場合、ランダム フォレストの結果は投票の過半数から取得されます。一方、回帰タスクでは、結果は各ツリーによって生成された予測の平均値から取得されます。
d) ニューラルネットワーク
ニューラル ネットワークは機械学習のサブセットであり、人工ニューラル ネットワークとしても知られています。ニューラル ネットワークは人工ニューロンで構成され、人間の脳の構造と働きに似た方法で設計されています。各人工ニューロンはニューラル ネットワーク内の他の多くのニューロンと接続し、接続された数百万のニューロンが高度な認知構造を作成します。
ニューラル ネットワークは、1 つの入力層、1 つ以上の隠れ層、および 1 つの出力層を含む多層構造で構成されます。各ニューロンが別のニューロンに接続されると、ある層から次の層の他のニューロンにデータが転送されます。最後に、データはニューラル ネットワークの最後の層または出力層に到達し、出力を生成します。
ニューラル ネットワークはトレーニング データに依存して学習し、精度を向上させます。ただし、完全にトレーニングされ正確なニューラル ネットワークは、データを迅速にクラスタリングし、強力な機械学習および AI ツールになります。最もよく知られているニューラル ネットワークの 1 つは、 Googleの検索アルゴリズム。
分類
分類モデルは、教師あり学習手法の 2 番目のタイプであり、カテゴリ形式の観察値から結論を生成するために使用されます。たとえば、分類モデルは電子メールがスパムであるかどうかを識別できます。購入者が製品を購入するかどうかなど。分類アルゴリズムを使用して 2 つのクラスを予測し、出力を異なるグループに分類します。
分類では、データセットをさまざまなカテゴリに分類する分類子モデルが設計され、各カテゴリにラベルが割り当てられます。
機械学習には 2 種類の分類があります。
一般的な分類アルゴリズムのいくつかは次のとおりです。
a) ロジスティック回帰
ロジスティック回帰は、機械学習における分類問題を解決するために使用されます。これらは線形回帰に似ていますが、カテゴリ変数を予測するために使用されます。 Yes または No、0 または 1、True または False などで出力を予測できます。ただし、正確な値を与えるのではなく、0 と 1 の間の確率的な値を提供します。
b) サポートベクターマシン
サポート ベクター マシン (SVM) は、分類および回帰タスクに広く使用されている、一般的な機械学習アルゴリズムです。ただし、特に分類問題を解決するために使用されます。 SVM の主な目的は、N 次元空間内でデータ ポイントをクラスに分離できる最適な決定境界を見つけることであり、最適な決定境界は超平面として知られています。 SVM は極値ベクトルを選択して超平面を見つけます。これらのベクトルはサポート ベクトルとして知られています。
c) ナイーブベイズ
Naïve Bayes は、機械学習で使用されるもう 1 つの人気のある分類アルゴリズムです。これはベイズの定理に基づいており、次のように与えられる特徴間の単純な (独立した) 仮定に従うため、このように呼ばれます。
各単純ベイズ分類器は、特定の変数の値が他の変数/特徴から独立していることを前提としています。たとえば、果物を色、形、味に基づいて分類する必要がある場合です。したがって、黄色、楕円形、甘いものはマンゴーとして認識されます。ここで、各機能は他の機能から独立しています。
2. 教師なし機械学習モデル
教師なし機械学習モデルは、教師あり学習とは逆の学習プロセスを実装します。これは、モデルがラベルなしのトレーニング データセットから学習できることを意味します。ラベルのないデータセットに基づいて、モデルは出力を予測します。教師なし学習を使用すると、モデルは教師なしでデータセットから隠れたパターンを自ら学習します。
教師なし学習モデルは主に、次の 3 つのタスクを実行するために使用されます。
クラスタリングは、類似点と相違点に基づいてデータ ポイントを異なるクラスターにクラスタリングまたは探索することを含む教師なし学習手法です。最も類似性のあるオブジェクトは同じグループ内に残り、他のグループとの類似性がまったくないか、ほとんどありません。
クラスタリング アルゴリズムは、次のようなさまざまなタスクで広く使用できます。 画像セグメンテーション、統計データ分析、市場セグメンテーション 、など。
一般的に使用されるクラスタリング アルゴリズムには、次のようなものがあります。 K-means クラスタリング、階層型クラスタリング、DBSCAN 、など。
相関ルール学習は教師なし学習手法であり、大規模なデータセット内の変数間の興味深い関係を見つけます。この学習アルゴリズムの主な目的は、あるデータ項目の別のデータ項目への依存関係を見つけ、それに応じてそれらの変数をマッピングして、最大の利益を生み出すことができるようにすることです。このアルゴリズムは主に次の用途に適用されます。 マーケットバスケット分析、Web利用マイニング、継続的生産 、など。
アソシエーション ルール学習の一般的なアルゴリズムには、次のようなものがあります。 アプリオリ アルゴリズム、エクラ、FP 成長アルゴリズム。
データセット内に存在する特徴/変数の数はデータセットの次元として知られており、次元を削減するために使用される手法は次元削減手法として知られています。
データが多いほど正確な結果が得られますが、過剰適合の問題など、モデル/アルゴリズムのパフォーマンスに影響を与える可能性もあります。このような場合には、次元削減技術が使用されます。
' これは、高次元のデータセットを低次元のデータセットに変換して、同様の情報が提供されるようにするプロセスです。 。」
さまざまな次元削減方法 PCA(主成分分析)、特異値分解など
強化学習
強化学習では、アルゴリズムは、目標状態につながる特定の状態セットに対するアクションを学習します。これは、環境と対話することによって各状態またはアクションの後にフィードバック信号を受け取るフィードバックベースの学習モデルです。このフィードバックは報酬として機能します (良いアクションごとにプラス、悪いアクションごとにマイナス)。エージェントの目標は、パフォーマンスを向上させるためにプラスの報酬を最大化することです。
人間はフィードバックとしての経験によって物事を学習し、環境と対話するため、強化学習におけるモデルの動作は人間の学習に似ています。
以下は、強化学習に該当する一般的なアルゴリズムの一部です。
AI エージェントが特定の状況下で報酬を最大化するための最適なアクションを実行できるようにするポリシーを学習することを目的としています。これには、特定の状態パスをたどることに対する報酬を示す各状態とアクションのペアの Q 値が組み込まれており、Q 値を最大化しようとします。
機械学習モデルのトレーニング
機械学習モデルが構築されると、適切な結果を得るためにトレーニングされます。機械学習モデルをトレーニングするには、前処理された大量のデータが必要です。ここで、前処理されたデータとは、null 値が削減された構造化形式のデータなどを意味します。前処理されたデータを提供しない場合、モデルのパフォーマンスが低下する可能性が非常に高くなります。
最適なモデルを選択するにはどうすればよいですか?
上のセクションでは、さまざまな機械学習モデルとアルゴリズムについて説明しました。しかし、初心者にとって最も混乱する質問の 1 つは、「どのモデルを選択すればよいですか?」というものです。したがって、答えは、主にビジネス要件またはプロジェクト要件に依存するということです。これとは別に、関連する属性、利用可能なデータセットの量、特徴の数、複雑さなどにも依存します。ただし、実際には、常に特定のデータに適用できる最も単純なモデルから始めることをお勧めします。問題を解決し、徐々に複雑さを高め、パラメータ調整と相互検証を利用して精度をテストします。
機械学習モデルとアルゴリズムの違い
初心者の間で最も混乱する質問の 1 つは、機械学習モデルとアルゴリズムは同じなのかということです。機械学習とデータ サイエンスのさまざまなケースで、これら 2 つの用語は同じ意味で使用されるためです。
この質問に対する答えは「いいえ」であり、機械学習モデルはアルゴリズムと同じではありません。簡単に言うと、 ML アルゴリズムは、データ上で実行してそこからパターンを発見する手順またはメソッドのようなものです。 そしてモデルを生成します。同時に、 機械学習モデルは、出力を生成したり予測を行ったりするコンピューター プログラムのようなものです。 。より具体的には、データを使用してアルゴリズムをトレーニングすると、それがモデルになります。
Machine Learning Model = Model Data + Prediction Algorithm