機械学習は人工知能の一分野であり、機械がデータ分析を実行して予測できるようにします。ただし、機械学習モデルが正確でない場合、予測エラーが発生する可能性があり、これらの予測エラーは通常、バイアスと分散として知られています。機械学習では、モデルの予測と実際の予測の間には常にわずかな違いがあるため、これらのエラーは常に存在します。 ML/データ サイエンス アナリストの主な目的は、より正確な結果を得るためにこれらのエラーを減らすことです。このトピックでは、バイアスと分散、バイアスと分散のトレードオフ、過小適合と過適合について説明します。しかし、始める前に、まず機械学習におけるエラーとは何かを理解しましょう。
機械学習のエラー?
機械学習における誤差は、アルゴリズムが未知のデータセットに対してどれだけ正確に予測できるかを示す尺度です。これらのエラーに基づいて、特定のデータセットで最高のパフォーマンスを発揮できる機械学習モデルが選択されます。機械学習には主に次の 2 種類のエラーがあります。
どのアルゴリズムが使用されたかは関係ありません。これらのエラーの原因は、値を減らすことができない未知の変数です。
バイアスとは何ですか?
一般に、機械学習モデルはデータを分析し、その中のパターンを見つけて予測を行います。トレーニング中に、モデルはデータセット内のこれらのパターンを学習し、予測用のテスト データに適用します。 予測を行うと、モデルによる予測値と実際の値/期待値に差異が発生します 、 この差は、バイアス誤差またはバイアスによる誤差として知られています。 。これは、線形回帰などの機械学習アルゴリズムがデータ ポイント間の真の関係を捕捉できないこととして定義できます。バイアスはモデル内の仮定から発生するため、各アルゴリズムはある程度のバイアスを持って開始され、ターゲット関数の学習が簡単になります。モデルには次のいずれかが含まれます。
1GBは何MBですか
一般に、線形アルゴリズムは高速に学習するため、バイアスが高くなります。アルゴリズムが単純であればあるほど、より高いバイアスが導入される可能性が高くなります。一方、非線形アルゴリズムのバイアスは低いことがよくあります。
バイアスの低い機械学習アルゴリズムの例 決定木、k 最近傍法、およびサポート ベクター マシンです。 。同時に、バイアスの高いアルゴリズムは、 線形回帰、線形判別分析、およびロジスティック回帰。
高バイアスを軽減する方法:
高いバイアスは主に非常に単純なモデルが原因で発生します。高バイアスを軽減するいくつかの方法を以下に示します。
- モデルが不足しているため、入力特徴量を増やします。
- 正則化項を減らします。
- いくつかの多項式特徴を含めるなど、より複雑なモデルを使用します。
分散誤差とは何ですか?
分散は、異なるトレーニング データが使用された場合の予測の変動量を指定します。簡単に言うと、 分散は、確率変数が期待値とどの程度異なっているかを示します。 理想的には、モデルはトレーニング データセット間で大きく変化しないことが必要です。これは、アルゴリズムが入力変数と出力変数の間の隠れたマッピングを理解するのに優れている必要があることを意味します。分散誤差は次のいずれかです。 低い分散または高い分散。
スクリプトを実行する方法
低い分散 これは、トレーニング データ セットの変更に伴うターゲット関数の予測に小さな変動があることを意味します。同時に、 高い分散 は、トレーニング データセットの変化に伴うターゲット関数の予測の大きな変動を示しています。
高い分散を示すモデルは、トレーニング データセットでは多くのことを学習し、良好なパフォーマンスを示しますが、目に見えないデータセットではうまく一般化できません。結果として、このようなモデルはトレーニング データセットでは良好な結果をもたらしますが、テスト データセットでは高いエラー率を示します。
分散が大きい場合、モデルはデータセットから学習する量が多すぎるため、モデルの過剰適合につながります。分散が大きいモデルには次の問題があります。
- 分散モデルが高いと、過学習が発生します。
- モデルの複雑さが増加します。
通常、非線形アルゴリズムはモデルに適合する柔軟性が高く、分散が大きくなります。
分散が低い機械学習アルゴリズムの例としては、次のようなものがあります。 線形回帰、ロジスティック回帰、線形判別分析 。同時に、分散が大きいアルゴリズムは、 デシジョン ツリー、サポート ベクター マシン、および K 最近傍。
大きな差異を軽減する方法:
- モデルが過剰適合しているため、入力フィーチャまたはパラメーターの数を減らします。
- あまり複雑なモデルは使用しないでください。
- 学習データを増やしてください。
- 正則化項を増やします。
バイアス分散のさまざまな組み合わせ
バイアスと分散には 4 つの可能な組み合わせがあり、以下の図で表されます。
低いバイアスと低い分散の組み合わせは、理想的な機械学習モデルを示しています。ただし、現実的には不可能です。
高いバイアスと高い分散により、予測は一貫性がなく、平均的にも不正確になります。
高い分散または高いバイアスを特定するにはどうすればよいですか?
モデルに次の特徴がある場合、高い分散を特定できます。
- トレーニングエラーは低く、テストエラーは高くなります。
モデルに次の特徴がある場合、高バイアスを特定できます。
Javaでの文字列比較
- トレーニング誤差が高く、テスト誤差はトレーニング誤差とほぼ同様です。
バイアスと分散のトレードオフ
機械学習モデルを構築する際、モデルの過適合や過小適合を避けるために、バイアスと分散に注意することが非常に重要です。モデルが非常に単純でパラメーターが少ない場合は、分散が低く、バイアスが高くなる可能性があります。一方、モデルに多数のパラメーターがある場合、分散は大きくなり、バイアスは低くなります。したがって、バイアス誤差と分散誤差のバランスを取る必要があり、このバイアス誤差と分散誤差のバランスは次のように呼ばれます。 バイアスと分散のトレードオフ。
モデルを正確に予測するには、アルゴリズムの分散とバイアスが低いことが必要です。しかし、バイアスと分散は相互に関連しているため、これは不可能です。
- 分散を小さくすると、バイアスが大きくなります。
- バイアスを減少させると、分散が増加します。
バイアスと分散のトレードオフは、教師あり学習における中心的な問題です。理想的には、トレーニング データの規則性を正確に捉え、同時に目に見えないデータセットを適切に一般化するモデルが必要です。残念ながら、これを同時に行うことはできません。分散の高いアルゴリズムはトレーニング データではうまく機能する可能性がありますが、ノイズの多いデータに対しては過剰適合につながる可能性があるためです。一方、高バイアス アルゴリズムでは、データ内の重要な規則性さえ捕捉できない非常に単純なモデルが生成されます。したがって、最適なモデルを作成するには、バイアスと分散の間のスイート スポットを見つける必要があります。
従って バイアスと分散のトレードオフは、バイアスと分散の誤差のバランスをとるためのスイート スポットを見つけることです。