強化学習では、エージェントまたは意思決定者は世界と対話することでトレーニング データを生成します。エージェントは、正しいアクションを明示的に指示されるのではなく、試行錯誤を通じてそのアクションの結果を学習する必要があります。
多腕バンディット問題
強化学習では、マルチアーム バンディット問題を使用して、k アーム バンディットを使用して不確実性の下での意思決定の概念を形式化します。意思決定者またはエージェントは多腕バンディット問題に存在し、k 個の異なるアクションから選択し、選択したアクションに基づいて報酬を受け取ります。バンディット問題は、報酬、タイムステップ、値などの強化学習の基本概念を説明するために使用されます。

上の写真は、2 つのレバーを備えたバンディットとしても知られるスロット マシンを表しています。各レバーには個別の報酬の配分があり、最大の報酬を生み出すレバーが少なくとも 1 つあると仮定します。
各レバーに対応する報酬の確率分布は異なり、ギャンブラー(意思決定者)にはわかりません。したがって、ここでの目標は、特定の一連の試行後に最大の報酬を得るためにどのレバーを引くべきかを特定することです。
例えば:
オンライン広告のトライアルで、広告主が同じ商品の 3 つの異なる広告のクリックスルー率を測定したいと考えているとします。ユーザーがウェブサイトにアクセスするたびに、広告主はランダムに広告を表示します。次に、広告主はユーザーが広告をクリックしたかどうかを監視します。しばらくすると、広告主は、ある広告が他の広告よりも効果が高いように見えることに気づきました。広告主は、最もパフォーマンスの高い広告を使い続けるか、ランダム化調査を継続するかを決定する必要があります。
広告主が 1 つの広告のみを表示すると、他の 2 つの広告に関するデータを収集できなくなります。おそらく他の広告の方が優れている可能性がありますが、それは偶然により悪く見えるだけです。他の 2 つの広告の方が悪い場合は、調査を継続するとクリックスルー率に悪影響を及ぼす可能性があります。この広告トライアルは、不確実性の下での意思決定を例示するものです。
上記の例では、エージェントの役割は広告主によって演じられます。広告主は、1 番目、2 番目、または 3 番目の広告を表示するために、3 つの異なるアクションから選択する必要があります。各広告はアクションです。その広告を選択すると、未知の報酬が得られます。最後に、広告掲載後の広告主の利益が広告主が受け取る報酬となります。
アクション値:
広告主がどのアクションが最適であるかを決定するには、各アクションを実行する価値を定義する必要があります。これらの値は、確率の言語を使用したアクション値関数を使用して定義します。アクションを選択することの価値 q*(a) 期待される報酬として定義されます Rt 行動を起こすときに受け取るもの ある 可能なアクションのセットから。
エージェントの目標は、アクション価値が最も高いアクションを選択することで、期待される報酬を最大化することです。
行動価値の推定:
サルマン・カーンの年齢
アクションを選択する値、すなわち Q*(a) はエージェントには知られていないため、 サンプル平均 それを見積もる方法です。

探索と悪用:
- 貪欲なアクション : エージェントが現在最大の推定値を持つアクションを選択する場合。エージェントは、貪欲なアクションを選択することで、現在の知識を活用します。 非貪欲アクション : エージェントが最大の推定値を選択せず、他のアクションに関するより多くの情報を得るために当面の報酬を犠牲にする場合。探索 : エージェントは各アクションに関する知識を向上させることができます。うまくいけば、長期的な利益につながります。エクスプロイト : エージェントは、短期的な利益に対して最大の報酬を得ようとする貪欲なアクションを選択できます。純粋に貪欲なアクション選択は、次善の動作につながる可能性があります。
エージェントは探索と活用の両方を同時に選択できないため、探索と活用の間にジレンマが発生します。したがって、 信頼限界の上限 探索と活用のジレンマを解決するアルゴリズム
信頼限界の上限アクションの選択:
信頼限界の上限アクションの選択では、探索と活用のバランスを取るためにアクション値の推定の不確実性を利用します。サンプリングされた報酬セットを使用する場合、行動価値の推定の精度には固有の不確実性が存在するため、UCB は推定の不確実性を利用して探索を推進します。

Qt(a) これは現在のアクションの見積もりを表します ある 当時の t 。最も高い推定アクション値に信頼限界探索項を加えたアクションを選択します。

JavaScript文字列のトリミング
Q(A) 上の図は、アクションに対する現在のアクション価値の推定値を表しています。 あ 。括弧は周囲の信頼区間を表します。 Q*(A) これは、アクションの実際のアクション価値が高いと確信していることを意味します。 あ この地域のどこかにあります。
下の括弧は下限と呼ばれ、上の括弧は上限と呼ばれます。括弧内の領域は、推定値の不確実性を表す信頼区間です。領域が非常に小さい場合、アクションの実際の価値が非常に確実になります。 あ 私たちの推定値に近いです。一方で、領域が大きい場合、行動の価値が不確かになります。 あ 私たちの推定値に近いです。
の 信頼限界の上限 これは、ある行動について不確かな場合には、それが正しい行動であると楽観的に想定する必要があることを意味する、不確実性に直面したときの楽観主義の原則に従います。
たとえば、下の図にある不確実性を伴う 4 つのアクションがあるとします。エージェントにはどれが最適なアクションなのかわかりません。したがって、UCB アルゴリズムによれば、最も高い上限を持つアクションを楽観的に選択します。 あ 。これを行うことによって、それが最高の価値を持ち、最高の報酬を得ることができるか、あるいはそれを実行することによって、私たちがほとんど知らないアクションについて学ぶことができるようになります。

アクションを選択した後だと仮定しましょう あ 最終的には下の図に示す状態になります。今回はUCBがアクションを選択します B 以来 Q(B) は、信頼区間が小さいにもかかわらず、アクション価値の推定値が最も高いため、信頼限界の上限が最も高くなります。

当初、UCB は体系的に不確実性を軽減するためにさらに調査を行いますが、時間の経過とともにその調査は減少します。したがって、UCB は、Epsilon-greedy、Optimistic Initial Values などの他のアルゴリズムよりも平均して大きな報酬を獲得していると言えます。