Comments
Description
Transcript
バンディット問題の拡張について - 基盤(S)離散構造処理系プロジェクト
1 北海道大学 Hokkaido University bandit 問題の拡張について 北海道大学情報科学研究科 中村篤祥 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 2 multi-armed bandit 問題とは スロットマシンID 1 2 K ... 時刻tにおける x1(t) 報酬(reward) x2(t) xK(t) 各時刻t(=1,2,…)においてplayerは以下のことを行う。 playerは知らない (選んだスロットマシンにつ いてのみ知ることができる) 1. K台のスロットマシンから1台のスロットマシンitを選ぶ。 2. 選ばれたスロットマシンitから報酬 x it ( t ) を得る。 総利得 x it ( t ) を最大化するためには各時刻においてどのようにスロットマシン t を選べばよいか? 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 3 確率的なmulti-armed bandit 問題 スロットマシンID 1 2 K ... 成功確率 報酬 θ1 x1(t) θ2 x2(t) playerは知らない 時刻によらず一定 θk xK(t) 1 if success xi (t ) if fail 0 •x1(t), x2(t),…,xK(t)は独立 • xi(1), xi(2),…は未知の成功確率θiのBernulli process 目標1 expected total discounted reward t 1 γ E( xit (t )) の最大化 (0<γ<1) t 1 目標2 与えられた時刻Tまでの総利得 2010/05/08 T x t 1 it ( t ) の最大化 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 4 確率的なmulti-armed bandit問題の戦略 ・Gittins Indexが最大のスロットマシンを選ぶ 成功、失敗回数がα、βであるようなスロットのGittins Index G(α,β) 以下のような確率p:成功確率がpであるとわかっているスロットマシン1と、 (成功回数,失敗回数)=(α,β)であるような成功確率未知のスロットマシン2 があったとき、時刻t=1にどちらのスロットマシンを選んでも、 optimal expected total discounted rewardが同じになるようなp expected total discounted rewardを最大化する戦略 [ Gittins and Jones 1974] ・ε-greedy [Sutton & Barto 1998] 1-εの確率でそれまでの平均報酬が最大のマシンを選び、 εの確率でランダムに選ぶ。 ・UCB1 [Auer, Cesa-Bianchi and Fisher 2002] 時刻tに x j 2010/05/08 囲碁プログラムのモンテカルロ木探 索に用いられて著名になった。 2 ln t が最大のマシンjを選ぶ。 x j :マシンjのそれまでの平均報酬 nj n j :マシンjをそれまでに選んだ回数 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 5 adversarial bandit 問題 スロットマシンID 1 2 [Auer et al. 2002] K ... xi(t)∈[0,1] for all i=1,2,…,K 時刻tにおける x1(t) 報酬(reward) 悪魔が選ぶ。 playerは知らない 各時刻t(=1,2,…,T)においてplayerは以下のことを行う。 x2(t) xK(t) 1. K台のスロットマシンから1台のスロットマシンitを選ぶ。 2. 選ばれたスロットマシンitから報酬 x it ( t ) を得る。 T GA (T ) x it ( t ) : (乱択)アルゴリズムの時刻Tにおける総利得 t 1 期待総利得 E(GA (T)) が大きなアルゴリズムAは? 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 6 乱択アルゴリズムExp3 [Auer et al. 2002] // exponential-weight algorithm Algorithm Exp3 for exploration and exploitation Parameter: γ∈(0,1] Initialization: wi(1)←1 for i=1,2,…,K for t=1 to T 1. pi ( t ) (1 γ) w i (t) k w (t ) j1 γ for i 1,..., K K j 2. itをp1(t),…,pk(t)の分布に従ってランダムに選ぶ 3. 報酬 xit ( t ) [0,1] を得る 4. for j=1,…,k x j(t)/p j(t) if j it x̂ j ( t ) otherwise 0 w j ( t 1) w j ( t ) exp(γx̂ j ( t ) / K ) 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 7 Exp3のexpected (weak) regret [Auer et al. 2002] T 1つのスロットマシンを選び続けた場合の総利得の最大値 Gmax (T ) max x j ( t ) j t 1 と比べて平均的にどのくらい後悔するかをGmax(T)-E[GExp3(T)]で測ると min1, K lnK のとき (e 1)T Gmax (T) E[GExp3 (T)] ≦ 2.63 TK lnK (xj(t)∈[0,1]なので、Gmax(T)-GExp3(T)≦Tが成り立つことに注意。) また、ある報酬割当分布が存在し、どのような乱択アルゴリズムAに対しても E[Gmax (T) GA (T)] 1 min TK , T 20 が成り立つ。ただし、期待値は報酬割当とアルゴリズムの乱択の両方に関して とるものとする。 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 8 online linear optimization 問題 [McMahan and Blum 2004] K⊆Rn :コンパクト閉凸集合 xt∈Rn 時刻tにおける 報酬ベクトル 悪魔が選ぶ。 playerは知らない 各時刻t(=1,2,…,T)においてplayerは以下のことを行う。 xt 1. Kから1点qtを選ぶ 2. 選ばれた点qtに対する利得 xt・qt を得る。 T GA (T ) x t qt : (乱択)アルゴリズムの時刻Tにおける総利得 t 1 期待総利得 E(GA (T)) が大きなアルゴリズムAは? 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 9 Abernethyらのアルゴリズム [Abernethy et al. 2008] Algorithm BOLO (仮称) // Bandit Online Linear Optimization Input: η>0, θ-self-concordant R Initialization: q1 argminqK R (q) for t=1 to T 1. {e1,e2,…,en}←∇2R(qt)の固有ベクトル {λ1,λ2,…,λn}← ∇2R(qt)の固有値 2. itを{1,2,…,n}からランダムに選ぶ。 εtを{-1,1}からランダムに選ぶ。 3. rt qt t it 1 / 2eit 4. 報酬 xt・rt を得る。 5. 次のように更新する。 1/ 2 xˆ t n( x t rt ) t it eit t qt 1 argminqK xˆ t q R (q) s 1 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 10 BOLOのexpected regretの上界 T maxqK E( x t q) E(GBOLO (T)) O n T ln T t 1 ln T , T 8 ln Tのとき 4n T 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 11 インターネット広告はbandit問題 広告枠 スポーツページには どの広告を出したら T回の表示で最も多 くクリックされるか? player=広告配信システム 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 12 multiple play設定 広告枠は複数 1回のプレイでk個選択 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 13 FExp3-k (Exp3のmultiple play 拡張版) Algorithm FExp3 Parameter: γ∈(0,1] Initialization: wi(1)←1 for i=1,2,…,K for t=1 to T K 1 1. if argmaxj{1,2,...,K } w j ( t ) w i ( t ) (1 ) then k K i1 t 1 (1 ) を満たすαtをもとめる。 t w i (t) k K w i ( t ) t w i ( t ) t S0 (t ) {i : w i (t ) t }, w'i (t ) t for i S0 (t ) else S0←φ 2. w'i (t ) w i (t ) for i {1,2,..., K} S0 (t ) 3. w 'i ( t ) γ pi ( t ) k (1 γ) K for i 1,..., K w' j (t ) K j 1 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 14 FExp3-k つづき(Exp3のmultiple play 拡張版) 4. S(t)←iが選ばれる確率がpi(t) になるように{1,2,…,K}からk個選択 5. 報酬xi(t)∈[0,1] for i∈S(t)を得る 6. for j=1,…,k x j(t)/p j(t) if j S( t ) x̂ j ( t ) otherwise 0 w j ( t ) exp(kγx̂ j ( t ) / K ) if j S0 ( t ) w j ( t 1) w j (t) otherwise 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 15 FExp3のexpected (weak) regret 同じk個のスロットマシンを選び続けた場合の総利得の最大値 Gmax k (T ) T max S {1,2,...,K },|S|k x (t) jS t 1 j と比べると K Gmax k (T) E[GFExp 3 (T)] ≦ 2.63 kTK ln k min1, K ln(K / k ) のとき (e 1)kT また、ある報酬割当分布が存在し、どのような乱択アルゴリズムAに対しても 2 1 K k K k E[Gmax k (T ) GA (T )] min kT TK , 8K 5 K が成り立つ。ただし、期待値は報酬割当とアルゴリズムの乱択の両方に関して とるものとする。 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム 北海道大学 Hokkaido University 16 今後の拡張について 協調フィルタリングのbanditモデル ユーザの好みはいくつかの好みのタイプの混合として表現で きると仮定して、最適な混合割合と比べた場合、リグレットが 少ない方法を考案する。 情報検索のbanditモデル 1回にk個ずつ結果が提示されるとしてT回までみるとした場 合に最も多く欲しいものが含まれている結果提示方法は?適 合度フィードバックしながら適度に良い結果を返す。低次元の 学習問題にどのように落とすか。 2010/05/08 ERATO湊離散構造プロジェクトキックオフシンポジウム