大規模状態-行動空間中での強化学習のための動的なタイル・コーディング

by user

on 28-03-2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 大規模状態-行動空間中での強化学習のための動的なタイル・コーディング

Transcript

大規模状態-行動空間中での強化学習のための動的なタイル・コーディング

情報・システムソサイエティ特別企画　学生ポスターセッション予稿集
ISS-P-137
大規模状態-行動空間中での強化学習のための
動的なタイル・コーディング
長澤
俊貴†
敦志†
上野
田窪
朋仁†
† 大阪市立大学大学院工学研究科電子情報系専攻
1. はじめに
各タイルに関する重み係数を用いてタイルの分割を行う．
「次元の呪い」によって学習不能となるなどの問題が存在
強化学習において状態-行動空間が膨大な環境では
状態・行動空間のタイルにおける重みの大きさをそれぞれ
∑
,∑
で表し，この値の大きなタイルを分割する．
する．このような問題を解決するためにランダムタイリングと
・タイルの価値の揺らぎ
Gibbs-ｓａｍｐｌｉｎｇを用いた手法[1]（以下，従来手法）に改
タイルの価値の揺らぎの大きなタイルを分割する．Q 値
良を加えた動的なタイルコーディング手法を提案する．
更新時の TDerror の絶対値を使用された各タイルについ
2.従来手法
て記録し，合計値の大きいものを分割する．
2.1 ランダムタイリングによる一般化
3.2 分割のタイミング
空間にタイルをランダムな大きさで配置し，そのタイリン
タイルの分割・削除は十分学習を行った後に実行する．
グからタイル数の２倍の要素数を持つ特徴量ベクトルを作
成する．状態特徴量ベクトル
および，行動特徴量ベク
分割後は使用回数と価値の揺らぎの合計値は０で初期化
トル
の削除に起因する学習性能の低下を招く．そのため，一
と重みづけ係数
を用いて，Q 値を以下の式で
計算する．
する．複数回のタイル分割・削除は，学習に必要なタイル
定期間ごとの平均獲得報酬が低下したときには，タイル分
割を終了し，最後に行った分割以前のタイリングに戻す．
∑∑
4. 実験
従来手法との比較実験を行った．実験環境は Rod In
Maze と Multi Joint Arm[1]に変更を加えたものを使用した．
実験は各 20 回行い，各実験の平均獲得報酬を比較した．
( は状態のタイル数，は行動のタイル数)
また，Q 値の更新は報酬と遷移先状態での Q 値を用い
て以下の式で実現される．
（は割引率，は学習率）
2.2 Gibbs-sampling による行動選択
注目している次元以外の変数の値を固定し，条件付確
率分布を用いて各次元の行動を選択する．一定回数の反
復後の結果を行動選択とする．大規模な環境では計算量
が従来の行動選択手法と比較して大幅に削減される．
3. 提案手法
図１．Rod In Maze の結果
図２．Multi Joint Arm の結果
以下に示すヒューリスティクスを用いたランダムタイルの
実験結果より Rod In Maze では，重みの大きさと重みの
分割・削除を行う．分割は固定数で行い，タイルを構成す
揺らぎを用いた手法の性能が向上し，Multi Joint Arm では
る次元要素中の最大の幅を持つ次元を２つに等分割する．
重みの揺らぎを用いた手法で性能が向上した．
また，計算量が増大することを防ぐために使用回数の少な
5. まとめ
いタイルを分割したタイルと同じ数だけ削除する．
提案手法では，従来手法よりも性能が向上することが確
3.1 ヒューリスティクス
認できたが，実験ごとに性能が向上したヒューリスティクス
・タイルの使用回数
が異なる．各ヒューリスティクスがどのような問題に特に有
タイルが使用された回数を用いてタイルを分割する．状
態での行動選択において使用されたタイルを記録し，
[１] 木村元:ランダムタイリングと Gibbs-sampling を用いた
多次元状態-行動空間における強化学習:計測自動制御学会論
文集, Vol.42, No.12 (2006)
使用回数が多いものを分割する．
・タイルに関する重みの大きさ
2014/3/18 〜 20　新潟市
用にはたらくのかを調査する必要がある．
参考文献
-37-
Copyright © 2014 IEICE

大規模状態-行動空間中での強化学習のための 動的なタイル・コーディング

Comments

Description

Transcript

大規模状態-行動空間中での強化学習のための動的なタイル・コーディング