...

6.4 マルチエージェント強化学習

by user

on
Category: Documents
19

views

Report

Comments

Transcript

6.4 マルチエージェント強化学習
6.4 マルチエージェント強化学習
03.07.07
適応システム論第13回
41
03.07.07
適応システム論第13回
42
03.07.07
適応システム論第13回
43
03.07.07
適応システム論第13回
44
03.07.07
適応システム論第13回
45
03.07.07
適応システム論第13回
46
03.07.07
適応システム論第13回
47
03.07.07
適応システム論第13回
48
03.07.07
適応システム論第13回
49
03.07.07
適応システム論第13回
50
03.07.07
適応システム論第13回
51
7.人工生命
Tierra
形態の進化
人工生命
„
Artificial Life (ALife)
„
„
„
„
1987 第1回人工生命国際会議(ロスアラモス)
C. G. Langton
人工生命は、自然な生命系の特徴を有する人工システ
ムに関する研究であり、生命のような行動を、計算機上
などで合成しようとする中で、従来の分析を中心とした生
命科学を補完する。対象を、炭素ベースの生命から拡大
することによって、人工生命の研究は「我々の知っている
生命(life-as-we-know-it)」から「生命のあり得る姿(lifeas-it-could-be)」へと広がってゆく。
http://www2.create.human.nagoyau.ac.jp/~ari/stuff/alifesoft.html
03.07.07
適応システム論第13回
53
人工生命の特徴(Langton)
„
„
„
„
„
単純なプログラム(構成要素)の集合からなる
他の構成要素すべてに指示を出す構成要素は存
在しない
各々の要素は、その置かれた局所的環境でどのよ
うに反応するかの定義を持っている
システム全体の挙動を決定するルールは保持して
いない
よって、いかなる全体的な挙動も創発的
(emergent)なものである
03.07.07
適応システム論第13回
54
創発(emergence)
自律的に振る舞う個体(要素)間の局所的な相
互作用が大域的な秩序を発現し,一方こうし
てできる大域的な秩序が個体の振る舞いを
拘束する双方向の動的過程により,新しい機
能や形質,行動などが誘発されること.
進化,発生,形態形成などの生命現象
„ 動物の適応的行動,集団としての協調行動
„ 非平衡解放系での相転移,分岐現象
„ 社会・経済システムにおける構造改革
„
03.07.07
適応システム論第13回
55
国際会議
„
„
„
ALife: Aritificial Life, 89~
ECAL: European Conference on Artificial
Life, 92~
SAB: International Conference on
Simulation of Adaptive Behavior, (From
Animals to Animats), 91~
03.07.07
適応システム論第13回
56
人工生命の対象
„
„
„
„
„
進化(遺伝的アルゴリズムなど)
学習(ニューラルネット、強化学習など)
知覚ー運動系(自律ロボット)
集団行動(蟻の行列、ロボット群の協調)
社会システム、芸術、などなど
„
„
魅力的なトピックス・キーワード群
理学? 工学?
„
学問としての成立哲学的な課題
03.07.07
適応システム論第13回
57
7.1 Tierra
„
計算機上の人工生命
„
„
„
„
エネルギー → CPU time
マテリアル → memory
自己複製 → プログラムのコピー
Tomas Ray, 1991
„
„
„
MIMD(仮想)並列計算機上で実現
32種(5ビット)命令体系
ジャンプアドレスはテンプレート照合
„
„
03.07.07
jmp nop-0 nop-0 nop-1は nop-1 nop-1 nop-0に照合
この工夫が後々に本質的に効いてくる
適応システム論第13回
58
„
Memory Allocation
„
各個体はRAM上にmemoryを必要とする
„
„
„
Time Sharing
„
„
生物のサイズ(プログラム長)に対して一定の割合
Mortality
„
„
他の個体によって書き換えられることは無い
他の個体によって実行されることはありうる
環境(RAM)が一杯になったら一定の割合で間引く。
Mutation
„
Bitの反転
„
„
„
(1)環境全体に一定の割合で(宇宙線)
(2)複製時に一定の割合で
コードの実行ミス。数の揺らぎ。メモリを多めに、など。
Ancestor
„
祖先
„
„
„
すべての祖先
複製のみの機能
ハンドコーディング
03.07.07
適応システム論第13回
60
仮想機械
03.07.07
適応システム論第13回
61
Ancestor
03.07.07
適応システム論第13回
62
最小replicator
03.07.07
適応システム論第13回
63
寄生
自分自身は
非常にコンパクト
他の個体の
複製ルーチン
を借用
ウイルスのような寄生
parasite
03.07.07
適応システム論第13回
64
„
Parasite耐性の獲得
„
„
耐性への対抗
„
„
コピー手続きのテンプレート(番地)変更
テンプレート発見。変更/発見の繰り返し
Hyperparasite
„
コピー手続きに自分のコードの絶対番地
„
„
03.07.07
parasiteがコピー手続きを無断借用しようとすると、逆
に宿主がコピーされる
parasiteのCPU timeを使って宿主が増殖
適応システム論第13回
65
Tierraのまとめ
„
強い人工生命
„
„
進化エンジンとしてのGA
„
„
„
„
„
life-as-it-could-be
仮想並列計算機のコード
短いコードほど高い適応度
突然変異中心
host-parasite共進化
ネットワークTierra
„
進化の場をネットワーク上に
03.07.07
適応システム論第13回
66
7.2 形態と行動の共進化
„
Karl Sims 96
„
2つの生物がcubeを奪い合う
„
03.07.07
適応度=相手とCubeの距離-自分とCubeの距離
適応システム論第13回
67
対戦形式
d、gが面白い結果
03.07.07
適応システム論第13回
68
形態
„
遺伝子型
„
„
„
有向グラフ
循環OK
ノード=部品
„
„
関節なら自由度
表現型
„
生物の形態
03.07.07
適応システム論第13回
69
行動
„
Sensor
„
„
Neurons
„
„
関節角度、接触、フォトセンサ
ニューラル
ネット
Effectors
„
関節の制御
03.07.07
適応システム論第13回
70
03.07.07
適応システム論第13回
71
03.07.07
適応システム論第13回
72
進化
„
mutation
„
„
„
„
mating
„
„
„
ノードのパラメータの変化/ノードの追加
接続パラメータの変化/接続の追加・削除
接続の無い要素のごみ集め
交叉、グラフの組合せ
接木
世代交代
„
集団サイズ300、生き残り1/5
03.07.07
適応システム論第13回
73
03.07.07
適応システム論第13回
74
03.07.07
適応システム論第13回
75
Simsの以前の仕事
形態と行動の進化
最適化として
03.07.07
適応システム論第13回
76
形態と行動の進化のまとめ
„
形態
„
„
行動
„
„
有向グラフ表現
センサー、ニューラルネット、アクチュエータ
共進化
„
対戦により適応度を計算
03.07.07
適応システム論第13回
77
まとめ
„
強化学習
„
„
„
„
マルチエージェントシステム
„
„
強化学習の枠組み
マルコフ決定過程と環境同定型学習
非マルコフ環境と経験強化型学習
強化学習エージェントによる協調の創発
人工生命
„
„
プログラムの進化(T. Ray: Tierra)
形態と動作の進化(C. Sims)
03.07.07
適応システム論第13回
78
Fly UP