6.4 マルチエージェント強化学習

by user

on 28 марта 2017

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 6.4 マルチエージェント強化学習

Transcript

6.4 マルチエージェント強化学習

6.4 マルチエージェント強化学習
03.07.07
適応システム論第１３回
41
03.07.07
適応システム論第１３回
42
03.07.07
適応システム論第１３回
43
03.07.07
適応システム論第１３回
44
03.07.07
適応システム論第１３回
45
03.07.07
適応システム論第１３回
46
03.07.07
適応システム論第１３回
47
03.07.07
適応システム論第１３回
48
03.07.07
適応システム論第１３回
49
03.07.07
適応システム論第１３回
50
03.07.07
適応システム論第１３回
51
７．人工生命
Tierra
形態の進化
人工生命

Artificial Life (ALife)

1987 第１回人工生命国際会議（ロスアラモス）
C. G. Langton
人工生命は、自然な生命系の特徴を有する人工システ
ムに関する研究であり、生命のような行動を、計算機上
などで合成しようとする中で、従来の分析を中心とした生
命科学を補完する。対象を、炭素ベースの生命から拡大
することによって、人工生命の研究は「我々の知っている
生命（life-as-we-know-it）」から「生命のあり得る姿（lifeas-it-could-be）」へと広がってゆく。
http://www2.create.human.nagoyau.ac.jp/~ari/stuff/alifesoft.html
03.07.07
適応システム論第１３回
53
人工生命の特徴（Langton）

単純なプログラム（構成要素）の集合からなる
他の構成要素すべてに指示を出す構成要素は存
在しない
各々の要素は、その置かれた局所的環境でどのよ
うに反応するかの定義を持っている
システム全体の挙動を決定するルールは保持して
いない
よって、いかなる全体的な挙動も創発的
（emergent）なものである
03.07.07
適応システム論第１３回
54
創発（emergence）
自律的に振る舞う個体（要素）間の局所的な相
互作用が大域的な秩序を発現し，一方こうし
てできる大域的な秩序が個体の振る舞いを
拘束する双方向の動的過程により，新しい機
能や形質，行動などが誘発されること．
進化，発生，形態形成などの生命現象
動物の適応的行動，集団としての協調行動
非平衡解放系での相転移，分岐現象
社会・経済システムにおける構造改革

03.07.07
適応システム論第１３回
55
国際会議

ALife: Aritificial Life, 89～
ECAL: European Conference on Artificial
Life, 92～
SAB: International Conference on
Simulation of Adaptive Behavior, (From
Animals to Animats), 91～
03.07.07
適応システム論第１３回
56
人工生命の対象

進化（遺伝的アルゴリズムなど）
学習（ニューラルネット、強化学習など）
知覚ー運動系（自律ロボット）
集団行動（蟻の行列、ロボット群の協調）
社会システム、芸術、などなど

魅力的なトピックス・キーワード群
理学？工学？

学問としての成立哲学的な課題
03.07.07
適応システム論第１３回
57
7.1 Tierra

計算機上の人工生命

エネルギー → CPU time
マテリアル → memory
自己複製 → プログラムのコピー
Tomas Ray, 1991

MIMD（仮想）並列計算機上で実現
３２種（５ビット）命令体系
ジャンプアドレスはテンプレート照合

03.07.07
jmp nop-0 nop-0 nop-1は nop-1 nop-1 nop-0に照合
この工夫が後々に本質的に効いてくる
適応システム論第１３回
58

Memory Allocation

各個体はRAM上にmemoryを必要とする

Time Sharing

生物のサイズ（プログラム長）に対して一定の割合
Mortality

他の個体によって書き換えられることは無い
他の個体によって実行されることはありうる
環境（RAM）が一杯になったら一定の割合で間引く。
Mutation

Bitの反転

（１）環境全体に一定の割合で（宇宙線）
（２）複製時に一定の割合で
コードの実行ミス。数の揺らぎ。メモリを多めに、など。
Ancestor

祖先

すべての祖先
複製のみの機能
ハンドコーディング
03.07.07
適応システム論第１３回
60
仮想機械
03.07.07
適応システム論第１３回
61
Ancestor
03.07.07
適応システム論第１３回
62
最小replicator
03.07.07
適応システム論第１３回
63
寄生
自分自身は
非常にコンパクト
他の個体の
複製ルーチン
を借用
ウイルスのような寄生
parasite
03.07.07
適応システム論第１３回
64

Parasite耐性の獲得

耐性への対抗

コピー手続きのテンプレート（番地）変更
テンプレート発見。変更／発見の繰り返し
Hyperparasite

コピー手続きに自分のコードの絶対番地

03.07.07
parasiteがコピー手続きを無断借用しようとすると、逆
に宿主がコピーされる
parasiteのCPU timeを使って宿主が増殖
適応システム論第１３回
65
Tierraのまとめ

強い人工生命

進化エンジンとしてのGA

life-as-it-could-be
仮想並列計算機のコード
短いコードほど高い適応度
突然変異中心
host-parasite共進化
ネットワークTierra

進化の場をネットワーク上に
03.07.07
適応システム論第１３回
66
7.2 形態と行動の共進化

Karl Sims 96

２つの生物がcubeを奪い合う

03.07.07
適応度＝相手とCubeの距離－自分とCubeの距離
適応システム論第１３回
67
対戦形式
ｄ、ｇが面白い結果
03.07.07
適応システム論第１３回
68
形態

遺伝子型

有向グラフ
循環OK
ノード＝部品

関節なら自由度
表現型

生物の形態
03.07.07
適応システム論第１３回
69
行動

Sensor

Neurons

関節角度、接触、フォトセンサ
ニューラル
ネット
Effectors

関節の制御
03.07.07
適応システム論第１３回
70
03.07.07
適応システム論第１３回
71
03.07.07
適応システム論第１３回
72
進化

mutation

mating

ノードのパラメータの変化／ノードの追加
接続パラメータの変化／接続の追加・削除
接続の無い要素のごみ集め
交叉、グラフの組合せ
接木
世代交代

集団サイズ３００、生き残り１／５
03.07.07
適応システム論第１３回
73
03.07.07
適応システム論第１３回
74
03.07.07
適応システム論第１３回
75
Simsの以前の仕事
形態と行動の進化
最適化として
03.07.07
適応システム論第１３回
76
形態と行動の進化のまとめ

形態

行動

有向グラフ表現
センサー、ニューラルネット、アクチュエータ
共進化

対戦により適応度を計算
03.07.07
適応システム論第１３回
77
まとめ

強化学習

マルチエージェントシステム

強化学習の枠組み
マルコフ決定過程と環境同定型学習
非マルコフ環境と経験強化型学習
強化学習エージェントによる協調の創発
人工生命

プログラムの進化（T. Ray: Tierra）
形態と動作の進化（C. Sims）
03.07.07
適応システム論第１３回
78