目的関数

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download 目的関数

Transcript

目的関数

Takanori Watanabe
Penn Med, Radiology
自己紹介 (Who am I?)
• 氏名：渡辺貴則（わたなべたかのり）
• 所属：Penn Medicine Postdoctoral Fellow
• 所属(前)：University of Michigan、BS・MS・PhD
電気工学・コンピューターサイエンス専攻
自己紹介 (Who am I?)
専門：Machine Learning + NeuroImaging
• MLを脳画像に応用し、脳の病気のメカニズムを解析
– 精神病（Schizophrenia・PTSD)
– 神経発達障害（ADHD・Autism）
– 脳損傷（Traumatic Brain Injury from Concussion）
ただいまの研究テーマ・興味
大まかな研究興味
脳の世界 (physical)と精神の世界(mental)の間に
埋もれたパターンや、繋がりについて考えること
脳の物理的な世界
精神の世界
記憶・心・感情・人格
psychiatric condition
脳の支障が、精神に与える影響はどんなものか・・
精神病が脳の中で、測定可能なシグナルとして現れるの
かどうか・・
Personal History
0歳 2歳
14歳 15歳
18歳
去年の
夏からPenn
名古屋
愛知の近所の
名古屋
インターナショナル
中学校
スクール
（9月ー3月）
デトロイト・ミシガン州
ミシガン大学 (Ann Arbor)
ではでは、はじめましょう
このGoogle Trendのグラフは何でしょう？
2007年
https://www.google.com/trends/
2011年
2015年
このGoogle Trendのグラフは何でしょう？
2007年
https://www.google.com/trends/
2011年
2015年
このGoogle Trendのグラフは何でしょう？
2007年
https://www.google.com/trends/
2011年
2015年
このGoogle Trendのグラフは何でしょう？
2005年
https://www.google.com/trends/
2010年
2015年
何が言いたいかというと・・・
ミシガン大学院
マシーン・ラーニング
クラス生徒数
300
今マシーン・ラーニング
がアツイ！！！
250
200
150
100
50
0
2011 2013 2016
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
適用分野はたくさん！
• データから「有用な」パターンを掘り出し、
判断基準を抽出
• データがあれば、どこでも使える
文字認識
音声認識
スパム判定
医療診断
金融
商品推薦
顔認識
ネットワーク
解析
ソーシャル・ネットワーク
「コミュニティー」検出
機械学習の進化 – ゲーム編
高いほど良い
http://blog.livedoor.jp/yss_fpga/archives/53897129.html
2016年は？？
http://www.bloomberg.com/news/articles/2016-03-12/google-s-software-wins-tournament-against-go-game-champion
なんで今マシーン・ラーニングが
注目されてるの？
インターネットの普及でデータがいっぱい！！
ビッグ・データと機械学習
• 巨大なデータがあらゆる分野で
恐ろしいペースで生まれている
一分間に生産される
データ量
(2015年時)
機械学習では
データが大事！
https://www.domo.com/blog/2015/08/data-never-sleeps-3-0/
並列計算技術の向上とGPU計算
• 直列計算 (Serial Computing)
データ
• 並列計算 (Parallel Computing)
MapReduce 手法
データ
CPU
CPU/GPU
クラウドサービス
ディープ・ラーニング（DL)の爆発的な成功例
音声認識のミス率 (Speech Recognition)
10年停滞してた精度が
一気に30％向上
今のGoogle・Microsoftなどの
音声認識プログラムはDLによるもの
最新のディープ・ラーニングのできること
かなり具体的な質問に答えれる
http://cvlab.postech.ac.kr/research/dppnet/
グーグルの学習済みのディープ・ラーニング
モデルに好きな画像をアップロードもできる
http://deepdreamgenerator.com/
ただ、注意が必要
• やつらはとても恐ろしい「学習モデル」を返してくる
下の例は、まだまだかわいい方
• 演者みたいなチキン・ハートは、「Deep Dream」と
いうフレーズをググらないように
ディープ・ラーニングを使ったAI競争
機械学習・データサイエンス – 関連分野
わたなべ・タカノリの個人的見解
最適化問題
プログラミング
（Optimization Theory)
（Computer Science)
線型代数学
データベース管理
（Linear Algebra)
確立・統計論
（Probability Theory
and Statistics)
（Database Management)
プレゼン方式: 「数式よりも直感」
• 初めて「マシーン・ラーニング」を聞いた人向け
• 数式よりも、イメージを重視
パワポで数式打つのがめんどいから[Latex派]
直感・Intuitionをまず磨かないと、数式の細かい内容に溺れるだけから
• できるだけ図式に重点
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Network Data, Social Network, Connectomics, ADHD,Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Network Data, Social Network, Connectomics, ADHD,Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
マシーン・ラーニングって
裏でなにやってんの？
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Network Data, Social Network, Connectomics, ADHD,Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
たかのりって
裏でなにやってんの？
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Connectomes, Network Data, ADHD, Schizophrenia, Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
人工ニューラルネットワークが再び
アツイ！一体どうして？？
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Connectomes, Network Data, ADHD, Schizophrenia, Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
マシーン・ラーニングって
裏でなにやってんの？
機械学習の厳格な定義
トム・ミッチェル教授
（カーネギー・メロン大）
「コンピュータプログラムが、ある種の
タスクTと評価尺度Pにおいて、経験Eから学
習するとは、タスクTにおけるその性能をP
によって評価した際に、経験Eによって
それが改善されている場合である」
なるほど、わからん
What I feel like I just read
＊ドラえもん10巻 (てんとう虫コミックス) ISBN-10: 4091400108
本日の目標
ミッチェル教授の機械学習の定義が一体
どういう意味なのかみんなで
「人間学習」しよう
「コンピュータプログラムが、ある種の
タスクTと評価尺度Pにおいて、経験Eから学
習するとは、タスクTにおけるその性能をP
によって評価した際に、経験Eによって
それが改善されている場合である」
そもそも「学習」の定義って何？
Herbert Simon
Learning is any process by which a system
improves performance from experience
Tom Mitchell
コンピュータプログラムが、ある種のタスクTと
評価尺度Pにおいて、経験Eから学習するとは・・
タスクTにおけるその性能をPによって評価した際に、経験E
によってそれが改善されている場合
T (タスク) = やろうとしていること（例：音声認識）
E (経験) = データ (例：音声データ）
P (性能・評価尺度) = 正解率
つまり・・・（Informally)
タスクTにおけるその性能をPによって評価した際に、
経験Eによってそれが改善されている場合
コンピューターにデータ(E)を見せて
タスク(T)の性能(P)を上げる
T (タスク) = やりたいこと・目的
E (経験) = データ
P (性能) = 正解率、損失関数、目的関数
スパム・フィルター
T (タスク) = メールがスパムか識別
E (経験) = スパムデータ（人に認定され
たもの[Amazon Crowd-sourcing]）
P (性能) = 正解率
つまり・・・（Informally)
タスクTにおけるその性能をPによって評価した際に、
経験Eによってそれが改善されている場合
コンピューターにデータ(E)を見せて
タスク(T)の性能(P)を上げる
T (タスク) = やりたいこと・目的
E (経験) = データ
P (性能) = 正解率、損失関数、目的関数
チェッカー
T (タスク) = チェッカーゲーム
E (経験) = 自動ゲームモード
P (性能) = 勝率
機械学習を図に表すと・・・
• 経験(データ)を学習して、賢くなるプログラム
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
機械学習を図に表すと・・・
• 経験(データ)を学習して、賢くなるプログラム
– データの中から知識・ルールを自動獲得する
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
機械学習を図に表すと・・・
• 経験(データ)を学習して、賢くなるプログラム
– データの中から知識・ルールを自動獲得する
– 未知のデータに「学習した」知識を応用
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
おや、こいつは
見たことがないぞ？
未知データ
(Testing Data)
分類ルール
機械学習を図に表すと・・・
• 経験(データ)を学習して、賢くなるプログラム
– データの中から知識・ルールを自動獲得する
– 未知のデータに「学習した」知識を応用
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
「学習」が成功してれば
識別可能
未知データ
(Testing Data)
＊写真はイメージです。実際のマシーン・ラーニングと異なる場合がありますのでご注意ください
教師あり vs. 教師なし学習
教師あり学習(Supervised Learning)
• データが入力と出力のぺアからなる
出力 (output) = 予測すべきものの正解
教師なし学習(Unsupervised Learning)
• データは入力のみ
入力(input) だけを見て、なんらかのパターンを検出
酸度
入力 (input)
問題設定(教師あり)
出力・正解
(output)
入力 = ワインの酸度と塩化レベル
出力＝ワインの種類
白ワイン
赤ワイン
目的例: 赤ワイン VS 白ワイン
の分類ルールを学習
Classification Problem
分類境界線
塩化レベル
教師あり vs. 教師なし学習
教師あり学習(Supervised Learning)
• データが入力と出力のぺアからなる
出力 (output) = 予測すべきものの正解
教師なし学習(Unsupervised Learning)
• データは入力のみ
入力(input) だけを見て、なんらかのパターンを検出
酸度
入力 (input)
問題設定(教師なし)
入力 = ワインの酸度と塩化レベル
出力＝ワインの種類
？？？
目的例:入力だけを見て、ワイン
の種類をグループ分けしよう
塩化レベル
教師あり vs. 教師なし学習
教師あり学習(Supervised Learning)
• データが入力と出力のぺアからなる
出力 (output) = 予測すべきものの正解
教師なし学習(Unsupervised Learning)
• データは入力のみ
商品推薦とか
に応用できる
入力(input) だけを見て、なんらかのパターンを検出
酸度
問題設定(教師なし)
入力 = ワインの酸度と塩化レベル
出力＝ワインの種類
入力 (input)
これが好きな人には
これをオススメ
フルーティ
辛口
濃厚
目的例:入力だけを見て、ワイン
の種類をグループ分けしよう
Clustering Problem
塩化レベル
代表的な教師あり学習
回帰分析 (regression analysis)
• 出力が数値 (continuous)
例：気温＝24.3度、体脂肪率＝15.3％、糖分＝0.321グラム、Fractional anisotropy=0.821
クラス分類 (classification problem)
• 出力が個別的・カテゴリー分けされている (discrete)
例：病状＝ADHD or 正常、 Digit=0,1,2,3,...,10、弁当の売り上げ＝0個、1個、2個・・・
代表的な教師あり学習
回帰分析 (regression analysis)
• 出力が数値 (continuous)
例：気温＝24.3度、体脂肪率＝15.3％、糖分＝0.321グラム、Fractional anisotropy=0.821
学習された
「予測線」
未来株価の予測
出力＝株価
Stock Price
入力＝日付
https://www.google.com/finance
＊写真はイメージです。実際は日付けだけじゃなく、株価に関する全情報を入力します。
代表的な教師あり学習
クラス分類 (classification problem)
• 出力が個別的・カテゴリー分けされている (discrete)
例：病状＝ADHD or 正常、 Digit=0,1,2,3,...,10、弁当の売り上げ＝0個、1個、2個・・・
物体認識・Object Recognition
学習データ(Training data)
車
バイク
未知データ
(Test data)
車？バイク？
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
この中で一体何が・・・？
分類ルール
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
この中で一体何が・・・？
1. 特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
分類ルール
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
この中で一体何が・・・？
1. 特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
データの「特徴」を
どう数値で表すか
数字にしないとコンピューターが読み込めないしね・・
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
分類ルール
この中で一体何が・・・？
1. 特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
どうやって、評価尺度・
性能を「最高」にするか
機械学習の２つの最重要ファクター
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
この中で一体何が・・・？
1. 特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
どっちの分類ルールの
方が「評価」高い？
（上か下どっち？）
分類ルール
機械学習の中身
1.特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
機械学習の中身
1.特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
特徴抽出(Feature Extraction)
• データから「特徴」を抽出し、ベクトル(数値)で表す
– 「特徴」の候補はたくさん！！！
– どの「特徴」が有用なのかは、目的による・・・
例：スパム処理のための、「Bag of words」
–
–
文章の特徴を表しそうな単語（特徴語）を何個か事前に決める
単語の頻度をカウントし、文書をベクトルで表現
特徴ベクトル
今だけ
儲かる
𝒙＝
楽に
出会い系
⋮
ダイエット
＝
3
2
2
0
⋮
1
特徴抽出後のデータ形式・フォーマット
• 教師なし学習の場合
• 教師あり学習の場合
応用例
ワインの特徴からテイスト分類
特徴ベクトル・説明変数
ワイン１
ワイン２
学習データ
(行の数=サンプル数)
ワイン３
⋮
⋮
特徴抽出後のデータ形式・フォーマット
• 教師なし学習の場合
• 教師あり学習の場合
応用例
ワインの特徴から評価を推測
特徴ベクトル・説明変数
興味ある方は、こちらでデータを
ダウンロード！！ (or send me an email)
ワイン１
ワイン２
学習データ
(行の数=サンプル数)
ワイン３
⋮
https://archive.ics.uci.edu/ml/datasets/Wine+Quality
⋮
目的変数
どうやって特徴抽出するの？
特徴抽出その一：人の労力を使う
(手法抽出・hand-crafted feature)
• 目的：「猫・犬・マグカップ・帽子」を分類！
どんな特徴がいいかな？
特徴ベクトル
学習データ
𝑥=
ひげある？
目ある？
しっぽある？
楕円形？
ハンドルある？
景色は外？
テーブルに乗ってる？
学習した機械
「たぶん犬だなこりゃ」
=
0
1
1
0
0
1
0
特徴抽出その一：人の労力を使う
(手法抽出・hand-crafted feature)
ひげある？
𝒙＝
目ある？
⋮
テーブルの上？
• Human Errorの可能性が・・・
• Laborコスト的に・・・
• 特徴が特定の目的内容に依存しすぎ
– 例えば、「じゃあ今度はパンダかクジラかを学習してよ」
・・・となったら、特徴抽出をゼロからやり直し・・・
𝑥1
𝑥2
＝ ⋮
𝑥𝑑
特徴抽出その二：計測値をそのまま使う
例：写真で撮った画像をそのまま入力
• この方法は結構ポピュラー (有用な特徴が分からない場合とか)
注意点：特徴の数が多いと、学習が難しくなる
人間が見えるもの
特徴ベクトル
機械が見えるもの
𝒙=
23
151
32
⋮
12
=
ピクセル1
ピクセル2
ピクセル3
⋮
ピクセル𝑑
𝑑 =「次元数」
(dimension)
特徴抽出その三：特徴を学習
(Feature Learning)
アイディア
• あらかじめ重要な「特徴要素」が分からないなら、
入力データから学習しよう
• マシーン・ラーナーの職人技・研究領域！！
複雑なデータから何を取り出したいかを、数学的にモデリング
• ここ数年、ディープ・ラーニングによる革命が!!
詳細は後述
特徴学習の応用例：物体認識
(Object Recognition)
入力画像
ピクセル単位だと
分類が実にムズイ・・・
ピクセル2
バイク
非バイク
ピクセル1
特徴学習の応用例：物体認識
(Object Recognition)
入力画像
ハンドル
特徴学習
車輪
ぶ・分類しやすい・・・
ピクセル2
分類ルール
ハンドル
バイク
非バイク
ピクセル1
車輪
Computer Visionの特徴学習
(専門的な研究分野)
SIFT
HoG
Textons
Spin image
RIFT
GLOH
音声データからの特徴学習
(専門的な研究分野)
Spectrogram
Flux
MFCC
ZCR
Rolloff
特徴抽出においての注意点
目的に関係ない「特徴要素」はただのノイズ
• 全くデタラメな知識を「学習」させてしまう危険性があがる
応用分野の専門家の意見が重要となる(コラボが大事)
• 例: 神経医学者「自閉症では脳のこの部分に異常が起きるよ」
あらかじめ大切な「要素」が分からない場合
• 理想：学習データをできるだけ増やす…
• 現実：それができないケースが多い
例：医療データはサンプル数・被験者数が大変限られてる
• 研究領域：正則化(regularization)という手法を使う
僕の研究課題は、新しい正則化手法の開発がほとんど・・・
特徴抽出
まとめ
特徴抽出方法 (Feature extraction method)
• 機械学習において、常に活発な研究分野
T (タスク)
P (性能・評価尺度)
E (経験)
入力データ
入力データ
マシーン・ラーニング
（学習アルゴリズム）
特徴抽出
学習ルール
？
学習ルール
機械学習の中身
1.特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
入力
データ
特徴抽出
？
学習
ルール
MLの定義と最適化の関連性
コンピューターにデータ(E)を
見せて
タスク(T)の性能(P)を上げる
T (タスク) = 目的（例：音声認識）
E (経験) = データ (例：音声データ）
P (性能・評価尺度)
T (タスク)のP (性能)を最高にしたい！！
じゃあ、P (性能)を数値で表す必要がある
性能を数値化
コンピューターにこの
数値を最大化させる
では、どうやって性能(P)の数値化する？
目的関数の設定
目的関数
(Objective Function)
目的関数とは、データ(E)と機械モデル(T)
との間の一致、または不一致の尺度(P)
高いほどいい
低いほどいい
目的関数のチョイスは、タスク・目的の内容による
•
•
教師つき？教師なし？
回帰問題？分類問題？
クラスタリング問題？
目的関数の例：残差平方和
(Sum of Squared Error)
設定：気温で、アイスクリームの売り上げを予測
• 回帰問題 (Regression Problem)
下の予測線と測定値の一致度を数値でどう表す？
学習データの残差の二乗を全部足してみたらいかが？
アイスクリーム
売り上げ (円)
15000
7月21日の売り上げ
測定値=(22℃, 10821円)
残差(エラー)
予測値 − 測定値
回帰直線に
よる予測線
2月21日の売り上げ
測定値=(12℃, 6321円)
10000
5000
10
20
30
気温 (℃)
目的関数の例：残差平方和
(Sum of Squared Error)
線形最小二乗回帰 (Linear Least squares regression)
• 下の目的関数の最小させる予測線
残差平方和= 残差1
2
+ 残差2
2
+ ⋯ + 残差𝑛
アイスクリーム
売り上げ (円)
15000
回帰直線に
よる予測線
10000
5000
10
20
30
気温 (℃)
2
どうやって目的関数を最大化するの？
これを答えるには
目的関数をコントロールする
「モデル」
という概念を紹介する必要が
モデル = 機械の設定を調整するノブ
目的関数 f(w)
• インプット：学習データと、タスクのモデル (w)
• アウトプット：一致・不一致の尺度(モデルの性能)
学習データ
目的関数 f(w)
「モデル」のイメージ
機械の設定を調整するノブ
(Tuning Knob)
モデル (w)
性能 P
最適化とは
このノブをうまく
調整すること
さっきのLinear Least squaresの最適化過程
（うまくチューニングしようとしてる過程）
モデル (w)
さっきのLinear Least squaresの最適化過程
（うまくチューニングしようとしてる過程）
モデル (w)
モデルの種類
おおざっぱに分けると、2種類ある
線形モデル (Linear model)
非線形モデル (Nonlinear)
• 非常に解釈がしやすい
• モデルの解釈が困難
• 調整がムズカシイ
モデル解釈は、医療応用にはすごく大事
• 調整が楽
• シンプルだけど、強力
人工ネットワークが停滞した大きな理由
• 線形モデルで分類できないもの
も分類可能
ただし、これは調整が成功した場合のみ…
線形
非線形
非線形
(調整失敗)
線形モデルについてちょっとだけ・・・
(重みベクトルの紹介)
線形モデルと重みベクトル (weight vector)
線形モデルは、重みベクトルｗで表現ができる
• 重みベクトルの次元数は、特徴ベクトルと同じ
• 線形モデルの「予測」= 特徴ベクトルと重みベクトルと
の間のドット積(dot product)
特徴ベクトル
𝒙=
𝑥1
𝑥2
⋮
𝑥𝑑
重みベクトル
𝒘=
𝑤1
𝑤2
⋮
𝑤𝑑
ドット積
𝑥1 𝑤1 + 𝑥2 𝑤2 + ⋯ + 𝑥𝑑 𝑤𝑑
特徴要素1の重み
特徴要素２の重み
特徴要素１の予測に対しての
重要性という解釈ができる
線形モデルと重みベクトル (weight vector)
線形モデルは、重みベクトルｗで表現ができる
• 重みベクトルの次元数は、特徴ベクトルと同じ
• 線形モデルの「予測」= 特徴ベクトルと重みベクトルと
の間のドット積(dot product)
特徴ベクトル
𝒙=
𝑥1
𝑥2
⋮
𝑥𝑑
重みベクトル
𝒘=
𝑤1
𝑤2
⋮
𝑤𝑑
ドット積
𝑥1 𝑤1 + 𝑥2 𝑤2 + ⋯ + 𝑥𝑑 𝑤𝑑
特徴要素1の重み
分類問題の場合(例：病気vs正常)
分類問題の場合(例：病気vs正常)
ドット積 < しきい値 (threshold)
ドット積 > しきい値 (threshold)
特徴要素２の重み
予測 = 0 (正常)
予測 = 1 (病気)
どうやって、「モデル」を最適化させるの？
最適化アルゴリズム
(Optimization Algorithm)
最適化アルゴリズム一覧 (selected)
今日はこれに注目
•
•
•
•
ディープ・ラーニングの
大体はこれ使ってる
勾配降下法 (Gradient Descent)
確率的勾配降下法 (Stochastic Gradient Descent)
貪欲法 (Greedy algorithm)
制約付き最適化 (Constrained Optimization)
– Linear Program
– Quadratic Program
– Conic Program
• etc, etc・・・
勾配降下法 (Gradient Descent)
イメージ：ボールを目的関数の上に転ばせる
モデル初期値
目的関数
f(w)
モデル値
w
勾配降下法 (Gradient Descent)
イメージ：ボールを目的関数の上に転ばせる
モデル初期値
GO!
目的関数
f(w)
最小値 (minimum)
(チューニングされたマシーン)
モデル値
w
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute cradient at current value)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
微分・接線の傾きに
向かってステップ
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
微分・接線の傾きに
向かってステップ
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
微分・接線の傾きに
向かってステップ
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
微分・接線の傾きに
向かってステップ
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute gradient)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
現在値
微分・接線の傾きに
向かってステップ
実際は何がおこってるの？
1. モデルｗに「初期値」を与える
2. 繰り返しこれを行う (反復法: Iterative method)
– 現在値で、微分(勾配)計算 (compute cradient at current value)
– 微分の方向に向かって「ステップ」を踏む
– 微分値が０になるポイントに辿り着いたら終了
モデル初期値
(initial value)
微分値が０！終了！
(接線の傾きが横向き)
現在値
＊実際の終了条件は多少異なるが、ニュアンスを一緒
勾配降下方の実装はわりと簡単。でも…
目的関数がこんなんだった場合・・・
モデル初期値
この場合
初期値の設定が
非常に重要
ここだったら
全体最小値に辿り着けた
局所的最小値
(local minimum)
ここで停滞してしまう・・・
全体最小値
(global minimum)
こ、ここに辿り着きたかったのに・・・
目的関数の分類: 凸関数 vs非凸関数
(Convex vs Nonconvex function)
Convex
• 初期値はどこからでもOK
Nonconvex (OTL)
• 初期値設定に失敗すると、
GAME OVER
ディープネットの目的関数のイメージ
ど、どこにボール(初期値)
をおけばいいんだ・・・
初期値の設定の仕方が
最近までずっと分からなかった
最適化のまとめ
• タスク(T)の評価尺度を、目的関数で数値化
• 目的関数のインプットは、「学習データ」と「モデル w」
– モデル w = 機械の設定の調整ノブ
• 最適化アルゴリズムを実装し、機会の性能(P)を最適化
– 最適化の難しさは、目的関数が凸か非凸かによって強く影響される
機械学習の中身・まとめ
1. 特徴抽出
(Feature Extraction)
2. 最適化問題
(Optimization Problem)
機械学習システムの中身か！！
学習
データ
特徴
抽出
手で設計するか
学習するか
最適化
問題
目的関数の設定
(凸か非凸か？)
最適化アルゴリズムの実装
学習
ルール
機械学習・実用編
・・・っとその前に
Any questions？（ちょっと一息）
機械学習・実用編
回帰分析応用 – 医療編
Background
• 発達障害の代表例: 自閉症(Autism), ADHDなど
• よく見られる症状：コミュニケーション力の障害
– 心の理論能力の欠如 (Theory of mind)
• Linear regression(線形回帰)を応用して、脳皮質の重要な組織と
EQ(感情移入指数)の関連性を解析
Theory of mind
(心の理論)
他者の心理を行動から
想像や理解する能力
回帰分析応用 – 医療編
Linear regression(線形回帰)を応用して、脳皮質の重要な組
織とEQ(感情移入指数)の関連性を解析
• 解析結果：男女によってバラつきがあることが判明
ADHDと自閉症は男子の方が比率が圧倒的に高いこともあり、興味深い結果だ・・・
FA
EQ 感情移入指数
(Empathizing Quotient)
分類応用: 文字認識 (勾配下降方)
設定：｛0, 1, …,9｝の数字文字の分類ルールを
線形モデルで学習
• この場合、文字それぞれに、重みベクトルがある
• 目的関数： Softmax regression
• 最適化アルゴリズム：勾配下降方
学習データ
文字分類: Gradient Descent
10個の重みベクトルの初期値
(10個の「ニューロン」と呼ばれる場合も)
学習データ
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
文字分類: Gradient Descent
1
2
3
4
5
6
学習データ
7
8
9
0
学習完了。
未知データの予測
• 未知データと、学習した10個の重みベクトルの
ドット積(dot product)を計算
• ドット積の一番高い数値が分類予測
• この場合、「２」のドット積が一番高い
– 俗に「２ニューロンが発火」ともいう (2 nd neuron fired)
1
2
3
4
5
6
未知データ
7
8
9
0
学習完了。
未知データの予測
• 未知データと、学習した10個の重みベクトルの
ドット積(dot product)を計算
• ドット積の一番高い数値が分類予測
• この場合、「２」のドット積が一番高い
– 俗に「２ニューロンが発火」ともいう (2 nd neuron fired)
1
2
3
4
5
6
未知データ
7
8
9
0
K平均法クラスタリング
(K-means Clustering）
K平均法・アルゴリズム (教師なし学習)
• 教師なしで、学習データをKグループに分類しよう
アルゴリズム内容(つまり反復内容)
– Kクラスの中心点を計算
– 分類ルール：中心点に近いクラス
目的関数
K＝２グループの場合の
中心点の初期設定
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
Clustering in Action
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法 (K-means Clustering）
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
k平均法分類完了
反復内容
Kクラスの中心点を計算
分類ルール：中心点に近いクラス
目的関数
クラスタリング・医療（Neuro）編
分類された白質組織
学習データ
Surgical Atlas Generation
クラスタリング
学習
Right
Cingulum
Gray’s Anatomy
Corpus
Callosum
151
Surgical Planning Lab Atlas
Left
Cingulum
機械学習の応用
ネットワーク・データ編
「コミュニティー検出」
ネットワーク・データ
代表例のひとつ：ソーシャル・ネットワーク・データ
コミュニティー・検出
（Community Detection）
教師なし、クラスタリングの一種
目的関数
特異値分解 (SVD)で
最適化
Singular Value Decomposition
コミュニティー
応用例
同コミュニティーメンバー
への商品推薦
ハブ、リッチクラブの方々には
集中的サービス
ハブ (Hubs)
人
リッチ・クラブ (Rich club)
コミュニティー・検出
（Community Detection）
コミュニティー・検出
（Community Detection）
応用例
同コミュニティーメンバー
への商品推薦
ハブ、リッチクラブの方々には
集中的サービス
目的関数
自分のLinkedInのネットワークも見れる
http://socilab.com/
アメリカ小学校・低学年
男子
女子
目的関数
アメリカのハイスクール
白人
黒人
ほか
目的関数
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：ネットワークデータ編
Keywords: Connectomes, Network Data, ADHD, Schizophrenia, Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
ごめんなさい、時間の都合により
正則化などの手法によるMLの工夫などは
完全に省略しました・・・
人・コネクトーム
(The Human Connectome)
• 近年人の脳のシステムを
ネットワーク視点から見る
研究が活発
• NIHはHuman Connectome
Project (HCP)を実地中
Same idea as the human genome project
(人ゲノム・プロジェクト)
人・コネクトームのコミュニティー
(Communities in the Human Connectome)
目的関数
年齢と脳コミュニティーの変化
目的関数
人コネクトームを応用した、医療診断
(Clincial Diagonsis with the Human Connectome)
学習データ
Healthy
Disorder
Classifier
学習
分類
ルール
未知データ
分類
ルール
Healthy?
Disorder?
医療応用の場合、モデル wの解釈が大事
My Research at Penn
Traumatic Brain Injury (TBI・外傷性脳損傷)
TBI 対正常の分類の正解率
更に線形モデルを脳スペースにマッピングすることにより、
TBIと正常の人のConnectomeの違いの解釈が可能
*Under review
My Current Research at Penn
(自閉症、Autism Spectrum Disorder)
Under progress
• データ：約150人の赤ちゃんのコネクトームを生後6・
12・24ヶ月時にスキャン
• 自閉症のお医者さんが診断できるのは、生後24ヶ月後から
– 上のデータの子供の2割ほどが24ヶ月時に自閉症と診断された
• 研究課題：生後6ヶ月・12ヶ月のコネクトームを見て、機
械学習で診断できないものだろうか・・・
– これができれば、24ヶ月まで待たなくても、6ヶ月時のときの早期診断に
よる治療ができ、進行を食い止めることが出来るかもしれない・・・
My Research at UM
(ADHD・注意欠陥多動性障害)
My Research at UM
(統合失調症・精神分裂症 schizophrenia)
本日お話すること
1. Machine Learning・機械学習の基本
Keywords: データの数値化 (Feature representation)・最適化問題 (Optimization)
2. MLの応用：脳ネットワークで医療診断
Keywords: Connectomes, Network Data, ADHD, Schizophrenia, Traumatic Brain Injury
3. ディープ・ラーニング（深層学習）
Keywords: Neural network (NN)、Feature Learning、Parallel Computing, GPU
人工ニューラルネットワークが再び
アツイ！一体どうして？？
これまで紹介したものは
浅層ネットワーク・・・
(Shallow Network)
浅層ネットワーク例：さっきの文字認識
• 浅い＝一つしか「層」がない
(only one “layer” in the network)
モデル (w)
浅層ネットを人工知能的に見たら
(AI view of shallow network)
例えば、「学習」が完了したマシーンの中に
猫モデルと犬モデルがあると想像してください
猫モデル (w1)
入力データ
犬モデル (w2)
猫ニューロン
犬ニューロン
浅層ネットを人工知能的に見たら
(AI view of shallow network)
理想：このマシーンに猫の画像を入力した場合
猫ニューロンが発火 (ドット積が大きい方)
猫モデル (w1)
入力データ
犬モデル (w2)
猫ニューロン
犬ニューロン
浅層ネットを人工知能的に見たら
(AI view of shallow network)
理想：このマシーンに犬の画像を入力した場合
犬ニューロンが発火 (ドット積が大きい方)
猫モデル (w1)
入力データ
犬モデル (w2)
猫ニューロン
犬ニューロン
浅層ネットをもっと細かく見たら…
浅い＝一つしか「層」がない
𝒙
𝒘
特徴 𝒙
重み 𝒘
ベクトル
ベクトル
𝑥1
𝑤1
𝑥2
𝑤2
Single
Neuron
𝑥1 × 𝑤1
ドット積
𝑑
𝑥2 × 𝑤2
𝑥𝑖 𝑤𝑖
𝑖=1
⋮
𝑥𝑑
⋮
𝑤𝑑
𝑥𝑑 × 𝑤𝑑
人工ニューロン
(Activation function)
識別
ルール
(０か１)
深層ネットワーク (Deep Network)
深い＝複数の「層」がある
入力
第一層
第二層
第三層
人工ニューロン
𝑥1
(Activation function)
𝑥2
∑
⋮
𝑥𝑑
⋮
⋮
⋮
識別
ルール
さっき見た浅層ネット
(AI view of shallow network)
「猫 or 犬」ネット
浅層バージョン
猫モデル (w1)
入力データ
犬モデル (w2)
猫ニューロン
犬ニューロン
深層ネットバージョン
(AI view of deep network)
この中には、「人工ニューロン」が
ギッシリつまっている！！
第一層
第二層
第三層
入力データ
猫ニューロン
⋮
⋮
⋮
犬ニューロン
なぜ複数の層？
(why go deep)
深層の理由その1：生物ニューロンのモデル
(model of the biological neuron)
人間は単細胞生物ではない
単体ニューロンで表現できるコンセプトは
余りにも限られている
生物ニューロン
(biological neuron)
人工ニューロン
(artificial neuron)
http://cs231n.github.io/neural-networks-1/
深層の理由その1：生物ニューロンのモデル
(model of the biological neuron)
人間の知性を表現するには
多くのニューロン、そして「層」が必要となる
これはあくまでAIコミュニティの一部からの仮説だが、個人的には賛同する
生物ニューロン
(biological neuron)
人工ニューロン
(artificial neuron)
http://cs231n.github.io/neural-networks-1/
深層の理由その2: 階層的特徴学習
(Hierarchical Feature Learning)
機械学習システムの特徴抽出を覚えてますか？
深層学習の「層」達は、実は特徴学習を行ってるわけです
このとき学習される特徴を、階層的特徴といいます
階層的特徴ってどういうこと？
(hierarchical feature?)
階層的特徴 (Hierarchical Feature)
具体的な特徴
層4 (物体)
多くの自然データの特徴には
「階層」が存在する。
深層学習の特徴学習
• はじめの層では抽象的な特徴を抽出
• 深い層ほど、具体的な特徴を抽出
層3 (パーツ)
層2 (エッジ)
層1 (ピクセル)
抽象的な特徴
入力画像
レゴでイメージするとこんな感じ
具体的特徴
抽象的特徴
階層的特徴 (Hierarchical Feature)
具体的特徴
層4 (物体)
層3 (パーツ)
層2 (エッジ)
層1 (ピクセル)
抽象的特徴
入力画像
これまでに深層学習で学習成功した
階層的特徴の一覧
入力
データ
第一層
特徴
第二層
特徴
第三層
特徴
第四層
特徴
画像
ピクセル
エッジ
パーツ
物体
テクスト
字
単語
文章
記事
音声
サンプル測定
スペクトル帯
あいうえお
単語
深層の理由その3：脳の感覚器システムその類似
(similarity with sensory system of the brain)
人間が聴覚・視覚から得る「入力データ」も
階層的にプロセスされる
2ストリームの仮説 (Two streams hypothesis)
http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(11)00175-6
ディープ・ラーニングの
「特徴抽出」能力はすごい！
ではどうやって最適化するのか？
手で設計するか
学習する
目的関数の設定
(凸か非凸か？)
最適化の実装
30年前 (mid 1980s)
バック・プロパゲーション計算が再発見される
• 深層ネットの目的関数の微分(勾配)を計算する手法
このときはまだ深層ネットという用語はなく一般的にはmultilayer neural networkと呼ばれていた
http://home.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html
30年前 (mid 1980s)
バック・プロパゲーション計算が再発見される
• 深層ネットの目的関数の微分(勾配)を計算する手法
このときはまだ深層ネットという用語はなく一般的にはmultilayer neural networkと呼ばれていた
AIコミュニティ
目的関数の勾配
(gradient)
計算ができる
勾配下降で
(gradient descent)
深層ネットを
最適化できる！
そして
80年代の人工ネットの研究ブームへ・・・
だが予想とは裏腹に
なかなか期待していたような
研究結果は出なかった・・・
深層ネット：当時の失敗理由その1
深層ネットの目的関数はとても非凸(Nonconvex)
• 最適化の初期値の設定の仕方が当時分からなかった
？
深層ネット：当時の失敗理由その2
学習するのデータ量が足りない
• 深層ネットの複雑なモデルを学習するには
とにかくデータがたくさん必要！！！
深層モデルの
調整ノブ
浅層モデルの
調整ノブ
vs
深層ネット：当時の失敗理由その3
バックプロパゲーションの計算量は半端じゃない！
• 当時のコンピューターで計算するには
ヒジョーに苦しかった
こんな計算
むり・・・
そしてAI冬の時代へ・・・
https://en.wikipedia.org/wiki/AI_winter
人工ネットワーク(NN)のざっくりした歴史
NN第一次
ブーム
1950
NN第二次
ブーム
NN冬の時代
(AI Winter)
1957
パーセプトロン
(浅層NNの基盤)
1952
人工・チェッカー
プログラム (IBM)
1980
1984
深層NNの
アイディア
1973
ライトヒル・レポート
(パーセプトロンの死)
NN第三次
ブーム
NN冬の時代
(AI Winter)
2006
1990s
SVMなどのカーネル
手法の活躍などで
NNはほぼ
ガン無視状態
1986
バックプロップ提案
(深層NNの微分の仕方)
いったい
何が？？？
深層ネットの復活
深層ネット：当時の失敗理由のまとめ
1. 深層ネットモデルの初期値設定法が分からない！
2. 学習するのにデータが足りない！
3. バックプロパゲーションの計算量は膨大！
言いかえれば
深層ネットの実装を成功させるには
上の３つの課題を乗り越る必要がある
深層ネット課題その1：初期値設定の仕方
2006年、トロント大学(現Google)のGeoffrey
HintonによるPretrainingの提案
• Pretraining＝深層ネットを最適化する事前に
行うアルゴリズム
• Pretrainingで深層ネットの初期値設定ができる
深層ネット学習前の準備運動
• Pretraining法の例
– RBM (Restricted Boltzmann Machine)
– Autoencoder
*最新の深層ネットの実装では、Dropout法やRectified linear unit neuronなどの工夫の応用が主流
深層ネット課題その1：初期値設定の仕方
昔の初期設定法のイメージ
(ランダム初期化)
現在の初期設定法のイメージ
(Pretraining)
深層ネット課題その2
学習するデータが足りない
インターネットの普及で時代は「ビッグ・データ」
• 分野によっては、大量にデータが手に入る
右の図
一分間に生産される
データ量
(2015年時)
深層ネット課題その3
バックプロパゲーションの計算量が厳しい
• CPU・GPUの性能向上とコストダウン
• 並列計算 (Parallel Computing)技術の向上
CPU/GPU
クラウドサービス
深層ネット：昔失敗した理由
1. 深層NNの目的関数はとってもNonconvex!!!
2. 学習するのにデータが足りない
3. バックプロパゲーションの計算量は膨大！！
深層ネット：課題クリア法
1. Pretrainingで初期値設定
2. ビッグ・データ (特定の分野に限られるが)
3. CPU/GPUのレベル向上、クラウド計算サービス
深層ネットの学習が可能になった！
じゃあどんな結果がここ最近出てきた？
207
深層学習ベンチマーク: 文字認識
深層学習ベンチマーク: 音声認識
深層学習ベンチマーク: 物体認識
http://media.nips.cc/Conferences/2013/Video/Tutorial1A.pdf
深層学習・物体認識の失敗例
ま、まあ納得ですよね＾＾；
http://www.brain-magazine.fr/article/page-pute/28444-Jouons-un-peu
ディープ・ラーニングを使った
最新の応用方法
ゲーム
Google Mind
(Atari game)
AlphaGo
画像から自動キャプション
テクストから画像
こんな質問にも答える
http://cvlab.postech.ac.kr/research/dppnet/
リアル・タイム翻訳機
(マイクロソフトで開発中)
深層学習はすごい！けど・・・
深層ネットは、「Trial and error」の要素が強い
– 「層」をいくつ入れる？
– １つの層に何個の人工ニューロンを入れる？
– どのActivation function (ニューロンモデル)を使う？
これらのデザインをなんらかの「理論・規則」に
基づいた設定法はないだろうか？
深層モデルの
調整ノブ
深層学習はすごい！けど・・・
最近深層学習の研究者達が、メディアの発表の
仕方に疑問を持っているという記事をよく見かける
気がする・・・
• AlphaGoの勝利のあとのメディアの見出しの例
– 「Machines have conquered the last games」
– 「 We know now that we don’t need any big new
breakthroughs to get to true AI 」
深層学習はすごい！けど・・・
• 過去の「AIの冬」は、アンリーズナブルな期待からきた
失望感によるもの…なので
ディープ・ラーニングの向上に注目しつつも、分
別のある期待レベルに抑えましょうね
…ってな感じのニュアンスのことを言ってました
まだまだ残った課題
(深層ネットに限った話ではないが)
• 人間と比べて学習に必要なデータ量が多すぎる
– この辺りも人間の知性に近づけれないだろうか…
• 人間は教師なし学習が、機械より圧倒的に優れている
– 経験のないことへの予測が人間にはできる
• 人工ニューラル・ネットのモデルと人間の脳とのシステム
の差異を縮める
– これには、神経学者(neuroscience)達の協力も必要
Don’t worry, this won’t
happen anytime soon
ニューロンの数の比較
http://videolectures.net/deeplearning2015_montreal/
まとめ：ディープ・ラーニングと階層的特徴の抽出
具体的特徴
層4 (物体)
層3 (パーツ)
層2 (エッジ)
層1 (ピクセル)
抽象的特徴
入力画像
本日の目標 (覚えてますか？)
ミッチェル教授の機械学習の定義が
一体どういう意味なのかを
みんなで「人間学習」しよう
「コンピュータプログラムが、ある種の
タスクTと評価尺度Pにおいて、経験Eから学
習するとは、タスクTにおけるその性能をP
によって評価した際に、経験Eによって
それが改善されている場合である」
直感的に捕らえると、こういうこと
タスクTにおけるその性能をPによって評価した際に、
経験Eによってそれが改善されている場合
コンピューターにデータ(E)を見せて
タスク(T)の性能(P)を上げる
T (タスク) = やりたいこと・目的
E (経験) = データ
P (性能) = 正解率など
この機械学習システムの中身は一体・・・？
E (経験)
T (タスク)
学習データ
マシーン・ラーニング
（学習アルゴリズム）
(Training Data)
P (性能・評価尺度)
学習ルール
本日のプレゼンで覚えてほしいのは
下の図
タスクTにおけるその性能をPによって評価した際に、
経験Eによってそれが改善されている場合
コンピューターにデータ(E)を見せて
タスク(T)の性能(P)を上げる
T (タスク) = やりたいこと・目的
E (経験) = データ
P (性能) = 正解率など
これが機械学習システムの中身！！！
学習
データ
特徴
抽出
手で設計するか
学習するか
最適化
問題
目的関数の設定
(凸か非凸か？)
最適化アルゴリズムの実装
学習
ルール
Thank You!!!