頭の中のサイン、コサイン

by user

on 28 марта 2017

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 頭の中のサイン、コサイン

Transcript

頭の中のサイン、コサイン

頭の中のサイン、コサイン 「波」による視覚情報の脳内表現
大阪大学大学院生命機能研究科 脳神経工学講座
教授 大澤 五住
1. はじめに 動物やヒトの視覚系とカメラやテレビ等の機械は何が違うのでしょうか？カメラやテレビは画
像や動画を記録・伝送して、最終的にはできるだけ正確に元の情報を再現することが目的です。こ
れに対し、動物の視覚系では、画像の再現は目的ではありません。視覚は外界から自分にとって有
用な情報を取り出し、自分の状況を把握し、食物や仲間を見つけ、敵を回避あるいは攻撃し、生き
て行くために必要な、おそらく最も実際に役に立っている生物情報システムです。
視覚系の最初の部分である眼球の構造や働きは、よくカメラとの対比で教科書にも載っており、
理解しやすいはずです。しかし、最近良く言われるように、「見る」という素晴らしい能力の本当
に大切な担い手は、脳です。視神経を通じて脳内に送られた画像情報はどうなるのでしょうか？こ
の問題に対する最終的な答えは、まだ出ていません。視覚に関わる脳の部位も非常に数多くあり、
世界中で多くの研究者が手分けして研究しています。
今日、私が特にお話する内容は、視覚の一般性についてです。つまり、視覚は何でも見る事がで
きます。私たちは自分の視覚を信頼しており、今まで見た事が無いものや情景が見えないかもしれ
ないと思う人はありません。もちろん、脳の高次の領野では顔や特に見慣れた物の情報処理は特別
に扱われているようですが、この何でも見える視覚系が、少なくとも現在良くわかっている途中の
段階まで、実際にどのように実現されているかを紹介します。
2. 網膜から視床まで デジカメでも眼でもレンズの裏側にある光学画像を電気信号に変換するところは良く似ていま
す。どちらでも、画像はピクセル(pixel)と呼ばれる小さな点の集まりとして扱われます。デジカメ
ではイメージセンサーと呼ばれる集積回路の微小な独立な受光点の集まりであり、網膜では視細胞
の集まりです。ちなみに、視細胞の中でも錐体と呼ばれる色覚や視力を支える細胞の数、つまり、
あなたが今使っている視細胞の数は約 500 万（片目）です。これは５メガピクセルですから、簡単
には比較は出来ませんが、ピクセル数だけからすれば、既にデジカメの方が単純解像度ではヒトの
眼を超えている事になります。
ピクセルになった画像の処理には少し違いが出てきます。イメージセンサーは何メガピクセルと
いう莫大な数のピクセルデータの高速読み出しに専念し、それ以降の処理はカメラ内のコンピュー
タが行います。これに対し、網膜では神経回路自体が並列に情報処理を行います。視細胞から視神
1
経繊維に信号が伝わるまでに、少なくとも２回シナプス
を通過します。このため、網膜から出ている視神経を伝
わる信号はもうピクセルの情報ではありません。視神経
には 150 万本の視神経繊維が束ねられています。500 万
個の視細胞から 150 万本の繊維になったのですから、何
らかの情報圧縮が既に網膜で起っています。
どのような情報処理が起っているのかを解析するた
めには、一個一個の神経細胞、つまり一本一本の神経繊
維が担う情報を詳細に測る必要があります。一つの非常
に有効な方法は個々の細胞の受容野を測ることです。ほ
とんど 180 度に近い広さを持つ動物個体の視野と異なり、
個々の視覚細胞にとっての視野は、図１にあるように角
度にして 1~数度の狭い範囲に限られています。このよう
な、個々の神経細胞が光刺激に対して感受性を持つ領域
図１：初期視覚系の神経細胞の受容野 とその形を受容野と呼びます。受容野は視覚細胞にとっ
ては、いわば外界に開かれた小さな窓であるということができます。視覚細胞の受容野の形は、網
膜から高次の脳領域までの各段階で、特徴的な違いを持っています。受容野の形を見れば、その細
胞が画像中に含まれるどのような形に最も良く反応するのかが予測できます。
たとえば、視神経繊維の一本一本は網膜にある神経節細胞という種類の細胞から出て、視床とい
う脳の中心部分にある神経核の細胞にシナプスを介してつながりますが、これらの神経節細胞の受
容野は二重の同心円型の構造をしています。このため、小さな中心部分に明るい光のスポットを、
同時にその周りにあるドーナツ状の部分に暗い刺激を提示すると最も良く反応します。視床の細胞
もほとんど同様の受容野を持っています。光が中心部分とリング状の周辺部分に及ぼす効果は逆に
働くので、受容野全体に一様に明るい光を照射しても、細胞はかえって反応しません。つまり、丸
い形でコントラストが良く付いていないと、網膜の細胞は良く反応しません。
2. 大脳の１個１個の細胞が見ているもの 小さな「窓枠」内の波の破片
大脳で最初に視床からの神経信号を受け取る領域を一次視覚野(V1)と呼びます。この領野にある
細胞は、網膜や視床では効果的だった丸い刺激にはあまり反応しません。V1 の神経細胞は 1960
年頃、細胞によって異なる特定の角度で長く伸びた線状の光や、直線状の明暗の境界によく反応す
ることが、後にノーベル賞を受賞する Hubel と Wiesel という二人の科学者により発見されました。
この発見当初から 1980 年ころまでは、V1 の神経細胞は線やエッジ（境界）が受容野に入ると反応
する「線の検出器」や「エッジ検出器」として機能しているのではないかと多くの研究者が考えま
した。
しかし、現在はこの考えは厳密には正しくなかったとされています。それは V1 細胞の受容野の
2
形を精密に見れば解ります。 図２は私の研究室で何年間か
かけて動物の脳から計測した
多くの V1 細胞の受容野です。
V1 細胞の中でも単純型細胞と
呼ばれる種類の細胞受容野を、
その大きさと角度がきれいに
並ぶように配置しました。注意
していただきたいのは、この並
びは視野ではなく、こうした多
くの細胞受容野が折り重なっ
てセットになり、視野の各場所
に用意されているということ
図 2：一次視覚野(V1)から実際に計測された神経細胞の受容野。スケ
ールバーは視野角 10 度。このようなセットが視野の各場所に用意さ
れている。
です。つまり、細かい物を見る
ことができる視力の高い中心視野にもその他の場所にも、小さな受容野
をもった細胞から、数度の直径を持つ大きな受容野を持つものまでが、
全ての角度について揃っていると考えられます。さらに、こうして細胞
受容野の形を精密に計測した結果、簡単なガボール(Gabor)関数という
数式で、ほぼ全ての細胞受容野の形を記述できることがわかりました。
Gabor 関数は図３の様にサイン波が２次元正規分布関数(Gaussian)の
窓から覗いている形をしています。パラメータを変えることにより、角
図 3：Gabor 関数
度、波の周期（周波数）、何サイクル窓から見えるか等を全て表す事が
できます。いわば、個々の V1 細胞は自分の視野（受容野）中に、こうした「サイン波の断片」を
見ようとしているということができます。刺激の中に、細胞固有の角度、波の周期や位置がマッチ
したサイン波が見えた時に、強く反応するのです。
3. 全ての画像は多くの波の集合体（重ね合わせ）である：フーリエ変換 では、V1 細胞の受容野と私たちの視覚系が何
でも見る事ができる一般性を持っている事とは、
どういう関係があるのでしょうか。実は、視覚
系は一般性を保証するために数学的に非常にう
まい情報の表現方法をとっているのです。ここ
で使われる数学的関係はフーリエ(Fourier)変換
と呼ばれています。フーリエ変換を画像につい
図 4：画像とそのフーリエ変換
て簡単に言うと、どんな画像でも（人の写真、
3
風景、機械等なんでも）、多くのサイン
波の重ね合わせとして表現できるとい
うことです。逆に言えば、単純なサイン
波の縞模様をたくさん加算して行けば、
人の顔でも美しい風景でも現れてくる
という事になります。この数学的事実は、
直感的には信じ難いので、実際にやって
みましょう。
図４はアインシュタインの画像とそ
図 5：１個のサイン波とそのフーリエ空間での場所
のフーリエ変換を表しています。図４右
の２次元空間を周波数空間あるいはフーリエ空間とよびますが、右側の点１個１個が一つのサイン
波を表しています。点が明るいほど、対応するサイン波が強く（つまり、大きな振幅で）画像に含
まれています。図５に１個のサイン波とフーリエ空間でのそのサイン波の場所が示されています。
この空間では、原点の点の明るさは画像の平均の輝度、また原点からの距離はサイン波の周波数（空
間でのサイン波なので、空間周波数と呼びます）、原点からフーリエ空間上の点へのベクトルが水
平軸となす角がサイン波の傾きに対応しています（90 度ずれていますが）。
元の画像に含まれていたサイン波を全て使わずに、ごく少数だけ使って画像を再現してやると、
図６の様になります。30 個程度のごく少
数のサイン波を重ね合わせただけでも、
誰の顔かは解りませんが、何となく顔に
見える事が不思議ですね。数 100 個のサ
イン波を重ねれば、図６下の様に人の画
像だと確実にわかります。アインシュタ
インだと分かる人も多いかもしれません。
この場合、重ね合わせたサイン波はフー
リエ空間の中心付近、つまり低い周波数
の物だけだったので、高い周波数のサイ
ン波で表現されている画像の細かな特徴
が欠けており、ボケた画像になっている
図 6：サイン波を全て使わずに再構成した場合
のが、見て取れます。
このように、フーリエ変換により、画像がサイン波の重ね合わせで表現できることと、V1 細胞
の受容野が Gabor 関数になっている事を勘案すると、Gabor 関数を系統的にたくさん重ね合わせ
れば、任意の画像を表現できるのではないか、という考えにたどり着きます。現在では、V1 の画
像表現は、まさにこのように行われていると考えられています。ただ、普通のフーリエ変換は画像
全体を覆う様々な周波数のサイン波を考えたのに対し、V1 の細胞が使っている Gabor 関数は画像
4
の一部しか見ていません。つまり、V1 は古くから知られているフーリエ変換をそのまま使ってい
るのではなく、個別には狭い範囲（受容野の範囲）しか担当しない細胞を数多く使って、視野にタ
イルを敷き詰めるように多くの細胞が表現を分担している事になります。こうした手法をウエーブ
レット(wavelet)変換と呼び、数学的にも良く研究されて、画像の圧縮などで実際に使われています。
大切なことは、このように任意の画像に適用可能な、数学的に非常にうまくできた表現方法を、
脳が、特に一次視覚野の細胞が長い時間をかけて進化により見つけ出したということです。すくな
くとも、この事実が私たちがごく当たり前のように思っている、「視覚が何でも見る事ができる能
力」の裏付けになっていることは、間違いないでしょう。特に霊長類の視覚系では全ての高次視覚
野は V1 から入力を受けます。つまり意識して見る事のできる視覚情報は全て V1 を通過している
のです。私たちが見ているもの全て、美しい物から醜い物までの全てが、多くの V1 細胞が表現す
る Gabor 関数として、バラバラに展開されているのです。高次の視覚野では、その領野が担当す
る視覚機能や役割に応じて、V1 細胞の集団が持つ情報をうまく組み合わせて利用していることに
なります。
4. デジカメとの関係：JPEG ファイル 最初にデジカメと視覚システムを対比
したときに、違いは画像の再現が目的にあ
るかどうかだと述べました。また、デジカ
メのイメージセンサーは生のピクセルデ
ータをデジカメ内のコンピュータに引き
渡すのに対し、網膜自体がその内部でかな
り複雑な情報処理を行っている所にも違
いがありました。この様に言うと、最初は
似ていても、それ以後は全く違っているよ
うに思えますが、そうではありません。
実は V1 における Gabor ウエーブレット
による任意画像の表現形式とデジカメ内
のコンピュータが使っている画像の表現
形式には非常に類似点があります。デジカ
メ、携帯電話、インターネットにおかれた
写真等のほとんどは JPEG という標準に
したがってファイルに格納されています。
JPEG のもとになっている計算法は離散
コサイン変換 (DCT, discrete cosine
図 7：V1 細胞と同様に、デジカメで使われる JPEG も画
像を 8x8 ピクセルの小領域に分割し、その中にどのよう
な周波数のサイン波と水平 x 垂直のサイン波の積の成分
が含まれているかを表現している。これらの基底関数は
JPEG が使っている「受容野」と考えることができる。 transform)と呼ばれ、図７の様な関数に画
5
像を分解しています。
まず、JPEG では大きな画像を８x8 の小区画に分割してタイルを敷き詰めるように表現してい
るところが、V1 細胞の様々な形の受容野が同様に敷き詰められていることに似ています。さらに、
JPEG が使う関数も様々な周波数のサイン波（縦・横のサイン波とその積）になっています。V1
の Gabor 関数とは関数のセットが違うだけで、画像表現の原理や計算の手続きとしては全く同じ
です。JPEG という標準ができたのが 1986 年ですから、せいぜい 20 年程度の歴史しかありませ
ん。ほとんど同じ手法を、脳が進化により遥か遠い昔に獲得していたことは、本当に驚きです。
5. おわりに 以上に述べましたように、一次視覚野の細胞がやっていることは、数式で正確に表現できるくら
いに現在では解っていると言っても良いでしょう。しかし、一次視覚野はほんの始まりにすぎませ
ん。多くの機能を果たす、高次視覚領域のやっていることは、とても数式で表現できるくらいに解
っているとは言えません。一つだけ、運動の検出をしているとされる MT 野の細胞の機能について
は、数式で表現できる程度に解明がすすんでいますが、顔や物体の認識にかかわる領野の機能は、
このような観点からは、視覚の理解は入り口に立ったところで、わからない事だらけです。方位や
周波数をパラメータとするフーリエ空間で、V1 細胞の集団の活動としてバラバラに分散して表現
されている視覚情報をうまく組み合わせる必要があることは解りますが、どう組み合わせたら動物
にとって役に立つ情報がうまく取り出せるのかについては、未知のことばかりです。脳が使ってい
そうな方法を考え、そうした考えが実際に正しいのかを実験で確かめて行く事が必要です。
上で述べました視覚系の脳研究の過去と現状を踏まえて、以下の３点を強調したいと思います。
一つは、個々の神経細胞の機能と役割の解明無くして、視覚の解明はできないだろうということで
す。最近では非侵襲に脳活動を計測できる機能的 MRI（磁気共鳴画像法）や、近赤外光や脳磁場
あるいは誘発電位（脳波）による脳計測が脚光を浴びていますが、これらの方法は現在の段階では
個々の細胞の活動を見るための分解能を持ちません。電極を脳に挿入するあるいは、顕微鏡で脳を
観察し光計測を行う等の侵襲的な方法も、今後とも当分の間は必要でしょう。
２つ目は、本物の脳を扱う実験の重要性です。確かに理論としての２次元画像のフーリエ変換や
ウエーブレット変換からは、方位（傾き角度）が重要な、かつ本質的なパラメータとして自動的に
出てきますが、それは今振返って見て、そう思えるだけです。1960 年代初頭に Hubel と Weisel
が V1 細胞を興奮させるためには、視覚刺激の方位を最適に調節しなければならない事を、動物を
使った実験により示すまで、方位が視覚中枢での情報処理に本質的に重要だと言う事を誰も気づか
なかったということです。それ以前にも多くの哲学者を含む理論家が視覚について真剣に考察した
はずです。しかし、そうした内省や考察、理論だけによっては、脳の中でこんなにも美しい情報表
現が実現されていることは、それ以前の誰にも解らなかったのです。Fourier が亡くなったのが
1830 年ですから、1970 年代後半にフーリエ変換が脳の機能に結びつけられるまで、140 年以上も
かかっています。実験で見つかったからこそ、このような理論面での理解の進展がありました。動
6
物を使った実験は、倫理面からも十分な配慮が必要ですが、いまでもこうした手法の必要性は大き
いと言えるでしょう。
３つ目は、多くの脳科学者の研究は、近い将来の産業応用や治療への応用を直接めざしているの
ではない、という点です。ヒトや動物の脳を本当に、数式で表現できるくらいまで理解することが
我々の仕事です。その成果は脳の設計図と言えるかもしれません。その知見を応用し、モノに組み
込んで役に立てるための研究は、工学部や企業にもっと適任者がいるはずです。そうした研究者の
方々と協力が必要ですが、それが何時できるかは、わかりません。私の立体視の脳内機構に関する
1990 年頃の研究が最近ロボットの視覚システムに応用を考えられている例を知っていますが、論
文発表からほぼ 20 年かかっています。そうした応用を目にする事は、大変うれしいことで、でき
れば、そうした事例の元になる研究をもっとやりたいとは思います。しかし、基礎研究をやってい
る最中に応用を念頭において目指すような研究をする事は難しいと思います。研究の本来の姿では
ありません。脳科学も含め、こうした基礎研究は長い時間のスパンで考える事がどうしても必要で
す。ですから、性急に「結局、何の役に立つの？」という質問はされないようにお願いいたします。
脳の理解自体が役に立つはずであり、頭に「結局」を付けるのは余分です。
【このテキストは、大阪大学基礎工学部第３１回公開講座「未来を拓く先端科学技術」2009 年 8 月 4
日（火）において配布した講義テキストに、多少加筆修正をほどこしたものです。長年にわたり、実験
と研究に携わってきた多くの研究室のメンバーに感謝します。特に、佐々木耕太氏には図２の作成、お
よび図４、６の作成に使った Matlab スクリプトを提供いただいたことを感謝します。】
高校生の皆さんへ： 皆さんが自覚しない所で、頭の中がサイン、コサインだらけであることが分かっていただけたでしょう
か？もし、あなた自身は三角関数が得意でなかったとしても、あなたの V1 細胞は当たり前のようにそ
れを使っているのです。もちろん、神経細胞が数学の定理等を知っているわけではないのですが、脳の
機能を私たちが理解するのに、このように考えると全てうまくいくのです。まさに、「美しい」という
言葉が適切に思えます。この点で、高校・大学１、２年程度の数学は大切です。数学や物理が得意だっ
たら、私たちと一緒に脳の研究にチャレンジしませんか？生物学は決して暗記科目ではありません。
参考： 1. 図４、図６の作成に利用した Matlab のスクリプト（ソースコード）は Visiome Platform の下記の
URL で公開されています：
"Two-Dimensional Fourier Image Reconstruction (Inverse FT) Demo using Matlab"
http://platform.visiome.neuroinf.jp/modules/xoonips/detail.php?item_id=6448
2. 図５に示したフーリエ空間上の１点と対応するサイン波の関係を直感的に理解するのに良い教材
(MacOS X 用のアプリケーション； Windows 版はありません)は大澤研究室のホームページ内の下記の
URL にあります：
PlaidMotion.app.zip テストアプリケーション
http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/CocoaTutorial/intro6.html
その他の教材や解説は、下記の URL をご覧ください：
http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources.html
Copyright 2009 Izumi Ohzawa, All Rights Reserved.
7
プロフィール 大澤 五住（おおざわ いずみ）
1978 年 名古屋大学工学部電気電子工学科卒業
1986 年 カリフォルニア大学バークレー校博士課程修了
（視覚科学、Ph.D.）
1986 年 カリフォルニア大学バークレー校、ポスドク研究員
2000 年 大阪大学大学院基礎工学研究科教授
2002 年 大阪大学大学院生命機能研究科教授
小学生のころから電気工作が好きなラジオ少年で、大学の学部を何にするかはその頃から決めてい
ました。高校の時に英語が好きになり（英語の授業はきらいでしたが）大学院から留学しました。
学部時代は生物の脳を研究する事になるとは思ってもいませんでしたが、留学先で脳の視覚野の１
個の細胞が光刺激に反応する様子を見て感動しました。今から思えば、脳もカメラ・テレビも音や
画像の情報を扱うという点で関連がよく見えます。既存のレールから外れた未知の問題に立ち向か
って行ける人を育てることが基礎工学部の使命だと思います。そのために自分にできることは何か
を考えて行きたいと思います。Trio 程度のグループが演奏する Jazz が好きです。
[email protected]
http://ohzawa-lab.bpe.es.osaka-u.ac.jp/
8