Comments
Description
Transcript
見る/開く - ROSEリポジトリいばらき
ROSEリポジトリいばらき (茨城大学学術情報リポジトリ) Title Author(s) Citation Issue Date URL 視覚認識に関する基礎研究(計算機を用いた信号認識につ いて) 亀丸, 俊一 / 須藤, 憲晃 / 角田, 貢 茨城大学工学部研究集報(37): 175-181 1989-12 http://hdl.handle.net/10109/7868 Rights このリポジトリに収録されているコンテンツの著作権は、それぞれの著作権者に帰属 します。引用、転載、複製等される場合は、著作権法を遵守してください。 お問合せ先 茨城大学学術企画部学術情報課(図書館) 情報支援係 http://www.lib.ibaraki.ac.jp/toiawase/toiawase.html 視覚認識に関する基礎研究 (計算機を用いた信号認識について) 亀丸俊一*,須藤寸寸聯,角田 貢*** (平成元年8月28日受理) Fundamental de$cription of a visual recegnition system. (Recognition of the outp“t signal by a microcofnputer.) Shun−ichi KAMEMARu, Noriaki SuDoH and Mitsugu KAKuTA Abstruct−ln this research we have proposed and fabricated a hybrid pattern recognkion system as a model of the biological visual recognition. The system is constructed by beth the optical and the digital information precessing part which have good performance for realizing pattem or charac£er recognltion. In this paper the hybrid visual recognition system is studied and it demonstrates tlae realization ef character recognition by simttlated object to show the possibility of our proposai. This system can recognize how characters are distributed in the ttnknewn input image in the output on the CRT of the microcompater. 1。緒 光情報処理は,時間的情報処理や空間的情報処理に 言 も利用することができるうえ,エレクトロニクスに比 現在,一言で情報処理といっても,多種多様の目的 べ多くの情報に対する並列処理能力が格段に高く,演 に従って様々な方法,用途がある1)。そして,今の技術 算蒔問がきわめて短いなどの特徴をもつ。そこで,現 レベルでその大部分を担っているのが,エレクトロニ 在では情報処理の分野で広範囲に利用されており,今 クスの集大成,すなわちコンピュータである。このコ 後の研究・開発に期待される所もきわめて大きい3)。一 ンピュータは,つい最近まで人間の行っているすべて 方,エレクトロニクスによるディジタル情報処理は, の「情報処理」の代役を務めてくれるものと思われて 言うまでもなくその利用価値の高さからすでに様々な いた。しかし,3歳の赤ん坊でもできる情報処理の中 分野において利用されている。 には,世界最速の演算スピーードを誇る超大型のコン 本研究では,この二つの情報処理手段のそれぞれの ピューータでさえできないことが実にたくさんあるとい 長所を活かしたハイブリット(hybrid:optまca1+digl− うのが現時点での状況である。視覚,聴覚,触覚,味 tal)処理系を用いることによって,生物の視覚認識機 覚,吸覚による認識が,それらの一つに相当し,一般 能を一つのシステムとしてモデル化し,視覚情報すべ に「パターン認識」とよばれている2)。 てに対するパターン認識の実現を前提にその研究・開 *茨城大学工学部精密工学科(B立市中成沢町) Department of precision Engineering, Faculty of EnglReering, lbaraki Universiey, Hitachi 316, Japan **ヤーマン株式会社く東京都中央区八丁堀4 一13一 4) Ya−Man Ltd., Hatchobori, Chuo−ku, Tokyo 104, Japan ***茨城大学大学院工学研究科精密工学鶴甲(日立市中成沢町) Graduate Student, Department of ?recisien Engineering, Faculty of Engineering, lbaraki University, Hitachi 316, JapaR 175 176 茨城大学工学部研究集報 第37巻 (1989) 発が進められている。 手段として,Fig.1のような視覚認識コンセプトを提 本報告は,我々が提案するハイブリッド視覚認識シ ステムの有意性を証明するため,その基礎実験として 入力画像を文字に限定し,その文字認識の実現が可能 Partia] 1 1 lttracted P己tter窮 Feδ毛ure であるということを証明した。この文字認識システム 離,,, は,多重マッチトフィルタによる光学システムと,パー ソナル:コンピュータを用い,未知入力画像内の文字が ぬダも こ ぴぴここセが Pδしtem U貸1fic己tlon @ Featu「e ノ Partial 1 i ixtractecl Pitttern 1 1 Featifre どのように配置されているか,コンピュータCRT画面 陶orlzed Stan(鎗n諺 Pattern Refemace Recogmtlon :L弧::1農㌫二搬 幅s…一gー…一一 上に直接文字を出力させることによって認識を可能に したものである。 A:g]ological Pattern ftecogmtlon SygtevR 8:Proposea Pattern Rec{)gmtion Systan Fig.1 Modeling of tke biological visual recognition 2。生物の視覚認識システムのモデル化 生物の視覚認識は,現在,パターン認識の一環とし sys宅em. 案ずる。これは,実際に生物が行っている視覚認識と て様々な研究がなされており,すでに一部で文字や図 は異なる部分はあるかもしれないが,パターン認識の 形の認識として実用化されている。近年報告されてい 実現を目的とするコンセプトとしては,光学系と計算 るパターン認識では,生物本来が行っている認識プW 機を用いることによって多くの有用性をもつと考えら セスをシステム化するのではなく,画像処理技術に よってかなりの成果が挙げられている。しかし,入力 れる。ここで,入力画像を分割していったとき,生物 される文字や図形はその形が限定されており,視覚情 義する。この入力画像を細分化していく方法として,. 報すべてに対する認識の実現には至っていない。我々 座標的分割と特徴的分割の2通りが考えられる。つま が認識,記憶できる最小単位を「部分パターン」と定 の提案するハイブリッド視覚認識システムは,生物の り,入力画像を均等分割した配列状の一要素を部分パ 視覚認識システムの概念を基本としており,視覚情報 ターンとするか,または任意に区切った(学習内容次第 すべてに対する認識の実現を前提にその研究・開発が である)特徴の一要素を部分パターンとするかである。 進められている。この生物の視覚認識システムは,現 我々は,後者を選択した5)。入力画像内の物体は,その 在のところ生理学的にはまだほとんど解明されていな 多数の部分パターンによって物体イメージとして構成 いが,理論的に確立されている範囲内でそのシステム される。そして,その部分パターンは特徴として記憶 の認識プwセスを以下に記述する4)。 され,その物体イメージは多数の特徴の集合体として 外界から眼球に入った光線は,水晶体というレンズ 記憶される。このとき,ここで記憶された物体イメー の働きをもつ部分によって網膜に2次元画像として結 ジを「記憶パターン」と定義する。この多数の部分パ 像され,その像は網膜中の視纈胞ごとに分割される。 ターンを統合したものと,その統合に対応する記憶パ その分割された画像の様々な光学情報は,各視細胞の ターンとを照合することによって初めて認識が完成す 働きによって正または負のパルス電位に変換される。 る。 このパルスによる画像の情報は,脳へ伝達する過程で 目と頭脳の画像構成機能の一部に相当する部分は, 順次統合処理が行われ,最終的には1枚の画像として 光学システム(オプティカル処理系)によって構成さ 統合される。この時点で,生物は物体が「見える」と れ,入力画像の取り込みと各同一部分パターン(入力画 いう状態となるが,この状態ではまだその物体が見え 像の部分パターンと光学システムの記憶した部分パ ているだけで,何が見えているかは認識できていない ターンとの比較)の有無とその位置情報の出力が行わ (動物に文字を見せているようなものである)。そこで, れる。 認識の次のプロセスとしてこの入力画像を経験,学習 頭脳の画像構成,判断処理,情報統合,記憶照合な によって得られた記憶と照合することになる。この照 どの諸機能に相当する部分は,コンピュータ処理部 舎によって初めて眼前の物体が何であるかを認識する (ディジタル処理系)によって構成され,各部分パター プロセスが完了する。 ンにより特徴抽出された情報の統合(未知入力画像と 我々は,生物の視覚認識システムのモデル化の実現 同一である再構成画像の出力)とそれに対応した記憶 亀丸,須藤,角田 視覚認識に関する基礎研究 パターンの出力が行われ,そして認識が完成する。 171 このマッチトフィルタとは,レーザ光線によるフーリ エ変換ホログラムを写真乾板上に記録したもので,入 力物体像の部分パターンが数多く記録されている。こ 3.開発システムについて のマッチトフィルタに部分パターンを記録する作業 3.1ハイブリッド視覚認識システム は,ヒトに例えると学習に相当する。画像解析として, Fig.2は,我々が提案するハイブリッド(オプティカ フーリエ変換された未知入力画像の各特徴部分は, ル+ディジタル)視覚認識システムである。 マッチトフィルタの記憶した部分パターンと比較さ れ,未知入力画像内にその部分パターンと同一の存在 P2 Ll Pl CL1 を確認すると,P3面上に明るい争点(以降,ピーク: peakと呼ぶ)がFig.3のように出力される。このピーク HorNe Laser の出力数は未知入力文字と記憶されている部分パター ンとが一致した数を示し,ピークの出力位置はその一 致した部分パターンが何であるか,そして,それが未 L2 P3 MONITOR DISPLAY 知入力画像内のどこに存在するかを示しており, Fig。1では部分パターンの特徴抽出に相当する。 FRAME ト藍ICRO CCP一 VMMMI MEMORY I lCOMPUTER CAt4ERA Fig. 2 Hybrid visuak”ecognition system : CLi, colljinator lens ; Pi, object plane ; Li, L2, Fourier transform lenses ; P2, matched filter ; P3, output plane. その前半を構成するオプティカル処理系は,マッチ トフィルタの理論6)に基づき,共同開発者の一人に よって開発・研究が行われており,視覚認識の一部と して,すでにピーク出力による文字認識7)という形で 実現されている。この処理系は,He−Ne LaserからP3 面までで構戒されており,Plは入力物体面, P,はマッ チトフ/ルタ面,P3は特徴抽出信号観測面を示し, CL,, L,, L,はそれぞれレンズを示す。後半を構成する ディジタル処理系についての開発・研究に関する記述 Fig.3 Output signal by optical processing system. が本論文の中核を成すものである。現在,このディジ タル処理系は,Fig.1の統合の時点まで完成しており, 3.3ディジタル処理系 未知入力画像内の文字に対してコンピュータCRT画 Fig.3に示すピークは,未知入力文字に関するその 面上に直接文字の形で認識信号を出力させることによ 文字の個数と種類,そしてその文字が存在する位置に る文字認識を可能にしている。この処理系は,3種類 関する情報を含んでいる。しかし,この状態のままで のハードウェアから構成されており,CCDカメラ,フ は,その情報内容を理解することは困難である。そこ レームメモリ,マイクロコンピュータがそれらに相当 で,オプティカル処理系からのピークによる諸情報を する。 認識可能な形に変換する必要がある。我々は,コン ピュータを用い,このピークによる諸情報によって未 3.2オプティカル処理系 知入力画像を類推し,その未知入力画像に近似した画 P,面上に未知入力画像を設置し,He−Ne Laserから 像を出力することによって認識を実現する方法を考案 レンズ等を経て得られた平行光束によって照射され した。 る。そして,レンズL,によって未知入力画像のフーリ P3面上に結像したピークはCCDカメラによって取 エ変換像3)がマッチトフィルタP2面上に結像される。 り込まれ,その情報はフレームメモリに送られ,そこ 178 茨城大学工学部研究集報 第37巻 (1989) で一枚のスクリーンの情報として640×400の配列の 認識に強い反面,「誤認識」の可能性があるという最も RAM(Random Access Memory)上に書き込まれる。 人間らしい機能である(この誤認識は,人間と同様にコ この情報はピークデータとしてコンピュータ内部のグ ンピュータも学習量に深く関係があると考えられ ラフィック・スクリーンに書き込まれ,さらにポイン る9))。このような記憶パターンとの照合機能は,現在, トスキャン(ピークの全画面検索操作)されることに その研究・開発が進められている11>。 よってピークの検索が行われる。そしてマッチトフィ ルタ面に関する学習データ(コンピュータによって設 計され,データファイルとして管理される)に基づき, 4.ディジタル処理系の開発について そのピークがどの部分パターンの存在を示すものであ 4.1パターン認識システムの現状とその開発環境 るか,そしてそれが未知入力画像のどの位置に存在す るかについて演算処理が行われる。この演算によって, 設定状況 最終目的である一般2次元画像のパターン認識を実 P3面のFig。3のような状況から元の入力画像が再構成 現するための基礎実験として,現在,我々のシステム される。これは,Fig.1の統合に相当する。文字認識の は文字認識という形でほぼ実現されている。現段階で 場合,この統合の時点で認識は完了し,システムは終 の認識システムは,各システムにおいて次のようなこ 了する。Fig.4は認識例の一つを示しており,未知入力 とが定量的に確かめられている。 画像はこのようであったことが判る。さらに,画面の ・オプティカル処理系 被認識2次元画像の分割画素数:Nx・Ny 4×4=16 ピクセル キャラクタ数:Cx*Cy 6×6=36文字 演算時間:光速と同一である ・ディジタル処理系 被認識2次元画像の分割画素数:Nx*Ny 29584 ピクセル (正方配列で!72×172) キャラクタ数量Cx*Cy Fig.4 AR example of recognition(No.1). 202文字 但し,コンビュータデ6スプレイの表示可能な 左上には,未知入力画像内に存在が確認された各部分 パターン(文字)の存在個数を示している。しかし,文 ドット 数の関係上,Nx・Cx≦640, Ny・Cy≦400 字認識において入力画像情報として欠落箇所があった 場合,または手書の文字の場合,入力画像の再構成の 演算時間:PC−980!RX CPU80286 みでは認識とはいえない。また入力画像が図形など一 使用言語 Turbo Pascal Ver 3.Oio)1こおいて 般2次元画像の場合,入力画像の再構成では認識と呼 16P gM 2秒 100P 36M 6秒 べなくなる。たとえば,未知入力画像としてリンゴを 入力した場合,リンゴの映像を出力しても認識とはな (P,Mは,それぞれ単位として,ピクセル,文 らず,そこで「リンゴ」という文字を出力して初めて 字を示す) 認識が完了する。つまり,Fig.1の記憶パターンとの照 合が必要となる。この種の認識は,人間では学習によっ 本研究においては,文字認識対応のディジタル処理 て可能となる「条件判断による記憶想起」と呼ばれる 系コンピュータ・システムは現在すでに完成している もので,「類推」という部類に属し,情報欠損に対する が,このシステムの開発環境上,我々はこれを証明す 亀丸,須藤,角田:視覚認識に関する基礎研究 179 る直接の手段をもっていないため,このシステムの完 この図のようにピークが出力されることは,すでに 成をディジタル処理系の動作確画によって証明した。 我々の光学的な実験によって証明されている(3.2を参 我々の研究室では,現在,オプティカル処理系部を他 照)。実際のシステムでは,直接,オプティカル処理系 種の実験のために使用しているうえ,CCDカメラ,フ からピークを入力するため,ピーク出力位置の誤差や レームメモリを所有していない。そこで次のような方 ノイズによる誤認識の対応策として,ピーク読み取り 法でデ/ジタル処理部の動作の確認を行った。まず, 範囲の調整(ピーク出力予定点から,上下左右のどこま CCDカメラ,フレームメモリが使用できないことに対 での範囲を検索するか)による補正機能,そしてノイズ する対策として,Fig.2において, CCDカメラからの情 フィルタ機能(閾値の設定による)を備えることが必要 報(以降,ピークデータと呼ぶ)がフレームメモリから となる。このシステム・プログラムは,上記の調整機 マイクロコンピュータへ伝達される際,そのピーク データを一度ディスクにセーブさせた後,そのディス 能を搭載しているため,実際のピークの使用も十分可 クをロードさせることによってこのシステムプログラ このディジタル処理系において,現在は文字認識を 能であるといえる。 ムが作動するように考慮した。したがって,本報告は, 前提にCRT画面上には文字を出力しているが,図形認 上記に示すハードウェアがすべてそろったときのハイ ブリッド視覚認識システム(今回は文字認識)の実現性 識を目的として文字以外にアスキーコードや外字で登 を証明したものに相当する。CCDカメラからのピーク データの作成は,本学電子工学科安久研究室のシステ 録されている記号や図形を出力することも可能であ る。今後,さらに入力画像の細分化,つまり分割画素 数を上げ,1ピクセルに対し256階調の1黒点(キャラ ムを借用することによって行っている。さらに,オプ クタを1文字から1黒点に変更する)を対応させるこ ティカル処理系が使用できないことに対する対策は, とによって,最終的に一般2次元画像の高解像度認識 そこで得られる実際のピークの代用として,手書きに の実現を計画している。また,演算時間は,プログラ よるピークをディジタル処理系へ入力することによっ ムの画面応答部分をPascalからマシン語に組み変え て行っている。この手書きによるピークをFig. ることによってかなりの高速化が期待できる。 5(Fig.4に対するピークである)に示す。この手書き 4。2パターン認識プログラム このデジタル処理系内のパターン認識プログラム は,実際にパターン認識を実行するものと,パターン 認識シミュレーションを実行するものとが作成されて おり,この2つは1つのプログラム内に収められてい る。 e . パターン認識シミュレーションとは,構造的にパ . ターン認識プログラムを作成するための基本となって e e おり,実際のマッチトフィルタを作製する際,そのマッ チトフィルタの学習データを設計するために用いられ e e る。これは,オプティカル処理系で出力されるピーク e e を実際に入力せず,コンピュータ・グラフィックスに . よって作成された仮想ピーク出力面(Fig.2のP3面)上 e の任意の位置にピークを自己発生させることによって 実行される。 では,パターン認識プログラムによって実際に認識 Fig.5 Output signal by handwritten peak spots(No.1). へ至るまでの過程を,コンピュータCRT画面で示すこ とによって解説する。 によるピークは,Fig.2のP l面上に未知入力画像の文 Fig。6は,マッチトフィルタの学習データ設計終了 字として,「YOU ARE A GIRL」と入力された(文字 時の画面である。ここで,マッチトフィルタにどのよ のフォーマット形式は省略)と仮定したピークである。 うな部分パターン(今回の実験では,部分パターンを文 180 茨城大学工学部研究集報 第37巻 (1989) 字とする)を学習させるかについて設計する。画面の右 義することも可能で,本プログラムは今後の図形認識 側みられる正方形の枠は,オプティカル処理系から出 にも対応している。 力されるピークの出力面P,のフィールド分布を示し ている。P3面上に出力されるピークの個数は未知入力 Fig.7はピーク読み込み終了時の画面である。コン ピュータによって,画面ピークを検索し,あらかじめ 画像に存在する文字の個数を示し,そのピークの出力 設計しておいたマッチトフiルタ学習データにした する位置は画面のフィールド分布によって何の文字で がって演算処理を行い,未知入力画像の再構成画像を あるかを示している。さらに,その文字が未知入力画 出力する。その未知入力画像の再構成画像,つまり, 像内のどこに存在するかは,画面のフィールド分布の 文字認識結果は,すでにFig.4に示した通りである。 一文字分のフィールド内(この場合,画面の全フィール Fig.8はさらに別のピークを示し, Fig.9は別内容で設 ドの1/9のフィールドを示し,そのフィールドは未 計されたマッチトフィルタ学習データとCCDカメラ 知入力画像の全域を示す)のどこにピークが出力する で取り込むことによって作成されたピークデータによ かによって判断する。 る認識例である。 この設計状態では,一文字分のフィールド,つまり 未知入力画像をxy方向に4×4=!6で分割しており, つまり,未知入力の文字を4×4=16まで入力が可能 e e である。さらに,判別できる文字の種類を3×3=9 e に設定しその文字は,A, E, G,1, L, O, R, U, Y, e e e e e と定義している。ここでは,文字以外に図形などを定 e e e e e e e e e e e Fig.8 Output signal by handwritteR peak spots(No.2). Fig.6 Arrangement of reference patterR of the matched spatial filter. Fig.9 An example of recognition(No.2). 5。考 Fig.7 Field distribution of output signals. 察 このデジタル処理系におけるコンピュータプログラ 亀丸,須藤,角田 視覚認識に関する基礎研究 ムは,構造化(サブルーチン化),変数化(プログラムの 謝 諸動作を定義する定数の変数化)などにより今後の機 能拡張に対するあらゆる変化に対応できるように作成 181 辞 本研究を進めるにあたり,CCDカメラ,フレームメ されており,現在,記憶パターンとの照合機能を追加 モリ等のハードウェアを利用させてくださった本学電 することは容易である。しかし,今後のシステムには 子工学科安久正紘教授,並びにソフトウェア作成に当 自動学習機能(入力情報をデータメモリ内の記憶パ たりアドバイスくださった安久研究室の学生諸君に感 ターンと照合し,一致するものがない場合,その入力 謝します。 情報を新たな記憶パターンに追加する),記憶パターン 検索機能,そして入力情報欠落のための入力画像類推 参 考 文 献 機能などの付加機能を搭載させる必要性があり,さら に学習パターンのデータメモリの大容:量化に伴い,そ れに影響されることのない演算高速性の確保を実現し なければならない。そのため,次のような課題が残さ れている。具体的に,オプティカル処理系から得られ るピークをコンピュータCRT画面に取り込む処理の 時間短縮には,ハードヴェアに密接したアルゴリズム によるソフトウェアの開発を行い,メモリの大容量化 と演算高速性の確保にはRAMディスク,ハードディ !)木内 雄二:画像認識のはなし,日刊工業新聞社, 東京(1986) 2)廣田 薫:画像パターン認識,マグロウヒルブッ ク,東京(1984) 3)宮沢丈夫:実践ニューラルネット,ASCII, VoL12, No.9,東京(1988), pp.237−244 4)福島邦彦:視覚の生理とバイオニクス,コロナ社, 東京(!976) スクを活用する。さらに,使用言語の変更(Pasca1→ 5) Atsushi Akiba, Masahiro Agu, Shun−ichi C→アセンブラ)を行うことによってシステム全体の Kamemaru and Taketo Yamal〈i:“A Miniatur− レベルアップが期待される。 ization of an Optical Matched Filter”,光学, 17(1988) pp.306−308 6。結 言 6)飯塚 啓吾:光工学,共立出版,東京(1977) 7) Shun−ichi Kamemaru, Mitsugu Kakuta, lsao 本報告における実験によって,コンピュータCRT画 面上に直接文字の形で認識信号が出力されることによ Shimizu : “Optical Pattern Recognition with る文字認識が可能となったことにより,ハイブリッド Spatial Filters”, Opt. Commun., Vol. 69, No.3 視覚認識システムの基本的概念の有意性が証明され −4 (i989) pp. 211−213 Object−Multiplexed Reflection−Type Matched た。以下に,本研究の開発達成部分と今後の課題を記 8) Bahaa E. A Saleh : “Optical lnformation 述する。 ProcessiRg and the HttmanVisual System”, Applications of Optical Fourier Trinsforms, ed. 開発達成部分 H. Stark, Academic Press, Orlando, (1984) , ・文字認識が可能となった。 pp. 431−434 ・マッチトフィル膳棚の学習データ設計が可能で 9)知能システム研究会:脳の情報システム,啓学出 ある。 版,東京(1976>,pp.!−40 ・文字認識シミュレーションが可能である。 !0)河西朝雄:Pasca1入門,ナツメ社,東京(1987) 赤川勝矢,高見英親:Turbo Pascalプログラミン 今後の課題 グ入門, 啓学出版,東京(1987) ・オプティカル処理系とディジタル処理系とを直 安井勉:Turbo Pasca1パーフェクトリファレ 接接続させることによるハイブリッド文字認識 ンス,ピー・エヌ・エヌ,東京(1987) システムの完成。 11)亀丸俊一,永岡利之,角田 貢,清水 勲:多重 ・入力画像分割画素数の増加と演算速度の高速化。 マッチトフィルタを用いたハイブリッド認識シス ・記憶パターンとの照合システムの追加。 テムの研究(II),第50回応用物理学会講演予稿集, 27a−ZF−8, 1989.