Comments
Description
Transcript
題 名 手書き文字の機械認識における 特徴抽出と識別関数の研究
_第 3329号 報告番号を'xi 主論文の.要 題名 手書き文字の機械語 における 特徴抽出と識別関数の研究 氏名 鶴 岡 信 治 主 論 文 報告番号董※L*第 本論文は, 汎用計算槙を使用 1. について 状を ための前処理 各種の提案が行わ と 歴史を述べ, では, 文字認識研究の学問的・社会的意義 1. 3 簡単に紹介する. 1. と 認識対象, 認識過程 文字認識の方法(パタ 4 零在広 ー 本論文の位置づけを にお いて く 使用さ 一般的な文字 れて いる代表的な 楕造解析的手法)の ン整合法, そ して, た研究の その特色について述べ, の位置づけを行 第2章でほ, 環 ほ, 概要について解説する. 目的及び手法, ズムの 文字認識についての歴史と で, る. る. の積要 述べリ い よび文字認議アルゴリ 文字認諾お 2 た た実験結果が述べられて 各章の内容を順に簡単に説明す 研究について も れた大量の文字を対象に, して行っ 第1章では, 治 それらの手法の有効性を実証する 実際に紙面上に筆記さ 行 う. 信 文字"を穫械的 識別関数に関する そ して, いる. 以下, 岡 手書き文字を高精度で認識する ・特徴抽出の方法と めに, 鶴 名圭 旨 ズムに関する研究について述べた アルゴリ り, れて 氏 要 紙面上に書かれた"手書き に認識する のであ 号 の 1. 5 で, 筆者の行っ 本論文 う. 文字認識に適した"細線化アルゴリズム "についての詳細な議論を行い, 処理結果であるデイ -1- ジ 論 主 …※甲第 之J 報告番号 文 号 氏 る. そ して, システム(スト 串 名妻 岡 信 治 ズム 新 し い雑音化アルゴリ タル平面上の諌函形の定義と を提案す 旨 要 の 文字の認識 これを競計的な手書き と き の有用 ローク構造解析法)に用いた 性について述べる. 2. 2 では, 2次元デ ジタル図形についての基礎的 ィ な諸概念について解説し, 2. ズム 緯線化アルゴリ よ り, 値図形と ジタル そ して, その定義か 2. 線化アルゴリ ズム 提案する と の比較を行い, ら導出 と 並列型の鰭 濃淡図形に対する逐次塑 ズムについて述べる. 4 他の緯 でほ, 文字按分の涛追・消失が少ない割に, アルゴリ ズ ヒ イ ゲ状ノ ズ技(認識をする場合に不必要な線分)が少なく, 時間も迷いこ と を述べ, 2. 5 る文字認識システム(スト ローク た と き, 4. 他の細線化法で9 き カ タカナ文字集合を対象に に向上したこ と を示す. 2 の固形(疑団形) 線化アルゴリ ムは, ィ 護国形を図形要素の近傍状態に 集合論的に定義する. さ れ る 2 "デ が1ビット し, "を議論 した 文字認識に適 で, を開発するために, 次元平面における線分の太さ と は何か? 3 処理 で, -2- し 構造解析法)に使用 6 して, また, 構造解析的手法によ 由手書 %の正読率の自 正読率が9 多値図形の細線化法では 5. 6 % 主 論 号 報告番号… ※申第 要 の 文 氏 鴇 名萱 旨 岡 信 治 ZJ 交点 るこ 第 書き t く な り, 分岐点付近のひずみが少な とほ手書き文字認諾に有効である 3 こ と を橡認する. "人間の字種識別基準"を用いた 章では, カ タ カナ文字認識について述べる. 形がわずかで, 人間な 従 の方法は, 標準字体からの変 ら囲襲な と な らない場合が散見される る. 自 由手 こ 来の続計的な文字認識システムでは, た方法であ 譲度値を用い く 読める文字でも, こ すなわち, と に注目 蔑準パター し, 正読 考えだされ のに, ンを作成する う に実際の筆記された学習文字を競計的 従来の手法のよ く, に分析するのではな 字壱ごと させた に計算積で発生 変形文字(所縁近似パターン)を被敬老に見せ, 特故空 間内での各芋蔓の判読限界値(字種識別基準)を直接計 測す り, る方法であ 人間の表別可能な文字の積念約分布 (字毒識別範囲)を認識システム そ して, その判読限界値を基準と 距離)によ り, 直接計測 を使用 3. した研究はなく, した研究も 2 でほ, した識別関数(心理的 実際に筆記された文字を対象に 方法である. の識別を行う る. に組み込む方法であ 従来, して字種 もちろん, 人間の字種識別範囲を 字種の識別にそれ ない. 実際に筆記された文字の折線近似パター -3- 論 主 文 号 報告番号…※申第 Z. ンを対義に り抽出 3. 3 して, 要 の 氏 名… 鶴 旨 岡 信 治 字種ごとの字形変動を主成分分析によ し, 人工的に変形文字を発生させる方法を述べる. で, その変形文字を被験者に見せて計謝した人間 し, の判読限界値(字種識別基準)を紹介 読計的手法で 京めた字種識別基準と人間の字種識別基準の差異につい し, て考察 3. 統計的な識別関数の問題点を述べる. 4 人間の字種識別基準を用いた識別関数(心理的臣定) で, を提案し, 3. 続計約手法を用いる場合に比べ, じて, た話芸実敦を通 な り, 誤読率が半分以下と 未学習文字( 4 6 9 7. に対する正読率が従来の最高値を上回る ま た, った. い文字に限ら 第 4 章では, ン認識に有効なボト 方向指数ヒスト 関数( "疑似ベイ 0 こ と が判明 手書き ッ %と な しに く した. 漢字・ひら ムア 0文字) 2 誤読・棄却された文字も人間が表別 れる し カ タカナ文字を対象と 5で自由手書き がな文字等のオ フ "加重 プ式の特徴抽出方法( グラム法" )と ズ識別関数" ラ イ その特徴量に適した識別 ) .を開発し, を大量の文字を対象にした計算横実験によ その有効性 り検証したこ とを述べる.本手法は輪郭線解析法をパターン渠似度法 との融合化の方向へ発展させ,高精度に読み取る -4- こと を 論 主 報告番号 文 号 ※好第 氏 旨 要 の 名i 串 間 信 治 .a 目的 と した も のであ ズムであ ルゴリ り, り, ハードウ 違度計算には従来のベイ 問題点を解決 こ と, ひら した"疑似ベイ ③あ る 意味ではも 小領域の 4 6 4 タベース( 9 結果, 正読率 4. 2 2 7 9 9 っ 4 でほ, × ベイ ズ識別関数の問題点 E 5 . % T 本誌 各 の小領域に分割して, 8 を特敬ベクト 教育漢字デー た )の認識実験を行っ (高品質文字), グラ 9 し, ム法)について解説 でほ, 4. と こ の特徴量に適 6 . 3 ( % 3 で, 従来の した新たに開 ズ識別関数)について議論す 手書き 教育漢字・ひ 別実験の詳細(識別関数の比較, ッ L いる な どである. グラム る し い特徴抽出の方法(加重方向指 発した識別関数(疑似ベイ 累積分類率. 4 ヒ スト 字穫; その薪 スト 4 と されて と も認識が困発 と, い られた. 数ヒ 4. 次表新関数)の して電絵所作成の手書き 低品質文字)が得 ト 2 ③相 ズ識別関数''を用いて 方向の方向指数の 次元)と と, ア化しやすいこ がなの正読率が非常に高いこ よ り 文字画像を る. ェ ズ識別関数( 議方式に ル( その特敬は①単純な特徴抽出ア 誤読文字, らがなに対する識 学習の効果, 処理時間)を紹介し, 正読率 現時点で る こ と を示す. プレベルの認識性能が実現でき -5- t 論 主 韓告番号 文 号 ※申第 氏 旨 要 の 名妾 宅 岡 信 治 A 第 手書 ''筆記者に対 5章では, こ き文字認識方式"について述べる. 力 さ れる 自 由手書き 書で認識 して, らか 文字をあ し, く 方法であ 人にと の荏準的な字形と異なる字形を書く なる る. 認識方式であ り, み取れる可能性があ 平均と 3 全ひ ム法を用いて, 5 5 % 9 6. に向上 8 し, 多人数 特に有 ってt O C Rでほ, し, 寒雲示 加重方向指数ヒ らがな文字( T 4 6 L 4 の1 0 の方式が効果的であ スト グラ 字種)を対象と し た. 汎 その結果, 0文字/字種で学 タ が, %の平均正読率の文字デー こ 本章 ルを用いる認識方法に 人の特定葦記者で認識実蛍を行っ 用辞書(電稔研作成のE 冒)で り, 実用性の高い方法である. 固有僅.冠者ベクト おける適応方法を た の方法を用いた 筆記者の字形 癖や続け・省略を含んだ文字でも読 葦記者に特有の書き では, こ 入 の方式は, じめ用意された汎用育 その文字を学習に使用 に適応する辞書を逐次作成してい 効と た 自 由 して適応積能を持っ 9 る こ と が実証さ 9. れ た, 5. 2では, 筆記者の文字だけで学習した専用辞書と, 不特定多数の筆記者の文字で学習した汎用辞書によ 識結果を比較し,専用辞書の方が効果的であるこ -6- る認 と を示 主 論 文 報告番号 氏 す. 5. 修正型辞書, 認諾性能, に評価する. 第 6 3 種渠の方法( 自 由 した認識実数 新し く 提案した混合型辞書が最 る こ と を示す. 章では, 文字を学習 筆記者の"個性ベクト した手 ル"を利用 第 5 章では特定筆記老の した適応空辞書を使用すれぼ, 読率よ 治 計算量などを総合的 使用記憶容量, 書き.文字認議について述べる. し, 信 6字種)を対象と その結果, も有用であ 岡 混合型辞書)について, 手重きひらがな文字(4 を行い, 鶴 名:: 筆記者の文字に適応する 3で, 更新空辞書, 旨 要 の 流用辞書の正 しか りかをり長い結果が得られることを述べた. こ の方法を ま 手書き漢字認識に適用する そのま 漠字の字壱敦が多いので, 合には, 場合ほかな した字葦を書く と 考え られる. 事前に筆記していない字種において に機能する よ う に, 弄度はかな る そ こ で, 本章でほ, も 適応型辞書が有効 少数の字種の文字よ に依存しない"個性ベクトル(書き 方法を提案し, いる場 適応型辞書を有効に利用でき そのため, り 少ない られて 学習文字数が限 筆記暑が事前に筆記 り 低 く な る. と, り 筆記者の字種 ぐせ) その個性ベクトルから兼学習の字種にお ける筆記者の個人平均ベクトルを推定する方法を述べる・ -7- "を抽出する 主 報告番号 論 ※甲第 文 号 要 の 氏 名… 串 旨 間 信 治 Zl した個人平均ベクトルを招いてひ 実数 した結果, 礼, 平均正読率は し, %に向上 6. 2 出方法と す. スト 9 (汎用辞書)から 7. 1 られた. ルの推定方法について提案し, グラム法を用いて, らがなの全芋蔓)に連用 6. 4 5 した結果 人の葦記者の を 6. 3 に示 では推定した個人平均ベクトルを用い ひらがな文字の認識実験の結果について述 べ, 汎用平均ベクト られ る こ と を示す. に, 8% 個人平均ベクト た 自 由手書き して, 6. 人で長い正読率が得ら で字種に依存しない筆記者の個性ベクトルの抽 また, そ 3 その有効性が確かめ 加重方向指数ヒ 文字(ひ らがなの全字種で認識 5人の筆記暑中 9 推定 し, グラム法に適用 この手法を加重方向指数ヒスト 第 7 今後の課題につ り 高い正読率が得 ルを用いた場合よ 章で, 第 6 章ま いて述べる. -8- での内容を 要約す る と 共