Comments
Description
Transcript
文章筆記における 自由手書き文字の字形変動分析
平成 年度 学士学位論文 文章筆記における 自由手書き文字の字形変動分析 指導教員 大西 百合子 木村 義政 年 月 日 高知工科大学 情報システム工学科 要 旨 文章筆記における 自由手書き文字の字形変動分析 大西 百合子 年代中ごろから携帯情報機器が普及しつつある.そこではキーボードが使用できな いため,入力はオンライン文字認識となる.使用者はペンを用いて,タブレットから文字を 入力する.この時,筆記される文字は自由手書き文字となる.自由手書き文字の認識率は低 いのでその向上策が求められる.本論文では認識率向上の指針を得ることを目的として個人 の自由手書き文字の字形変動分析を行った.分析の方針としては,字形変動に影響をもたら すと考えられる つの特性を取り上げ, つの分析法との組合わせで行うこととした.特性 としては,筆記位置,筆記順,筆記時間,筆圧,パターン間距離を選んだ.分析法としては, 各特性単体の分析,各特性間の関係,経時変化,筆記速度の変化による各特性の変化を用い た.その結果,筆記時間,筆圧,筆記速度が字形の変動に大きく影響しているという傾向が %の筆記者においてみられた.これにより,認識率の向上を図るための指針として, (1) 従来用いられている距離に加えて筆記時間と筆圧の併用による識別, (2)筆記速度による追 加個人辞書の登録制御,を得た.これらは, 年代に隆盛になった複数情報による識別の高 度化の方策をさらに推進したところに位置付けられ,有望であると考えられる. キーワード オンライン文字認識,字形変動 ! " " # $ $ $ ! # ! %$ & $ ! ! ! ' ! %$ ( $ ! ' $ $ ! " ! &' $ ! ! % ! $ ) * ! ! ' ;)+* ' $ ! ! ! ,' $ 目次 第章 序論 第章 関連研究 従来の研究 + 分析の指針 - 分析の指針 -+ 特性 -- 分析の項目 . 実験 文字データ収集システム + 筆記者 - - 筆記すべき文章 - 個人辞書作成のための文字データ収集 - 評価用文字データ / 分析プログラム . 実験手順 / + 第章 第章 第章 分析結果 筆記位置 + 筆記順 + - 筆記時間 +- 筆圧 +- 各特性単体の分析 目次 + パターン間距離 + / 各特性の出現頻度 + 特性間の関係 +/ + パターン間距離と筆記時間の関係 +/ ++ パターン間距離と筆圧の関係 +. +- 筆記時間と筆圧の関係 + - 経時変化 + 筆記速度の変化 - 筆記時間 - + 筆圧 -+ - パターン間距離 -- 第章 考察 / 認識率向上への指針 - /+ 直前に筆記された文字の影響 -. 第章 結論 謝辞 参考文献 図目次 - パターン間距離の例(平仮名「の」) . 収集システム + 収集したデータの例 - 個人辞書作成のためのデータ収集用筆記用紙 文章筆記用紙 + + + 見本文章 - / タブレットの上での筆記 . . データ収集風景 筆記された文章の例 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化 )平仮名「の」* + + 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化(漢字「活」* + - 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化 )漢字「職」* + 筆記順が及ぼす筆記時間の変化 + 筆記順による全筆記者の平均距離の変化 )平仮名「の」* ++ / 筆記順による筆記者別の距離の変化 )平仮名「の」* ++ . - 字種に見られる各特性の出現頻度 + パターン間距離と筆記時間の関係 )平仮名「の」) +/ パターン間距離と筆圧の関係 )漢字「活」) +. 筆記時間と筆圧の関係 )漢字「職」) + 全筆記者の平均筆記時間の経時変化 )漢字「職」) - + 筆記者別の筆記時間の経時変化 )漢字「職」) - / -/ 識別結果の総合判定の例 図目次 /+ 個人辞書管理方法 -. 表目次 文字パターンデータ 全筆記者の筆記時間の平均,分散,標準偏差,変動係数 +- + 全筆記者の筆圧の平均,分散,標準偏差,変動係数 +- - 全筆記者の距離の平均,分散,標準偏差,変動係数 + 筆記速度を変化させたときの対象文字の筆記時間の平均,分散,標準偏差, 変動係数 筆記時間を変化させたときの対象文字の筆圧の平均,分散,標準偏差,変動 係数 / - -+ 筆記速度と変化させたときの対象文字のパターン間距離の平均,分散,標準 偏差,変動係数 - 第 章 序論 近年,携帯情報機器(01"20 1 ")が普及しつつある.01" は 03)0 3 * と比べ,個人で利用する傾向が強い.01" は屋外に持ち出して 使われることが多いため,省スペースが要求されキーボードを接続して使うことは困難とな る.このとき,入力としてはオンライン文字認識が使用される.使用者はタブレットに付属 しているペンで文字を書き,認識により入力がなされる.この場合,タブレットの定置が不 安定なため筆記される自由手書き文字の認識率は低く,その向上が課題となっている.認識 率の向上の方策としては主として, (1)認識アルゴリズムの開発, (2)個人字形を学習す る辞書,の + つがある.認識率を向上させるには個人の字形が如何なる要因により変動する かを調べる必要がある.そこで字形変動が現れる特性としては, 筆記位置, + 筆記順, - 筆記時間, 筆圧, パターン間距離の 種類を選び,また分析法としては()各 ()経時変化, ()筆記速度による各特性の変化,の 特性単体の分析, ()各特性間の関係, 4つを選びこれらの組合せで分析を行った. 本論文は以下の構成をとる.+ 章では,字形変動分析でこれまでに採られた手法を述べ, - 章では分析を行う際の指針について述べる. 章では実験内容を説明し, 章では実験で 得られたデータの分析を行う./ 章では分析から得られたデータについて考察し,認識率向 上への指針を導出する. 第章 関連研究 本章では,これまでになされてきた字形変動分析の研究を分類し,その手法と結果を述べ る.また,そこで用いられた特性と分析手法について整理する. 従来の研究 字形変形の研究,特に個人字形の研究に関するものはこれまでも色々な試みがなされてい る.これらを分類すると, (1)運動学, (2)変形・変動分析, (3)学習, (4)認識の つ の側面からのアプローチに大別される.これらのアプローチの取った手法,およびその結果 について以下に述べる. 運動学 これは手の運動のモデル化を行うことにより,字形の分析を行うものである.1 4 5 と 61 は手首や指の運動のモデル化を行い,これで以って字形 変形を探ろうとした.しかし,このモデルは書字運動を考える場合のモデルとしてはき わめて不都合である.そこで保原は等価力学モデルを用いて筆圧変動が書字運動に与え る影響を加味した方程式に修正し,改めてその方程式を手書き系の等価力学モデルとし て提案した 7 8. 変形・変動分析 吉村らは文字の個人性が字形のどこに現れるかを分析した 7+8.ここでは特性として 次の / 種類を用いた. 文字パターンのモーメントに関する特性値 + 従来の研究 - ストロークの湾曲に関する特性値 ストロークの長さに関する特性値 各特徴点間の傾きに関する特性値 / 各特徴点の距離に関する特性値 + 文字の縦横に関する特性値 以上の特性を用いて主成分分析で個人性の現われ方を分析した.その結果, ()文字 ()右上がり,右下がりの - つの要因が個人性を表すという実 の大きさ, ()扁平さ, 験結果が得られた. また,木村らは筆記条件,筆記対象を変化させることにより字形に及ぼす影響を分析 正しい筆順・画数で書かれた筆順・画数固定文字, + - 制限条件なしで自由に筆記された自由 楷書体で書くという条件で筆記された文字, した 7-8.筆記条件としては, 手書き文字の - 種を取り上げている.筆記対象は, 文字ずつ筆記する 文字筆記,文 章を筆記する文章筆記の + 種類としている.それらを用いて()正しい画数から変化 して書かれる頻度等の文字の有する統計量, ()パターンマッチング法による識別率, の + つの観点から分析した.これにより以下の結果が得られた. ()筆記条件の緩和に伴い,画数の変化が大きくなる. ()筆記条件の緩和に伴い,入力パターンと標準パターンとの距離の平均値,標準 偏差,変動係数とも大きくなる. ()筆記条件の緩和に伴い,識別率が低下する. ($) 文字筆記より,文章筆記の方が識別率が低い. ($)筆記条件が厳しい場合は,非漢字識別率が漢字識別率より低いが,筆記条件の 緩和に伴い,この関係は逆転する. 金らは署名に伴う非公開的なパラメータのみを用いたオンライン署名照合法を提案し た. 78.特性として, 筆圧, + 筆速, - 握り圧を用いて,- つのパラメータの 時間軸での一致性を考慮に入れた 10 マッチングにより照合を行った.評価実験は半年 にわたって収集した経年署名を対象として行った.その結果,握り圧の有効性が明らか + 従来の研究 となった. 長石は自由手書き文字の定義を再検討した上で,その定義を満たす収集方法を提案し 文字の収集を行った 78.文章内の筆記位置と文字変動の関係について着目をした.字 形変動の評価には変動エントロピーを用いた.その結果,文頭や文末の文字は文中にあ る文字に比べて字形変動が大きいという結果を得た.このことは字形変動と筆記位置と の間に相関があることを示唆している. 学習 内藤らは特定筆記者における文字の安定性を不特定筆記者文字のそれと比較した 7/8. ストローク密度特徴を用いた識別により個人内で書かれた類似文字の距離よりも個人間 で書かれた類似文字の距離の方が大きいことが明らかとなった.変形量においては不特 定筆記者の変形は個人内の変形の 倍となる結果も得られた. 木村らは携帯型ペン入力インタフェースに用いる個人辞書の学習特性について報告し ている 7.8. 回の学習により,学習中のデータの認識率は . %から /+ %に,未学 習データの認識率は . %から %に向上した.個人内の字形変形は +ヶ月の間で は - 通り程度あり, 時間の間では 通りであることが判明した.個人辞書の誤読救済 は,まず変形の大きい文字や癖字,個人パターン間の競合が吸収され,次に個人内字形 変動が吸収されるという順で進行することが判明した.個人用携帯型ペン入力装置の適 用域や個人辞書の規模などが明確になり,装置設計上の有効な指針となった. 認識 吉村らはテンプレートを自分専用,自分も含めた汎用,自分を含めない汎用,他人専 用の 通りに区別して自分専用の場合が他人に比べて有効かどうかを実験的に検討した 78.認識方法は変動吸収特性核を用いる方法とそれを用いない方法を用いた.実験の結 果,自分の文字のみを学習して作った自分専用のテンプレートが,他人と比べて有効な ことが明らかになった. 第章 分析の指針 字形変動の分析を行うには,一定の方針を立て,それに沿って行うことが重要である.本 章では指針の立て方について考察し,分析の方法について明らかにする. 分析の指針 手書き文字の変動の分析を行うためには )如何なる特性を用いるか )如何なる分析手法を用いるか を決める必要がある. これらについては ++ で述べたように,)では筆点座標系列,文字の画素情報などがあ り,)では認識率を用いる方法 7-8 や変動エントロピーを用いる方法 78 がある.本論文で は,特性としては,筆点座標系列などの他にどのようなものがあるかその洗い出しを行う. また,分析手法としては従来は特性単体の分析が多かったが,ここではそれのみならず特性 間の関係など多方面からの分析を行う.上記で選択された特性と分析手法とを組合わせて行 うこととし,これを分析の指針とする.以下,特性を -+ で,分析項目を -- で述べる. 特性 分析に用いる特性はこれまで様々なものが提案されているが,本節では, 書字動作, + タブレット,- 文字パターンの - つの観点から整理すると下記の( )∼()が得られ + のタブ (2)がある.また, る.また, の書字動作から得られる特性として(1), -+ 特性 レットから得られる特性は多数あるが,ここでは(3), (4)を扱うこととする. - の文字 パターンから得られる特性も多数あるがここでは(5)のみを用いることとする. 筆記位置 筆記位置とは文字が紙面のどの辺りに書かれているかの情報である.例えば, 「右側」 や「左端」などのように紙面の場所を指して言う. 筆記順 筆記対象を文章とすると同一文字が何回か書かれる.このとき出現した順にそれぞれ の文字の順番をつけ,それを筆記順とする. 筆記時間 文字の書き始めから書き終わりまでの時間を筆記時間とする. 筆圧 タブレット上に筆点 0(9, )が書かれたとき,ペンがタブレットを押す力を筆圧と いう.筆圧は筆点毎に得られる. パターン間距離 あるカテゴリーの標準パターンと入力パターンとの間でまず,ストローク対応をと る.次に対応のとれたストローク間で各筆点の対応をとる.標準パターンの第 筆点と 入力パターンの第 筆点との筆点間の距離を とする. を全ストロークに渡って総 和をとったものをパターン間距離と言う.パターン間距離 1 は式 )- * で表される. : )- * 図 - に例を示す.図の実線は標準パターン,鎖線は入力パターンにおけるペンの動き である.入力パターンおよび標準パターンの第 筆点を図のようにとると筆点間の距離 は で表されることが分る. は両パターンの筆点間のずれを表しており,これをパ ターンの全点に渡って総和をとるとパターン間距離となる.これにより,入力パターン が標準パターンから大きくずれている場合,パターン間距離も大きくなることが視覚的 に明らかとなる.即ち,パターン間距離は標準パターンからの字形変動を評価する量に -- 分析の項目 なっていることが分る. i d i 図 パターン間距離の例(平仮名「の」) 分析の項目 各特性単体,および,特性間の関係の分析はこれまでにも行われていた.本論文ではこれ らに加えて,時間軸および速度軸の側面から経時変化,筆記速度変化も分析することとし た.具体的項目を以下に示す. 特性単体の分析 収集した文字パターンをカテゴリ毎に分類する.あるカテゴリに属するパターン集合 に対し,-+ で述べた つの各特性について分析する. + 特性間の関係 筆記時間と筆圧,筆記時間とパターン間距離,筆圧とパターン間距離など,+ 種の特 性を組合せ,如何なる関係が成立するかを調べる. - 経時変化 経時変化とは,時間の経過に伴う特性の変化のことを言う.日時の変化が及ぼす影響 を筆記時間,筆圧,パターン間距離の各特性において調べる. 筆記速度の変化による各特性の変化 筆記者に「速く書く」, 「遅く書く」という条件をつけて文字を書いてもらう.異なる -- 分析の項目 条件下で書かれたときの,字形の変動を筆記時間,筆圧,パターン間距離において分析 を行う. 第章 実験 手書き字形の分析を行うためには文字パターンデータが必要である.文字パターンデータ の収集に当っては誰でも行えるよう,その手順を確立しておくことが重要である.本章では データ収集の手順について述べた後,分析の方法について述べる. 文字データ収集システム パーソナルコンピュータ(03)に市販のタブレット(ワコム +)を接続すること により,文字データ収集システムを構築した )図 *.タブレットからは筆記時間,座標, 筆圧,ペンの方位角,ペンの傾斜角が時系列データとして 03 に取り込まれる.タブレット から取り込まれた平仮名「の」のデータを図 + に示す.図における情報は右から時間,9 座標,筆圧,ペンの方位角,ペンの傾斜角である.角度のデータは収集しているが,今回 は分析の対象とはしていない.タブレットは電磁誘導式で空間分解能 本;,時間分 解能 + 点;秒,筆圧分解能 ∼ +- レベルである.タブレットの上に紙を置き,インクペ ンで筆記させることによりデータ収集を行うことが出来る. 文字枠内に筆記するもの )図 -*, + 文字枠なしで筆記するもの )図 * の + 通りがある. は筆順・画数が指定されており,これを守って筆記してもらう.この帳 + は文章を筆記するときに使用する. 票は個人辞書作成の際に使用する. 帳票には, 文字データ収集システム 図 収集システム 文字データ収集システム 図 収集したデータの例 文字データ収集システム 図 個人辞書作成のためのデータ収集用筆記用紙 図 文章筆記用紙 + 筆記者 筆記者 筆記者は,男性 . 名,女性 - 名の計 名とした.年齢は + 歳から ++ 歳までであった. 筆記者は全て右利きである. 筆記すべき文章 筆記対象は図 に示す文章とし,分析の対象とする文字は文章中の平仮名「の」) 文 「職」)各 文字* とした.この - 字種はそれぞれ 字*,漢字「活」, 画, 画, 画で,低 画数,中画数,高画数の典型例として選択した.筆記者は図 の文章を見ながらタブレッ ト上に置かれた図 の用紙にインクペンで筆記した.その際,筆記者の書きやすいように 筆記し,文章の改行位置も自由とした.文章は + 週間の間で筆記者の都合の良い時間で疲労 を感じないときとし,続けて何度も筆記しない条件でデータ収集を行った. 図 見本文章 個人辞書作成のための文字データ収集 個人の標準パターンを格納したメモリ領域を個人辞書と言う.個人辞書は同一文字を適切 な回数筆記してもらい,その平均をとって作成される.ここでは図 - の帳票を用い,対象 の文字 - 字種を 回に分けて 回ずつ筆記してもらった.書き間違えた場合は斜線をし, 枠の下に筆記するものとする.筆記者には書き方の指示をし,画数,筆順を守って正しく書 いてもらう.書く前に練習を行い,タブレット,ペンに慣れてもらった上で筆記することと 評価用文字データ する.6 画のストロークを < 画(6 > <)で筆記した続け字, 画の文字を + 画以上で筆 記した切れ字が生じたパターンはデータ整備時に除去する.筆記者の疲が生じないようにす るため,続けて何度も筆記することがないものとする. 評価用文字データ 評価用文字データは文章中の文字データとした.収集したデータを表 に示す.データ は「普段ノートに書く速度で」という指示の下で,+ 週間をかけて筆記してもらった.ま 「遅く書く」という指示の下で図 の文章を筆記させたもの た,データ + は「速く書く」, である. データ では対象文字の平仮名「の」は ( パターン× 名× 文章)パターン, 漢字「活」, 「職」は各 ( パターン× 名× 文章)パターンのデータを収集した. データ + では対象文字の平仮名「の」は ( パターン× + 名× 文章)パターン,漢字 「活」, 「職」は各 ( パターン× + 名× 文章)パターンのデータを収集した. 表 文字パターンデータ データ名 筆記者 筆記回数 筆記条件 データ 通常の速さで データ + + 速く書く + 遅く書く / 分析プログラム 分析プログラム 分析は, ( )距離計算プログラム, (+)各特性の統計処理プログラム, (-)市販の統計処理 プログラムを用いて行う. 距離計算プログラム 本プログラムによる処理は次の手順で行う. 個人辞書作成 各筆記者に分析対象の - 字種を 回筆記してもらう. その文字を全てマウスで切り出す.切り出しの作業で 文字ごとに筆記時間,9, 座標,筆圧,ペンの方位角,傾斜角のデータを得ることが出来る. 9, 座標に変化がない,すなわちペンが止まっている間(停留点)のデータを除 去する. 文字の重心を計算し,重心が中央にくるよう平行移動を行う(位置の正規化). + 次モーメントから平均半径を導出し,これを用いて文字パターンに拡大・縮小 を施し,大きさを一定にする(正規化). 画を 点で近似する(特徴点抽出).このとき特徴点数が 点を超えるもの は特徴点を減らし(間引き),特徴点が 点に足りないものは特徴点を重複して カウントする. 全ての文字に から の動作を行い,それぞれの特徴点を重ね合わせ平均をと る.これを個人辞書とする. また,予想される続け字のパターンも考え,続け字標準パターンを作成するため のストローク結合フラグ 7-8 も作成しておく.ストローク結合フラグは漢字「活」, 「職」は + 画結合のものを - 種,- 画結合のものを 残りの 人の筆記者についても()∼()の処理を同様に行う. + パターン間距離の算出 7-8 種,用意しておく. 各筆記者に文章を 回筆記してもらう. . 実験手順 ( )で述べた()∼()の処理を行う. 入力パターンと個人辞書との間で筆順,画数の吸収を行い,ストローク対応付 けを行う. 個人辞書と()までで得られた文字パターンとの特徴点の差をとり,その総和 を求めてパターン間距離とする. 各特性の統計処理プログラム 統計プログラムとしては,次のものを作成した. 文字分の筆記時間,および筆圧の平均を算出するプログラム + ペンの方位角,ペンの傾斜角の平均を算出するプログラム 市販の統計処理プログラム 市販の統計処理プログラムとしては次のものを用いた. 筆記時間,筆圧,パターン間距離のそれぞれの平均,分散,標準偏差を求めるプロ グ ラム. + 上記の - つの特性の中から + つの組み合わせにおける相関係数を算出するプログ ラム. 実験手順 文字パターンデータの収集から分析までの手順を以下に示す. 筆記者に筆記してもらう図 の見本文章をタブレットの上方向に置き,タブレットの 上に図 の文章筆記用紙を置く. + 筆記者は見本文章を見て,インクペンを使用し,図 の用紙に文章を書き写す )図 /*)図 .*.筆記された文章の例を図 に示す. - タブレットや,インクペンに慣れてきたころに個人辞書に使用する文字を筆記しても らう. 個人辞書に使用する文字は,図 - に示す専用のデータ収集用紙に 回に分けて - 字種 . 実験手順 を 回筆記してもらう. 筆記者に書いてもらった文字をマウスで全て切り出す.この時,個人辞書に使用する文 字では続け字,切れ字は使用しない. で述べたプログラムを使用し,個人辞書の作成を行う. + で述べたプログラムを使用し,作成した個人辞書と文章中の対象文字の距 . /(1) / /(1) 離計算を行う. /(2)で述べたプログラムにより,筆記時間と筆圧の平均を集計する. /(3)を用いて,., で得られたデータの分析を行う. 図 タブレットの上での筆記 . 実験手順 図 データ収集風景 図 筆記された文章の例 第章 分析結果 収集したデータを用いて,各特性単体,各特性間の関係,経時変化,筆記速度の変化によ る各特性の変化の分析を行った.本章ではこれらの結果を述べる. 各特性単体の分析 データ を使用し,各特性単体について分析した.得られた結果を以下に述べる. 筆記位置 「の」)図 *, 「活」)図 +*, 「職」)図 -* の筆記時間の変動係数と筆圧の変動係数を 人の筆記者別に記す.図において丸で囲んだものが分析対象の文字であり,下に記した括弧 の中の左が筆記時間の変動係数,右が筆圧の変動係数である.変動係数 は,平均を ,標 準偏差を とすると,式( )で求められる.これより筆記位置に関しては,紙面の中央 より左右に書かれた文字の方が筆記時間および筆圧の変動が小さいことが言える.文献 78 は紙面に書かれた文字の字形変動分析を扱ったものであり,本実験で扱った筆点座標系列の 文字とは異なるが,本実験では文献 78 で述べられていたような筆記位置と字形変動との相 関は見られなかった.紙面の中央寄りに書かれた文字の筆記時間と筆圧の変動が大きいとい うことは,左右に書かれる文字は中央と比べると比較的一定の速度,筆圧で筆記されている ということを意味する.しかし,この傾向はパターン間距離には見られなかった. = × ) * 各特性単体の分析 図 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化 平仮名「の」 図 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化(漢字「活」 図 筆記位置が及ぼす筆記時間,筆圧の変動係数の変化 漢字「職」 各特性単体の分析 筆記順 筆記順が及ぼす筆記時間の変化を図 に示す.これより筆記順が進むにしたがって,筆 記する速度は次第に速くなることが分る.また,筆記順が及ぼす距離の変化を図 に示す. これより平仮名「の」に関しては,文章の後半に進むにしたがって距離が大きくなる傾向が 見られる.この結果は文章を書く場合,最初は丁寧に時間をかけて筆記するが,次第に文字 を書くスピードは速くなり,その影響で字形も崩れてくるということがわかる.またこの結 果で疲れも生じているのではないかということも推測出来る.筆記者別で表したものを図 / に記す.距離の変化は,後半に行くにしたがって徐々に大きくなっている.筆記順 - 番 目に最大の値をとる筆記者が + 人存在した.両者の筆記順 - 番目は紙面の中央に位置し,左 右に出現する文字より距離は大きい.この結果は で述べた傾向と同じである. 図 筆記順が及ぼす筆記時間の変化 各特性単体の分析 図 筆記順による全筆記者の平均距離の変化 平仮名「の」 図 筆記順による筆記者別の距離の変化 平仮名「の」 各特性単体の分析 筆記時間 名の筆記者の筆記時間の平均,分散,標準偏差,変動係数を表 に示す.表より画数 が減るにしたがって筆記時間の変動係数は大きくなっている.これより,画数が多い文字の 方が安定した速度で筆記しているということがわかる. 表 全筆記者の筆記時間の平均,分散,標準偏差,変動係数 平均 )* 分散 標準偏差 変動係数 平仮名 「の」 . + + --- 漢字 「活」 + + + / + 漢字 「職」 /// 筆圧 筆圧は筆点毎に採取されるが,ここでは 文字を書くときの書き始めから書き終わりまで のペンがタブレットに触れている平均の値を,その文字の筆圧とした. 名の筆記者の筆 圧の平均,分散,標準偏差,変動係数を表 + に示す.筆圧は,画数が増えるにしたがって 平均は低くなっているが,変動係数は逆に大きくなっている.この結果は 比べて画数が大きい漢字では, 本 文字の平仮名と 本のストロークにかかる筆圧が大きく変化するために 生じたことが原因ではないかと考えられる. 表 全筆記者の筆圧の平均,分散,標準偏差,変動係数 平均 分散 標準偏差 変動係数 平仮名 「の」 . /.+ + 漢字 「活」 / +- +-- .+ 漢字 「職」 /-. ./- -+ +/ 各特性単体の分析 パターン間距離 名の筆記者の距離の平均,分散,標準偏差,変動係数を表 - に示す.表より,平仮名 「の」は漢字と比べて距離の変動係数が大きいことがわかる.漢字に対して平仮名は平均に 近い文字を書いていると言えるが,疲労などが生じた時には崩れが起こり易いのではないか と考えられる. 表 全筆記者の距離の平均,分散,標準偏差,変動係数 平仮名 「の」 平均 分散 標準偏差 変動係数 + +.- . +/ 漢字 「活」 / + . +// 漢字 「職」 /- +- .+= - ++ 各特性の出現頻度 データ を使用し,パターン間距離,筆記時間,筆圧の - 特性間に生じる関係について 分析した.図 . は全筆記者のデータから得られた - 特性の出現頻度を各特性毎に折れ線グ ラフで表したものである.パターン間距離,筆記時間は字種によって分布の重なりは少ない が,筆圧は重なりが大きいことが読み取れる. 各特性単体の分析 図 字種に見られる各特性の出現頻度 + 特性間の関係 特性間の関係 パターン間距離と筆記時間の関係 データ のサンプルを横軸がパターン間距離,縦軸が筆記時間の + 次元平面にプロットし たものを図 に示す.図 より,パターン間距離 ,筆記時間 ()を中心に 分布していることが分る.平仮名「の」では,筆記時間が短いほど距離が大きくなる傾向が %の筆記者において見られた.これは個人辞書で作成した文字の筆記速度と文章中に書 かれた対象文字との筆記速度の差によるものであると推測される.事実,図 - のデータ収 集用紙を用いた筆記では,図 のデータ収集用紙を用いた筆記より平仮名「の」において 秒から / 秒ほどゆっくり書かれる現象が全筆記者について見られた.もっとも差が大 きい筆記者は 秒以上差が出ていた. 筆記者1 筆記者2 筆記者3 筆記者4 筆記者5 筆記者6 筆記者7 筆記者8 筆記者9 筆記者10 1200 1000 800 600 400 200 0 50 100 150 200 250 300 350 パターン間距離 図 パターン間距離と筆記時間の関係 平仮名「の」) + 特性間の関係 パターン間距離と筆圧の関係 データ のサンプルを横軸がパターン間距離,縦軸が筆圧の + 次元平面にプロットした ものを図 に示す.図 では,パターン間距離は 筆圧は ./ を中心に分布してい る.分布は広範囲に広がり,筆圧の傾向は筆記者ごとに分布が分かれやすいということがわ かる.距離と筆圧の関係として,漢字「活」においては,筆圧が高い方が距離は小さいとい う傾向が %の人に見られた.この結果も + と同様,筆圧に関して個人辞書の作成の 際には強く筆記していることが原因といえる. 図 パターン間距離と筆圧の関係 漢字「活」) + 特性間の関係 筆記時間と筆圧の関係 データ のサンプルを横軸が筆圧,縦軸が筆記時間の + 次元平面にプロットしたものを図 に示す.図 は筆圧 /,筆記時間 ()を中心に図 とは縦軸に対して 対称となるような分布がみられる.筆記者 は筆圧の幅が . から / と一番広く,筆記 者 の筆記時間の幅は -/ 秒から 秒と一番大きく分布している. 強い筆圧で書かれた文字は筆記時間も大きくなるか否かについて調べた.しかし,その傾 「の」や「活」 向は %の筆記者にしか現れなかった.この結果は漢字「職」だけではなく, も同じような傾向が見られた.これより筆記時間が長いからといって力を入れて書いている のではないということが分かった. 図 筆記時間と筆圧の関係 漢字「職」) - 経時変化 経時変化 日を変えて筆記すると後半にすすむにつれて慣れが生じ,その要因で字形の変動に影響が あるのではないかという仮説を立て,経時変化について調べることとした. + 週間かけて文章を 回筆記してもらったときの筆記時間の変化を図 に示す.図の 横軸は筆記回数,縦軸は筆記時間である.このデータを用いて,筆記回数に対する筆記時間 の変化を調べたところ筆記回数が増加するにしたがって,全筆記者の漢字「職」における平 均筆記時間は . 秒から - 秒へと短くなる傾向が見られた.減少の傾向としては 回目か ら - 回目までは急激に減少し,- 回目から / 回目までは緩やかに減少し, 回目まで筆記時 間はあまり変動なく, 回目にはまた急激に減少する傾向となった./ 回目から 回目まで は非常に安定した筆記時間で書かれている.この結果は想像していた“ 慣れ ”であると考え られる.筆記時間に関してはこのような傾向が生じたが,筆圧,パターン間距離の規則性を もつような傾向は本実験では見られなかった.このことは回数を重ねるに従い,筆圧,字形 変動は一定のまま筆記速度だけが速くなっているということを示唆している.筆記時間の経 時変化を筆記者別にプロットしたものを図 + に示す.筆記者 .,筆記者 以外は文章 / 回目以降あまり大きな変動は見られない. - 経時変化 図 全筆記者の平均筆記時間の経時変化 漢字「職」) 図 筆記者別の筆記時間の経時変化 漢字「職」) 筆記速度の変化 筆記速度の変化 これまでの分析により,筆記時間が字形に大きな影響を与えることがわかった.そこで筆 記速度を変えて得たデータ + を使用し,筆記時間,筆圧,パターン間距離の特性がどのよう に変化するかを分析した結果を以下に述べる. 筆記時間 表 に筆記速度を変化させたときの筆記時間の平均,分散,標準偏差,変動係数を示す. 筆記時間の変動係数は筆記時間が遅くなるにつれて大きくなっている.これは「遅く書く」 という条件下では自分のペースは大きく乱れ,遅く書くというペースは筆記時間の範囲が大 きいということがわかる. 表 筆記速度を変化させたときの対象文字の筆記時間の平均,分散,標準偏差,変動係数 対象文字 筆記条件 平均 )* 分散 標準偏差 変動係数 速く書く -- + + -- - + .- - .--+ / // 平仮名「の」 通常の速さで 遅く書く 対象文字 筆記条件 平均 )* 分散 標準偏差 変動係数 速く書く / ../ ++ +/++ / ./ + / -. . .+ 漢字「活」 通常の速さで 遅く書く 筆記速度の変化 対象文字 筆記条件 平均 )* 分散 標準偏差 変動係数 速く書く -. -//- .+ /+ + +/. // +/ + 漢字「職」 通常の速さで 遅く書く 筆圧 筆記時間を変化させたときの筆圧の平均,分散,標準偏差,変動係数を表 に示す.表 よりデータ で出た結果と同様,画数が高画数になるにつれて筆圧が小さくなっている傾向 が見られる.この結果は本実験の筆記者においては,低画数の文字では意識せずに強く書い ているということを示している. 表 筆記時間を変化させたときの対象文字の筆圧の平均,分散,標準偏差,変動係数 対象文字 筆記条件 平均 分散 標準偏差 変動係数 速く書く + ./.. + + . ++ . + + - . 平仮名「の」 通常の速さで 遅く書く 対象文字 筆記条件 平均 分散 標準偏差 変動係数 速く書く . ++ / +/ .- + // 漢字「活」 通常の速さで 遅く書く 筆記速度の変化 対象文字 筆記条件 平均 分散 標準偏差 変動係数 速く書く .+ -- -+- . . - . /- - -/. + 漢字「職」 通常の速さで 遅く書く パターン間距離 筆記時間を変化させたときのパターン間距離の「遅く書く」という条件下では,高画数の 「職」は / であったパターン間距離の変動係数は,低画数では +/ まで増加する傾向が 見られた )表 /*.この傾向は筆記条件は関係なく低画数になるに従って大きくなっている. この結果は で報告した結果と同じ結果である.また,漢字だけに着目してみると「速く 書く」という条件下では平均も大きく,変動係数も大きい.この結果は早く書くと続け字が 生じてしまうという要因が考えられる. 今回平均,および変動係数の高いところに着目してみた.この部分は字形変動およびその バラツキが大きいので,同じ個人辞書を作成するなら,この部分における条件下に着目して 生成するのが得策である.辞書には カテゴリ中に単一の標準パターンしか持たないシング ルテンプレートと,複数の標準パターンを持つマルチテンプレートがある.もし,個人辞書 をマルチテンプレートで作成するなら,今回調べた結果「速く書く」という条件下では字形 の変動,バラツキ共に大きかったので,速く書いたデータを用いて個人辞書を多く作成する 必要がある.これにより,個人字形の変動する範囲を適切にカバーすることになり,認識率 が向上すると思われる. 筆記速度の変化 表 筆記速度と変化させたときの対象文字のパターン間距離の平均,分散,標準偏差,変動係数 対象文字 筆記条件 平均 分散 標準偏差 変動係数 速く書く / + ++ -+ - +/ 遅く書く -.. + +/ 筆記条件 平均 分散 標準偏差 変動係数 速く書く / +.+. / 通常の速さで +. + // +/ 遅く書く / +.- / +/. 筆記条件 平均 分散 標準偏差 速く書く . /- + - -/ - - . ++. / 平仮名「の」 通常の速さで 対象文字 漢字「活」 対象文字 漢字「職」 通常の速さで 遅く書く 変動係数 第章 考察 分析により得られた認識率向上への指針,および,直前の文字が及ぼす影響について述 べる. 認識率向上への指針 今回多くの分析を行い,字形の変動の大きな要因は筆記速度にあることがわかった.分析 した結果より得られる認識率の向上のための指針を以下に述べる. 識別結果の総合判定 オンライン文字認識ではパターン間距離を計算し,これを用いて識別を行う.しか し,第 位候補と第 + 位候補のパターン間距離が接近していると識別出来ずにリジェク トとなる.このような場合,第 +,第 - の情報を用いて識別することが考えられる.例 を図 / に示す.例えば,入力文字が「暗」( - 画)であった場合,この入力文字に続 「暗」の + 画の続け字標準パターンはストローク結合 け字が生じ + 画になったとする. 情報 7-8 を用いて生成されるものとする.その結果, + 画の候補として「暗」と「晴」 が得られ,識別出来ずリジェクトになったとする.このとき,予めとっておいた「暗」, 「晴」における筆記速度,筆圧のデータを参照して判定する.これは,認識結果に加え 筆記時間,筆圧も併用して,総合判定を行っていることになり,これによりリジェクト を減少させ認識率の向上が図られると考える.文献 78 では,距離と筆圧との併用によ る識別で認識率が向上したことが報告されている.本研究での検討も筆圧が重要という ことが分り,その結論は一致している.文献 78 と図 / の方法の異なるところは,文 / 認識率向上への指針 献 78 が識別尺度を筆圧付距離とし,筆圧と距離を同じ計算の枠内に納めているのに対 し,図 / の方法は,筆圧と距離を分離して使用するところが異なる. 図 識別結果の総合判定の例 追加個人辞書の作成 これまでの個人辞書は与えられた領域内に誤読となった文字パターンを登録すること により作成されていた.このときの登録の規則としては誤読の出現順に登録し,領域が 一杯になると先に登録された標準パターンを消去し,直近に生じた誤読パターンを登録 する方法が採られることがある.今回筆記速度を変化させて変動係数を算出したことに より,平均を中心にバラツキの大きい値をとるのは「速く書く」という条件下であるこ とがわかった.そこで遅く書かれた文字はバラツキの小さい,速く書かれた文字はバラ ツキが大きいという結果を用いて図 /+ に示す筆記速度による個人辞書登録管理方法を 考えた.個人辞書は「速い」と「遅い」の + 階層化することとし,遅い文字は変動が少 ないので「遅い」の領域は小さくてよい.今,個人辞書領域に誤読パターンが全て登録 されている状態で,さらに誤読パターンを追加登録する必要性が生じたとする.入力文 字の筆記速度を測定し,予め設定した値より遅い文字の場合, 「遅い」の領域に登録され ていた文字と今回誤読した文字とを入れ替える.速い場合は, 「速い」の領域の誤読文字 を入れ替える.従来の個人辞書登録はこのような条件なしに辞書を追加していたが,階 層を設けることによって間欠的に出現する高速筆記の誤読パターンは入替わるが,定常 /+ 直前に筆記された文字の影響 的に出現する低速筆記の誤読パターンは入替わりが生じないため安定した認識が出来る と考えられる.これは個人辞書の構造化を図った効果である. 図 個人辞書管理方法 直前に筆記された文字の影響 分析を行っているうちに,文字は直前に書かれた文字に影響され,字形が変動するのでは ないかという疑問が生じた.そこで直前の文字が平仮名である文字,漢字である文字を比較 し,調べてみた.しかし, 人は該当したものの,他筆記者においては変動は少なく,直前 の文字に影響される現象は見られなかった.特定の個人では,平仮名の後に書かれる文字は 必ず筆圧が高い筆記者は存在したものの,他の筆記者には見られなかった. 第章 結論 本論文では自由手書き文字の筆記時に生じる字形変動の分析の指針を提唱し,分析を通じ て得られたデータを基に自由手書き文字の認識率向上策の指針を示した.分析の指針として は,分析に用いる特性と分析に適用する分析法を洗い出した上で選択し,両者の組合わせで 多様な分析を行う方策を採った.特性としては, 筆記位置, + 筆記順, - 筆記時間, 筆圧, パターン間距離の 種類,分析法としては()特性単体の分析,()特性間の 関係()経時変化()筆記時間の変化の4種類を採用した.文字データとしては文章を用 い,対象文字は平仮名「の」,漢字「活」, 「職」を用いた.得られた結果を以下に要約する. () 筆記位置は中心寄りの方が変動係数が大きい. ( ) 筆記順が進むにつれてパターン間距離は大きくなる(平仮名「の」). ( ) 筆記時間が短くなるほどパターン間距離が大きい(平仮名「の」). ( ) 筆圧が高くなるほどパターン間距離が小さい(漢字「活」). () ( ) 経時変化は漢字「職」の筆記時間において速くなる 速く書く,通常の速度で書くという条件下ではパターン間距離の変動係数は大きく なる. これらの結果より,認識率の向上へ向けて次の + つの指針を得た. (1) 識別結果の総合判定 (2) 個人辞書の構造化 分析の方法は確立したが実際に収集したデータは少ない.筆記者を増やして大量のデータ を収集し分析を行うこと,また,字種も増やして字形変動を調べる必要があるが,これらは 今後の課題である. 謝辞 本研究を行うにあたり,指導教員である高知工科大学,情報システム工学科の木村義政教 授には朝早くから,夜遅くまで多くの御指導,御助言を頂き深謝する.本論文の副査を快諾 して下さった任向実講師,妻鳥貴彦 講師に感謝する.任向実講師に頂いた御助言により,標 準パターンと入力パターンの関係に気付くことが出来,より良い研究にすることが出来た. ここに感謝の意を表する.また,座長を務めて頂いた島村和典 教授には発表中通訳をして 頂き,また,助言を頂き心から感謝する.データ収集用の文章の筆記を快く引き受けてくだ さった 人の被験者の方には心から感謝する.本論文を作成する際不明な点を指摘頂いた清 水研究室の中原知也さん,発表用の資料の御指導を頂いた任研究室の植田竜介さん,陰なが ら応援してくれた先輩方,友人には大変感謝をする. プログラム作成において助言を頂いた方,データ収集を手伝ってくれた方,発表用資料を 作成する際に助言を頂いた方々のおかげで本研究がより良いものに仕上がった.深く感謝す る 最後に木村研究室の全メンバーおよび私が気付いていない点で支えてくれた方々に謝意 を表する. 参考文献 7 8 保原信“ 手書き過程の実験的分析>電気通信大学 第 + 巻 第 + 号 " . 7+8 吉村ミツ,木村文隆“ 手書き文字の個性が現れる特性の機械的計測化とその解析>電子 通信学会論文誌 4?/-'1 < .'+ @ 7-8 木村義政,宮原末治“ 筆記条件の相違によるオンライン手書き文字の性質>電子通信 学会パターン認識と学習研究会 0AB.'-, .. 78 金長吉,渡辺正晴 川嶋稔夫 青木由直“ 非公開パラメータに基づくオンライン著名照 合,>電子通信学会論文誌 4?.'1' < + ' +. ? + 78 長石道博“ 自由手書き文字の効果的収集法の提案と文章内における変動分析> @ C ' D! , + 7/8 内藤誠一郎,増田功“ 個人性に着目した手書き漢字認識,>電子通信学会論文誌 4?/.'1 < '. " 7.8 木村義政,小高和己,鈴木章,佐野睦夫, “ 携帯型ペン入力インタフェース用個人辞書 の学習,>電子情報通信学会 4?'1 <- ' 6 . 78 吉村ミツ,木村文隆,吉村功“ 手書き文字認識における個人用テンプレートの有効性 について>電子通信学会論文誌 4?//'1 < ' " - 78 佐藤幸男,足立秀鋼, “走り書き文字のオンライン認識>電子通信学会論文誌 4?/' 1 < + + /'+ ++ 1