Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2014 E3-4 入力ストローク数削減による高速手書き入力手法 王 琛† 鬼沢 和也‡ 浅井 洋樹‡,†† 山名 早人§ †早稲田大学基幹理工学部 〒169-8555 東京都新宿区大久保 3-4-1 ‡早稲田大学大学院基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1 ††早稲田大学メディアネットワークセンター 〒169-8050 東京都新宿区戸塚町 1-104 §早稲田大学理工学術院 〒169-8555 東京都新宿区大久保 3-4-1 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-1 E-mail: あらまし {magaret1103,kazuya_o, asai,yamana}@yama.info.waseda.ac.jp コンピュータ上での手書き文字入力は認識エンジンが判別可能な品質で記入しようとするとキーボードによる 入力と比較して入力に時間がかかる.一方,品質を犠牲にして高速に手書き入力しようとすると誤認識が増える結果となり,入 力速度が低下してしまう.こうした問題に対し既存研究では,単語の予測入力や入力途中に随時変換することにより入力速度を 向上させている.しかし多くの従来のシステムでは,各漢字を完全に書いた後でないと認識結果に書きたい文字が表示されず, 画数の多い漢字を認識させるためには手の動きと時間をかなり要することになる.本研究では,単語を書く際に各漢字を途中ま でしか書かなくとも,希望する単語を動的に予測し,手書き入力を高速化する手法を提案する.評価実験では,提案手法と既存 手法で同じテキストを入力し,入力にかかる時間とストローク数を記録する.提案手法を用いた場合,入力にかかる時間は削減 できなかったが,ストローク数が既存手法より少なくなることより,提案手法の有効性を示すことができた. キーワード 手書き認識,テキスト入力 かる.なぜなら入力する文字のストロークを全て書か 1. は じ め に 近 年 ,ス マ ー ト フ ォ ン や iPad な ど ,タ ッ チ デ ィ ス プ なければならないからである.そのため,入力速度が レイを搭載した端末が普及している.タッチディスプ 物理キーボートでの入力速度より明らかに遅くなる レイを搭載した端末でテキストを入力する方法は主に [2]. 2 つある.画面上のソフトウェアキーボートを使用し オンライン手書き文字認識を用いて文字入力をす て入力する方法と,手書きで入力する方法である.そ る 既 存 研 究 と し て は POBox 1 ,Mazec 2 な ど 手 書 き 入 力 シ れ ぞ れ の 方 式 を 採 用 し た 様 々 な IME(Input method ス テ ム が あ る .こ れ ら は 予 測 入 力 や 随 時 変 換 を 用 い て , editor)が 多 く 生 み 出 さ れ て い る . 手書き入力速度を向上させている.増井らの研究結果 ソフトウェアキーボードとは,画面上に物理キーボ に よ る と , 普 通 の 紙 に 手 書 き で 文 字 を 書 く 速 度 が 49.2 ードと同じ形で各キーを並べて表示し,各キーをタッ 文 字 /分 で あ り , Pilot 版 POBox で テ キ ス ト を 入 力 す る プすることにより文字を入力する方法である.ソフト 速 度 は 20.1 文 字 /分 で あ る [3].ま た ,Mazec,MyScript 3 ウェアキーボードを使用してテキストを入力する場合 など広く利用される商用のオンライン手書き文字入力 は,小さい画面上に存在する数多くのキーを連続で正 システムでは,各漢字を完全に描いた後でないと書き 確にタップすることになる.そのため,目や神経の疲 たい文字を正確に認識候補として表示できない.画数 れと,押し間違いが多く発生することによる,入力効 の多い漢字を認識させるためには手の動きと時間をか 率 の 低 下 が 問 題 に な る [1]. なり要することになる. 手書き入力が遅くなる原因はストロークの描画に 手書きで入力する方法とは,手書きで書いた文字を, オンライン手書き文字認識を使用し,どの文字が書か 長い時間がかかるからである.本研究では,書く頻度 れたか認識することにより文字を入力する方法である. の高い単語に対して,書く必要のあるストローク数を 日本語のオンライン手書き文字認識は学会では「終わ 減らすことにより,高速手書き入力を実現する.物理 っ た 研 究 分 野 」と い わ れ て お り ,一 文 字 の 認 識 率 が 90% キ ー ボ ー ド で「 富 士 」を 速 く 入 力 し た い 場 合 は , 「 fuji」 以 上 の 高 い 水 準 ま で 達 し て い る [3].し か し ,オ ン ラ イ の 代 わ り に「 fj」と 入 力 す る と ,自 動 的 に「 富 士 」に 変 ン手書き文字認識を使用したテキスト入力は時間がか 換されるように,入力したい単語の各文字を途中まで 1 2 3 http://ja.wikipedia.org/wiki/POBox http://product.metamoji.com/android_top/ 1 http://www.visionobjects.com/jp/myscript / しか書かなくとも入力したい単語を認識できるように 不安定な姿勢で大量の文字を入力することにより疲れ し,ストローク数の削減を実現する. 評価実験では, る 問 題 も あ る [2]. 提 案 手 法 と Mazec, MyScript な ど 商 用 の オ ン ラ イ ン 手 2.2. 予 測 入 力 を用 いた手 書 き入 力 システム 書き文字入力システムで同じテキストを入力し,入力 予 測 入 力 機 能 と は ,利 用 者 が す べ て の 文 字 を 入 力 し にかかる時間とストローク回数を記録して比較する. 終える前に利用者が意図する語彙を提示する機能で 提案手法を用いた場合,入力にかかる時間とストロー あ る [7].物 理 キ ー ボ ー ド を 持 つ コ ン ピ ュ ー タ の 様 々 な ク 回 数 が Mazec, MyScript オ ン ラ イ ン 手 書 き 文 字 入 力 IME に 予 測 入 力 機 能 が 採 用 さ れ て い る .近 年 ,キ ー ボ システムより少なくなることより,提案手法の有効性 ードがなく入力効率が低いモバイル端末の普及とと を示す. も に ,入 力 効 率 を 向 上 さ せ ら れ る 予 測 入 力 機 能 が 広 く 本稿では以下の構成をとる.まず 2 節でオンライン 応 用 さ れ て い る .予 測 入 力 機 能 を 用 い る と ,入 力 し た 手書き入力に関する既存研究を紹介し, 3 節で提案手 い 単 語 の 全 て の 文 字 を 書 か な く と も ,入 力 候 補 に 表 示 法を説明する.次に 4 節で実験と評価を行い,最後に さ れ る .予 測 入 力 機 能 を 持 つ 手 書 き 入 力 シ ス テ ム で あ 5 節でまとめを述べる. る Mazec[8]と POBox[4]は , 予 測 機 能 を 用 い て 手 書 き 入力速度を向上させることができる. 2. オ ン ラ イ ン 手 書 き 入 力 の 関 連 研 究 Mazec は , タ ッ チ パ ネ ル を 搭 載 し た デ バ イ ス に お い 以下では,手書き入力に用いられるオンライン手書 てソフトウェアキーボードの代わりに手書き認識に き認識エンジンについて説明した後, 予測入力と文字 よる日本語入力を簡単にできるアプリケーションで 補完に関連しているシステムについて説明する. あ る . Mazec は 手 書 き 認 識 機 能 だ け で は な く , か な 漢 2.1. オンライン手 書 き認 識 エンジン 字 変 換 機 能 ,か な 文 字 と 漢 字 の 交 ぜ 書 き 変 換 機 能 ,予 測 入 力 機 能 を 搭 載 し ,効 率 よ く 簡 単 に 手 書 き に よ る テ オンライン手書き文字認識とは,アナログ行為とし キ ス ト 入 力 を 行 う こ と が で き る [8]. ての手書き文字を情報処理できるディジタル方式に変 POBox は ,増 井 ら [2]が 開 発 し た ペ ン 計 算 機 向 き の 文 換 す る プ ロ セ ス で あ る [3].日 本 語 の オ ン ラ イ ン 手 書 き 文 字 認 識 に 関 す る 研 究 は 朱 ら の 研 究 報 告 [3]に よ る と , 字 入 力 シ ス テ ム で あ る . PalmPilot 版 POBox で は , ソ 約 40 年 前 か ら ,学 会 で は「 終 わ っ た 研 究 分 野 」と い わ フ ト ウ ェ ア キ ー ボ ー ド と ペ ン ス ト ロ ー ク の 併 用 で ,予 れ て お り ,一 文 字 の 認 識 率 が 90%以 上 の 高 い 水 準 ま で 測入力と曖昧検索に基づく効率的な入力手法を用い 達している.本稿では,アナログ行為としての手書き て , 効 率 的 な テ キ ス ト 入 力 を 実 現 し た . PalmPilot 版 文字を「手書き文字」と呼び,情報処理できるディジ POBox の 予 測 入 力 機 能 は 先 行 登 録 し た 辞 書 内 の 単 語 タ ル 方 式 に 変 換 し た 後 の 文 字 を「 タ イ プ 文 字 」と 呼 ぶ . を順番にマッチングすることにより行うという単語 オ ン ラ イ ン 手 書 き 文 字 認 識 エ ン ジ ン の 1 つ に Vision 内 の 予 測 と ,先 行 文 字 か ら 次 の 入 力 単 語 を 予 測 す る 単 Objects 社 の MyScript[5]が あ る .MyScript は 54 種 類 の 語 間 の 予 測 の 2 種 類 あ り ,ど ち ら で も 単 語 と 読 み を 辞 言 語 の 手 書 き 文 字 を 最 高 の 精 度 で 認 識 で き る [5] . 書 に 先 行 登 録 す る 必 要 が あ る .し か し ,多 く の 予 測 候 MyScript を 手 書 き 認 識 エ ン ジ ン と し て 利 用 し た ノ ー ト 補から入力したい文字や単語を選ぶための視線移動 アプリや手書き数式計算アプリ, テキスト入力アプリ と辞書にない単語の検索に時間がかかるという欠点 など,様々な機能を持つアプリが開発され, 世界中で が あ る [2].増 井 ら の 研 究 結 果 に よ る と ,普 通 の 紙 に 手 広 く 使 わ れ て い る [4].オ ン ラ イ ン 手 書 き 文 字 認 識 エ ン 書 き で 文 字 を 書 く 速 度 が 49.2 文 字 /分 で あ り , Pilot 版 ジ ン は 他 に も Zinnia[6]と い う オ ー プ ン ソ ー ス の オ ン ラ POBox で テ キ ス ト を 入 力 す る 速 度 が 40.5 文 字 /分 で あ イ ン 手 書 き 文 字 認 識 エ ン ジ ン が あ る . Zinnia は ス ト ロ る [4]. ークの座標点列をインプットとして,インプットされ 2.3. 文 字 補 完 を用 いた手 書 き入 力 システム た 座 標 点 列 と 似 て い る 10 文 字 を 変 換 候 補 と し て 出 力 文字補完とは,単語の各漢字を途中までしか書かな す る .Zinnia は SVM を 使 用 し て い る た め ,文 字 の み な くとも,書いた一部のストロークから書きたい単語を ら ず 任 意 の ペ ン ス ト ロ ー ク を 高 速 に 学 習 で き , 50~100 動 的 に 予 測 す る こ と で あ る . Mazec, MyScript な ど 広 文 字 /秒 の 実 用 的 な 認 識 速 度 を 実 現 し て い る [6]. く利用される商用のオンライン手書き文字入力システ しかし,オンライン手書き文字認識を使用したテキ ムでは,漢字を完全に描いた後でないと書きたい文字 スト入力は時間がかかる.なぜなら入力する文字のス が正確に認識候補として表示されないため,画数の多 トロークを全て書かなければならない からである.画 い漢字を認識させるためには手の動きと時間をかなり 数の多い漢字を認識させるためには手の動きと時間を 要 す る こ と に な る . PalmPilot 版 POBox は 文 字 補 完 機 かなり要することになる.そのため,入力速度が物理 能がある. キ ー ボ ー ト で の 入 力 速 度 よ り 明 ら か に 遅 く な る .ま た , し か し , PalmPilot 版 POBox の ペ ン ス ト ロ ー ク 入 力 2 方式では,書ける枠は 2 つしかなく,日本語に多く存 の先頭のアルファベットのみを入力することにより, 在する 3 文字以上で構成される単語を書くためには分 タイピング速度を向上させることができる.この考え 割 し て 書 く し か な い と い う 問 題 が あ る . ま た , POBox 方をタブレット端末での手書き入力に応用することに の辞書に登録された単語はすべて形態素単位であるた より,ストローク数の削減を実現 する.具体的には, め,書いている時辞書をマッチングし,候補に表示さ 入力したい単語の各文字を途中までしか書かなくとも れ る 単 語 も 形 態 素 単 位 で あ る [4].こ れ に 対 し ,使 用 者 入力したい単語を認識できるようにし,ストローク数 が書いた単語は形態素単位でない場合は,候補に表示 の削減を実現することを目指した. されない欠点がある. 2.4. 関 連 研 究 のまとめ 表 1 は,関連研究の長所と短所をまとめたものであ る. 表 1 関連研究の長所と短所 図 1 「富士」を高速で入力する例 本研究では,書く頻度の高い単語に対して,書く必 要のあるストローク数を減らすことにより,高速手書 き入力を実現する.提案手法は,以下の 3 つのステッ プで構成されている: ① 手書き文字の認識 ② 各文字候補の組み合わせスコアの算出 ③ 各組み合わせのスコアに対するランキング ス テ ッ プ ① の 手 書 き 文 字 の 認 識 で は , Zinnia を 手 書 き文字認識器として使用することより,書いた手書き 文 字 を タ イ プ 文 字 に 変 換 す る .Zinnia の 認 識 モ デ ル は , 一度書いた事のある文字の筆跡を登録することにより, 作成する.この認識モデルに含まれる文字の数は Zinnia の デ フ ォ ル ト の 認 識 モ デ ル に 登 録 さ れ て い る 文 字の数より明らかに少ない.よって,作成した認識モ デ ル を 使 用 す る と ,途 中 ま で し か 文 字 を 書 か な く と も , 書きたい文字を予測できるようになる.途中までしか 文字を書かなくとも書きたい文字を予測できることを 利 用 し ,一 度 書 い た 事 が あ る 文 字 列 を 再 び 書 く 際 に は , 3. 提 案 手 法 本節では,提案手法である,書く必要のあるストロ 各漢字を途中までしか書かなくとも,文字列を入力で ーク数を削減することにより,書く頻度の高い単語を きるようにする.ステップ②では,①の認識結果を用 高速で入力できる手法について述べる. い て 入 力 文 字 列 の 候 補 を 作 成 す る .そ し て Google 日 本 語 n-gram の 1-gram, す な わ ち 1 形 態 素 中 の 出 現 頻 度 3.1. 概 要 を使用し,スコアを計算する.ステップ③ではステッ 手書き入力が遅くなる原因は,各ストロークを書く プ②で算出したスコアを用いて候補文字列の推薦順位 のに時間がかかるからである.よって,書く必要のあ を決める.この手法を利用すると,入力したい単語の るストローク数を削減できれば,手書き入力の速度が 各文字を途中までしか書かなくて良いので,時間と手 向上する.例えば,物理キーボードで「富士」と入力 の動作を削減することができる. す る 場 合 ,ア ル フ ァ ベ ッ ト の「 fuji」を 先 に 入 力 す る 必 提案手法の概略を図 2 に示す. 要 が あ る .し か し ,図 1 に 示 し た よ う に ,速 く 入 力 し たい場合は, 「 fuji」の 代 わ り に「 fj」と 入 力 す る と ,自 動的に「富士」に変換される場 合もある.このように すべてのアルファベットを入力する代わりに,各文字 3 図 3 手書き文字「早稲田」に対するデフォ ル ト 認 識 モ デ ル を 用 い た Zinnia の 認 識 結 果 図 2 提案手法の概略図 3.2. 提 案 手 法 の流 れ 提案手法の流れをステップごとに具体的に説明す る. 3.2.1. 手 書 き 文 字 の 認 識 手 書 き 文 字 の 認 識 で は ,機 械 学 習 ア ル ゴ リ ズ ム SVM を 用 い た オ ン ラ イ ン 手 書 き 文 字 認 識 エ ン ジ ン Zinnia を 手書き文字認識器として使用することより,書いた手 書き文字をタイプ文字に変換する. 図 4 手書き文字「早稲田」に対する個人的 認 識 モ デ ル を 用 い た Zinnia の 認 識 結 果 ま ず , 書 い た 文 字 の 筆 跡 点 の 座 標 情 報 を (x y)の 形 で 記 録 す る .そ の 後 ,座 標 情 報 を Zinnia が 認 識 で き る 形 式 に 変 換 し ,Zinnia に 入 力 す る .そ う す る と ,図 4 の よ う に 各 文 字 10 個 ず つ の 認 識 結 果 が ア ウ ト プ ッ ト さ Zinnia が 持 つ デ フ ォ ル ト の 認 識 モ デ ル に は 数 字 , 漢 れ る . 認 識 結 果 の 文 字 の 右 に 表 示 さ れ る 数 字 は Zinnia 字 , か な 文 字 を 含 め , 全 6,449 文 字 が 含 ま れ て い る . が 算 出 し た SVM に よ る 類 似 度 で あ り , そ の 範 囲 は - しかし,書き順などの使用者の個人的な特徴は含まれ 1~+1 で あ る . こ の 類 似 度 は 3.2.2 で ス コ ア を 計 算 す る ておらず,かつ,膨大な認識モデルを持つので,手書 際 に 使 用 す る .図 3 に は 手 書 き 文 字「 早 稲 田 」に 対 す き文字の認識率が低くなる.また,文字を途中まで書 る デ フ ォ ル ト 認 識 モ デ ル を 用 い た Zinnia の 認 識 結 果 を いた状態でも書き終えた状態として認識され るので, 示す. 違 う 文 字 が 予 測 候 補 に 表 示 さ れ る 場 合 が 多 い .そ こ で , 文字のストロークを全て書かなくとも,入力したい文 字を認識結果に出すために,以前使用者が書いたこと がある文字の筆跡情報を記録することより ,個人性を 持つ認識モデルを作る. 図 4 には手書き文字「早稲 田 」に 対 す る 個 人 的 認 識 モ デ ル を 用 い た Zinnia の 認 識 4 結果を示している. グ 3.2.2. 各 文 字 候 補 の 組 み 合 わ せ ス コ ア の 算 出 組み合わせのスコアが大きければ大きいほど,使用 次 に ,各 文 字 10 個 ず つ の 候 補 を 組 み 合 わ せ ,単 語 を 者の希望単語に近づいていると考えられるため, 作る.この段階では,各組み合わせが単語として意味 3.2.2 節 で 算 出 し た ス コ ア の 大 き い も の か ら 小 さ い も を 持 つ か ど う か を 問 わ な い .こ の 時 ,手 書 き 文 字 3 文 のの順に各組み合わせを予測候補列に表示する.この 字 を 書 い た 場 合 は , 10×10×10=1000 種 の 組 み 合 わ せ ことにより,使用者が多くの入力候補から入力したい ができる.しかし,これらすべての組み合わせを予測 文字や単語を選ぶための視線移動を減らすことができ 候補として表示するのは現実的でない.また,どの組 ると考えられる. み合わせを使用者が希望しているのかもわからない. そして,使用者の余計な視線移動を減らすために, そこで,これらの組み合わせの数を削減するためと, 以前に書いた単語を予測候補列のより前方に表示した 優先順位を決めるために,スコアを計算する. ほ う が い い と 考 え ら れ る .こ の こ と を 実 現 す る た め に , 組 み 合 わ せ の 数 を 削 減 す る に は ,Google n-gram デ ー 使用者が入力した単語を毎回記録し,入力単語履歴を タ の 中 の 1-gram を 辞 書 と し て 使 用 す る .1-gram に は , 作 る . ラ ン キ ン グ の 順 位 が 15 位 以 内 に な る 各 候 補 は , 約 2,565,424 個 の 単 語 を 持 ち , 各 単 語 の 出 現 回 数 も 記 この入力単語履歴に含まれるかどうかを調べる.含ま 載 さ れ て い る .1-gram に 入 っ て な い 単 語 は ,約 200 億 れているなら以前に書いたことがあり,再び書く可能 文の日本語データに一度も使われたことがなく,日常 性が高いので,候補列表示欄の先頭に表示する.2 つ 的には使用されない単語として考えられる.これによ 以上履歴に含まれる単語があった場合は 使用した回数 り ,各 組 み 合 わ せ を 順 番 に 1-gram 中 に 存 在 す る か ど う の多い順に表示する. か を 見 て い き ,1-gram 中 に 存 在 し な い 組 み 合 わ せ は 削 また,使用者が書いた文字列が形態素単位ではない 除することより,使用者が使う可能性が極めて小さい 場合は,入力単語履歴を用いて,以前入力したことが 組み合わせを排除し,使用者の希望する単語が含まれ ある単語を形態素単位で入力する.例えば,手書き文 る組み合わせに絞り込む.残りの組み合わせは候補と 字「 利 用 可 」を 書 い た 時 , 「 利 用 」と「 可 」は 形 態 素 単 呼ぶ. 位の単語であるが, 「 利 用 可 」は 形 態 素 単 位 の 単 語 で は しかし,候補だけでも大量に存在するため,すべて な い . よ っ て , 3.2.2 節 で 述 べ た 組 み 合 わ せ の 作 り 方 の候補を表示すると,ストロークを書くごとに,使用 で は ,候 補 列 に「 利 用 可 」は 表 示 さ れ な い こ と に な る . 者が多くの候補から入力したい文字や単語を選ぶこと それに対して,使用者が書いた文字列が形態素単位で になり,入力効率が下がる.そこで,各候補の優先順 はない場合にも対応できるようにするために, 「利用可」 位を決めるスコアを計算することより,使用者の希望 の前方一致検索で入力単語履歴の中に検索し, 「 利 」と 単 語 を 予 測 す る .こ の ス コ ア は ,Google n-gram デ ー タ 「 利 用 」が あ れ ば 表 示 す る . 「 利 」か「 利 用 」か を 選 択 の 中 に 記 載 さ れ て い る 各 候 補 の 出 現 回 数 を 使 い ,式 (1) した後に,残りの手書き文字「可」の認識結果を表示 用いて計算する. することになる. 𝑆𝑐𝑜𝑟𝑒𝑤 = 𝛼 × 𝑙𝑜𝑔 (1 + 𝐹𝑟𝑒𝑞𝑤 ) 𝑚𝑎𝑥(𝐹𝑟𝑒𝑞𝑎𝑙𝑙 ) 𝑛𝑤 + (1 − 𝛼) 1 ∑ 𝑆𝑖𝑚𝑖 𝑛𝑤 このような流れで,使用者がすべてのストロークを 書かなくとも,希望する単語を予測できる. (1) 3.3. システムの実 装 シ ス テ ム の イ ン タ ー フ ェ イ ス は 図 26 に 示 し た よ う 𝑖=1 になっている. 式 (1)に お い て , 𝑆𝑐𝑜𝑟𝑒𝑤 は あ る 組 み 合 わ せ ( 文 字 列 𝑤) の ス コ ア , 𝛼は 重 み 係 数 (0 ≤ α ≤ 1), 𝐹𝑟𝑒𝑞𝑤 は Google 1gram に お け る あ る 文 字 列 𝑤の 出 現 回 数 ,𝑚𝑎𝑥(𝐹𝑟𝑒𝑞𝑎𝑙𝑙 )は Google 1-gram に 含 ま れ る 全 て の 文 字 列 の 中 の 最 大 出 現 回 数 , 𝑛𝑤 は 文 字 列 𝑤の 文 字 数 , 𝑆𝑖𝑚𝑖 は Zinnia に お け る 𝑖番 目 の 文 字 の 出 力 ス コ ア を 表 し て い る .𝑆𝑐𝑜𝑟𝑒𝑤 は 出 現 回 数 ス コ ア と 認 識 ス コ ア か ら 計 算 さ れ る . 𝑆𝑐𝑜𝑟𝑒𝑤 が 大きいほど,出現回数が大きいかつ使用者が書いた手 書き文字と似ていることになり,使用者が希望する単 図 5 語に近づいていると考えられる. 3.2.3. 各 組 み 合 わ せ の ス コ ア を 用 い た ラ ン キ ン 「早稲田」を書いた様子 図 5 の赤い部分はデフォルトの認識モデルを用い た Zinnia の 認 識 結 果 の 表 示・選 択 欄 で あ る .左 か ら 認 5 識結果の類似度が高い順に表示する.表示される文字 内として頂いた.さらに,提案システムに対する慣れ は各ストロークを書き終えるごとに更新する.青い部 がどの程度有効かどうかを調べるため,提案システム 分 は 提 案 手 法 を 用 い た 予 測 候 補 の 表 示・選 択 欄 で あ る . に 慣 れ た 被 験 者 1 名 に よ る 実 験 を 行 っ た .具 体 的 に は , 左から使用者の希望単語になる可能性が高い順に表示 7 名被験者の内 1 名に対して実験用入力テキスト以外 す る .予 測 候 補 列 に 表 示 で き る 単 語 の 数 が 多 す ぎ る と , の文章を使い,1 週間練習してもらい,その後実験を 使用者が予測候補列の確認にかかる時間が長くなる の 行った. で ,候 補 の 数 は 15 個 と し た .ま た ,使 用 者 が 見 つ け や 評価方法としては,各手書き入力システムで 2 回目 すくするために,以前に入力したことがある単語を青 にテキストを入力した際のストローク数と入力にかか い文字で表示する.黄色い部分はテキスト入力部であ る時間を比較することにより,提案手法の有効性を示 る.入力したテキストを中央の欄に表示する.紫色 の す.提案手法を実装したシステムでのテキスト入力に 部分は枠付き手書きエリアである.左から 1 枠ごとに か か る 時 間 と 書 い た ス ト ロ ー ク 数 が , Windows 版 1 文字を書く. MyScript Stylus 3.2 と Mazec-T for Windows の 2 つ の シ 提案手法を実装したシステムで文字列を書く際に, ステムより少ないことより,提案手法の有効性を示す その文字列を書くのが初めてか 2 回目以降なのかによ ことができる. り,入力方法が異なる.初めて書く文字列の場合は, 実 験 環 境 と し て , 今 回 の 評 価 実 験 は CPU が Intel(R) ストローク削減できない.文字列を書くのが 2 回目以 Core(TM) i7-4770 CPU @3.4GHz,メ モ リ が 16.0GB,OS 降の場合,ストローク削減はできる.しかし,使用者 が 64bit Windows 7 の コ ン ピ ュ ー タ で 実 施 し た . ま た , がテキストを手書きで入力する時,入力したい文字列 Wacom DTZ-1200W を 手 書 き 入 力 シ ス テ ム と し て 使 用 は以前書いたことがあるかどうかを意識していないの し て い る .残 念 な が ら ,2.2 と 2.3 で 紹 介 し た POBox の で,初めて書く場合の仕組みと 2 回目以降に書く場合 Windows 版 は 手 書 き 入 力 機 能 が 備 わ っ て い な い た め , の仕組み,両方を実装している. 2 回目以降に書く場 実験の比較システムに加えられていない. 合の仕組みで書きたい文字列を認識できない場合は, 4.2. 入 力 データ 初めて書く場合の仕組みで選択し,入力できる. 今回の評価実験のために,ある文章の中に存在す る 4 つの文を入力データとして使用する. 4 つの文は 4. 評 価 実 験 かな文字,漢字,助詞などを含む,意味を持つ文章で あ る . 文 字 数 は 合 計 241 文 字 に な り , ス ト ロ ー ク 数 本章では,第 3 章で述べたシステムを既存のシステ ムと比較することにより,提案手法を評価する. は 合 計 1,252 画 で あ る . た だ し , 今 回 の 実 験 の 入 力 4.1. 実 験 内 容 データでは句読点を含めない.4 つの文全てを 1 つの 文章から選択した理由は,文の主旨が同じになり,4 本研究では,2 節と 3 節で述べた以下の 2 つの手書 き入力システムでテキストを入力することにより評価 つの文の中に同じ単語の出現回数が多 くなるからであ 実験を行った. る . 表 2 に , 入 力 デ ー タ を Mecab 4 に よ り 形 態 素 解 Mazec-T for Windows Windows 版 MyScript Stylus 3.2 提案手法を実装したシステム 析した結果得られた各形態素の出現頻度を示す . 表 2 実験では,被験者である 7 名大学生・大学院生が各 手書き入力システムで同じテキストを 2 回ずつ入力す の 出現 回数 8 文字列 る.被験者を変える度に各システムをリセットしてい る.1 回目は被験者の入力した単語を入力履歴に記録 し,手書き筆跡を認識モデルに変換するために行う. 2 回目は 1 回目で学習して得た認識モデルを用いて実 施する.被験者がテキストを入力し終える度に書いた ストローク数と,テキストの一文字目を書き始めた時 点から,テキストのすべて文字を入力し終わる時点ま で の 入 力 時 間 を 記 録 す る .ま た ,Windows 版 MyScript Stylus 3.2 と Mazec-T for Windows の 手 書 き エ リ ア に は 枠がないため,被験者に 1 度に書く文字数は 4 文字以 4 6 と 出現 回数 2 文字列 周辺 出現 回数 1 文字列 に 7 て 2 主 1 候補 6 ため 2 室 1 を 6 た 2 山名 1 入力 5 その 2 行え 1 予測 4 しかし 2 効果 1 単語 4 ある 2 語 1 で 4 優先 1 研究 1 が 4 問題 1 学習 1 html http://mecab.googlecode.com/svn/trunk/mecab/doc/index. Mecab に よ り 得 ら れ た 各 形 態 素 の 出 現 回数 方式 3 未知 1 解決 1 提示 3 文章 1 加える 1 過去 3 度 1 位置 1 ない 3 適切 1 れる 1 する 3 的 1 のみ 1 し 3 提案 1 なる 1 さ 3 低い 1 なり 1 利用 2 抽出 1 など 1 者 2 対象 1 1 基づい 2 存在 1 という そもそ も れ 2 は 2 早稲田 大学 全く な 2 として 2 表 3 手書き 入力シ ステム 平均スト ローク数 [画 ] 1回 目 2回 目 Mazec 113 7 624. 3 MyScri pt 125 2 提案シ ステム (不 慣 れ) 提案シ ステム (慣 れ た 状態) 実験結果 スト ロー ク削 減率 [%] 平均入力時 間 [s] 入力 時間 削減 率 [%] 1回 目 2回 目 45.1 787.7 501 36.4 125 2 0 1096. 6 877. 7 19.9 6 105 6 564 46.6 958.3 807. 5 15.7 100 2 450 55.2 2 770 541 29.7 4 1 1 この 1 1 から 1 場面 1 うる 1 従来 1 い 1 4.3. 実 験 結 果 実験結果を 表 3 に ま と め た .こ こ で ,ス ト ロ ー ク 削 減 率 𝑅𝑠 と 時 間 削 減 率 𝑅𝑇 は そ れ ぞ れ 式 (4) と 式 (5)に よ り 算 出 す る . 式 (4)の 𝑆1 と 𝑆2 は 式 (2)よ り 求 め る .式 (2)の 𝑆𝑛 は 各 被 験 者があるシステムを n 回目に使用した際の総入力スト ロ ー ク 数 の 平 均 を 表 し て い る .式 (2)の 𝑚 ∈ 𝑀は 各 被 験 60 n 回目にシステムを利用した際に入力した総ストロー 50 削減率 [%] 者 ,𝑁𝑚 は 被 験 者 の 総 数 ,𝑛𝑢𝑚_𝑠𝑡𝑟𝑜𝑘𝑒𝑠(𝑚, 𝑛)は 被 験 者 m が ク数を表している.ただし M は被験者の全体集合であ る .ま た ,式 (5)の 𝑇1 と 𝑇2 は 式 (3)を 用 い て 算 出 す る .式 (3)の 𝑇𝑛 は 各 被 験 者 が あ る シ ス テ ム を n 回 目 に 使 用 し 40 53.02 34.7 33.96 29.74 30 始めてから,使用し終えるまでにかかった時間の平均 20 で あ る . 式 (3)の 𝑡𝑖𝑚𝑒(𝑚, 𝑛)は 被 験 者 m が n 回 目 に シ ス 10 テムを使用し始めてから,使用し終えるまでにかかっ 0 55.22 19.96 20.94 0 た時間を表している.図 6 に 表 3 の中のストローク数削減率と入力時間削減率 を示している. 𝑆n = 1 ∑ 𝑛𝑢𝑚_strokes(𝑚, 𝑛) Nm スロトーク削減率 (2) 入力時間削減率 𝑚∈𝑀 図 6 1 𝑇n = ∑ 𝑡𝑖𝑚𝑒(𝑚, 𝑛) Nm (3) ストローク削減率と入力時間削減率の 比較 𝑚∈𝑀 表 3 か ら 同 じ テ キ ス ト を 入 力 す る 際 ,提 案 手 法 を 実 𝑆1 − 𝑆2 𝑆2 (4) 𝑇1 − 𝑇2 𝑅𝑇 = 𝑇2 (5) 𝑅𝑠 = 装 し た シ ス テ ム は Windows 版 Mazec-T for Windows よ り,平均ストローク数が少ない.しかし,平均入力時 間は長くなることがわかる.削減できたストロークは ほとんど 2 回目以後に書いた漢字のストロークである. 助詞などのひらがなは,もともとストローク数が少な いので,書き終える場合が多い.平均ストローク数が 少ないことから,提案手法によりストローク数の削減 7 は実現できている.しかし,平均入力時間が長い原因 る.それに対し,提案手法では,使用者の筆跡で作成 としては,以下の 3 つが考えられる. し た 認 識 モ デ ル を 持 つ 手 書 き 文 字 認 識 エ ン ジ ン Zinnia 実験者が提案手法のシステムの使い方に慣れて を 使 用 し , 辞 書 と し て Google 日 本 語 n-gram の 1-gram いない. を用いて,文字列の出現頻度と文字認識結果の総合評 提案した手法は書く頻度の高い単語に対して,単語 価により候補文字列の推薦順位を決める.この手法を の各漢字を途中までしか書かなくとも,希望する単語 利用することにより,途中までしか文字を書かなくと を動的に予測する.しかし各文字を途中まで書く時, も,書きたい文字を予測できるようになる.ストロー どこまで書くと候補に出てくるかは,初めてシステム ク を 書 く 回 数 の 削 減 率 が 53.02%に な り ,オ ン ラ イ ン 手 を 使 用 す る 実 験 者 に と っ て 把 握 し に く い .そ れ に よ り , 書 き 文 字 入 力 シ ス テ ム Mazec, MyScript の ス ト ロ ー ク ストロークを書くごとに予測候補列を確認するが,ス 削 減 率 0%,33.96%よ り 多 く 削 減 で き る こ と よ り , 提 案 トロークを書くごとに候補列を確認すると時間がかか 手法の有効性を示した. る.そして,被験者の中の 1 人が提案手法のシステム 今後の課題としては,本研究で入力にかかる時間の に 慣 れ る ま で 練 習 し た 後 は ,入 力 時 間 削 減 率 が 29.74% 短縮を出来なかった原因の解決がある.提案手法のシ に な り ,入 力 ス ト ロ ー ク 削 減 率 も 55.22%ま で 実 現 で き ステムの使い方に慣れていないことに対しては,シス た.よって,提案手法のシステムに慣れないうちはか テムをたくさん利用すれば解決できる.書くエリアの なり時間がかかるが,慣れれば入力速度が向上できる 枠による手の移動に時間が掛かるに対しては,インタ と思われる. ーフェイスの手書きエリアの枠を取り除き,自由に書 手書きエリアの枠による手の移動に時間が掛か いても自動的に文字ごとに切り出せる仕組みを加えれ る. ば,解決できる.予測が失敗し,書き直す場合に時間 図 5 のように,今回実装したインターフェイスの が 掛 か る 事 に 対 し て は , Zinnia の 代 わ り に 書 き 順 と 筆 手 書 き エ リ ア に は 4 つ の 枠 が あ る .実 験 者 が 文 字 列 を 画数に強い認識エンジンを使用できれば解決できると 書く時,枠に合わせてストロークを書 き,1 度に 4 文 考えられる. 字 し か 書 け な い .し か し ,こ の よ う に 枠 に 合 わ せ て 書 参 く こ と は 時 間 が か か る だ け で は な く ,実 験 者 が 連 続 し 考 文 献 たテキストをどこで切り分けるかを先に考えなけれ [1]. 増 井 俊 之 ,“ ペ ン を 用 い た 高 速 文 章 入 力 手 法 ”,日 ば な ら な い .こ の 問 題 を 解 決 す る に は ,手 書 き エ リ ア 本 ソ フ ト ウ ェ ア 科 学 会 WISS’96,pp.51-60,近 代 の 枠 を 取 り 除 き ,自 由 に 書 い て も 自 動 的 に 文 字 ご と に 科 学 社 , December 1996. 切り出せる仕組みを加えれば良いと考えられる. [2]. 増 井 俊 之 ,“ 動 的 パ タ ン マ ッ チ を 用 い た 高 速 文 章 予測が失敗し,書き直す場合に時間が掛かる. 入 力 手 法 ”, 日 本 ソ フ ト ウ ェ ア 科 学 会 WISS’97, 認 識 エ ン ジ ン の Zinnia は 書 き 順 や 速 書 に 弱 い .使 用 pp.81-86, 近 代 科 学 社 , December 1997. 者 が 少 し 速 く 文 字 を 書 い た り ,書 き 順 を 変 え た り し た [3]. 朱 碧 蘭 ,中 川 正 樹 , “オンライン手書き文字認識の 時 , Zinnia が 認 識 で き な く な り , 全 く 関 係 の な い 認 識 最 新 動 向 ”,IEICE Vol. 95,No. 4,pp.335-340,2012. 結 果 を 出 し て し ま う .そ し て Zinnia の 認 識 結 果 に よ る [4]. 増 井 俊 之 , “ イ ン タ ー フ ェ イ ス の 街 角 (6) POBox の 組 み 合 わ せ も 大 幅 に 変 化 し ,希 望 す る 単 語 が 予 測 候 補 予 測 手 法 と 辞 書 の 作 成 ”, Unix Magazine, pp.1-7, 列 に 表 示 さ れ な い 場 合 が あ る .そ の 時 は 使 用 者 が 書 き 字認識を用いてテキスト入力を行う既存の研究では, May 1998. [5]. MyScript テ ク ノ ロ ジ , http://www.visionobjects.com/jp/myscript/about myscript/myscript-technology/description/,Accessed on 2013/12/17. [6]. Zinnia: 機 械 学 習 ベ ー ス の ポ ー タ ブ ル な オ ン ラ イ ン 手 書 き 文 字 認 識 エ ン ジ ン , http://zinnia.sourceforge.net/index-ja.html,Accessed on 2013/12/17. [7]. Hiroyuki Komatsu, Taku Kudo, Yusuke Tabata, Jun Mukai, Toshiyuki Hanaoka & Yohei Yukawa, “ Development of Predictive Input System”, コ ン ピ ュ ー タ ソ フ ト ウ ェ ア ,Vol.28,No.4,pp.17-22,2011. 予測機能や動的検索を用いて,入力速度を向上させて [8]. Mazec-T 直 す し か な い . こ の 問 題 を 解 決 す る に は , Zinnia の 代 わりに書き順と書く速度の変化に強い認識エンジン を使用すれば良いと考えられる . 5. ま と め 本稿では,書く頻度の高い単語に対して,書く必要 のあるストローク数を減らすことにより手書き入力を 高速化する手法について述べた.オンライン手書き文 for Windows , いるが,各漢字を完全に描いた後でないと認識結果に http://product.metamoji.com/enterprise/mazec -point/ , 書きたい文字が表示されず,画数の多い漢字を認識さ Accessed on 2013/12/17. せるためには手の動きと時間をかなり要することにな 8