Comments
Description
Transcript
パターン認識 文字認識
「人間情報論入門 B」(H17.12.2 9 回目授業) 担当 酒井 パターン認識 はじめに ○パターン認識とは 符号化された入力情報と保持された記憶情報の照合過程 認識方法:主に①重ね合わせ、②特徴照合の 2 つ。①と②を両方使う パターン認識:人間は非常に優れているが、機械は苦手 -理由は、情報処理の柔軟性が、機械は低いが人間はきわめて高い ○パターンの認識と生成 パターン認識:パターン表現をシンボル表現に変換する処理 パターン生成:シンボル表現をパターン表現に変換する処理 ①画像(りんごの絵)⇔ 文字(「りんご」) 画像認識(→) (←)画像生成 ※画像 ⇔ 画像の変換もある-合成変換,表情変換など ②音声(“りんご”)⇔ 文字(「りんご」) 音声認識(→) (←)音声合成 ※音声 ⇔ 音声の変換もある-男女変換,話速変換など ③音楽 ⇔ 楽譜 自動採譜(→) (←)自動演奏 ○パターンの認識と生成に必要な要素 ①高速性(はやさ)-即座に結果が出力 ②的確性(うまさ)-正確な結果が出力 ③容易性(たやすさ)-操作が容易 文字認識 文字認識の分類-非常に多くのタイプがある 数字 < 英字 < カタカナ・ひらがな < 漢字 の順で認識は困難 10 種 52 種 約 70 種 約 7000 種 ○認識方法 ①文字の重ね合わせ ②特徴抽出 -①、②の両方を使う ○数字の認識-郵便番号の読み取りなどに応用 機械は位置ずれの認識が苦手→郵便番号の枠内に数字を記入する必要あり 正読率 98.2%,誤読率 0.18%,リジェクト率 1.62% 誤認識-間違って認識 リジェクト-候補がないと判断して棄却→人間が判読 毎時 3 万通以上を認識 ○文字認識の困難性 文字認識の例:Windows の IME2000 パッドの手書き文字認識 漢字の認識は困難 ・漢字は文字の種類が非常に多い-約 7000 種 ・「大」「犬」「太」,「土」「士」,「微」「徴」など類似した文字の組が多い ・線画数が多い→抽出すべき特徴数は 100 以上 ○手紙のあて先住所の読み取り 知識の利用-文脈的知識を認識に利用.日本中の地名を電子的に辞書化 ・各文字の認識結果を確信度つきで出力 ・電子辞書中の地名と照合-最も確からしい住所名を最終出力 画像認識 ○コンピュータビジョン 突極の目標:人間の視覚機能を工学的に実現 認識の内容:頭部運動、唇運動、顔、顔表情、手指運動、など(人とのやり取りの場合) 画像認識が困難な理由 ・データ量が膨大 ・人の視覚情報処理を論理的に説明困難 ・抽出される情報-光源,視点,表面の反射特性,などの影響により異なる. ○生体認証(バイオメトリクス) 従来の個人の識別:印鑑,鍵,カード,パスワードなど 生体認証の特徴:人間の身体的特徴を使って個人を認証 普及しつつある背景 ・個人情報のセキュリティ-個人情報の流出を防ぐ.パスワードでは完全な防止が困難 ・治安-不審者の侵入・テロ行為を防ぐ →パスワードの記憶やカードの保管などが不必要 システム例 ・指紋認証-数十箇所の特徴点を抽出.あらかじめ複数の指紋を登録. ・声紋認証-声の特徴(音圧)で個人認証.テープレコーダ・ものまねは見破る. ・虹彩認証-瞳孔周辺の模様で認証.生後 2 年以降は不変.指紋・声紋より精度が高い ・サイン認証-形状,筆圧,スピードなどで認証. ・顔認識-同一人物において複数の顔方向の画像を登録.服装,眼鏡,帽子などの影響 参考文献 ①木暮賢司 1999『メディア処理技術』(電気通信協会) ②長尾真『人工知能と人間』(岩波新書) ③長尾真ら編 1999『マルチメディア情報学の基礎』(岩波書店) ④美濃導彦 1999『情報メディア工学』(Ohmsha) 小レポートテーマ ①CG はどんな分野で使うと便利か.また,CG を2D でなく3D で表現する利点は何か. ②「パターンの認識と生成」で、①から③のうち、どんな情報の認識・生成が、どんな分 野で有効活用できると考えるか? ③コンピュータビジョンで、どんな視覚情報が機械で認識されると便利か? ④プリント例以外で、どんな生体情報を使ったバイオメトリクスが考えられるか?