Comments
Description
Transcript
Web 資源を利用した冠詞の用法に基づく冠詞誤り自動修正 Automatic
DEIM Forum 2012 E9-2 Web 資源を利用した冠詞の用法に基づく冠詞誤り自動修正 尾﨑 弘明† 太田 学‡ †岡山大学工学部 〒700-8530 岡山県岡山市北区津島中 3-1-1 ‡岡山大学大学院自然科学研究科 〒700-8530 岡山県岡山市北区津島中 3-1-1 E-mail: †,‡{osaki,ohta}@de.cs.okayama-u.ac.jp あらまし 英語を母語としない日本人が英語を使用する際によくある誤りの一つに,冠詞の用法の誤りがある. 本稿では,Web 検索やオンライン辞書などの Web 資源を用いて,冠詞の用法に基づいて冠詞の誤りを自動修正する システムを提案する.本研究では,24 の冠詞の用法をシステムが判断し,さらに検索エンジンから取得した検索結 果数を考慮して入力された英文の冠詞を修正する.評価実験で,提案手法と検索結果のみを用いて修正を行う方法 と修正精度を比較した結果,一般的な文章では精度に差は出なかったが,論文のように比較的使用頻度の低い単語 が多く使われる文章においては,提案手法の精度が上回り,提案手法の有効性を示せた. キーワード Web 資源,冠詞,誤り検出,誤り修正 Automatic Correction of Article Errors Based on the Usage of Articles Using Web Resources Hiroaki OSAKI† Manabu OHTA‡ †Faculty of Engineering, Okayama University, 3-1-1 Tsusima-naka, Kita-ku, Okayama, 700-8530 Japan ‡Graduate School of Natural Science and technology, Okayama University, 3-1-1 Tsusima-naka, Kita-ku, Okayama, 700-8530 Japan E-mail: †,‡{osaki,ohta}@de.cs.okayama-u.ac.jp Keyword Web resources, article, error detection error correction 1. はじ め に るか否かで判断する.このような特定の単語に依存す 近年,グローバル化が進み,企業や学校などで,英 る冠詞の用法をシステムに実装した.またそのために 語を使用する機会が増加している.大学でも海外の学 は,このような対象を個別化する形容詞の単語リスト 会での発表や英語で論文を執筆することも多い.しか な ど が 必 要 に な る . 本 研 究 で は , Web 上 に そ の よ う な し,英語を母語としない日本人は英語の用法をしばし リストがあればそれを利用し,ない場合は検索エンジ ば誤ることがあるので,英作文の校正を自動で行うシ ンを利用して作成する.このようなリストの作成方法 ス テ ム が 望 ま れ る .特 に 日 本 語 に は な い 冠 詞 の 誤 り は , は 4 節で説明する.また,修正に利用する冠詞の用法 日 本 人 の 書 く 英 作 文 に 多 く 含 ま れ て い る [2]. に つ い て は 3 節 で 説 明 す る . 本 研 究 で は [1]に 書 か れ そこで本稿では,英語の冠詞の誤りを自動で修正す ている冠詞の用法を修正ルールとして冠詞修正システ る手法を提案する.提案手法は,岡山大学工学部情報 ム に 実 装 す る だ け で な く , 検 索 エ ン ジ ン を 用 い て Web 工 学 科 専 門 英 語 の 講 義 で 使 用 し て い る テ キ ス ト [1] の 検索し,その検索結果数も修正の判断に利用できるよ 中 の 冠 詞 の 用 法 に 基 づ い て 修 正 を 行 う . 例 え ば ,“ The うにする. result can be shown by () simple computation.” と い う 英 本稿では,2 節で関連研究,3 節では冠詞修正シス 文 の ()に 入 る 冠 詞 を 考 え る . computation は 数 え ら れ な テムに用いる冠詞の用法,4 節で提案する冠詞の修正 い 名 詞 だ が ,こ の 場 合 simple と い う 対 象 を 個 別 化 す る 方 法 を 説 明 す る .5 節 で 評 価 実 験 と そ の 考 察 を 述 べ ,6 形 容 詞 が computation を 修 飾 し て い る . そ の た め , 他 節でまとめる. の も の (例 え ば , new computation な ど )と 対 比 さ れ , そ ういう性質をもつものという意味で個別化されるので, 2. 関連 研 究 不定冠詞の a が入る.この例では,冠詞の用法を検出 冠詞の誤り修正に関する研究は,主にコーパスを用 する際,対象を個別化する形容詞が名詞を修飾してい いるものと検索エンジンを用いるものがある.例えば 表 1 可 算 名 詞と 冠 詞 の 組み 合 わ せ コーパスベースで冠詞の誤りを修正するものとして [5-8]が 挙 げ ら れ る . こ れ ら は , コ ー パ ス か ら 統 計 量 を 抽出し,それに基づいて単語の出現状況をルールとし て獲得することにより,そのルールを用いて冠詞の誤 りを検出して修正する.問題点としては,コーパスの 規模を大きくすることが困難である点と冠詞の例外的 用法への対応が難しい点が挙げられる. 一方,検索エンジンを利用した冠詞の修正では, 単数形 複数形 a/an ○ × the ○ ○ φ (無 冠 詞 ) ○ ○ 表 2 不 可 算 名詞 と 冠 詞 の組 み 合 わせ 単数形 複数形 a/an × × the ○ × φ (無 冠 詞 ) ○ × [3][4]な ど が 挙 げ ら れ る .こ れ ら は 検 索 エ ン ジ ン を 用 い て検索結果数を比較して冠詞を修正する手法を提案し い こ と を 表 す . 3.2 節 と 同 様 に , 具 体 的 な 用 法 を 以 下 て い る .[3]で は ,コ ー パ ス ベ ー ス の も の よ り も 検 索 エ に示す. ンジンを用いたものの方が良い結果が出ることが報告 (4) 直 前 に 述 べ た も の を 指 す さ れ て い る .ま た [3]で は ,検 索 ク エ リ の パ タ ー ン を 名 (5) 読 者 が み な 知 っ て い る と 思 わ れ る も の の 場 合 , 了 詞の単数形と複数形の場合に分けて増やすことで,精 度の向上が確認されているので,本研究でもそれを採 用した. 他 に も ,[9]の よ う な 既 出 の 名 詞 に 着 目 し た ,最 大 エ ントロピー分類器を用いたものもある. 解を意味する形容詞で済ませるとき 例 :the standard … ,the famous な ど (6) the ~ of …の 形 で 対 象 ~の 性 質 や 特 徴 を 示 す 例 :The existence of such function is obvious. (7) そ の 名 詞 節 の 内 容 が that 以 下 に 述 べ ら れ て い る こ とを示す 3. 冠詞 の 用 法 本 節 で は [1] を 参 考 に 修 正 シ ス テ ム に 実 装 し た 冠 詞 の 用 法 に つ い て 説 明 す る .ま ず 名 詞 が 可 算 か 不 可 算 か , 単数形か複数形かに分けて冠詞の用法を述べ,次に不 定冠詞,定冠詞,無冠詞の用法について説明する. 3.1 可算 /不 不 可 算 名詞と冠 名詞と 冠 詞 の用法 名 詞 が 可 算 か 不 可 算 か に よ る 冠 詞 の 用 法 を 表 1,2 に 示 す . こ れ ら の 表 の ○ は 可 能 な 組 み 合 わ せ で , ×は 通 常不可能な組み合わせになる.名詞が可算か不可算か の情報は冠詞の修正において有用なので,冠詞修正の 判断に利用する.また逆に,可算名詞か不可算名詞か を 判 断 す る 上 で 表 1,2 の 情 報 が 利 用 で き る . 3.2 不定 冠 詞の用 法 例 :This property is due to the assumption that the noise is Gaussian. (8) そ の 個 数 だ け 存 在 す る 基 数 を 伴 う 名 詞 例 :When we view the line segment, the two endpoints may not be visible. (9) 普 通 名 詞 か ら 転 じ た 固 有 名 詞 例 :the United Nations, the White House な ど (10) 人 名 を 冠 し た 対 象 例 :the Fourier transform な ど (11) 最 上 級 の 前 例 :It is the easiest way to prove this theorem. (12) 定 冠 詞 と 組 み 合 わ さ れ る と 決 ま っ た も の 例 :the same as…, the past な ど 不定冠詞は基本的に複数あるものの一つを取り上 (13) 特 定 の 形 容 詞 +of+名 詞 の 複 数 形 の 形 げ た こ と を 表 す の に 使 わ れ る . 用 法 と し て は ,「 一 つ 」 例 : some of the … , most of the … な ど と い う 意 味 で one と 同 じ 意 味 で 使 わ れ た り , 多 数 存 在 するものの中から任意に選んだ一つという意味を表し 3.4 無冠 詞の用 法 名詞が無冠詞になるのは,上記の不定冠詞や定冠詞 た り す る 用 法 な ど が あ る .具 体 的 な 用 法 を 以 下 に 示 す . の用法の範疇に入らない場合といえる.用法を以下に (1) こ れ ま で に 存 在 し て い な か っ た 何 か が 新 た に 得 ら 示す. れたり発生したりしたものを示す 例 :From this, we can obtain an important theorem. この場合生成や発見などを表す動詞と組み合わされ ることが多い. (2) 不 定 冠 詞と 組 み合 わ され る構 文 や 表現 で 用い ら れる 例 :There is a situation in which this approach is necessary. (3) 対 象 を 個 別 化 す る 形 容 詞 に 修 飾 さ れ て い る 例 : The result can be shown by a simple computation. 3.3 定冠 詞の用 法 定冠詞は基本的に対象のものが一つしか存在しな (14) 単 数 形 な ら 不 定 冠 詞 の つ く 場 合 で 名 詞 が 複 数 形 の 場合 (15) 不 特 定 の 数 え ら れ な い 名 詞 例 :rain, snow な ど (16) ア ポ ス ト ロ フ ィ s を 伴 う 人 名 の 所 有 格 例 :Green’s theorem な ど (17) 名 詞 が 列 記 さ れ て い て , 一 ま と ま り の 場 合 は 冒 頭 の単語にのみ冠詞をつけて以降の名詞の冠詞を省 略する 例 :The symbols and notations used in this paper are as follows. (18) 動 詞 か ら 転 じ た 動 作 を 示 す 名 詞 例 :Application of this identity proves the theorem. (19) 特 定 の 形 容 詞 が つ い た 場 合 例 :In every case, each variable assumes a different value. (20) 記 号 を 固 有 の 対 象 と し て 扱 う 時 例 :Consider a line segment connecting point P and point Q. (21) 特 定 の 数 値 を 扱 う 時 例 :Consider a circle of radius 2. (22) 学 問 や 専 門 分 野 の 名 前 例 :mathematics, vector analysis な ど 図 1 冠 詞 修 正シ ス テ ム の概 要 (23) 慣 用 句 的 な 表 現 例 :in general, for example な ど (24)冠 詞 相 当 語 に 修 飾 さ れ て い る 例 :his, those な ど に 修 飾 さ れ て い る あらかじめその単語を収集しリストを作成するか,あ る い は ,Web 上 に あ る 情 報 を 利 用 す る .(2),(13),(19) は [1]に あ る 例 文 の 構 文 や 表 現 を 用 い た . (10)で 用 い る 4. 冠詞 誤 り 自動 修 正 シス テム 本節では,提案する冠詞の自動修正システムについ 人 名 と (12), (18), (22), (23)に つ い て は Web 上 に あ る リ ス ト ま た は オ ン ラ イ ン 辞 書 か ら 抽 出 し た .(1)の 生 成 , て説明する. 発 生 ,発 見 ,取 得 ,導 入 ,定 義 を 表 す 動 詞 と (5)の 了 解 4.1 システム概 要 を 意 味 す る 形 容 詞 は [1] に 挙 げ ら れ て い る 例 の 類 義 語 ここでは,冠詞修正システムの処理の流れを説明す る (図 1). まず,英文を入力する.既出の名詞には定冠詞がつ をオンライン辞書を用いて収集しリストを作成した. ま た ,(1)で 用 い ら れ る 動 詞 の 対 象 に な る 名 詞 も 冠 詞 の 修 正 に 有 用 で あ る と 考 え ,リ ス ト を 作 成 し た .(1)の 名 き や す い の で ,入 力 す る 英 語 の 文 章 は 一 文 だ け で な く , 詞 と (3)の 対 象 を 個 別 化 す る 形 容 詞 は Web 上 に リ ス ト 修正対象の文章全てを入力する.次に,入力文の名詞 が な か っ た の で ,検 索 エ ン ジ ン を 用 い て 単 語 を 収 集 し , 句に対して,名詞句ごとに 3 節で挙げた冠詞の用法に リ ス ト を 作 成 し た . 単 語 の 収 集 方 法 は 4.2.3 節 で 述 べ 当てはまるかどうかを検出する.また同時に,検索エ る. ンジンを用いてその名詞句における 3 つの冠詞パター 4.2.2 既出 の 名 詞 ンの検索結果数を取得する.最後に,これら二つの結 3 節 の (4)の 用 法 で は そ の 名 詞 が 既 出 か ど う か を そ の 果を基に冠詞の適切性を判断し,不適切な場合は修正 名詞より前の文を調べて判断する.単に同じ単語が出 案を提示する.以下で冠詞の用法の検出,検索結果数 現 し て い る か だ け で な く ,以 下 の よ う な 方 法 で 調 べ る . の取得,冠詞の修正について詳しく説明する. ・検討する名詞句に名詞が一つの場合は単にその名詞 4.2 冠詞の用法の検 出 が出現しているか 入力文の名詞節に当てはまる冠詞の用法の検出方 ・検討する名詞句に名詞が熟語として存在している場 法 に つ い て 説 明 す る .用 法 は 3.1 節 で 述 べ た 可 算 /不 可 合,その熟語または熟語の最後の名詞が出現してい 算 に よ る 用 法 と 3.2~ 3.4 節 の 冠 詞 の 用 法 (1)~ (24)を 調 るか べる. 4.2.1 検出 手 法 4.2.3 単語 の 収 集 3 節 の (1)の 動 詞 の 対 象 と な る 名 詞 と (3)の 個 別 化 す 3.1 節 の 表 1,2 に 示 し た よ う に 名 詞 の 可 算 /不 可 算 の る 形 容 詞 は Web 上 に リ ス ト が な い の で 検 索 エ ン ジ ン 判別は冠詞を検討する上で有効である.よって,オン を用いて単語を収集し,リストを作成する.検索に用 ラ イ ン 辞 書 を 利 用 し て 可 算 /不 可 算 を 判 断 す る .し か し , い る ク エ リ は ,[1]の 例 文 に あ る 収 集 対 象 の 単 語 を 含 む 可算名詞と不可算名詞両方の意味がある場合は,冠詞 名詞句と対象を個別化する形容詞はその前の単語を, の修正に用いない. (1)の 動 詞 の 対 象 と な る 名 詞 は そ の 後 の 単 語 を 用 い る . 3 節 の 冠 詞 の 用 法 の 検 出 方 法 を そ れ ぞ れ 説 明 す る (表 集める単語の部分をワイルドカードに置き換え,これ 4). (4)の 用 法 に つ い て は , 対 象 の 名 詞 よ り も 前 の 文 を を 検 索 ク エ リ と す る . 例 え ば “ The result can be shown 見 て 判 断 す る . 詳 し く は 4.2.2 節 で 述 べ る . (6)~ (9), by a simple computation.”と い う 例 文 か ら 個 別 化 す る 形 (11),(14)~ (17),(20),(21),(24)は 形 態 素 解 析 の 結 果 容 詞 を 集 め る 場 合 ,“ by a * computation” と な る . と 文 の 形 か ら 検 出 す る .(1)~ (3),(5),(10),(12),(13), (1)の 場 合 は [1] の 例 文 と オ ン ラ イ ン 辞 書 で 集 め ら れ (18), (19), (22), (23)は 特 定 の 単 語 に 依 存 す る た め , た動詞を基に名詞のリストを作成する.手順を以下に 示す. (a) [1]の 例 文 か ら 収 集 対 象 の 単 語 を ワ イ ル ド カ ー ド に 置き換えた検索クエリを生成する て ,再 度 (b)~ (d)を 行 う .こ れ を 最 初 の 検 索 で 収 集 した形容詞全てで行う. 3 節 の (3)の 対 象 を 個 別 化 す る 形 容 詞 の 例 文“ The result (b) (a)の ク エ リ を 用 い て 検 索 し , 検 索 結 果 の サ マ リ か can be shown by a simple computation.” を 用 い て こ の 処 らワイルドカードにマッチした名詞を抽出する. 理 を 説 明 す る .(a)で は , “ by a * computation”を 検 索 ク (c) 抽 出 し た 名 詞 が (1)の 用 法 と し て 使 わ れ る か を 確 認 エ リ と す る . (b)で は 検 索 結 果 の サ マ リ か ら *が 形 容 詞 するために,ワイルドカードを抽出した名詞に置 の も の を 集 め る .こ こ で 例 え ば new と い う 形 容 詞 を 抽 き換えた検索クエリで検索し,冠詞の部分を他の 出 で き た と す る . (c)“ by a * computation” の *に new 冠詞に置き換えた場合の検索結果数と比較する. を挿入し,不定冠詞の a の場合とそれを定冠詞,無冠 (d) (c)で 得 ら れ た 検 索 結 果 数 の 一 番 多 い 冠 詞 が 元 の 冠 詞に変更した場合を比較する.そして,a の検索結果 詞と同じであれば,その名詞をリストに加える. 数 が 多 い と き , new を 対 象 を 個 別 化 す る 形 容 詞 と し て (e) 検 索 ク エ リ の 動 詞 を あ ら か じ め 集 め て お い た 動 詞 リストに追加し,冠詞の用法の検出に利用する.次に と置き換え,これを新しい検索クエリとする.そ (e)で ,“ by a simple computation” に お い て simple を 集 し て ,(b)~ (d)の 処 理 を 行 う .こ れ を オ ン ラ イ ン 辞 めた形容詞に置き変えた検索クエリを用いて, 書 で 集 め た (1)で 用 い る 動 詞 全 て で 行 う . computation 以 外 の 名 詞 を 収 集 す る .例 え ば ,先 ほ ど 得 上 で 説 明 し た 手 順 を 例 文 “ We want to find a solution of ら れ た new を simple と 置 き 換 え ,“ by a new * ” と い this equation.”を 用 い て 説 明 す る .(a)で は , “ find a * of” う 検 索 フ レ ー ズ を 生 成 し , 今 度 は computation に 相 当 を 検 索 ク エ リ と す る . (b)で は 検 索 結 果 の サ マ リ か ら * す る 名 詞 を 収 集 す る .例 え ば ,method が 収 集 で き た と が 名 詞 の も の を 集 め る .例 え ば ,discovery と い う 名 詞 す る と , 今 度 は “ by a * method” と い う フ レ ー ズ を 生 を 収 集 で き た と す る . (c)で , *に discovery を 挿 入 し , 成 し て ,(b)~ (d)の 手 順 で 形 容 詞 を さ ら に 収 集 し ,対 象 元の不定冠詞の場合と冠詞を定冠詞,無冠詞に変更し を個別化する形容詞のリストに追加していく. て 検 索 結 果 数 を 比 較 す る .そ し て ,(d)の 通 り 不 定 冠 詞 4.3 検索 結 果 数の取得 の 検 索 結 果 数 が 最 も 多 け れ ば discovery を 名 詞 の リ ス 検索エンジンを用いて不定冠詞と定冠詞,無冠詞の ト に 追 加 す る . 次 に (e)で , find を locate な ど の 別 の 動 場合の検索結果数を取得する方法について説明する. 詞 と 入 れ 替 え (b)~ (d)の 手 順 で こ の よ う な 名 詞 を さ ら 4.3.1 検索 ク エ リの 生 成 に収集する. 一 方 ,(3)の 個 別 化 す る 形 容 詞 の 収 集 で は ,[1]の 例 文 検索クエリは名詞句とそれに名詞句の一つ前の単 語を加えたものを用いる.それに名詞句の最後の名詞 のみを用いて検索を行う.以下に手順を示す. を単数形と複数形に分けた6パターンを検索クエリと (a) 検 索 ク エ リ を 例 文 か ら 作 成 す る す る .“ I read a book.” を 例 に book に つ い て 検 索 ク エ (b) (a)の ク エ リ で 検 索 し , 検 索 結 果 の サ マ リ か ら ワ イ リを生成した例を表 3 に示す.検索クエリを単数形と ルドカードにマッチした形容詞を抽出する. 複数形に拡張した 6 パターンで検索をした方が良い結 (c) こ れ ら の 形 容 詞 が そ の 用 法 と し て 使 わ れ る か を 確 認するために,ワイルドカードを収集した形容詞 に置き換えた検索クエリで検索し,さらに冠詞の 部分を他の冠詞に置き換えた場合の検索結果数と 比較する. (d) (c)で 得 ら れ た 検 索 結 果 数 の 一 番 多 い 冠 詞 が 元 の 例 文の冠詞と同じであれば,その形容詞をリストに 加える. (e) 一 つ の 例 文 か ら な る べ く 多 く の 形 容 詞 を 収 集 す る ために検索クエリの形容詞につづく名詞一つを変 更 す る . ま ず , ワ イ ル ド カ ー ド を (d)で リ ス ト に 加 えた形容詞と置き換え,置き換えた形容詞の後の 単語一つをワイルドカードに置き換える.次にそ れを検索クエリとして検索し,ワイルドカードに マッチした名詞を抽出する.抽出した名詞をワイ ルドカードと置き換え,再び形容詞をワイルドカ ードに置き換えて新しい検索クエリとする.そし 果 が 得 ら れ る と い う 報 告 [3]か ら , こ れ を 採 用 し た . 4.3.2 検索 手 順 表 3 に示した検索クエリを用いて検索を実行する. 以下に検索の手順を示す. (a)検 索 ク エ リ の 生 成 (b)検 索 エ ン ジ ン を 使 い , 6 パ タ ー ン の 検 索 ク エ リ 検 索結果数を取得する (c)検 索 結 果 数 が 閾 値 を 下 回 っ た 場 合 ,検 索 ク エ リ の 単 語 を 一 つ 減 ら し , (b)に 戻 り 再 検 索 を す る (d)検 索 結 果 数 が 閾 値 を 超 え た 場 合 ,そ れ を 結 果 と し て利用する. 本 研 究 で は 閾 値 は 0 に 設 定 し た .(c)に お い て 6 パ タ ー ンの検索クエリで閾値を下回った場合,複合名詞の場 合は前の名詞を減らし,単体名詞が場合は,修飾して いる形容詞や副詞などを削除して再検索を行う. 4.4 冠詞の修正 4.2,4.3 節 の 結 果 を 基 に 修 正 を 行 う .ま ず ,4.2 節 の 表 3 検 索 ク エリ の 作 成 例 単数形 複数形 a/an read a book read a books the read the book read the books φ (無 冠 詞 ) read book read books 冠詞の用法の検出の結果によって以下の 3 パターンに 分類できる. (1) 検 出 さ れ た 用 法 に よ っ て 使 用 す べ き 冠 詞 が 一 意 に 決まる. (2) 検 出 さ れ た 用 法 か ら 複 数 の 冠 詞 の 修 正 案 が 提 示 さ れる. (3) 用 法 が 検 出 さ れ な い . 結 果 が (a) の 場 合 は そ の ま ま そ の 冠 詞 を 修 正 案 と し て 提 示 す る .結 果 が (b)の 場 合 は 考 え ら れ る 冠 詞 を 修 正 候 補 と し , そ の 修 正 候 補 を 4.3 節 の 検 索 結 果 数 を 用 い て 比 較 し ,修 正 案 を 決 定 す る .結 果 が (c)の 場 合 は ,表 1,2 に 従 っ て 不 定 冠 詞 ,定 冠 詞 ,無 冠 詞 を 検 索 結 果 数 で比較し,修正案を提示する. 例 え ば (c)で , 名 詞 が 複 数 形 と だ け 分 か っ た 場 合 は , 定冠詞と無冠詞の場合が考えられる.この場合,定冠 詞と無冠詞の場合の検索結果数を比較し,修正案を決 定 す る .ま た ,(b)の 場 合 で は 用 法 の 組 み 合 わ せ に よ っ ては例外的に冠詞が一意的に決まるものもある.その 場合はあらかじめ実装しておいた例外パターンで修正 案 を 決 定 す る . 例 え ば “ The result can be shown by * simple computation.”を 考 え る .こ の 場 合 simple は「 対 象 を 個 別 化 す る 形 容 詞 」で ,computation は「 数 え ら れ な い 名 詞 」と な っ て い る が ,[1]に は ,数 え ら れ な い 名 詞を個別化する形容詞が修飾した場合,不定冠詞とす るという規則がある.このように,例外的な規則があ る場合はそれを優先し,そうでない場合は,検出され た用法の候補を検索結果数で比較し,それを修正案と する.また,優先度の高い用法についてはそれを優先 し,修正案を決定する.もしそれで決められない場合 は優先度のない冠詞の用法を検出した場合と同じ扱い で,修正案を決定する.優先する冠詞の用法を以下に (3)の 個 別 化 す る 形 容 詞 の リ ス ト を 作 成 し た .検 索 エ ン ジ ン は Yahoo!検 索 WebAPI[10]を 用 い た .そ の 結 果 ,表 5 で 示 し た よ う に ,(1)で は 1,036 の 名 詞 ,(3)で は 3,458 の形容詞を収集した. 収 集 し た 名 詞 お よ び 形 容 詞 の 例 を 挙 げ る .(1)の 名 詞 で は , solution, method な ど が 収 集 で き た . こ れ は 発 見や定義などを表す動詞の目的語になっていたため収 集 さ れ た と 考 え ら れ る .(3)の 個 別 化 す る 形 容 詞 は さ ら に多く収集できた.また,収集の際同じ形容詞が何度 も出てくることが多かったので信頼性は高いといえる. こ こ で は ,vivid,difficult な ど の 形 容 詞 が 収 集 さ れ た . また,収集した名詞および形容詞の中にはいくつか 品詞が違うものなども含まれるが,用法の検出は形態 素解析によって入力文中の品詞を判断してからリスト と照合するので問題ない. 5.2 冠 詞 誤 りの 修 正実 験 評価実験では,冠詞誤りを含む英文に対して冠詞の 自 動 修 正 を 試 み て そ の 修 正 精 度 を 評 価 し た .本 実 験 で は ,[1]の 冠 詞 を 扱 っ た 節 に 挙 げ ら れ て い る 英 文 と New York Times[14]の 記 事 ,論 文 の 抄 録 を 修 正 対 象 と し て 用 い た . 実 験 で は (i)こ れ ら 実 験 対 象 の 英 文 の 誤 り を 含 ま ない正解データと同じ冠詞を修正案として提示できる か , (ii)冠 詞 の う ち 半 数 を ラ ン ダ ム に 誤 っ た 冠 詞 (無 冠 詞 も 含 む )に 置 き 換 え ,そ れ を 修 正 で き る か を 評 価 し た . 本手法は単語に依存しているので,スペルミス,冠詞 以外の単語の誤りはないものと仮定する.また,実験 は提案手法と検索結果数のみを用いて修正を行った場 合を比較した.本実験でもリストの作成と同様に検索 エ ン ジ ン は Yahoo!検 索 WebAPI[10]を 用 い た .オ ン ラ イ ン 辞 書 と し て は Weblio 英 和 和 英 辞 書 [11]を 用 い た .ま た , 人 名 に つ い て は 欧 羅 巴 人 名 録 [12], 米 国 国 勢 調 査 局 1990 Census Name Files[13]を 用 い た . 5.2.1 評 価尺 度 評 価 尺 度 と し て 以 下 の 3 つ を 用 い る .F 値 の P は 適 合 率,R は再現率のことである. 示す. (16)ア ポ ス ト ロ フ ィ s を 伴 う 人 名 の 所 有 格 (21)特 定 の 数 値 を 扱 う 時 (23)慣 用 句 的 な 表 現 (24)冠 詞 相 当 語 5. 実験 正しく修正された冠詞 誤りの数 実際の冠詞誤りの数 正しく修正された冠詞 誤りの数 適合率 = 修正された誤りの数 2 PR F値 = P+R 再現率 = 実 験 で は ,4.2.3 節 で 述 べ た 用 法 の 検 出 に 必 要 な 名 詞 および形容詞のリストの作成と,冠詞誤りの修正精度 の評価実験について述べる. 5.1 リ ス ト の作 成 3.2 節 の (1)で 用 い ら れ る 動 詞 の 目 的 語 に な る 名 詞 と 5.2.2 実 験結 果 本実験では検索結果数のみを用いて冠詞を修正し た場合と提案手法との比較を行った.検索結果数のみ を用いる修正は,表 3 のような 6 パターンの検索結果 数を比較し,検索結果数の最も多い冠詞を修正案とす 表4 検出方法 前方参照 形態素解析,文の形 [1]の 例 文 か ら 作 成 し た リ ス ト Web 上 に あ る リ ス ト , オ ン ラ イン辞書 検索エンジンを利用して作成 したリスト 検 出 方法 一 覧 冠詞の用法 (4) 直 前 に 述 べ た も の を 指 す (6) the ~ of … の 形 で 対 象 ~の 性 質 や 特 徴 を 示 す (7)そ の 名 詞 句 の 内 容 が that 以 下 に 述 べ ら れ て い る こ と を 示 す (8)そ の 個 数 だ け 存 在 す る 基 数 を 伴 う 名 詞 (9)普 通 名 詞 か ら 転 じ た 固 有 名 詞 (11)最 上 級 の 前 (14)単 数 形 な ら 不 定 冠 詞 の つ く 場 合 で 名 詞 が 複 数 形 の 場 合 (15)不 特 定 の 数 え ら れ な い 名 詞 (16)ア ポ ス ト ロ フ ィ s を 伴 う 人 名 の 所 有 格 (17)名 詞 が 列 記 さ れ て る と き (20)記 号 を 固 有 の 対 象 と し て 扱 う 時 (21)特 定 の 数 値 を 扱 う 時 (24)冠 詞 相 当 語 (2) 不 定 冠 詞 と 組 み 合 わ さ れ る 構 文 や 表 現 で 用 い ら れ る (13)特 定 の 形 容 詞 +of+名 詞 の 複 数 形 の 形 (19)特 定 の 形 容 詞 が つ い た 場 合 (1) 新 た に 得 ら れ た り 発 生 し た り し た も の を 示 す (動 詞 ) (10)人 名 を 冠 し た 対 象 (12)定 冠 詞 と 組 み 合 わ さ れ る と 決 ま っ た も の (18)動 詞 か ら 転 じ た 動 作 を 示 す 名 詞 (22)学 問 や 専 門 分 野 の 名 前 (23)慣 用 句 的 な 表 現 (1) 新 た に 得 ら れ た り 発 生 し た り し た も の を 示 す (名 詞 ) (3) 対 象 を 個 別 化 す る 形 容 詞 に 修 飾 さ れ て い る る.また,検索結果数の最も多い冠詞が二つ以上ある られる. 場合には,修正案を一つに絞れないので修正を行わな 本実験で,両手法で修正案を誤った箇所や提案手法 い.様々な文章で評価を行うため,修正実験の対象と のみ誤った箇所,提案手法のみ正解した箇所などにつ して 3 種類の文章を用意した.それぞれの実験結果を いて述べる.検索結果数のみを用いた手法は,使用頻 以下に示す. 度の低い単語が使われている場合に間違いが多かった. 5.2.2.1 専 門英 語 教 科 書 の英 文 を 用い た 実 験 また,検索結果数が十分でも修正案を間違うことも多 [1]に あ る 英 文 を 用 い て 実 験 を 行 っ た .こ の 例 文 は 全 少あったが,この場合,正解と修正案の検索結果数は 30 文 で 構 成 さ れ , 145 の 検 討 す べ き 名 詞 句 が あ っ た . 近いことが多かった.両手法共通で間違っていた箇所 また,この英文はそれぞれ単文でお互いに関連はない は,提案手法で用法が検出されていない,または検出 の で , 3.3 節 の (4)の 用 法 は 同 一 文 内 の 前 後 関 係 を み て されているが複数の用法が検出されていて修正案を決 判 断 し た .実 験 結 果 を 表 6,7 に 示 す .表 6 は 得 ら れ た 定できずに検索結果数を用いて修正している場合が多 修正案が正解データと一致しているか,表 7 は冠詞誤 かった.提案手法のみで誤っている箇所については, りの修正実験の結果で,無作為に正解データの冠詞の 4.4 節 で 挙 げ た 優 先 す る 冠 詞 の 用 法 以 外 が 検 出 さ れ て 半 数 (73 箇 所 )を 誤 っ た 冠 詞 に 入 れ 替 え て 実 験 を 行 っ た い る 場 合 で , 特 に 5.1 節 で 作 成 し た 名 詞 お よ び 形 容 詞 結果である. の リ ス ト を 用 い る (1), (3) の 用 法 が 検 出 さ れ た 場 合 と [1]の 英 文 は ,提 案 手 法 で 用 い た 冠 詞 の 用 法 を 説 明 す (6)の 用 法 が 検 出 さ れ た 場 合 が 多 か っ た .し か し ,提 案 る章の練習問題になっているので,英文中に検出でき 手 法 の み 正 解 し て い る 箇 所 で も , 冠 詞 の 用 法 の (1), る冠詞の用法が多くあった.表 6 や表 7 の評価では, (3)が 検 出 さ れ て い る 場 合 が 多 か っ た .よ っ て ,作 成 し 検索結果数を用いた手法に比べ高くなったが,その点 た名詞および形容詞リストは有効だが,品詞の収集方 は 留 意 す る 必 要 が あ る .ま た ,[1]は 学 術 論 文 を 英 語 で 法等に改善の余地がある. 書くためのテキストでもあるので,その例文では使用 5.2.2.2 New York Times を用 い た 実験 頻度の低い単語が多く使用されていた.そのため,検 索結果数を用いる手法の修正精度は低くなったと考え New York Times の 記 事 一 つ を 用 い て 実 験 を 行 っ た . こ の 記 事 は 51 文 で 構 成 さ れ ,398 の 検 討 す べ き 名 詞 句 表5 作 成 した 形 容 詞 およ び 名 詞の リ ス ト リスト (1)の 名 詞 (3)の 形 容 詞 表6 個数 1,036 3,458 検索結果数のみの手法 提案手法 表7 誤り 43 28 正解率 0.70 0.81 冠 詞 誤り の 修 正 性能([1]の の英文) 性能 検索結果数のみの手法 提案手法 再現率 0.71 0.81 修 正 案の 適 切 性 評価(New York Times) 評価 検索結果数のみの手法 提案手法 修 正 案の 適 切 性 評価([1]の の英文) 評価 正解 102 117 表8 適合率 0.60 0.72 F値 0.65 0.76 表9 正解 335 336 誤り 63 62 正解率 0.84 0.84 冠 詞 誤り の 修 正 性能(New York Times) 性能 検索結果数のみの手法 提案手法 表 10 再現率 0.84 0.81 適合率 0.75 0.79 F値 0.79 0.81 冠 詞誤 り の 修正 性能(論 性能 論 文 ) 検索結果数のみの手法 提案手法 正解 259 269 誤り 75 65 正解率 0.78 0.81 が あ っ た . 表 8, 9 に そ れ ぞ れ 表 6, 7 と 同 様 の 実 験 結 果 を 示 す .[1]の 英 文 に 対 す る 実 験 と 同 様 に 表 8 は 正 し 表 11 冠 詞 誤り の 修 正 性能(論 性能 論 文 ) い英文を入力として与えて得られた修正案がその正解 と 一 致 し て い る か (正 し い も の を 正 し い と 出 せ る か ), 表 9 は冠詞誤り修正実験の結果で,無作為に冠詞の半 数を誤った冠詞に置換して実験した結果を表す. New York Times[14] で は 一 般 的 に 使 わ れ る 単 語 が 多 い た め , 十 分 な 検 索 結 果 数 を 得 る こ と が で き , [1] の英文の場合より検索結果数のみを用いた手法の精度 が高くなった.提案手法も冠詞の用法の検出で修正案 を決定できない場合は検索結果数を用いるが,表 9 で 適合率が少し高くなっている.また,表 8 で二つの手 法の正解率は同じになったが,検索結果数のみを用い た手法において検索結果数が同じで最多の冠詞が二つ 以 上 あ る 場 合 が , [1]の 英 文 で は 誤 り 43 件 の う ち 2 件 だ っ た が , こ の 場 合 63 件 の う ち 27 件 も あ っ た . 検索結果数のみの手法 提案手法 再現率 0.74 0.80 適合率 0.67 0.74 F値 0.70 0.77 5.2.3 考 察 と今 後 の 課 題 [1]は 理 系 の 論 文 を 書 く 人 向 け の 著 書 で あ る の で , 冠詞の用法についても,理系の論文によくある用法が 多 い . そ の た め , New York Times の よ う な 一 般 的 な 単 語が使われる文章を校正する場合は,検索結果数を用 いる手法と同程度だったと考えられる.今後の課題と しては,用法の追加や用法の検出方法と検出した用法 の利用方法の改善が挙げられる.十分に検索結果数が 得られない場合は検索クエリの生成方法を工夫する必 要もある. 具 体 的 な 修 正 案 を 調 べ る と [1] の 英 文 の 場 合 と 大 体 同じような例が多かった. 5.2.2.3 論 文抄 録 を用 い た実 験 論文抄録を用いた実験では,英語圏の著者が英語で 書 い た 論 文 の 抄 録 を 五 つ 用 い て 実 験 を 行 っ た . 全 47 文 の 中 に 334 箇 所 の 検 討 す べ き 名 詞 句 が あ っ た .表 10, 11 に 実 験 結 果 を 示 す . 5.2.2.1 節 の 実 験 と 同 じ く 表 10 は 得 ら れ た 修 正 案 が そ の 正 解 と 一 致 し て い る か ,表 11 は冠詞誤り修正実験の結果を示す. 冠詞修正案の適切性評価の実験では,使用頻度の低い 単 語 が 多 く 使 わ れ て い る た め , 修 正 精 度 は New York Times[14]を 用 い た と き に 比 べ 低 く な っ た .し か し ,提 案手法は検索結果数のみを用いた場合に比べ単語の使 用頻度の影響は受けにくいので,使用頻度の低い単語 が増えても精度の減少は小さい. 具 体 的 な 誤 っ た 修 正 事 例 を 調 べ る と [1] の 場 合 や New York Times[14]と 大 体 同 じ よ う な 例 が 多 か っ た . 6. まと め 本稿では,岡山大学工学部情報工学科の専門英語の 講 義 で 使 用 し て い る テ キ ス ト [1] に あ る 冠 詞 の 用 法 を 用いて冠詞を自動修正する方法を提案した.提案手法 で は , Web 資 源 を 用 い て 入 力 さ れ た 英 文 か ら 予 め 定 め た冠詞の用法を検出し,検出された用法と,検索エン ジンによって得られた検索結果数を用いて冠詞の修正 を行う.また,冠詞の用法検出に必要な名詞や形容詞 のリストを検索エンジンを用いて作成した.評価実験 では学術論文の抄録や一般的な文章と考えられる新聞 記事を用いて,検索結果数のみを用いた修正方法と提 案手法を比較した.実験結果より,学術論文などの文 章では本手法は検索結果数のみを用いる方法を上回っ た.しかし,一般的な文章の場合は検索結果数のみを 用いた手法とあまり精度に差はなかった.今後の課題 として,冠詞の用法の拡充や,冠詞の用法と検索結果 数 を 用 い た 冠 詞 の 修 正 方 法 の 改 善 が 挙 げ ら れ る .ま た , 冠詞の用法の検出のため作成した名詞および形容詞の リストについてもさらに精査したい. 参 考 文 献 [1] 金 谷 健 一 “ こ れ な ら 書 け る 論 文 英 語 ― 理 系 の た めの英文練習帳―” 岡山大学大学院自然科学研 究 科 2011 年 4 月 (第 1.0 版 ) [2] 河 合 敦 夫 , 杉 原 厚 吉 , 杉 江 昇 ,“ 英 文 の 誤 り を 検 出するシステム ASPEC-I ” 情 報 処 理 論 文 誌 Nov.1984 Vol.25 No.6, pp.1072-1079, 2007 [3] 平 野 孝 佳 , 平 手 勇 宇 , 山 名 早 人 ,“ 検 索 エ ン ジ ン を 用 い た 英 文 冠 詞 誤 り の 検 出 ”日 本 デ ー タ ベ ー ス 学 会 ,Letters vol.6, No.3, pp1-4, 2007 [4] 綱 嶋 祐 一 , 岡 田 壮 史 , 安 藤 一 秋 ,“ 検 索 エ ン ジ ン を利用した多言語作文支援”電子情報通信学会, 信 学 技 報 ET2007-97, pp.73-78, 2008 [5] 永 田 亮 , 井 口 達 也 , 脇 寺 健 太 , 桝 井 文 人 , 河 合 敦 夫 , 井 須 尚 紀 ,“ 前 置 詞 情 報 を 利 用 し た 冠 詞 誤 り 検 出 ” 電 子 情 報 通 信 学 会 論 文 誌 D-I, Vol.J88-D-I No.4, pp.873-881, 2005 [6] 乙 武 北 斗 , 荒 木 建 治 ,“ 単 語 出 現 状 況 の 特 徴 を 用 いた英文誤りの検出および自動校正”社団法人 情 報 処 理 学 会 , 研 究 報 告 , NL-171, pp.25-30, 2006 [7] 永 田 亮 , 若 菜 崇 宏 , 森 広 浩 一 郎 , 桝 井 文 人 , 河 合 敦 夫 , 井 須 尚 紀 ,“ 可 算 /不 可 算 の 判 定 に 基 づ い た 英 文 誤 り の 検 出 ” 電 子 情 報 通 信 学 会 論 文 誌 Vol. J89-D, No.8, pp.1777-1790, 2006 [8] 乙 武 北 斗 , 荒 木 建 治 ,“ 単 語 出 現 状 況 の 帰 納 的 学 習による英文誤りの検出及び自動校正” 電子情 報 通 信 学 会 論 文 誌 , D Vol.J90-D No.6 pp.1592-1601, 2007 [9] 竹 内 裕 巳 , 河 合 敦 夫 , 永 田 亮 , 乙 武 北 斗 ,“ 英 文 自動冠詞付与における前方照応の考慮” 情報処 理 学 会 研 究 報 告 , Vol.2011-NL-204 No.10, pp.1-7, 2011 [10] Yahoo!JAPAN が 提 供 す る 検 索 WebAPI http://developer.yahoo.co.jp/webapi/search/ [11] Weblio 辞 書 英 和 和 英 辞 書 http://ejje.weblio.jp/ [12] 欧 羅 巴 人 名 録 http://www.worldsys.org/europe/ [13] 米 国 国 勢 調 査 局 に よ る 米 国 の 人 名 頻 度 順 リ ス ト 1990 Census Name Files http://www.census.gov/genealogy/names/ [14] New York Times http://www.nytimes.com/