Comments
Description
Transcript
9章 (PDF:3541KB)
9 結果と考察 9 結果と考察 本調査の結果とそれに対する考察について記述する。 9.1 中国・韓国の言語、特許の特性 9.2 必要機能の洗い出し 9.3 基準値の提示 9.4 審査官の使用感 9.5 システムの実現性 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-1 9 結果と考察 9.1 中国・韓国の言語、特許の特性 9.1.1 中韓の言語特性 それぞれの言語毎に、様々な特性が存在するが、主要な比較結果を以下に示す。 表 9.1-1 中国語と韓国語の言語特性の比較 (1/2) 項番 1 観点 構文解析の しやすさ 中国語 韓国語 × ○ 以下の要素もあり、世界中の言語の中で最も翻訳処理が難しい言語。 韓国語の語順は、日本語と良く似ており、また文節をスペースで区切るため、翻訳精度 は比較的高い。 ①単語の切れ目が明示されていない。 例:日本語 世界をリードする新技術を絶え間なく開発する。 例:中国語 不断开发引领世界的新技术 ○正解 ○ ×単語切り 失敗例 不断 (d) 不 (d) 断 (d,v) 开发 (v) 开 (q,v) 断开 (v) 发 (q,v) 引领 (v) 引 (q,v) 领 (q,v) 世界 (n) 世 (n) 的 (u) 新 (a) 技术 (n) ○ 例:日本語 例:韓国語 界 (n) 世界をリードする新技術を絶え間なく開発する。 세계를 리드하는 새기술을 끊임없이 개발한다 世界を リードする 新しい技術を 絶えず 開発する。 发引 (v) ②同表記異品詞が多い。 例 1:同じ文字を異なる品詞として使用。 「在」は、3 つの異品詞がある。 a. [動詞] ある → 书在桌子上 (本は机の上にある) b. [介詞] ~で(場所) → 他在图书馆里看书(彼は図書館で本を読んでいる c. [副詞] ~している → 弟弟在哭 (弟は泣いている) 例 2:同じ文章を異なる意味で解釈できる 资产 管理 体制 → 「資産管理体制」?それとも、「資産は体制を管理する」?どちらの意味の文章か 分からない。 ③文構造の手がかりが少ない。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-2 9 結果と考察 表 9.1-2 中国語と韓国語の言語特性の比較 (2/2) 項番 2 観点 異表記の 少なさ 中国語 韓国語 × ○ 中国語は全て漢字で表記するため、外来語の表記が日本語や韓国語以上に多く存在 する。このため、韓国語以上に多くの語を辞書へ登録する必要がある。 韓国語は全てハングル文字(日本語のかなと同じ)で表記するため、中国語と比較する と、異表記は少ない。 このため、中国語と比較すると、辞書への登録語数が少なくても、正しく訳せる可能性が ある。 また、中国語の外来語表記は、同じ外来語でも、表音文字、表意文字のそれぞれで表 す可能性があり、表現方法は無限。 但し、同表記語を日本語に翻訳する際に、誤った語に翻訳する可能性がある 次ページ以降にて、それぞれの言語毎の特性を記載する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-3 9 結果と考察 (1) 中国の言語特性 1) 特性 a) 中国語の使用範囲 中国語は、シナ・チベット語族に属する言語で、中国本土、台湾、香港の他に、シンガポールなどの 東南アジアや、世界各国にいる華僑・華人たちの間で話されている言語である。 b) 中国語の定義 広義の中国語は、中国の言語という意味で、少数民族の言語も含む。 狭義の中国語は、中国に人数が一番多い漢民族の言語を意味し、「漢語」とも呼ばれる。 また、現在使われている中国語は、1917 年以後「白話運動」と呼ばれる文学革命によって普及した 現代漢語である。台湾では「国語」とも呼ばれる。現代漢語に対して、1917 年以前使われた中国語を 「古文」と呼び、文法も語彙も大きな違いがある。 さらに、中国の地域によって、北方・呉・贛・湘・閩・客家・粤に分かれる七大方言であり、さらに晋・ 徽・平話を独立した方言と考える十大方言がある。各方言は共通の漢字を持っているものの、異なる 方言話者との会話による相互理解は事実上不可能に近い。中国政府の標準語政策により、北方語の 発音・語彙と近代口語小説の文法を元に作られた「普通話」が義務教育の中で取り入れられ、標準 語・共通語となりつつある。 本調査は、中国特許公報を考察対象としているため、特許公報に使われている現代漢語の普通話 の書面語(書き言葉)を調査対象としている。 c) 中国語の発音 中国語は声調言語と呼ばれ、日本語の「今(いま)」と「居間(いま)」のように、音の高低の違いによ って意味を区別している。これを声調(トーン)という。陰平声、陽平声、上声、去声の四つの声調と軽 声がある。 d) 中国語の表記 中国語は漢字で表記する。漢字は中国独自の文字で、ラテン文字などのアルファベットや日本語 の仮名文字と異なり、直接発音を表さない表意文字である。そのため、漢字から発音を推測するのは 困難である。 漢字は簡体字と繁体字の区別がある。中国大陸では 1956 年に、字画が少なく、読みや構成にも統 一性を高めた簡体字が導入された。簡体字は、中国全土で使用されることが中央政府によって義務 化された。これに対して、台湾、香港、マカオでは、基本的に簡体字以前の字体を維持した繁体字が 使われている。 コンピュータ処理においては、簡体字圏と繁体字圏は、全く互換性のない別の文字コード・文字セ ット体系(大陸=GB シリーズ、台湾、香港、マカオ=Big5 シリーズ)が使用されてきた。 また、発音を表記するため、ピンインというローマ字表記法が大陸で採用されている。台湾では、注 音符号と呼ばれる別の発音記号を用いて漢字の読みを示すのが一般的である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-4 9 結果と考察 e) 中国語の文法 中国語は語が実質的意味のみを表す孤立語(isolated language)である。英語やロシア語のような 屈折語(inflectional language)と異なり、性、数、格などの文法的関係を示す語形変化は存在しない。 また、日本語や韓国語のような助詞や助動詞などの付属語によって文法的な関係を示す膠着語 (agglutinative language)とも違い、語順により文法機能を表す。 中国語の基本語順は SVO 型であり、述語は目的語の前に来る。しかし、目的語を強調する場合、 「把」や「將」のような介詞によって、SOV 型の文を作ることができる。 中国語には、時制(文中の行為・状態が起こった時間を現在・過去・未来として区切る「時間の区切 り方」)を表す文法カテゴリが存在しない。一方でアスペクト1(相、文中の動詞が表す事象が、「完了し たのか、あるいは継続中なのか」をもたらす文法形式)は存在し、動詞に「了」(完了)「过」(経験)「着」 (進行)を付けることによって表される。 f) 中国語の語彙 中国語の漢字は一音節に一文字が用いられ、1 文字で語彙を表す語が基本であるが、多義語や同 音異義語が多くなるため、現代漢語には、複数文字からなる単語が増えている。 1「アスペクト」とは、時間を現在・過去・未来と区切った「時制」の中で、さらに「それが完了したのか(完了相)、あるいは継続中なのか(継 続相)」という点に着目した考え方。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-5 9 結果と考察 2) 注意点 前述の言語特性ゆえ、中国語翻訳は非常に難しい面が多い。中国語の難しさの代表的な原因に は、以下 8 つが存在する。 表 9.1-3 中国語の注意点 項番 注意点 概要 1 単語の切れ目が明示されていない。 2 文の格を判定するための情報が不足。 3 多義語や同表記異品詞が多数存在する。 4 5 時制を表す文法カテゴリが存在しないた め、時制の判断が困難。 同義語が多い。 6 外来語の表記方法が複雑。 7 中日間の同形異義語がある。 8 「虚詞」の扱い 漢字の連続のため、単語の切れ目が分からず、解 析が困難。 語尾変化や格助詞(「は」=主格、「を」=目的格) 等がないため、解析が困難。 1 つの文字が複数の意味を持つ場合があり、判別 が困難。 動詞の語系変化によって過去形を表す等の手法 はなく、時制の判断が困難。 同じ意味で複数の言葉が多く、検索漏れが発生す る可能性がある。 全て漢字で記載するため当て字が多く、字面か ら、その意味を判断することが困難。 「汽车」という単語は、日本語では「列車」だが、中 国語では「自動車」と意味が異なる場合がある。誤 訳の可能性あり。 それ自身には意味が無いが、文法構造を把握す るために必要な品詞。検索時には除去すべきだ が、翻訳時には考慮が必要。 影響範囲 翻訳 検索 高 高 高 中 高 中 中 低 低 高 高 中 中 低 高 中 以下に、それぞれの詳細を記載する。 a) 単語の切れ目が明示されてない 中国語は、漢字の連続で表記するため、単語の切れ目が明示されない(例 1)。英語や韓国語の場 合、空白で単語が区切られる。日本語の場合、かなと漢字の境界を手かがりにして、助詞や助動詞の 膠着特性によって単語を識別できる。しかし、中国語の場合、単語の切れ目を表す情報が少ないので、 辞書やより高度な解析技術が必要となる。 例1:単語区切りの例 中国語 :我/去/书店/买/书。(漢字の連続なので、単語の切れ目が明示されない) 日本語 :私/は/本屋さん/に/本/を/買い/に/いく。(助詞によって、単語が区切られる) 英語 :I go to the bookstore to buy the book. (スペースで単語が区切られる) 現状の中国語形態素解析は、単語区切りの精度は日本語や英語に比較して精度が低いため、誤 って区切られた失敗例は少なくない(例 2)。このような解析失敗の結果に基づく翻訳や検索用索引の 抽出は、精度の低下を発生させる。 例2:単語は誤って解析された例 入力文 :结合具体实施例对本发明作进一步说明。 解析結果:结合/具体/实施/例/对本/发明/作/进一步/说明。 正解 :结合/具体/实施例/对/本发明/作/进一步/说明。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-6 9 結果と考察 b) 文の格を判定するための情報が不足 中国語は語順で文法関係を表す。英語のような格を示す語形変化は存在しない。また、日本語の ように、格助詞による格の判定も不可能である。文の係り受け関係を解明するための手がかりが少な い。 例 3:格を判定する例 中国語 :我在修理我的自行车。(語順情報しか使えない) 日本語 :私は私の自転車を修理している。(「は」や「を」より主格、目的格を認識できる) 英語 :I am repairing my bicycle.(語形変化によって、主格、所有格を認識できる) また、中国語の基本構文は SVO だが、「把」や「將」のような介詞によって、述語と目的語の位置が 変わることもある(例 4)。 例 4:SOV型の例 我把我的自行车修理好了。 (目的語を述語の前に置くことによって、動作の対象を強調する。) よって、文の係り受け関係はうまく解釈できなれば、翻訳された文章は正しい構造で組み立てること ができない。 c) 多義語や同表記異品詞が多数存在する 中国語は漢字で語彙を表記する。1つの文字が複数の意味を持つことや、複数の品詞に対応する ことが多い。文脈によって、単語の意味や文法特性が変わることがある(例 5)。 例 5:「叫」の多品詞性 [動詞] 名を…という [動詞](使役を示して)…させる [介詞](受身を示して)…される 你叫什么名字? (あなたの名前は何というの?) 连电视也不叫看 (テレビさえ見させない) 叫蚊子咬了 (蚊に刺された) また、同表記異品詞の影響によって、同じ単語に異なる品詞が付与され、係り受け解析が失敗する 可能性が高く、翻訳、索引抽出、不要語除去に悪影響を与える。 例6:係り受け解析が失敗する例 原文 :叫蚊子咬了 誤例 :蚊に刺させた ([動詞]…させると判断する場合) 正解 :蚊に刺された ([介詞]…されると判断する場合) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-7 9 結果と考察 d) 時制を表す文法カテゴリが存在しないため、時制の判断が困難。 中国語は、時制という文法カテゴリを持たない言語であり、動詞は変化しない。 時間副詞(例 7)やアスペクトを表す助詞(「了」、「过」、「着」など)(例 8)によって動作の状態を判断 する。 例7:副詞による時制を表す例 中国語 :我昨天去学校。 (「昨天」という副詞によって過去と推定する) 日本語 :私は昨日学校へ行った。 (過去を示す助動詞「た」によって判定する) 英語 :I went to school yesterday. (動詞の語形変化によって判定する) 例 8:助詞によるアスペクトを表す例 中国語 :我去了学校。 日本語 :私は学校へ行った。 英語 :I went to school. (助詞「了」によって過去と推定する) (過去を示す助動詞「た」によって判定する) (動詞の語形変化によって判定する) 時間副詞で時制を表す場合、文が長くなったり、文の構造が複雑になると、様々な問題が派生する。 例えば、時間副詞と述語の距離が長くなったり、複数の時間副詞が同時に存在したりする問題が発生 する。このため、時制の判定が難しくなる可能性が出てくる。 e) 同義語が多い 中国語は歴史が長い言語であるため、語彙の数が豊富で、同義語が相当多い。以下に主要な同 義語の例を 4 つ記載する。 ①普通話と方言から吸収した語彙によって構成した同義語 玉米(標準語)- 棒子(東北地方の方言) (トウモロコシ) ②書き言葉、話し言葉、及び両方とも通用の言葉によって構成した同義語 儿童(書き言葉)- 小孩儿(話し言葉)- 孩子 (通用の言葉) (子供) ③元の中国語と外来語によって構成した同義語 锦纶(元の中国語)- 尼龙(外来語) (ナイロン) ④言語の歴史進化によって、昔の語彙と新しい語彙によって構成した同義語 严(昔の単音節詞)- 严格(進化した複音節詞)(厳しい) 同義語が豊かになると、文章の表現が多様になり、より綺麗な文の作成に役に立つ。しかし、検索 時に同義語を配慮しなければ、入力したクエリの表現と異なる形式の同義語を検索できない。このた め、検索の再現率が低下する問題が発生しやすい。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-8 9 結果と考察 f) 外来語の表記方法が複雑 世界の科学・技術の発展によって、中国語には、欧米・日本から輸入した外来語が増えてきた。特 に技術専門用語には、外来語の割合が非常に高い。中国語は完全に漢字で表記するので、日本語 カタカナのような発音を表す文字で表記することは不可能である。中国の外来語は、原言語の発音や 意味と類似している漢字で表記するのが、一般的な方法である。 外来語の表現方式も多様であり、主に以下の種類がある。 表 9.1-4 外来語の表記方法の種類 1 項番 種類 完全音訳 2 音訳+表義 3 半分音訳+半 分表義 完全表義 4 内容 外来語と同じ発音の文字で表記す る が 、 外 来語 の 意味 は 配 慮 し な い。 外来語と同じ発音の文字で表記す るが、外来語の意味も表す。 一部の文字で発音、一部の文字で 意味を表す。 外来語と同じ意味の文字で表記す る が 、 外 来語 の 発音 は 配 慮 し な い。 例 夹克 (ジャンパー、jacket)、海洛 因 (ヘロイン、heroin) 基因 (遺伝子、gene)、 维他命 (ビタミン、vitamin) 卡片 (カード、card)、 啤酒 (ビール、beer) 微軟 (マイクロソフト、Microsoft) このように表記された外来語は、機械的に字面から元言語の用語を推定するのは困難であり、翻訳 や解析するために、膨大な辞書が必要となる。 g) 中日間の同形異義語がある 中国も日本語も同じ漢字を使うが、同じ表現でも意味や用法が異なる語がある。このような同形異義 語は、意味が少し微妙に異なることもあるが、まったく別意味の単語もある。 意味が微妙に異なる同形異義語例: 3以上 → 日本語:3を含む。中国語:3は含むかどうか決まらない。 意味がまったく異なる同形異義語例: 汽车 → 日本語:列車。中国語:自動車。 手纸 → 日本語:メール。中国語:トイレペーパ。 このような言葉を翻訳するとき、勝手に日本語の意味を流用すると、まったく違う意味の文に翻訳し てしまうリスクがある。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-9 9 結果と考察 h) 虚詞の扱い 中国語には、概念を表さず、文法的関係を示す「虚詞」がある。副詞、介詞、連詞、助詞、感嘆詞な どが該当する。 虚詞は概念を表さないので、検索するとき、不要語として除去すれば、検索の効率と精度が向上す る効果がある。但し、文法的関係を示すので翻訳するときは、十分な注意を払う必要がある。虚詞は個 性が強く、独自な使い方がされる。また、意味と品詞を複数持つ虚詞もある。虚詞のうち、助詞、介詞、 連詞等の文法的関係を示すのが最も重要なものである。 ①助詞 中国語には日本語の「が」、「を」、「に」のような格属性を表す格助詞はないが、「助詞」と呼ばれるも のは存在する。 それは「が」や「を」など名詞を補助するものではなく、アスペクトなどの文章表現のた めに用いる語である。 例 9 助詞の例: 没去过长城 (「万里の長城に行ったことがない」。経験を表すアスペクト助詞) 说得快 (「話し方が早い」。動詞や形容詞の後に置き、結果や程度を表す補語を導く) ②介詞 介詞は、名詞(句)や代詞を目的語として伴うことで介詞句を構成し、場所・方向・時間・対象・目的 などの意味を表す虚詞である。例えるなら英語の「前置詞」、日本語の「助詞」に近いものと考えてもよ い。介詞には多義、多品詞のものが多いので、非常に間違いやすい。 例 10 介詞の例 把门关上 (「ドアを閉めて」。目的語を動詞の前に置き、処置の意味を際立たせる) 被风刮掉 (「風に吹き落とされる」。受動態の動作の主体を表す) ③連詞 中国の連詞は、日本語の接続詞に相当するものであり、文と文、節と節、句と句、語と語など文の構 成要素同士の関係を示す役割を担う虚詞である。連詞は、文の構成要素同士の関係を示すので、複 雑な文や長文の解析に重要な手がかりとして使われる。また、連詞には、前後呼応し、ペアで使用さ れるものもある、 例 11 連詞の例 虽然很晚了,他还继续工作 (「時間が遅くなったが彼はまだ仕事を続けている」。 文頭または主語の後に置き、後に‘但是’‘可是’‘还是’‘却’などが呼応する) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-10 9 結果と考察 (2) 韓国の言語特性 1) 特性 a) 韓国語の使用範囲 韓国語(朝鮮語)は主に朝鮮民族が使う言語で、韓国、北朝鮮で話されている言語である。しかし、 韓国・北朝鮮の国家分断の長期化に伴い、細かな点で幾つかの差異が生じている。 b) 韓国語の定義 ここでの韓国語は、「韓国で使用される言語」と定義する。 c) 韓国語の発音 子音(19 個)と母音(21 個)を規則的に組み合わせて文字を構成し、発音する。 d) 韓国語の表記 韓国語はハングル(日本語に例えるとひらがな、カタカナ)、漢字で表記する。 韓国で使用される漢字の事を韓文漢字ともいう。これは、僅かな違いを除けば中国(台湾など)の繁 体字(正体字)や日本の旧字体とほぼ同じである。また、韓国語の語彙には固有語と漢字語があるが、 現在の韓国では漢字語のみに漢字が使われる。但し、その使用頻度は低く、通常はハングルのみで 表記される。 漢文漢字が使われない言語的な要因としては、以下の理由がある。 ①韓国漢字音が 1 音節であり、音節文字であるハングル 1 字で漢字 1 字を表記できる。 ②漢字の代わりにハングルのみの表記としても、字数が増えない。 ③音節の種類が多く、同音異義語が比較的少ない。 なお、漢字教育は世代によって異なっており、漢字を読めても書けない人が多い。 e) 韓国語の文法 韓国語の基本語順は「主語+目的語+動詞」の SOV 型であり、述語が最後に来る。日本語の基本 語順と同じという特徴がある。また、文法的意味は助詞や語尾が付属されることによって表され、膠着 語的性質を持っている。 f) 韓国語の語彙 韓国語の語彙は大きく分けて①固有語、②漢字語、③外来語の三つがある。これは、固有語以外 に漢字語、外来語がある日本語と類似している。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-11 9 結果と考察 2) 注意点 前述の言語特性ゆえ、韓国語翻訳は比較的容易な面が多いが、韓国語特有の注意点もある。 以下に主要な 2 点を記載する。これらは、翻訳エンジンが未対応だと誤訳の可能性がある。 表 9.1-5 韓国語の注意点 項番 注意点 概要 1 助詞の縮約形への考慮が必要 2 副助詞の表記変化への対応が必要 前の品詞によって、2 文字を 1 文字に短縮して記 載する方法。翻訳時に考慮する必要がある。 同上 影響範囲 翻訳 検索 高 低 高 低 以下にそれぞれの詳細を記載する。 a) 助詞の縮約形への考慮が必要。 韓国語では、助詞をその直前の 1 文字に統合して、1 文字で表す方法がある。翻訳エンジンにて、 これらの対応ができていないと誤訳する恐れがある。 以下に代表的な 2 つを記載する。 ①助詞「~을/를(を)」の縮約型 助詞「을」は子音で終わる名詞に、「를」は母音で終わる名詞に付く。両者とも意味は同じであるが、 名詞が子音で終わるか母音で終わるかによって、後ろに付く文字の形が変わる。 この際、「를」は母音で終わる名詞の最後の文字に「ㄹ」を追加することによって「를」の役割を果た すことができ、縮約できる。 例)「~을/를(を)」と「를」の縮約型 ・「을」の例 : 책을 읽고 있다. ・「를」の例 : 영화를 보고 있다. ・「를」縮約の例 : 영활 보고 있다. (本を読んでいる) (映画を見ている) (映画を見ている) ※화+를=활 上記の例の場合、「~을/를(を)」は問題なく翻訳されるが、上記の「를」の縮約型は翻訳されない場 合があるので、注意が必要である。 ②助詞「~은/는(は)」の縮約型 助詞「은」は子音で終わる名詞に、「는」は母音で終わる名詞に付く。両者とも意味は同じであるが、 名詞が子音で終わるか母音で終わるかによって、後ろに付く文字の形が変わる。 この際、「는」は母音で終わる名詞の最後の文字に「ㄴ」を追加することによって「는」の役割を果た すことができ、縮約できる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-12 9 結果と考察 例)「~은/는(は)」と「는」の縮約型 ・「은」の例 : 책은 공부가 됀다. ・「는」の例 : 저 자동차는 멋있다. ・「는」縮約の例 : 저 자동찬 멋있다. (本を勉強になる) (あの車は格好いい) (あの車は格好いい) ※차+는=찬 上記の場合、「~은/는(は)」は問題なく翻訳されるが、上記の「는」の縮約型は翻訳されない場合 があるので、注意が必要である。 b) 副助詞への表記変化の考慮が必要。 副助詞「~으로」は「~(どこそこ)へ」、「~として」、「~で」、「~にする」という意味を持っているが、 母音及び「ㄹ」で終わる名詞に付くときは「~으로」の「으」が省略される。 例)副助詞「~으로」の「으」が省略される例 省略される例 : 바다로 갈까요? 학회 대표로 참석했어요. 이사하기로 했습니다. 省略しない例 : 산으로 갈까요? 병으로 결석했다. (海へ行きますか) (学会の代表として参加しました) (引っ越すことにしました) (山へ行きますか) (病気で欠席した) 上記のように、意味が変わり「으」が省略されるため、誤訳される場合がある。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-13 9 結果と考察 9.1.2 中韓の文献特性 中国・韓国共に、書誌事項や請求項の書き方等、日本と比べても大きな違いはないが、記載上の 特徴はそれぞれ存在する。 以下に各言語の文献特性を記載する。 (1) 中国公報の文献特性 1) 中国特許公報の構成 『表 9.1-6 中国特許公報と日本特許公報の対応表』は、2 国間の特許公報の対応を示している。 中国特許公報の構成は、日本の公報と基本的に一致している。 但し、細かい相違点として、以下の 2 点がある。 中国の特許公報は、「産業上の利用可能性」は書かない。 「発明が解決しようとする課題」と、「課題を解決するための手段」と、「発明の効果」は項目として明 確に分けない場合がある。 表 9.1-6 中国特許公報と日本特許公報の対応表 項番 1 著录项 書誌情報 2 说明书摘要 要約 3 4 5 6 7 权利要求书 发明名称 技术领域 背景技术 发明的公开 (要解决的技术问题) (技术方案) (有益效果) 附图说明 具体实施方式 特許請求の範囲 発明の名称 技術分野 背景技術 発明の概要 ・ 発明が解決しようとする課題 ・ 課題を解決するための手段 ・ 発明の効果 図面の簡単な説明 発明を実施するための形態 8 9 中国特許公報 10 11 日本公開公報 産業上の利用可能性 说明书附图 図面 出典: 中国特許公報 日本特許公報 作成文書 調査報告書 以下の要項説明と例文の資料を参照(中国語)。 http://www.sipo.gov.cn/sipo2008/zlsqzn/sqq/sqwjzb/P020060510438053585660.doc 平成 21 年 1 月 1 日に日本特許庁で公開された特許出願様式を参照。 http://www.inpit.go.jp/appli/form/index.html 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-14 9 結果と考察 2) 記載内容の特徴 中国特許公報の記載内容に関して調査を行ったところ、以下の 7 つの特徴が見受けられた。 表 9.1-7 中国特許公報の特徴 項番 注意点 概要 1 専門用語を多用し、表記の揺れが多い。 2 長く、構成が複雑な複文が多い。 3 能動態の文が基本で、主語の省略が多い。 4 5 請求項の記述において、記述主体が先に、 構成部分が後に来る。 目的語が前置される文がある。 6 7 特許公報の専用の定型表現がある。 複雑な化学系物質表現がある。 特に、外来語において、異なる複数の訳語が存在 し、現に使われている。 網羅的に記述するため、文字数が多い長文や、複 文が多い。 日本語は受動態が常のため、翻訳時に注意しな いと違和感のある翻訳文になってしまう。 日本は「構成要素×n+主体」だが、その逆順。翻 訳時には注意が必要である。 中国語はSVO型だが、特許公報では目的語を強 調するためにSOV型の場合があり、注意が必要。 「…を含むある種の○○」等、定型がある。 化学物質の表記形式は独特のため、機械処理し にくい。 例)外消旋 3-羟基-3-(2-苯基乙基)己酸 影響範囲 翻訳 検索 低 高 高 低 高 低 中 低 中 低 中 高 中 高 以降に、その詳細を記載する。 a) 専門用語を多用し、表記の揺れが多い。 特許公報は技術文献なので、専門用語が多いのは当然である。中国語の場合、自然科学・技術分 野には、近代から欧米・日本から輸入した外来語が多い。外来語の翻訳について、翻訳者や翻訳時 代や地域(例えば、大陸と香港・台湾の翻訳語が違う)により異なる複数の訳語が存在し、使われてい る。例えば、以下のような表記揺れや同義語がよく発生する。 例: ①音訳と意訳が混在 アルツハイマー型痴呆症 - 阿耳茨海默氏病(音訳)、早老性痴呆(意訳) ②全称と略語が混在 C型肝炎 - 丙型肝炎(全称)、丙肝(略語) ③複数表記形式が混在 標的細胞 - 靶细胞、靶形细胞、靶子细胞、薄红细胞 このような表記揺れや同義語に対して、業界では、まだ統一されていないものがあるので、特許明 細書を書くとき、書き手の好みによって、様々な表記で記述してしまう。 検索時に、このような特徴を意識せず、1つのみの表記形式で検索してしまうと、他の表記方式の同 じ意味の特許がヒットできなくなる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-15 9 結果と考察 b) 長く、構成が複雑な複文が多い 特許公報は、技術特徴や構成を網羅的に記述する必要がある。また、特に特許請求の範囲では、 1つの請求項は1文で記述する制約もある。そのため、特許公報には、文字数が多い長文がよくある。 また、複文が多く、1つの文に複数述語が存在する。 例 11)長文の例 由通式(1)表示的芳香胺化合物:其中,在式中,R1 和 R2 各自代表氢原子、具有 1 到 4 个 碳原子的烷基、具有 6 到 25 个碳原子的芳基中的任一个;A1 代表具有 6 到 25 个碳原子的 亚芳基;Ar1 代表具有 6 到 25 个碳原子的芳基;和α代表由通式(1-2)到(1-4)中的任一个表 示的取代基,其中 R21 到 R29、R31 到 R39 和 R41 到 R49 各自代表氢原子或具有 1 到 4 个 碳原子的烷基。 例えば、例 11 の文は、文字数が 150 文字以上、単語数が 80 語以上、6 つの述語と7つの分句に より構成されている。このような複雑な複文は中国特許公報によくある。文が長くなれば、文の構造が 複雑になり、翻訳の難しさが大幅に増える。 c) 能動態の文が基本で、主語の省略が多い 日本の技術文献には、受動態はよく使われるが、中国特許公報には、特に必要なければ、能動態 の使用が普通である。このとき、能動態のまま日本語に翻訳すると、日本語の特許文献として違和感 がある文になってしまう。 また、能動態の文の主語が人間である場合、文の冗長性を緩和させるため、主語がよく省略される。 例えば、例 12 の場合、主語とする「本発明の発明者」が省略されたので、誰が発明を完成させたのか、 分からなくなる。 例 12)主語が省略された能動文 中国語 :根据以以上说明的要点为着眼点的研究结果,完成了本发明。 日本語 :これまで説明した点に着目して研究を進めた結果、本発明を完成させることが できた。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-16 9 結果と考察 d) 請求項の記述において、記述主体が先に、構成部分が後にくる 日本特許公報の請求項の記述は、構成要素が先に順番で並び、最後は、発明の主体を書く。つま り、「構成要素Bと、構成要素Cと、構成要素D…を備えたことを特徴とする(を含む)主体A」というパタ ーンになっている(例 13) 例 13)日本語の請求項の記述例 水溶性高分子および界面活性剤から選択される少なくとも1種の化合物(構成要素B)、酸水 溶液(構成要素C)、および水溶性レバミピド塩含有水溶液の混和物(構成要素D)を含む、レ バミピド結晶の水性懸濁溶液(主体A)。 これに対して、中国特許公報の場合、主体を先に述べ、構成要素は後にくる。つまり、「主体A、含 む構成要素Bと、構成要素Cと、構成要素D…」というパターンになっている(例 14)。 例 14)中国語の請求項の記述例 一种结晶雷巴米特的水性悬浮液(主体A)、其包括至少一种选自水溶性聚合物和表面活性 剂的化合物(構成要素B)、水性酸溶液(構成要素C)、和含有雷巴米特水溶性盐的水溶液 的混合物(構成要素D)。 中国の請求項の場合、主体を明確にして、長い修飾関係を避け、文が分かりやすくなる利点がある。 但し、日本語に翻訳するとき、日本語の習慣で訳すと、主体と構成要素を間違う可能性が高い。 e) 目的語が前置される文がある 中国語の基本語順は SVO 型であり、述語は目的語の前に来る。但し、特許公報では、目的語を強 調する場合が多く、「把」や「将」のような介詞によって、SOV 型の文を用いることもある。 例 15) 目的語前置の例 在上述制造方法中,将(介詞、目的語前置) 辅助电容电极(目的語) 形成在(述語)上述反射 电极下方的大致整个面上。 SOV 型の文は、日本語のように、述語は目的語の後ろに置かれる。一般な SVO 型の構文規則で 翻訳すると、目的語が見つからなくなることがある。 この問題点に対しては、介詞「把」や「将」を手掛かりとすることで、SOV 文と SVO 文を区別すること もできる。しかし、「把」も「将」も多義語で、名詞や副詞として使われる場合もあるため、一概に判断す ることはできない。 例 16) 目的語前置ではない例 在上述制造方法中, 辅助电容电极(目的語) 将(副詞、将来を表す) 形成在(述語)上述反 射电极下方的大致整个面上。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-17 9 結果と考察 f) 特許公報の専用の定型表現がある 中国の特許公報には、特許特有の言い回しがある。 例 17) 請求項によく使われる言い回しの例 根据权利要求 XXX 所述的○○,其特征是……。(請求項 XXX で述べたような○○の特徴は …である。) 一 种○○,包含:……(…を含むある種の○○) これらの表現は、どの特許でも共通な表現であるため、検索には相応しくなく、予め除去する必要 がある。また、翻訳では、これらの言い回しに対して、一般的な文書と異なる特許独自な表現で訳す 必要がある。 g) 複雑な化学系物質表現がある 中国の特許公報、特に医薬系、化学系の特許には、化学物質の専門用語や化学式が多数利用さ れる。 このような表現は、表記形式が独自であるので、形態素解析や翻訳にとって処理しにくい。 例 18) 化学物質の表記例 日本語 ラセミ-3-ヒドロキシ-3-(2-フェニルエチル)ヘキサン酸エステル 中国語(正解) 外消旋 3-羟基-3-(2-苯基乙基)己酸 中国語(誤訳) 外消旋化 3-hidorokisi-3-(2-fenil 乙基)hekisan 酸酯 従って、医薬系や化学系の特許を解析・翻訳するとき、化学物質の表記特徴を意識する処理が必 要となる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-18 9 結果と考察 (2) 韓国公報の文献特性 1) 韓国特許公報の構成 『表 9.1-8 韓国特許公報と日本特許公報の対応表』は、2 国間の特許公報の対応を示している。 韓国特許公報の構成は、日本の公報と基本的に一致している。 大きく違う点としては、日本の公報には存在しない【検索語】という「システム上での検索用の項目」 が存在する点である。 表 9.1-8 韓国特許公報と日本特許公報の対応表 項番 1 韓国特許公報 서지사항 日本公開公報 書誌事項 2 요약 要約 3 4 5 6 7 대표도 특허청구의범위 청구항 기술분야 배경기술 代表図 特許請求の範囲 請求項 技術分野 背景技術 8 9 발명(고안)의 상세한 설명 해결하고자 하는 과제 発明の詳細な説明 発明が解決しようとする課題 10 과제의 해결 수단 課題を解決するための手段 11 효과 発明の効果 12 13 발명(고안)의 실시를 구체적인 내용 실시예 14 도면의 간단한 설명 図面の簡単な説明 15 산업상 이용가능성 産業上の利用可能性 16 발명(고안)의 명칭 発明の名称 17 도 図 위한 発明を実施するための形態 実施例 出典: 日本特許公報 韓国特許公報 作成文書 調査報告書 平成 21 年 1 月 1 日に日本特許庁で公開された特許出願様式を参照。 http://www.inpit.go.jp/appli/form/index.html 以下の民願書式の資料を参照(韓国語)。 http://www.kiporo.go.kr/jsp/kiporo3/application/application0106_01.jsp?catmenu=ap plication0106_01 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-19 9 結果と考察 2) 記載内容の特徴 韓国特許公報の記載内容に関して調査を行ったところ、以下の 2 つの特徴が見受けられた。 表 9.1-9 韓国特許公報の特徴 項番 注意点 概要 1 明細書は細かく長い。 2 特許公報の専用の定型表現がある。 網羅的に記述するため、文字数が多い長文が多 い。 「…を提供する」等、定型がある。 影響範囲 翻訳 検索 高 低 中 中 以降にそれぞれの詳細を記載する。 a) 明細書は細かく長い 【特許請求の範囲】、【請求項】、【発明の詳細な説明】など、日本の【明細書】と掲載順の違いはある が、内容は同じである。また、内容に関しては、細かく、長く詳細が書かれており、日本の【明細書】と 類似している。 しかしながら、主語、目的語、述語がはっきりしており、読みやすい記載となっている。このため、専 門用語が分かれば、審査官以外でも理解できるレベルで記載されていると思われる。 例) 明細書が細かく長い例 韓国文: 상기 디스플레이부는 시스템 전반의 동작에 따른 각종 표시내용과 상기 경로 안내를 위한 지도 데이터를 표시하기 위한 수단으로, 액정표시장치(Liquid Crystal Display: LCD) 또는 유기 EL(Electro Luminescence) 등을이용할 수 있다. 日本文: 上記ディスプレー部はシステム全般の動作による各種表示内容と上記の経路案内の地図デ ータを表示するための手段で、 液晶表示装置(Liquid Crystal Display: LCD) または有機 EL(Electro Luminescence)等を利用することができる. 例) 明細書が細かく長い例 韓国文: 상기 제어부는 상기 경로 검색 제어 프로그램 하에 도로 및 각 도로의 도로 구간을 검색하기 위한 도로명 검색 메뉴를 제공하고 상기 도로명 검색 메뉴를 통해 사용자로부터 설정된 적어도 하나의 도로 구간을 경유하는 경로 안내를 수행한다. 日本文: 上記の制御部は上記の経路検索制御プログラムの下に道路及び各道路の区間を検索するた めの道路名検索メニューを提供し、上記の道路名検索メニューを通じ、使用者から設定され、 少なくとも一つの道路区間を経由する経路案内を遂行する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-20 9 結果と考察 b) 特許公報の専用の定型表現がある。 韓国公報は、日本の特許公報と同じく簡潔に【課題】、【解決手段】を記載されているが、それらの最 後の述語には日本、韓国とも「提供する」と書かれており、違いはない。 特に、以下 2 点は、特許文献の【要約】の中で良く使われる。 ①본 발명은 ~를개시한다.(本発明は~を開示する) ②~제공한다.(~提供する) 例) 主要な定型表現 韓国文: 본 발명은 스윙형 휴대 전화기의 힌지장치를 개시한다. <中略> 상기와 같은 구성에 의해 스위치 조작을 통해 자동으로 스윙체를 회동시킬 수 있으므로 사용상의 편의성 향상에 따른 제품에 대한 소비자의 만족도를 높일 수 있는 이점을 제공한다. 日本文: 本発明はスイング型携帯電話機のヒンジ装置を開示する。 <中略> 上記のような構成によってスィッチ操作を通じて自動でスウィング体を回動させるこ とができるので使用上の便利性向上に伴う製品に対する消費者の満足度を高めること ができる利点を提供する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-21 9 結果と考察 9.2 必要機能の洗い出し モデル検証で判明した、必要機能のサマリを『表 9.2-1 サマリ(必要機能の洗い出し)』に示す。 表 9.2-1サマリ(必要機能の洗い出し) 章番号 9.2.1 観点 翻訳方式 ポイント ①検索精度は、中国はコンテンツ翻訳、韓国はキーワード翻訳が良い。 但し、ユーザは、中韓共にコンテンツ翻訳方式が良い声が多い。 ②翻訳方式は、検索精度以外にも様々な要件を絡めて、総合的に選択すべき。 9.2.2 翻訳技術 ①翻訳精度・検索精度の向上には、なにより辞書の登録語数を増やすことが重要。 ②辞書整備の手法は各種存在する。 ③異表記対策には、まず統制語決定が重要。 ④辞書の移行性は、UPF 形式で確保可能。 ⑤現時点の翻訳精度では、シソーラス辞書による効果は得にくい。 9.2.3 検索技術 ①概念検索は「ホワイトボックス化」することが絶対条件。 ②自然文検索と全文検索は両方実装すべき。 ③訳語候補展開機能は、必須。 ④その他の機能は翻訳精度を向上させてから実装すべき。 9.2.4 審査関連情 報の活用 ①IPC を用いた絞り込み検索は有効。 ②ファミリ文献の有効活用は、審査業務の効率化につながる。 ③分野別専門辞書を活用する必要性は高い。 9.2.5 翻訳精度・ 検索精度を 高めるため の工夫 ①現行機能の踏襲は、コンテンツ翻訳方式の方が有利。 ②検索精度や翻訳精度を補助する機能を実装することが重要。 以降に、それぞれの観点における詳細な結果と考察を記載する。 なお、本章(『9.2必要機能の洗い出し』)は、基本的に以下の流れで記載している。 (1) 目的 何を調査するのか?何故この調査が必要なのか? (2) 仮説 調査する前に想定される結果は何か? (3) 方法 調査方法、比較対象、対象言語等々、やり方は? ※「7 章 調査方法」と重複する箇所もあるが、流れを明確すべく、記載する。 (4) 結果 (5) 考察 定性、定量の観点を意識し、客観的な事実を記載。 結果を元に、目的や仮説の立証度合い、そこから現れる新たな課題等を記載。 ・結果から何が分かったのか?を明確にする。 ・定性評価(審査官のアンケート)と 定量評価(業者による多サンプルによる自動検証)を相互に紐付けて記載。 図 9.2-1 「9.1 必要機能の洗い出し」の基本構成 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-22 9 結果と考察 9.2.1 翻訳方式 (1) 目的 キーワード翻訳方式とコンテンツ翻訳方式には、それぞれメリット・デメリットが存在する(『1.2 多言語 横断検索技術とは』の『表 1.2-2 キーワード翻訳型とコンテンツ翻訳型の比較』参照)。方式を判断す るためには、業務機能の実現性、システムの運用面、保守性、導入・ランニングコスト等、各種要因も 踏まえた上で判断する必要がある。 このため、本節では、多言語横断検索の検索精度に観点を絞って、どちらの方が精度が良いかを 判断することを目的としている。 なお、ここで調査する検索精度含め、各種要因を踏まえた上での比較は、『11. 検索系最適化にお ける多言語横断検索システムの構成案』にて実施する。 (2) 仮説 コンテンツ翻訳方式とキーワード翻訳方式では、翻訳するタイミングが異なるだけで、それ以外はほ ぼ同一である。このため、どちらの方式でも検索精度は同じであると考えられた。 a) キーワード翻訳方式 b) コンテンツ翻訳方式 図 9.2-2 キーワード翻訳方式とコンテンツ翻訳方式の概略図 (3) 方法 目的及び仮説を検証するために、以下の方法とした。 表 9.2-2 翻訳方式比較の調査方法 項目 対象言語 比較対象 比較方法 作成文書 調査報告書 内容 中国、韓国 検証#4 の両方式の検索精度 定性 審査官のアンケート 定量 弊社にて、同一の検索課題(約 2000 件)を実行し、検索精度の差 異を確認 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 理由 言語による違いを分析するため。 今回の検証にて、チューニングを 経た最良の状態で比較するため。 業務利用を意識した審査官の目線 からの分析を行う為。 標本数を増やし、統計的な分析を 行う為。 Rev. 頁 1.0 9-23 9 結果と考察 (4) 結果 1) 定性評価 中国、韓国共通の意見として「コンテンツ翻訳方式の方が、精度が良い」という声が多かった。 コンテンツ翻訳方式の場合、引用文献になりえる文献を発見できたという声があるのに対して、キー ワード翻訳方式では、同一本願でも 8 割類似から 2 割類似と大きく落ち込むという結果もあった。 また、中国語、韓国語の 2 言語間で比べると、検索精度や訳質共に、韓国語が良いという声もあっ た。 表 9.2-3翻訳方式結果(定性評価) コンテンツ翻訳方式 ○ キーワード翻訳方式 △ <所見> <所見> ・全般的にコンテンツ翻訳の方が、精度が良く感 ・擬似本願 2003-521494 は、コンテンツ翻訳で じる。 は 8 割方関係する分野の発明であったが、2 割 ・フリーオペレーションで引用文献となりうる文献 まで落ちた。 を発見できた(韓国)。 <共通的な所見> ・まずは翻訳精度と検索精度の向上に力を注ぐべき。すべてはそれから。 本機能が十分でないのに、オプションの機能を充実させても無意味。 ・翻訳精度につきる。技術用語の翻訳というよりも、まずは、通常の文章の訳が自然にできる程度に、 翻訳の精度を向上する必要がある。 ・日英語圏の検索に関して、全ての言語を同じ方式のシステムにするよりは、言語の特性に合わせた システム構築と、最適な粒度の技術分野に関する辞書の充実が大切。 ・検索結果に表示された文献が何故上位に来たのか確認する機能(ヒットワード反転)、検索式が 妥当性を確認する機能(クエリに使用した用語と訳語の対応表示)が必須。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-24 9 結果と考察 2) 定量評価 a) 中国 数値結果を分析すると、大きく以下の傾向があると言える。 ・ 全体を通じてコンテンツ翻訳方式の方が、検索精度が良い。 ・ 数値的にはキーワード翻訳方式が上回る分野・検索範囲があるが、差異と見なしにくい。 大量の検索課題の結果を集計したところ、以下の『表 9.2-4 検索範囲による検索精度の優劣(中 国)』のとおり、検索範囲(全文、要約、実施例)によって、検索精度が良い方式が異なる結果が見受 けられた。 但し、数値の差異だけでは、明らかな方式差があるのか、それとも単に誤差の範囲なのか、判断す ることはできない。このため、統計学的手法である t 検定(信頼度 95%)を用いて、有意差判断を行っ た。t 検定とはサンプリングした 2 つの平均差の違いを元に、元情報間の相違を確認する手法である。 その検定結果にて、有意差が認められた場合は「差異あり」と判断し、有意差が認められない場合は、 サンプルとしての差異とみなし、元情報間には「差異なし」と判断する。 表 9.2-4 検索範囲による検索精度の優劣(中国) 検索 範囲 要約 精度が良い 方式 キーワード翻訳 方式 全文 実施例 コンテンツ翻訳 方式 説明 有意差検定 平均でも、0.3545 と最も精度が良い。 また、分野別に比較しても、H01L を除いて、コン テンツ翻訳方式を上回っていた。 平均でも全文=0.2278、実施例=0.2224 とキー ワード翻訳方式に比べると良い。 また、分野別に比較しても、全てキーワード翻訳 方式を上回っていた。 有意差なし (A61K のみ有)。 有意差あり (A61K、H04L は 無) ※詳細な数値情報は次ページ以降に記載。 表 9.2-5 t 検定による方式間の検索精度評価(中国) 分野 A61K C07C C07D H01L H04L 平均 要約 精度良い方式 キーワード翻訳 キーワード翻訳 キーワード翻訳 キーワード翻訳 キーワード翻訳 キーワード翻訳 有意差 ○ - - - - - 全文 精度良い方式 コンテンツ翻訳 コンテンツ翻訳 コンテンツ翻訳 コンテンツ翻訳 コンテンツ翻訳 コンテンツ翻訳 有意差 - ○ ○ ○ - ○ 凡例:有意差 ○…有意差あり、-…有意差なし 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-25 9 結果と考察 表 9.2-6 翻訳方式による検索精度の差異比較(中国) 方式 キーワード翻訳 コンテンツ翻訳 検索範囲 全文 要約 実施例 全文 要約 実施例 辞書 あり あり あり あり あり あり A61K C07C C07D H01L H04L 平均 0.2431 0.2980 0.0808 0.2077 0.0854 0.1885 0.5612 0.5040 0.2258 0.3556 0.2183 0.3545 0.2250 0.2913 0.0774 0.2031 0.0854 0.1833 0.2475 0.4172 0.1281 0.2455 0.1127 0.2278 0.4943 0.4623 0.1650 0.3604 0.1866 0.3385 0.2377 0.4077 0.1187 0.2394 0.1168 0.2224 中国 翻訳方式比較 検索対象=全文 1.0 0.9 MRR 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4172 0.2475 0.2431 0.2980 0.1281 0.0808 0.1 0.2455 0.2077 0.2278 0.1885 0.1127 0.0854 0.0 A61K C07C C07D キーワード翻訳 H01L H04L 平均 コンテンツ翻訳 図 9.2-3 分野別の検索精度<検索範囲=全文>(中国) 中国 翻訳方式比較 検索対象=要約 1.0 0.9 0.8 0.7 MRR 項 番 1-1 1-2 1-3 2-1 2-2 2-3 0.6 0.5 0.5612 0.4943 0.5040 0.4623 0.3604 0.3556 0.4 0.2258 0.1650 0.3 0.2 0.3545 0.3385 0.1866 0.2183 0.1 0.0 A61K C07C キーワード翻訳 C07D H01L H04L 平均 コンテンツ翻訳 図 9.2-4 分野別の検索精度<検索範囲=要約>(中国) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-26 9 結果と考察 b) 韓国 数値結果を分析すると、大きく以下の傾向があると言える。 ・ 全体を通じてキーワード翻訳方式の方が、検索精度が良い。 ・ 数値的にはコンテンツ翻訳方式が上回る分野・検索範囲があるが、差異と見なしにくい。 中国同様、大量の検索課題の結果を集計したところ、以下の『表 9.2-7 検索範囲による精度の優 劣(韓国)』のとおり、検索対象に限らず、キーワード翻訳方式が良いという結果となった。 検索精度の数値だけを見れば、分野別にコンテンツ翻訳が良いケースもある。但し、t 検定の結果 から有意差が見受けられたのは、全てキーワード翻訳方式であった。 表 9.2-7 検索範囲による精度の優劣(韓国) 検索 範囲 要約 精度が良い 方式 キーワード翻訳 方式 説明 有意差検定 平均でも、0.6063 と最も精度が良い。 但し、分野別でみると、優劣に違いある。 有意差あり (61K、H01L のみ有)。 全文 実施例 キーワード翻訳 方式 平均でも全文=0.4955、実施例=0.4841 とコン テンツ翻訳方式に比べると良い。 但し、分野別でみると、優劣に違いがある。 有意差あり (H01L、H04N のみ有り) ※詳細な数値情報は次ページ以降に記載。 表 9.2-8 t 検定による方式間の検索精度評価 分野 A61K G06F H01L H04B H04N 平均 要約 精度良い方式 キーワード翻訳 コンテンツ翻訳 キーワード翻訳 コンテンツ翻訳 コンテンツ翻訳 キーワード翻訳 有意差 ○ - ○ - - ○ 全文 精度良い方式 キーワード翻訳 コンテンツ翻訳 キーワード翻訳 コンテンツ翻訳 キーワード翻訳 キーワード翻訳 有意差 - - ○ - ○ ○ 凡例:有意差 ○…有意差あり、-…有意差なし 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-27 9 結果と考察 表 9.2-9 翻訳方式による検索精度の差異比較(韓国) 方式 キーワード翻訳 コンテンツ翻訳 検索範囲 辞書 全文 要約 実施例 全文 要約 実施例 - - - - - - A61K G06F 0.5479 0.7695 0.5357 0.4435 0.7193 0.4046 H01L 0.4944 0.6541 0.4771 0.4972 0.6378 0.4905 0.4970 0.6016 0.4857 0.2818 0.5480 0.2747 H04B H04N 0.4259 0.4786 0.4154 0.4962 0.5356 0.4827 平均 0.5116 0.5868 0.5048 0.4263 0.5908 0.4191 0.4955 0.6063 0.4841 0.3633 0.5768 0.3536 韓国 翻訳方式比較 検索対象=全文 1.0 0.9 MRR 0.8 0.7 0.6 0.5 0.5479 0.4435 0.4944 0.4972 0.4970 0.4 0.4962 0.4259 0.5116 0.4263 H04B H04N 0.4955 0.3633 0.2818 0.3 0.2 0.1 0.0 A61K G06F H01L キーワード翻訳 平均 コンテンツ翻訳 図 9.2-5 分野別の検索精度<検索範囲=全文>(韓国) 韓国 翻訳方式比較 検索対象=要約 1.0 0.9 0.8 0.7 MRR 項 番 1-1 1-2 1-3 2-1 2-2 2-3 0.7695 0.7193 0.6541 0.6378 0.6 0.5 0.6016 0.5480 0.5356 0.4786 0.5908 0.5868 0.6063 0.5768 0.4 0.3 0.2 0.1 0.0 A61K G06F キーワード翻訳 H01L H04B H04N 平均 コンテンツ翻訳 図 9.2-6 分野別の検索精度<検索範囲=要約>(韓国) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-28 9 結果と考察 (5) 考察 検証前の仮説としては、どちらの方式でもその精度が変わらないと考えていたが、検証結果を見ると、 方式間の精度差はあり、言語によって検索精度が良い方式が異なる事が判明した。 以下に、違いとして明らかになった 3 つの差異(①定性評価と定量評価の差異、②検索精度の差異、 ③検索範囲による差異)を中心に考察し、最後に翻訳方式の選択に対する考察を記載する。 1) 定性評価と定量評価の差異 中国語については、定性評価と定量評価共に、コンテンツ翻訳方式が良いという結果になった。 しかし、韓国語については、結果に差異がみられた(定性評価はコンテンツ翻訳方式だが、定量評 価はキーワード翻訳方式)。これは、以下の『2)検索精度の差異』の韓国語でキーワード翻訳方式の 方が良くなる原因に関連すると思われる。 2) 検索精度の差異 検索精度については、中国語ではコンテンツ翻訳方式、韓国ではキーワード翻訳方式と、差異が 生じている。以下、それぞれの言語観点から考察する。 a) 中国語 中国語ではコンテンツ翻訳が良かったのは、日本語の検索エンジンだったためと推測される。日本 語の検索エンジンは、今回製品版の XML データベースを利用した。長年の日本語処理のノウハウが 詰まっているため、一定の検索精度が期待できる。 対して、キーワード翻訳方式は、同検索エンジンを中国語に拡張しており、日本語に比べるとチュ ーニングが不十分な感がある。また、検索インデックスは、形態素解析の結果から作成しているため、 構文解析が難しい中国語では、そもそもの形態素解析が失敗している可能性も捨てられない。このた め、キーワード翻訳方式は、検索精度の面から劣る結果になったと思われる。 なお、中国語のキーワード翻訳方式を良くするためには、検索エンジンの性能向上が必要である。 但し、国内ベンダが高精度の中国語検索エンジンを開発するのは考えにくい。外国ベンダ製品を導 入する選択肢もあるが、その導入やチューニング、製品メンテナンスが非常に難しくなる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-29 9 結果と考察 b) 韓国語 韓国語ではキーワード翻訳が良かったのは、韓国語対応に拡張した検索エンジンにて、十分な性 能が出ていたためと推測される。これは言語特性と検索インデックス(2-gram)の関係性が強く起因し ている。 韓国語は文節がスペース区切りのため、以下の様な不要なインデックスの作成量が少なくて済み、 検索ノイズ要因が少なくなる。また、韓国語は理論上 11,172 字存在するが、実際に使用されている文 字は 2350 語と言われている。漢字も含まれる日本語や中国語の数万語オーダに比べて、語数が少 ないため、不要なインデックスが生成される率が少なく、適度な精度が得られたと思われる。 このため、キーワード翻訳方式(韓国語 2-gram 検索エンジン)の検索精度が出やすい結果になっ たものと考えられる。 例:日本語 世界をリードする新技術を絶え間なく開発する。 作成される インデックス情報 世界、界を、をリ、リー、ード、ドす、する …。 ∴文節が分かりにくい言語では、不要なインデックスも作成され、検索ノイズが生じやすくなる。 例:韓国語 세계를 리드하는 새기술을 끊임없이 개발한다 作成される インデックス情報 세계、계를、 리드、드하、하는 …。 ∴文節が分かり易い言語では、不要なインデックスが作成される量が少なくて済む。 図 9.2-7 韓国語における言語特性と検索インデックスの関係性 3) 検索範囲による差異 韓国語では、どの検索範囲を指定してもキーワード翻訳方式の検索精度が良い結果だったが、中 国語では、要約の時はキーワード翻訳方式が良く、全文の時はコンテンツが良い傾向が出た。 要約は対象とする文書長が短く、含まれるワード数が少ないため、訳語の確からしさが重要な要素 となる。このため、検索エンジンの性能差よりも、翻訳エンジンの性能差が影響したためと思われる。 利用している翻訳エンジンは、コンテンツ翻訳方式では中日翻訳、キーワード翻訳方式では日中翻 訳であり、その精度は日中翻訳の方が若干良いと思われる。これは、日本語の解析が日英翻訳でのノ ウハウが凝縮されたものであるのに対して、中国語の解析はまだ発展途上のためである。 このため、文書長の短い要約では、キーワード翻訳方式の方が良い結果になったと考えられる。 対して、全文と実施例は、要約に比べると文書長が非常に長いため、検索エンジンの性能差が出 やすいと考えられる。コンテンツ翻訳方式の日本語エンジンに比べて、キーワード翻訳方式の中国語 対応エンジンが前述の通り、チューニングが不十分な感がある。 このため、文書長の長い全文と実施例では、コンテンツ翻訳方式が良いという結果になったと考えら れる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-30 9 結果と考察 4) まとめ 数値的な検索精度だけ見ると、中国はコンテンツ翻訳方式、韓国はキーワード翻訳方式である。但 し、ユーザの評価は中韓共に、コンテンツ翻訳方式の方が高かった。 しかしながら、両方式は、次ページの『表 9.2-10 コンテンツ翻訳方式とキーワード翻訳方式 比較』 の項番 4~6 の様に、検索精度以外の要素も踏まえて考えると、それぞれにメリット・デメリットがある。こ のため、検索精度だけでは一概に決められない。 また、運用面、保守性、コスト面等々、複数のファクターもあり、それらの取捨選択が必要でもある。 従って、今回の調査報告では、翻訳方式を特定することはせず、『11.検索系最適化における多言 語横断検索のシステム構成案』にて記載している「各種要因毎の比較結果」を判断材料として、今後 選定していく必要があると考えている。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-31 9 結果と考察 表 9.2-10コンテンツ翻訳方式とキーワード翻訳方式 比較 項番 1 2 3 4 5 6 観点 検索精度 コンテンツ翻訳方式 キーワード翻訳方式 ○ △ <理由> コンテンツ翻訳の方が良かったのは 、主 に、日本語対応検索エンジンが長年の研 究を経ているため。 翻訳エンジンは、キーワード翻訳方式と同 一。翻訳エンジンの影響では無い。 <理由> キーワード翻訳の方が悪かったのは、今回 の検証用に言語拡張したため、製品版の 日本語対応エンジンと比較すると精度が低 かったためと考えられる。 検索 エンジン ○ △ <理由> TX1(製品版日本語対応検索エンジン) <理由> TX1 の自然言語処理機能を言語拡張 (中韓対応検索エンジン化) 翻訳 エンジン - <理由> 辞書の登録語数に大きな差は無い。また、同一エンジンのため、ほとんど差異は無い。 ・中日翻訳辞書の登録語数 ・日中翻訳辞書の登録語数 <The 翻訳> <The 翻訳> 基本語 … 25.0 万語 基本語 … 39.6 万語 専門用語 … 23.8 万語 専門用語 … 31.0 万語 C07、H01L 辞書… 1300 語※半自動 C07、H01L 辞書… 1300 語※半自動 ・韓日翻訳辞書の登録語数 ・日韓翻訳辞書の登録語数 <J-SERVER> <J-SERVER> 基本語 … 27 万語 基本語 … 35 万語 A61K 辞書 … 800 語※人手 A61K 辞書 … 800 語※人手 文献翻訳 △ 精度 <理由> (アップデー 再翻訳は難しいため、蓄積文献は誤訳のま ト対応) ま。ただし、誤訳を検索条件とすることで、 語訳で記載された文献を検索可能。 文献照会 ○ の速度 <理由> 国内文献と同じスピードで照会することが 可能。 ○ 文献蓄積 性能 △ ○ <理由> 一度翻訳してから蓄積するため、タイムラグ が大きい。 ただし、サーバ台数を増加する等で、ある 程度はタイムラグを小さくできる。 <理由> 原文のまま蓄積するため、コンテンツ翻訳 方式と比較するとタイムラグが小さい。 作成文書 調査報告書 <理由> 辞書や翻訳エンジンのアップデートにより、 翻訳精度を即座に向上させることが可能。 × <理由> 翻訳のプロセスを挟むため、遅くなる。特に 中国語は遅い。 参考:(1 文献(中韓)当たりの翻訳速度) 中→33 秒、韓→2.8 秒 ※文献の内容により、中は分オーダもあ る。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-32 9 結果と考察 9.2.2 翻訳技術 (1) 翻訳精度 1) 目的 英語翻訳に比べると、中国語や韓国語翻訳は、近年ニーズが高まった言語である。このため、現状 の翻訳精度が、使えるレベルであるか否かを調査する。 2) 仮説 『9.1.1中韓の言語特性』の通り、中国語は言語的に非常に難しいため、翻訳精度はまだ改良が必 要と思われる。対して、韓国語は言語的な翻訳のし易さもあり、使えるレベルであると思われる。 3) 方法 今回の調査では、多言語横断検索に主眼を置いたため、翻訳精度のみの定量調査は行っていな い。このため、定量評価は行わず、アンケート結果及び、検証#1~4 の全結果を総じて分析を行う。 4) 結果 a) アンケート結果 ユーザのアンケート結果を分析すると、韓国語の翻訳機能は使えるレベルであるが、中国語の翻訳 機能は審査に使えるレベルには達していないのでは、との指摘を頂いた。 表 9.2-11 翻訳精度結果(定性評価) 言語 中国語翻訳 検証 1 検証 4 × × <所見> ・文脈が理解できないため、本願と無関係 であるかの判断ができない。 ・翻訳精度が低いため、理解に時間がか かる。 <所見> ・基本的な語が適切に翻訳されないた め、検索精度も低い。 ・仮に十分な文献が上位にヒットしても、 現在の翻訳精度では記載内容が十分に 確認できないため、審査で活用できるケ ースはかなり限定的。 <共通的な所見> ・分野別辞書の登録語数を大幅に増加させないと審査に使える翻訳精度にならない。 ・化学系(物質名)の翻訳精度は特に低い。 ・専門用語辞書の分野の切り分け方に注意する必要がある。 韓国語翻訳 △ ○ <所見> <所見> ・文脈を理解できる精度。 ・一定の翻訳精度があるため、審査に使う ・現状の精度では審査に使えない。 価値はある ・英語を介していると思われるもの(出願人 が米国企業)は精度が低い。 <共通的な所見> ・専門用語辞書の分野の切り分け方に注意する必要がある。 ・用語の統制が十分に取れていないと、コンプリートサーチは不可能 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-33 9 結果と考察 b) 全検証を通じた結果 定量的な観点からも、韓国語に比べると、中国語の方が、翻訳精度が低いと考えられる。 検証#4 の結果(以下、『表 9.2-12 中韓の検索精度の差異(コンテンツ翻訳方式)』)からも、コンテ ンツ翻訳方式の見ると、韓国語の中国語は 1.5~2 倍程度の検索精度が良い。これは、コンテンツ翻 訳方式では、中韓共に検索エンジンは同じ日本語であるため、蓄積時の翻訳文の訳質が大きく影響 したものと考えられる。 絶対評価としては難しいが、相対的にも韓国語よりも中国語の方が、翻訳が難しい結果ともいえる。 表 9.2-12 中韓の検索精度の差異(コンテンツ翻訳方式) 項 番 1-1 1-2 1-3 2-1 2-2 2-3 言語 中国語 コンテンツ翻訳 韓国語 コンテンツ翻訳 作成文書 調査報告書 検索範囲 辞書 全文 要約 実施例 全文 要約 実施例 あり あり あり - - - A61K 0.2475 0.4943 0.2377 0.4435 0.7193 0.4046 C07C 0.4172 0.4623 0.4077 0.4972 0.6378 0.4905 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 C07D 0.1281 0.1650 0.1187 0.2818 0.5480 0.2747 H01L H04L 0.2455 0.3604 0.2394 0.4962 0.5356 0.4827 0.1127 0.1866 0.1168 0.4263 0.5908 0.4191 平均 0.2278 0.3385 0.2224 0.3633 0.5768 0.3536 Rev. 頁 1.0 9-34 9 結果と考察 5) 考察 結果から、「韓国語は使えるレベルであるが、中国語は審査に使えるレベルには達していない」と考 えられる。以下に、中国/韓国の翻訳における課題を記載する。 表 9.2-13 中国/韓国語における課題の比較 項番 1 課題 言語の難易度 (本質的な課題) 中国語 韓国語 × <理由> 中国語は語句の切れ目が無く、構文解 析が難しい。 また、外来語も漢字で表記するために、 異表記が多いため、訳語判断が難しい。 2 3 4 5 6 ◎ (非常に困難) 辞書の充実化 (必須) (改善には長期的 <理由> な期間が必要) 辞書は正しい対訳を提示するだけでな く、語句の切れ目を判断する際(形態素 解析)や構文の解析時にも利用するた め、精度向上には必須事項。 形態素解析の (必須) 精度向上 (改善には中・長 <理由> 期 的 な 期 間が 必 形態素解析が正確に出来ていないと、 有効に単語の品詞を把握できず、構文 要) 解析が正確に出来ないことにもなるた ~単語分割~ め、精度向上には必須事項。 構文解析の (必須) 精度向上 (改善には中・長 <理由> 期 的 な 期 間が 必 構文解析が正確に出来ていないと、文と しての意味が正確に訳せないことにな 要) り、文意が不明確になりがち。精度向上 ~単語間の関係 には必須事項。 性構造の作成~ 他手法による (必須) 精度向上 (改善には短~中 <理由> 期 的 な 期 間が 必 中国語文法や、中国語特有の言語問題 を吸収し、より正確に翻訳しやすくするた 要) めの経験的手法や、統計的判断手法等 を採用し、精度向上を目指す。 その他の表示・UI (必須) 周りの改善による <理由> 利用性向上 (短期的に効果が ヒットワード反転、日中文を対比表示させ る等の表示の工夫や、ローカル翻訳辞 見込める) 書等による翻訳性能の向上など、ユーザ インタフェース周りで実現可能な工夫等 <理由> 韓 国 語は 日本 語 と語 順 も 同じ 。 ま た、語句の切れ目はスペース区切 り。このため、翻訳しやすい言語。 ◎ ○ ○ - <理由> 語順が日本語と似ているため、複雑 な構文解析は必要としない。解析が 容易。 ◎ ○ (必要) <理由> 日本語と韓国語の間に発生しがちな 誤訳を防ぐ経験的手法を採用する。 ◎ 調査報告書 (必要) <理由> 韓国語には、同音異義語が多く存在 する等のため、有効な単語を把握 し、精度向上を図るために必要。 ◎ 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 (必要) <理由> 語句の切れ目を正確に判断し、有効 な単語を把握するために必要。 (必要であるが、中国語よりは求めら れる条件は緩い。) ◎ 作成文書 (容易) ○ (必要) <理由> (同左) Rev. 頁 1.0 9-35 9 結果と考察 『表 9.2-13 中国/韓国語における課題の比較』の通り、韓国語に比べて、中国語が難しいという実 情がある。以下に、中国語の翻訳技術向上を目指し、中長期的なアプローチとその見込みを考察する。 a) 翻訳技術向上に向けたアプローチ 前述のとおり、中国語の翻訳機能は、現時点の翻訳精度のままでは審査に使えるレベルには達し ていないとも判断される。 このため、中・長期的な視点として、辞書の充実化と、形態素解析及び構文解析の精度向上を推し 進める必要がある。 ア) 辞書の充実化 辞書の充実化については、その方法論が各種存在する。このため、『(2)5)b) 辞書整備』にて別途検 討を行っている。なお、辞書は形態素解析や構文解析処理でも利用するため、語数の増加を図れば、 構文解析の精度向上も見込まれる。 イ) 形態素解析及び構文解析の精度向上 形態素解析及び構文解析では、コーパス(正解の文例)を用いた統計モデルを使っているため、これ らの精度向上が必要である(技術的な仕組みについては『6.1 翻訳技術の説明』を参照)。 精度向上に向けては、正確学習用データであるコーパスを増やして統計精度を高める方法も考えら れる。しかし、コーパス作成は非常にコストのかかる作業であり、中々難しい。現に、今回利用している The 翻訳でも自らコーパスを用意するのではなく、大学や研究所が作成したコーパスを利用している。 このため、統計モデルのチューニング等々、コーパスを増やす事以外での対策を今後研究する必要 がある。 b) 翻訳技術向上の見込み ~中・長期的課題について~ 中国語は、日本語と文法的な構造が異なっている事により、翻訳の難易度が高いという実情があるが、 英語と日本語も文法的な構造が異なっているという、同様な問題を抱えている。 しかしながら、日本語と英語の間の翻訳については、業界全体として、20~30 年近くの歳月を掛けて 育てた結果、実用に耐えるレベルにまで改善が進んでいる。一方、中国語翻訳は近年 10 年程度で活 発化した技術であるため、まだ歴史が浅いという実情もあり、十分に翻訳性の向上を実現するに至って いない面がある。辞書の登録語数の違いを見ても、その差は明らかである。 表 9.2-14 検証時の中国翻訳の辞書登録語数 辞書種別 基本語 専門用語 自動メンテナンス 中日翻訳 25.0 万語 23.8 万語 1300 語 英日翻訳 103 万語 272 万語 - 備考 中国は、英語の約 1/4 中国は、英語の約 1/10 ※上記数値は、The 翻訳の中日(モデル検証で使用した試用版)と、英日の登録語数。 英語翻訳が、過去から現在に至るまでに、着実に精度向上を図ってきたように、中国語翻訳も、英語 翻訳と同様の開発や改善のステップを踏むことで、精度向上が見込まれると考えることができる。 このため、将来的な分析を行う際は、翻訳レベルがある程度向上した状況を仮定的前提とする。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-36 9 結果と考察 (2) 辞書 1) 目的 翻訳精度を高めるためには辞書が重要な要素であることは周知の事実である。このため、現状の翻 訳辞書の問題を明らかにし、今後どのように育成すれば良いかを検討する。 2) 仮説 現状では、中国、韓国共に、英語に比べると登録語数が圧倒的に少ない事が大きな問題。 表 9.2-15 言語間の辞書語数の比較 (中韓英) 辞書種別 基本語 専門用語 中日翻訳 25.0 万語 23.8 万語 韓日翻訳 27 万語 - 英日翻訳 103 万語 272 万語 備考 中国は、英語の約 1/4 中国は、英語の約 1/10 ※上記数値は、The 翻訳の中日(モデル検証で使用した試用版)と、英日、J-Server の韓日の登録語数。 3) 方法 ここでの目的が「問題点の明確化」であるため、定性的な観点が強い。このため、アンケート結果及 び、検証#1~4 の全結果から、「辞書」に関連した内容をピックアップして、分析を行う。 4) 結果 アンケート及び検証結果から明らかになった問題点は、『表 9.2-16 辞書に関連する各種問題点』 の通りである。 表 9.2-16 辞書に関連する各種問題点 項 番 1-1 観点 内容 辞書語数 中国語は特に、翻訳文の理解がしにくい。 辞書語数が少な過ぎると思われる。 韓国語は、全般的に翻訳精度が良い。 但し、専門用語の誤訳箇所もある(A61K 等) 辞書の整備はコストが掛る作業であるので、中長期的な 視点での対応が必要。 異表記の検索ができない。 統制語を活用して、翻訳精度を向上させる必要あり 特許庁が作成した辞書を、翻訳エンジンが変わっても、 移行できる事が必要。 1-2 2 辞書整備 3-1 3-2 4 異表記/ 統制語 辞書の 移行性確保 影響範囲 翻訳 検索 ○ △ ○ △ ○ △ △ ○ ○ ○ △ - 凡例:影響範囲 ○…大きく影響する、△…影響する、-…影響なし 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-37 9 結果と考察 5) 考察 結果で記載した問題点の 4 つの観点(辞書語数、辞書整備、異表記/統制語、辞書の移行性確 保)に対して、今後の解決策含めて、以下に考察する。 a) 辞書語数 中国語と韓国語の辞書語数はほぼ同数にも関わらず、韓国語の方が訳質は良い。これは、中韓の 言語的な難易度の問題が強いと考えられる。このため、辞書語数の充実化については、中国語により ウェイトを置いた対応が必要と考えられる。 なお、現在の英語翻訳エンジンでは、100 万語以上が当たり前となっている。中国語、韓国語での 登録推奨語数は断言できないが、同等レベルの語数が必要な可能性は高い。 このため、本考察において辞書語数の要因が絡む場合は、「100 万語の語数追加」を一つの目標 値として考察を行う。 b) 辞書整備 辞書整備には大きく分けて、以下の 4 つのステップがあると考えられる。 Step1 対訳文書の準備 辞書登録の元データとなる対応する 2 言語の文書を用意する。 Step2 対訳候補の抽出 対訳文書から対訳候補となりうる語 のペアを抽出する。 Step3 登録訳語の選定 抽出したペアのうち、妥当なものを 選定する(ノイズ低減の目的) 。 Step4 辞書登録 選定した登録訳語を辞書に登録する。 図 9.2-8 辞書整備のステップ 次ページ以降で、その各ステップにて想定される方式案について考察する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-38 9 結果と考察 表 9.2-17 辞書整備の方式案 (1/2) 項番 1-1 ステップ Step1 対訳文書の 準備 想定される方式案 ファミリ文献の利用 手段 人手 人件費 △ 内容 既存の対訳 リソース利用 1-2 新聞記事の利用 人手 △ 日本語の新聞記事の翻訳記事を利用する。なお、新聞に限らず、その他分野でも 翻訳文書があれば、それを用いる事でも良い。 例: Impress Watch 中国語版 (日本語の記事を翻訳して掲載) 1-3 各種辞書の利用 (紙媒体/電子媒体) 人手 △ 書籍として存在する日中、日韓の各種辞書(一般用語、化学系辞書等々)を利用。 但し、ライセンス料が必要。また、電子媒体で無い場合、OCR 等によるテキスト化が 必要となる。 1-4 IPC の各種情報の 利用 人手 △ 1-5 1-6 特許文献の利用 WWW から対訳収集 人手 システム △ - 各国の IPC タイトルや説明文を利用する。IPC は全世界共通のため、対訳情報とし ては適している。 本検証では、韓国語の辞書追加にて、IPC タイトルを利用して人手登録した。 ファミリ文献や新聞記事、各種辞書は、文単位で対訳関係である「パラレルコーパ ス」といい、対訳の質は高い。 対して、同じ分野に属する 2 言語の文書集合である「コンパラブルコーパス」を用い る手法である。 日中、日韓のファミリ文献を対訳情報とする。 但し、ファミリ文献が少ない分野の場合、必要な対訳文書数の確保が難しい。 特許文献ならば、ファミリ文献に限らず全ての和文明細書、中文明細書を用いる事 ができる。 WWW から収集する場合は、同一分野の各言語のホームページを利用する。 但し、パラレルコーパスに比べると対訳の質は低いため、Step2 の対訳候補抽出が 非常に難しくなる。 1-7 対訳文書を人手作成 作成文書 調査報告書 人手 ◎ 対訳リソース なし 翻訳業者による人手翻訳を実施。上記方式の中で、もっとも品質の良い対訳が得ら れるが、コストが非常に掛る。 例:中国文献の和文抄録の整備 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-39 9 結果と考察 表 9.2-18 辞書整備の方式案 (2/2) 項番 2-1 想定される方式案 対訳文書から 人手抽出 手段 人手 人件費 ◎ 内容 準備した対訳リソースを翻訳者が内容確認し、対訳候補を抽出する。 但し、対訳リソースに対して、再度、人手で読み返すことになり、効率は悪い。 2-2 対訳文書作成時に 合わせて作成 (1-4 と関連) 人手 ○ 項番 1-6 の「対訳文書を人手作成」時に、対訳候補も抽出しておく方法。 翻訳文書を作る際には、翻訳者の頭の中では、対応する語や品詞情報を把握しているはずである。 この情報を翻訳作業時にデータ化しておば、項番 2-1 の様な重複作業も削減できる。 2-3 対訳候補をシステムに より自動抽出 システム - 対訳候補をシステム的に自動抽出することで、対訳リソース参照・抽出のコストをゼロ化する手法。 本調査で確認した「辞書自動メンテナンス機能」が該当。詳細は『9.2.2(3)辞書自動メンテナンス』参 照。 訳語選定を人手選定 人手 ○ Step2 の候補抽出は人手、システムどちらでも良いが、不要な語を登録するとノイズが生まれるた め、人手で判断する事が必須である。 自動登録プログラム システム - Step3 で選定した訳語リストを用意するこで、辞書登録の自動化は可能。 3 4 ステップ Step2 対訳候補の 抽出 Step3 登録訳語の 選定 Step4 辞書登録 凡例:人件費=必要となる作業コスト。 ◎…極めて大きい、○…大きい、△…小さい、-…対象外 なお、特許審査では幅広い分野の辞書が必要となるため、辞書整備の際は、IPC 毎に、現状の翻訳辞書の語の含有率を調べてから、作業着手の優先分野を決 めた方が良い。 また、前ページにて目標値として仮定した「100 万語」相当の辞書を用意する場合、本調査で確認した「辞書自動メンテナンス機能」を用いると、50 人体制で 1 年近 くの歳月がかかる(詳細は『9.2.2(3)5)a)作業工数』を参照)。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-40 9 結果と考察 c) 異表記・統制語の活用 検証全体を通じて「異表記が検索されない」という声が多かった。韓国語でも声はあったが、中国語 の方がより強い声であった。 以降に、その原因と多言語横断検索への影響、解決策、今後どのようにすれば良いか、について 記載する。 ア) 中国語、韓国語における異表記の特徴 『表 9.1-2 中国語と韓国語の言語特性の比較 (2/2)』の通り、言語特性から考えると、韓国語に比 べると中国語の方が、異表記が多い。 これは、中国語は全て漢字表記のため、外来語の表記などで異表記が発生しやすいためである。 対して、韓国語はハングル文字(日本語のかなと同じ)なので異表記は少ない傾向がある。 また、特許公報の観点からみると、中国公報では表記の揺れも目立つ(『表 9.1-7 中国特許公報 の特徴』を参照)。 このため、特に中国語では、異表記に対する配慮が必要不可欠になってくる。 イ) 多言語横断検索への影響 翻訳と検索の観点から整理すると、異表記の存在による影響は以下の通りである。 両者ともに何らかのの対策が必要な影響箇所である。 表 9.2-19 異表記の存在による影響 観点 翻訳 影響 翻訳文の易読性の低下 検索 検索漏れの発生 内容 翻訳辞書にて異表記が多数登録されていない場合、 適切な訳語が判断できず、誤訳となる。 検索条件で、適切に異表記を指定しないと、検索漏 れを引き起こす可能性がある。 ウ) 解決策 解決に向けては、翻訳と検索では、アプローチが異なる。 表 9.2-20 異表記の存在に対する解決策 観点 翻訳 解決策 ~集約方向の対策~ 統制語を使って、訳語を 集約する。 内容 翻訳時に統制語を使って集約する。 例)本、書籍、図書、書物 → Book これにより、翻訳結果の易読性も向上する。 また、統一化されているため、検索もれが出にくくなる (WPI の統制語やパトリスフリーワードの効果と同義) 検索 作成文書 調査報告書 ~拡張方向の対策~ 異表記展開によ り、検索 条件を拡張する。 既知の異表記を展開する「異表記テーブル」を用意し て検索時に拡張する方法が考えられる。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-41 9 結果と考察 以下に解決策の主要 2 点を記載する。何れも中国語、韓国語共に利用できる手法である。 ①統制語の活用 ~翻訳時の訳語揺れを抑止~ 異表記の言葉に対して、それぞれに訳語を用意すると、易読性も低下する。また、辞書整備に も労力を要する。 このため、「統制語」という考え方を用いて、特定の用語に統一して翻訳することで、翻訳結果 の易読性も向上する。特に中国語において異表記が多く存在すると思われるため、統制語を用 いたアプローチは極めて有効であると考えられる。さらに、翻訳結果が統制されるため、検索漏れ を抑える効果もある。 なお、統制語は、WPI 統制語やパトリスフリーワードなどでも既に確立されている手法である。 統制語の整備は非常に労力の掛る作業である。このため、多言語横断検索に特化して考えると、 IPC の代表的な語を中心に整備することから始めるのが良いと思われる。 ②異表記テーブルの導入 ~既知の異表記対策~ 既知の異表記を登録した「異表記テーブル」を用意し、検索時に拡張する。例えば、検索条件 の単語がテーブル上に存在すれば、その関連語をサジェストし、検索条件に含めるか否かを利 用者に選択させることもできる。 ただし、異表記テーブルの作成時には、既知の異表記がある程度の数が揃っていないと、展 開される語が少なくなり、効果が薄くなる。このため、異表記を数多く収集するためにも、まずは辞 書の整備を優先して行い、その後、異表記テーブルを作成すると効果が出やすい。 エ) まとめ 上記にて、異表記問題を解決するための具体策を 2 点記載したが、短期的な視点からは、①統制 語の活用を実施する事が良いと思われる。その間に翻訳辞書語数を着実に増やし、辞書が成熟して きた段階で、②異表記テーブルの導入を実施することが良いと思われる。 異表記展開開始 (既知の異表記) 統制語を決定 辞書の成熟 翻訳技術の成熟 図 9.2-9 異表記に対する今後のアプローチ 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-42 9 結果と考察 d) 辞書の移行性の確保 (ベンダロックインの回避) 特許庁独自に辞書を作成しても、翻訳エンジンの辞書フォーマットは各社で異なる。このため、過去 の辞書資源を継続利用するためには、最初に導入した翻訳エンジンからの変更が難しい。また、変更 するならば辞書を最初から登録し直す必要がある。 この問題点には、「ユーザ辞書の共通仕様に準拠させる」ことで解決できる。 ア ジ ア太 平洋 機械 翻訳協 会 (Asia-pacific Association for Machine Translation 以下 、 AAMT)では、ユーザ辞書を異なるソフト間で共通利用する仕様を策定している。 表 9.2-21 辞書フォーマットの共通仕様 項番 1 規格名 UPF ステータス 実用レベル 2 UTX-Simple 仕様策定済 3 UTX-XML 仕様策定は 未だ先 原言語の単語 目的言語の単語 品詞 内容 Universal PlatForm の略。 1995 年に IPA の支援を受けて策定されたもの。細かく規定されて いるため、実用レベル。 現時点でも、市場の翻訳ソフトでも対応している製品もある。 また、INPIT から提供されている「日英機械翻訳用辞書データ」も UPF 形式である。 Universal Terminology eXchange の略。 UPF は複雑な面があるため、よりシンプルなものを目指すべく、 2006 年から策定が開始。タブ区切りのテキスト方式で、仕様はおお むね確定している。 記述例は、『図 9.2-10 UTX-Simple0.9 基本記述例』参照。 UPF は、原則、1 つの用語に 1 つの訳語を登録する方式(品詞が違 えば、複数の訳語を登録することは可能)である。 但し、4 カラム目移行の記述方法は決まっていない為、複数形や 3 単元、過去形等の変化形の互換が難しい。 UTX-Simple のデータを XML で表現する仕様。UTX-Simple の 普及後に仕様策定する方向であり、策定時期は数年後になると思 われる。 その他の属性(任意) 図 9.2-10 UTX-Simple0.9 基本記述例 このため、辞書データを移行する際は、現状の辞書を UPF 形式でエクスポートし、それを変更後の 翻訳エンジンにてインポートすれば、辞書の移行性を確保することが可能である。 なお、UTX-Simple は 4 カラム目以降が自由記述形式のため、記述方法やコンバータを自作する 必要がある。また、UTX-XML は策定が数年後になると考えられるため、現段階では UPF を使用する 事が望ましいと考えられる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-43 9 結果と考察 (3) 辞書自動メンテナンス 1) 目的 辞書構築は人間の判断を介在するため、作業工数が非常に掛る作業であることは明白である。特 に、対訳文書から対訳候補を抽出する作業は、人手で行うと非常に作業工数のかかる作業である。 このため、ファミリ文献を対訳文書として、そこから対訳候補を抽出する技術である「辞書自動メンテ ナンス機能」を採用することによって、作業工数を削減しつつ、品質の良い辞書が可能であるかを調 査する。 自動化しない例 CN 文献 CN CN (原文) 文献 CN 文献 文献 翻訳 翻訳できない言葉 (=未知語)の意味を 調べて登録か・・・。 誤訳箇所が辞書に 足りない言葉かな? CN CN 文献 文献 JP CN JP (日訳) CN (原文) 文献 文献 JP CN 文献 文献 文献 文献 原文 人手で 確認 日訳 未知語 辞書 自動化する例 JP CN 文献 文献 JP CN JP CN (原文) (原文) 文献JP 文献 CN 文献 文献 文献 文献 特許文献を 自動解析! (製品・研究で実績有) 辞書登録候補を 自動生成! 用語 (CN) 用語(CN) 用語(CN) 用語(CN) 対応特許から訳語ペアを 自動生成 訳語 (JP) 訳語(JP) 訳語(JP) 訳語(JP) 辞書 対応特許 特許業務に有効な辞書を 効率よく自動メンテナンス! 図 9.2-11 辞書自動メンテナンスの概要図 2) 仮説 辞書自動メンテナンスを用いると、以下 2 点の効果があると考えられた。 表 9.2-22 辞書自動メンテナンスの効果に対する仮説 観点 作業工数 品質 作成文書 調査報告書 仮説 手動で辞書整備するのに比べて、作業工数が削減可能である。 特許文献を対訳文書としているため、分野を限定化すれば、語数が 少なくても効果が出る。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-44 9 結果と考察 3) 方法 仮説の 2 観点を確認すべく、以下の方法で検証を実施した。 表 9.2-23 辞書自動メンテナンスの効果確認の方法 観点 作業工数 対象言語 中国語 韓国語 品質 4) 中国語 韓国語 方法 辞書自動メンテナンスを用いて、検証#1~4 を通じて段階的に辞書 語数を増やし、その作業工数を確認する。 (対訳文書=ファミリ文献) 辞書自動メンテナンスと対比するために、手動で辞書登録を実施。 (対訳文書=IPC 分類表のタイトル文言) 中国語、韓国語共に、作成した辞書を用いて検証。 その結果アンケート及び、検証#1~4 の検索精度を確認。 結果 a) 作業工数 中国語の辞書自動メンテナンスと、韓国語の手動登録の作業工数を比較したところ、人手登録の方 が単位時間当たりの登録語数が多い結果となった。以下に各言語の詳細を記載する。 ア) 中国語 全 4 回の各検証の間を挟む形で、合計 3 回のチューニングを実施。延べ 64 時間の作業を行い、 合計 1,693 語の辞書登録を行った。 表 9.2-24 辞書自動メンテナンス作業工数(中国) 作業内容 登録単語数 (日中、中日同数) 作業者数(スキル) 作業時間 チューニング 1 チューニング 2 チューニング3 C07 532 語 C07 294 語 C07 172 語 H01L 200 語 H01L 291 語 H01L 204 語 2名 1:中国人 (日本語会話問題なし) 2:日本人 (中国語専門文書の読解能力あり) 25H/人 ×2 人 21H/人 ×2 人 18H/人 ×2 人 合計 C07 998 語 H01L 695 語 128H/人 (13.2 語/H 人) イ) 韓国語 対比するための韓国語の辞書登録は、人手による対訳作成・登録する方法で行い、延べ 24 時間 の作業を行い、合計 806 語の辞書登録を行った。 表 9.2-25 ユーザ辞書登録作業工数(韓国) 作業内容 登録単語数 (日韓、韓日同数) 作業者数(スキル) 作業時間 作成文書 調査報告書 A61K/36 の 対訳生成 499 語 チューニング3 A61K 全体の対訳生 成 274 語 1名 1:韓国人 (日本語会話問題なし) 8H/人 ×1 名 10H/人 ×1 名 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 合計 その他の 誤訳修正 33 語 806 語 6H/人 ×1 名 24H/人 (33.6 語/H 人) Rev. 頁 1.0 9-45 9 結果と考察 b) 品質面 (定性評価) 中国語の辞書自動メンテナンス、韓国語の手動登録を行った状態での翻訳精度の向上度に対す る評価は以下の通りである。結果を総じて見ると、大きな効果は見られなかった。 表 9.2-26 辞書自動メンテナンスによる翻訳精度の向上度(定性評価) 言語 中国語翻訳 検証 1 検証 4 × × <所見> ・文脈が理解できないため、本願と無関係 であるかの判断ができない。 ・翻訳精度が低いため、理解に時間がか かる。 <所見> ・基本的な語が適切に翻訳されないた め、検索精度も低い。 ・仮に十分な文献が上位にヒットしても、 現在の翻訳精度では記載内容が十分に 確認できないため、審査で活用できるケ ースはかなり限定的。 <共通的な所見> ・分野別辞書の登録語数を大幅に増加させないと審査に使える翻訳精度にならない。 ・化学系(物質名)の翻訳精度は特に低い。 ・専門用語辞書の分野の切り分け方に注意する必要がある。 韓国語翻訳 ○ ○ <所見> <所見> ・文脈を理解できる精度。 ・一定の翻訳精度があるため、審査に使う ・現状の精度では審査に使えない。 価値はある ・英語を介していると思われるもの(出願人 が米国企業)は精度が低い。 <共通的な所見> ・専門用語辞書の分野の切り分け方に注意する必要がある。 ・用語の統制が十分に取れていないと、コンプリートサーチは不可能 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-46 結果と考察 c) 品質面 (定量評価) ア) 中国語 ~全体傾向~ 全体を通じての傾向としては、中国は辞書語数を追加することによる検索精度向上が見られた。ま た、t 検定検定結果からも効果があるとみなされた(計 3 回の辞書語数追加の結果詳細は後述)。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 998 826 0.4976 0.4456 0.1701 0 検証#1 検証#3 検証#4 0.5098 0.5040 0.2258 0.2200 0.2132 検証#2 C07C 検証 検証#2 532 検証#3 C07D 1000 900 800 700 600 500 400 300 200 100 0 辞書語数(累計) MRR 中国 辞書語数の効果(C07C、C07D) 検証#4 辞書語数(累計) 語数(累計) 分野 C07C 532 語 C07D C07C 826 語 C07D C07C 998 語 C07D 効果性の有無 効果あり 効果あり 効果あり 効果あり 効果あり 効果あり 図 9.2-12 中国 辞書語数の効果(C07C、C07D) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 695 0.3231 0.3608 0.3560 491 0.3556 200 0 検証#1 検証#2 H01L 検証 検証#2 検証#3 検証#4 検証#3 1000 900 800 700 600 500 400 300 200 100 0 辞書語数(累計) 中国 辞書語数の効果(H01L) MRR 9 検証#4 辞書語数(累計) 語数(累計) 分野 H01L 200 語 491 語 695 語 効果性の有無 効果あり 効果あり 効果あり 図 9.2-13 中国 辞書語数の効果(H01L) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-47 結果と考察 イ) 韓国語 ~全体傾向~ 一方、韓国は辞書語数を追加することによる検索精度向上は見られなかった。検定結果からも効果 がないとみなされた。 韓国 辞書語数の効果(A61K) 900 0.9 80 6 0.7706 0.8 0.7695 0.7 800 700 600 0.6 500 0.5 400 0.4 300 0.3 0.2 200 0.1 100 0.0 0 検証#1 A61K 検証 検証#4 辞書語数(累計) 1.0 MRR 9 0 検証#4 辞書語数(累計) 語数(累計) 分野 A61K 806 語 効果性の有無 効果なし 図 9.2-14 韓国 辞書語数の効果(A61K) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-48 9 結果と考察 5) 考察 結果を踏まえて、辞書自動メンテナンスに関して、作業工数と品質の 2 つの観点で考察する。 a) 作業工数 結果を見ると、中国の辞書自動メンテナンス方式が 13.2 語/時間・人に対して、韓国の手動登録は 33.6 語/時間・人となっており、手動登録の方が、作業工数が少ない結果であった。但し、これは今回 の手動登録の方法が簡易的な方法(IPC タイトルから抽出)であったためと考えられる。 韓国の手動登録では、語の対応関係が極めて明確な日韓の IPC タイトルから対訳を抽出するとい うシンプルな手法だったため、対訳の判断作業が非常に容易に行えたためと思われる。 但し、IPC タイトル方式は短期的に実践できる第 1 ステップの辞書整備方法と考えられる。 実際の審査では、実施例レベルの詳細を確認するため、IPC タイトルの情報だけでは不十分であり、 特許文献の本文から抽出する辞書自動メンテナンスを用いて、網羅的に登録する必要がある。 今回の調査では自動メンテナンスと、手動登録の明確な工数比較は行えなかった。但し、辞書自動 メンテナンスの原理からも、人手作業に比べて、対訳文書の参照・対訳抽出という作業が削減できるた め、作業工数の削減効果は大きいと考えられる。 b) 品質 全体的な品質傾向としては、以下の結果が見受けられた。 表 9.2-27 辞書自動メンテナンスでの辞書品質の結果サマリ 項 番 1 言語 チューニング 辞書登録語数 比較対象 結果 フェーズ 辞書登録により検索精度は向上したため、品質的な効果はある。 C07 H01L チューニング 比較対象 結果 フェーズ チューニング 1 532 語 200 語 検証#1 と#2 C07、H01L 何れも精度向上。優位差あり。 チューニング 2 826 語 491 語 検証#2 と#3 C07 は数%向上だが、有意差無し。 H01L は若干低下しているが、優位差なし。 チューニング 3 998 語 695 語 検証#1 と#4 検証#3 と#4 を比べると、キーワード翻訳方 式は、C07 はわずかに向上。H01L は数% 向上だが、優位差なし。 但 し 、 初 回 の 検 証 #1 と 比 べ る と 、 C07 、 H01L 何れも精度向上。優位差あり。 検証#1 と#4 コンテンツ翻訳方式は、C07、H01L 何れも 精度向上。優位差あり。 辞書登録による効果は見られなかった(精度は若干低下)。 A61K チューニング 比較対象 結果 フェーズ チューニング 3 806 語 検証#1 と#4 キーワード翻訳方式、コンテンツ翻訳方式共 に、検索精度は数%低下。優位差なし。 中国 1-1 1-2 1-3 1-4 2 韓国 2-1 以降に、言語毎の詳細な考察を記載する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-49 9 結果と考察 ア) 中国 辞書語数を追加すると、検索精度は明らかに向上する事が分かった。 但し、ユーザによる定性評価と、弊社による定量評価が異なる結果であった。例えば、中国ではユ ーザは辞書追加しても精度が変わらないという声があったが、検索精度の定量評価の面からは「効果 あり」となっていた。 これは、定性評価と定量評価において、翻訳文を参照するポイントが異なるためと考えられる。定性 評価では「日本語の文章として読めるか」がポイントとなり、全体的な文書としての確からしさを確認す る。対して、定量評価の場合は、ワード単位で検索しているため、辞書登録の効果が出やすい。 この結果を裏付けるものとして、ユーザの意見として「辞書語数を増やすと、辞書登録された語と思 われるものを中心に、まばらに精度が良くなっていた。全体的に読みやすい結果にする必要がある」と の声もあり、確認ポイントの違いによるものと思われる。 また、特許文献を対訳文書としているため、分野を限定化すれば、語数が少なくても効果が出ると 考えていたが、日本語として理解できる翻訳文にはなっていなかった。今回の様な 1700 語程度の追 加では、易読性の向上といった全体的な効果は得にくいため、今後大量の語数を登録する必要があ る。 なお、今回の辞書自動メンテナンスの作業工数を基準値とし、『(2)5)b)辞書整備』で、仮の目標値と した「100 万語」の登録時間を計算すると、541 人月の作業工数が必要と考えられる。 このため、実際には、辞書整備の分野を絞って行う事が望ましいと思われる。 100 [万語] ÷ 13.2 [語/時間・人] = 75757.6 [時間・人] 75575.6 [時間・人] ÷ (7[時間/日] × 20[日/月])= 541 [人月] イ) 韓国 辞書語数を追加しても、検索精度は現れにくい事が分かった。これは、韓国語の翻訳文が実用レ ベルの水準にあるため、806 語程度を追加しても、効果が出にくいためと考えられる。 しかしながら、中国ほどの緊急性は求められないが、翻訳精度の更なる向上を行う為にも、辞書整 備は必要である。この為、中国の辞書自動メンテナンスを韓国でも利用する事は意義があると考える。 c) まとめ 辞書自動メンテナンスは、作業工数の削減を行え、品質面でも翻訳及び検索精度向上に効果のあ る手法であることが分かった。 但し、本手法は、対訳文書の準備が前提条件である。このため、対訳文書が存在しないとその効果 性は出しにく。 例えば、中国文献検索のニーズの高い分野(伝統的医薬品(A61K)等)は、国内からの出願がメイ ンのため、ローカル文献が多くファミリ文献が少ない。従って、ファミリ文献を使った辞書自動メンテナ ンスを行う事が難しい場合もある。このような場合は、IPC のタイトルや説明文を利用するなど、代替手 段を用いて整備を行う事で回避する事も可能である。 このため、実際の辞書整備を行う際には、本機能は一手段ととらえ、『(2)5)b)辞書整備』で考察した 様々な手法を組み合わせて作成する事が望ましいと考える。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-50 9 結果と考察 (4) シソーラス辞書を用いた訳し分け規則 1) 目的 シソーラス辞書を用いて、訳し分け規則を向上させることが、特許文献においても効果があるのかを、 「翻訳精度」と「検索精度」の観点から確認した。 2) 仮説 本手法は、日英翻訳でも効果性が確認されている手法である。 但し、複数の意味を持つ事が多い「一般用語」に効果がある手法であり、専門用語で構成された特 許文献では効果が出にくい場合があると思われる。 3) 方法 機能な有効性を確認することが目的のため、中国語のみを対象とした。具体的には、以下 2 つの方 法を取った。 表 9.2-28 シソーラス辞書を用いた訳しわけ規則の調査方法 観点 翻訳精度 概要 ユーザによる定性評価 方法 ユーザに以下のパターンの翻訳結果を確認してもらい、 その精度差を確認する。 ① 一般用語辞書のみ ② 一般用語辞書+分野別専門辞書(製品版) ③ 一般用語辞書+分野別専門辞書(製品版) +「シソーラス辞書を用いた訳し分け規則」の追加 検索精度 4) 業者による定量評価 「シソーラス辞書を用いた訳し分け規則」の有無の 2 パタ ーンの翻訳エンジンを用いて、キーワード翻訳方式とコン テンツ翻訳の検索精度差を確認する。 結果 a) 翻訳精度 ~ユーザによる定性評価~ ①一般辞書のみ → ②一般辞書+分野別専門辞書(製品版)は、ある程度の翻訳精度の向上 が見受けられた。しかし、②→③のシソーラス辞書を追加しても、翻訳文が変化する箇所が少なく、顕 著な効果がみられなかった。 また、案件によって、比較的効果が出ていた場合と、そうでない場合が見受けられた。 比較的効果があった事例 … CN2005-80001889 逆に結果が悪くなった事例 … CN2006-10149744 このため、シソーラス辞書については、全体評価としては、訳の品質を全体的に向上させるまでに は至ってないと判断される。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-51 9 結果と考察 b) 検索精度 ~業者による定量評価~ キーワード翻訳方式、コンテンツ翻訳方式共に、差異は極めて小さく、統計的にも有意差は見受け MRR られなかった。 シソーラス辞書有無による検索精度差 (キーワード翻訳方式) ※検索範囲=全文 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.23468 0.23468 0.27842 0.27842 0.20398 0.20398 0.06442 0.06441 A61K C07C シソーラス辞書なし C07D H01L 0.08544 0.08539 H04L シソーラス辞書あり 図 9.2-15 シソーラス辞書有無による検索精度評価 (キーワード翻訳方式) 表 9.2-29 シソーラス辞書有無による検索精度評価 (キーワード翻訳方式) 項番 1-1 1-2 1-3 2-1 2-2 2-3 シソーラス シソーラス辞書 あり シソーラス辞書 なし 検索対象 全文 要約 実施例 全文 要約 実施例 A61K 0.2347 0.5822 0.2251 0.2347 0.5822 0.2251 C07C 0.2784 0.5097 0.2694 0.2784 0.5097 0.2694 C07D 0.0644 0.2212 0.0620 0.0644 0.2212 0.0620 H01L 0.2040 0.3717 0.2001 0.2040 0.3717 0.2001 H04L 0.0854 0.2185 0.0824 0.0854 0.2186 0.0854 平均 0.1830 0.3663 0.1785 0.1830 0.3664 0.1790 表 9.2-30 シソーラス辞書有無の有意差検定(キーワード翻訳方式) 分野 A61K C07C C07D H01L H04L 平均 全文 精度良い方式 差異なし 差異なし 差異なし 差異なし 差異なし 差異なし 有意差 - - - - - - 全文 精度良い方式 差異なし 差異なし 差異なし 差異なし シソーラス辞書なし シソーラス辞書なし 有意差 - - - - - - 全文 精度良い方式 差異なし 差異なし 差異なし 差異なし シソーラス辞書なし シソーラス辞書なし 有意差 - - - - - - 凡例:有意差 ○…有意差あり、-…有意差なし 上記結果からも、差異は殆どなく、あったとしても、小数点第 3 位のオーダと微々たるものである。統 計的な有意差も見られない。 従って、キーワード翻訳方式では、シソーラス辞書による訳し分け規則が有効でなかった事が伺え る。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-52 結果と考察 MRR 9 シソーラス辞書有無による検索精度差 (コンテンツ翻訳方式) 1.0 0.9 0.8 0.7 0.6 0.4172 0.5 0.4013 0.4 0.2455 0.2475 0.3 0.2438 0.2433 0.1127 0.1281 0.2 0.1306 0.1178 0.1 0.0 A61K C07C C07D H01L H04L シソーラス辞書なし シソーラス辞書あり 図 9.2-16 シソーラス辞書有無による検索精度差 (コンテンツ翻訳方式) 表 9.2-31 シソーラス辞書有無による検索精度評価 (コンテンツ翻訳方式) 項番 1-1 1-2 1-3 2-1 2-2 2-3 シソーラス シソーラス辞書 あり シソーラス辞書 なし 検索対象 全文 要約 実施例 全文 要約 実施例 A61K 0.2433 0.4971 0.2355 0.2475 0.4943 0.2377 C07C 0.4013 0.4717 0.3938 0.4172 0.4623 0.4077 C07D 0.1306 0.1651 0.1199 0.1281 0.1650 0.1187 H01L 0.2438 0.3610 0.2386 0.2455 0.3604 0.2394 H04L 0.1178 0.1861 0.1153 0.1127 0.1866 0.1168 平均 0.2262 0.3397 0.2206 0.2278 0.3385 0.2224 表 9.2-32 シソーラス辞書有無の有意差検定(コンテンツ翻訳方式) 分野 A61K C07C C07D H01L H04L 平均 全文 精度良い方式 シソーラス辞書あり シソーラス辞書なし シソーラス辞書あり シソーラス辞書なし シソーラス辞書あり シソーラス辞書なし 有意差 - - - - - - 全文 精度良い方式 シソーラス辞書あり シソーラス辞書あり シソーラス辞書あり シソーラス辞書あり シソーラス辞書なし シソーラス辞書あり 有意差 - - - - - - 全文 精度良い方式 シソーラス辞書なし シソーラス辞書なし シソーラス辞書あり シソーラス辞書なし シソーラス辞書なし シソーラス辞書なし 有意差 - - - - - - 凡例:有意差 ○…有意差あり、-…有意差なし 上記結果からも、キーワード翻訳方式よりも差異の量は大きいが、小数点第 2~3 位のオーダと 微々たるものである。統計的な有意差も見られない。 従って、コンテンツ翻訳方式でも、シソーラス辞書による訳し分け規則が有効でなかった事が伺え る。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-53 9 結果と考察 5) 考察 結果から、シソーラス辞書を用いた訳し分け規則の向上は、明確な効果が見られなかった。 仮説では、専門用語の多い特許文献では、その効果が出にくいと考えていたが、それ以外の以下 2 つの要因(構文解析の失敗、辞書語数の不足)の方が強いと考えられる。 a) 構文解析の失敗 訳しわけ規則は構文解析結果に対して適用される。但し、現在の中国語の構文解析の精度は、ま だ発展途上の段階である。このため、構文解析の段階で失敗すると、訳し分け規則が正しく適用され ないという可能性がある。 この点をカバーするためには、今後、長くて複雑な文が多い、特許明細書に対する構文解析精度 の向上が必要である。例えば、長文を前処理にて短い文章単位に区切ってから解析を行うという方法 も考えられる(これは、日英/英日翻訳にて実績のある手法である)。 b) 辞書語数の不足(翻訳辞書、シソーラス辞書共に) シソーラス辞書に登録済みの単語と、翻訳辞書に登録済みの単語が少ないと、マッチング率が低く なってしまい、その規則を上位概念、下位概念の単語に適用できない。このため、翻訳辞書の登録語 数が少ない現状では、マッチング率が低くなり、効果が出にくいと考えられる。 この解決として、シソーラス辞書と翻訳辞書の語数を増やすことも重要だが、拡張元データでもある 翻訳辞書内の訳し分け規則数が少ないと、効果が薄くなる事が考えられる。今回利用した翻訳辞書で は各語に登録されている訳しわけ規則は、まだまだ少なく、今後、拡充が必要である。 従って、翻訳辞書の語数と訳しわけ規則の登録拡充、シソーラス辞書の語数の登録拡充が必要と 考えられる。 なお、シソーラス辞書の構築は、翻訳辞書と同様、非常にコストのかかる作業である。EDR を例に すると、1986 年~2005 年の約 9 年を掛けて、27 万語まで拡張させていった。このため、シソーラス辞 書の拡張を行うとしたら、中長期的な視点で拡張計画を考える必要がある。 c) まとめ 上記の原因も鑑みると、今回の調査では、シソーラス辞書が適用される数や事例が少なく、効果が あまり見込めなかった。また、仮に適用されたとしても、文意を悪くする方向に修正が働くことがあり、必 ずしも正しい方向のみに修正がなされなかった事があった。 なお、本方式は、翻訳精度をさらに向上させるための技術であるため、そもそもの訳質が良くないと 効果が出ない。このため、まずは翻訳精度を上げる事に注力し、その後、導入要否を再検討すべきで ある。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-54 9 結果と考察 9.2.3 検索技術 (1) 概念検索と全文検索 全文検索とは、現行システムのようにユーザが検討した複数のキーワードを検索条件とし、ファイル 全体を対象に、検索条件と一致した文書を探す検索である。このとき、検索結果は文献番号順等で表 示する。 こういうものを探す時の キーワードは....? 検索結果一覧 1. … 2. … 3. … 多言語横断検索 キーワード を指定 文献番号順等 図 9.2-17全文検索 概念検索とは、質問文を検索条件とし、システム側で質問文からキーワードと判断されるものを切り 出して関連度の高い順で表示する検索である。 技術要素は、以下の 2 つで構成される。 ①自然文検索 : 検索条件を文章で指定して検索 ②類似順ランキング : 検索条件と関連性の高い順に並べる 概念検索 こういうものを探す時の キーワードは....? ①自然文検索 キーワード検索 (従来) 文章ならば 指定しやすい <検索条件> 第1の言語で作成さ れた原文を… 雑然 ②類似順 ランキング表示 多言語横断検索 キーワードでなく、 文章で指定。 整理してくれると 探しやすいな。 類似順無し (従来) 検索結果一覧 1. … 2. … 3. … 検索条件と 似たもの順に並べる 図 9.2-18概念検索 昨今では、「概念検索」の国内特許文献検索技術への応用の研究が進んでいる。この技術を、多 言語横断検索に適用する事で、「外国語で記述された類似文献の検索の効率化につながるか?」を 調査した。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-55 9 結果と考察 (2) 概念検索 1) 検索方式 a) 目的 自然文検索技術を特許文献の多言語横断検索に適用することで審査業務が効率化されるかを調 査した。審査業務が効率化されるという想定は、以下 2 点の理由からである。 業務観点(作業効率の向上) : 検索条件のキーワード検討の時間が軽減される 技術観点(検索精度の向上) : 誤訳が減り、必要な検索結果を得ることができる b) 仮説 自然文検索と全文検索を比較すると、以下の観点が影響し、自然文検索の方が、「審査業務が効 率化される」と考えられる。 ア) 業務観点(作業効率の向上) 自然文検索は、検索条件を文章で指定できる。この特徴により、例えば、本願の請求項を使用し、 検索条件のキーワード検討の時間が軽減できると考えられる。 こういうものを探す時の キーワードは....? 文章ならば 指定しやすいな。 <検索条件> 第1の言語で作成された 原文を… キーワード検索(従来) 自然文検索(文章で指定) 図 9.2-19業務観点(審査効率の向上) イ) 技術観点(検索精度の向上) キーワード翻訳方式において、自然文検索と全文検索(訳語候補展開機能を追加)は同等の検索 精度を得られると考えられる。これは、以下の理由により、訳語の揺らぎが軽減し、必要な検索結果を 得ることができる考えられるためである。 自然文検索 : 自然文の翻訳時に、ある単語の訳語を決定する際に、前後の 文脈を考慮して適切な訳語を選択する。 全文検索 作成文書 調査報告書 : キーワードの翻訳時に、ユーザにより、適切な語を選択する。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-56 9 結果と考察 例)ノートパソコン関係の特許を検索するケース*1 ①自然文検索は、前後の文脈から適切な訳語を選択できる。 × 全文検索 パソコン系は「装置=device」が通例 だが、単語なので誤訳。 結果、検索できなくなってしまう。 「装置」と入力 「equipment」で検索(誤り) 「ノートパソコンの 装置本体」と入力 「Main body of device of notebook computer」で検索 ○ 自然文検索 検索条件が文章なので、文脈から正 しく翻訳。 結果、欲しい情報が検索できる。 ②全文検索に訳語候補展開機能を追加することで適切な訳語を選択できる。 ○ 全文検索+訳語候補展開機能 「equipment」と「device」が訳語候補 となるため、正しい訳を選択可能。 結果、欲しい情報が検索できる。 「装置」と入力 「equipment」は選択せず、 「device」で検索 *1:わかりやすさの為、英語の例を記載しています。 図 9.2-20技術観点(検索精度の向上) c) 方法 ユーザ検証 4 にて、「自然文検索」と「全文検索」のそれぞれの検索方式を使用し、同一本願を検索 していただいた。具体的には、「擬似的な実体審査(キーワード翻訳方式)」と「訳語候補展開機能の 確認」の比較から調査した。 尚、訳語候補展開機能は中国文献検索のみ対応のため、検索方式の比較も中国文献のみを対象 とした。(非対応の理由等の詳細は、『(3)訳語候補展開』を参照。) 表 9.2-33検索方式比較パターン パターン No. 調査パターン名 ユ① ユ④ 擬似的な実体審査 訳語候補展開機能の確認 条件 検索 方式 自然文 全文 対象 言語 中国 中国 翻訳 方式 キーワード キーワード 専門 辞書 ○*1 ○*1 書誌 条件 ○ ○ 検索 範囲 全文 全文 検索条件文 第一請求項 第一請求項 *1:C07C、C07D、H01L は、自動メンテナンス辞書、A61K、H4L は製品版辞書を使用。 定性評価では、上記のパターンを比較し、以下のアンケートに回答していただいた。 ①審査業務の効率化につながる検索方式はどちらか?また、その理由は? ②①で選択した検索方式では、どの程度審査時間か短縮されるか? 全文検索のキーワード検討を機械的に実施することができない。このため、業者での検証は実施せ ず、ユーザでの定性評価のみで確認した。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-57 9 結果と考察 d) 結果 ア) 定性評価 ①審査業務の効率化につながる検索方式はどちらか?また、その理由は? 審査業務の効率化につながる検索方式は、自然文検索が 50%の支持を得た。しかし、回答理由を みると、「審査官が意図した結果を得るためには、全文検索が有効」との意見が多くあった。 どちらともいえ ない 33% 自然文検索 50% 検索方式 自然文検索 全文検索 どちらともいえない 全文検索 17% 回答人数 3/6名 1/6名 2/6名 図 9.2-21審査業務の効率化につながる検索方式 表 9.2-34審査業務の効率化につながる検索方式(理由) 自然文検索 作業効率 全文検索 ○ × <所見(メリット)> ・自然文検索の方が作業効率は良い。 ・検索式を考える工程を省略できるため 効率的。 ・条件文の入力が楽である。 <所見(メリット)> 回答なし。 <所見(デメリット)> ・試行錯誤により有効なレベルで利用で きる可能性はあるが、あまりに非効率。 <所見(デメリット)> ・自然文検索は、DB へ実際に投げてい るクエリがわから無い。 検索精度 ○ ◎ <所見(メリット)> 回答なし。 <所見(メリット)> ・スクリーニング結果に応じてサーチ範 囲を調整しながら試行錯誤的にサーチ <所見(デメリット)> するには全文検索の方が直感的。 ・自然文検索は、審査官が意図した検索 ・細かいニュアンスで検索できるため、意 結果が得られない。 図した結果を得るには良い。 ・全文検索の方が目的に近い文献がヒッ トした感覚がある。 <所見(デメリット)> ・全文検索では、特徴語が全く翻訳され ず、類似文献ヒットしなかった。 その他 作成文書 調査報告書 <共通的な所見> ・有意差なし。 ・通信プロトコルのような手続きに関するものは、両者が使えたほうが良い。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-58 9 結果と考察 ②①で選択した検索方式では、どの程度審査時間か短縮されるか? 現在の検索精度では、自然文検索も全文検索も審査時間の短縮までにはつながらないという意見 が大半であった。 表 9.2-35どの程度審査時間が短縮されるか ①の回答 自然文検索*1 全文検索 大幅に短縮 0名 0名 少し短縮 1 名*2 0名 変わらない 2名 1名 少し増える 1名 0名 大幅に増加 0名 0名 *1:「どちらともいえない」を含む *2:モデル検証後に検索精度が向上する前提 e) 考察 自然文検索と全文検索を比較した結果、「審査業務の効率化」は、差異はみられなかった。また、 今後、検索精度が向上していくという前提では、自然文検索は、「審査業務の効率化」につながると考 えられる。 この原因を各観点別に考察する。 ア) 業務観点(作業効率の向上) 作業効率の観点では、『図 9.2-21 審査業務の効率化につながる検索方式』および『表 9.2-34 審 査業務の効率化につながる検索方式(理由)』の「作業効率」の通り、自然文検索が支持されている。 指示された理由は、仮説の通り、「第一請求項等の自然文をそのまま検索条件とできる」ためである。 イ) 技術観点(検索精度の向上) 検索精度の観点では、『表 9.2-34 審査業務の効率化につながる検索方式(理由)』の通り、自然文 検索も支持されているが、全文検索の方が、審査官が意図した結果を得ることができるため、若干有 意性がある。 これは、以下の要因が考えられる。 ・ 現在の検索精度が低いため、自然文検索も全文検索も検索条件作成に工夫が必要 ・ 訳語候補展開機能により、検索条件と検索結果が結び付いた (DB に投げられる実際の検索クエリがわかる) 以上の理由により、①自然文検索は作業効率の面で優位であり、②全文検索は、検索精度の面で 若干優位である、ということがわかる。 このため、新検索システムには、自然文検索と全文検索のどちらか一方を採用するのでなく、両方 採用する必要がある。これにより、本願、あるいはユーザの審査方法に合致した検索方式が選択でき るようになる。 また、自然文検索においては、入力された検索クエリが①翻訳、②形態素解析される段階で、ユー ザが処理内容を確認でき、必要に応じて取捨選択できるようにすると、より検索精度が向上すると考え られる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-59 9 結果と考察 2) 類似度順表示 a) 目的 類似度順表示を多言語横断検索に適用することで審査業務が効率化されるかを調査した。審査業 務が効率化されるという想定は以下の理由からである。 業務観点(閲覧効率の向上) : 本願と類似する文献を審査の早い段階で発見できる b) 仮説 類似度順表示有りと無し(現行の出願番号順等)を比較すると、以下の観点が影響し、類似度順表 示の方が「審査業務が効率化される」と考えられる。 ア) 業務観点(閲覧効率の向上) 類似度順表示は、文字通り「本願と類似する文献」の可能性が高いものから並べられる。類似度順 表示が無いと、例えば入力したキーワードを一致する文献が 500 件ヒットした場合、全件閲覧する必 要がある。しかし、類似度順表示の特徴により、審査の早い段階で本願と類似する文献を発見できる 可能性が高いと考えられる。 全部見るのは 骨が折れる 検索結果一覧 1. … 2. … 3. … 整理してくれると 探しやすいな。 検索結果一覧 1. … 2. … 3. … 出願番号順 等 類似度順 類似順無し(従来) 類似順表示 図 9.2-22業務観点(閲覧効率の向上) c) 方法 ユーザ検証 1 にてモデル検証システムで実装した類似度順表示を使用し、現行の出願番号順と比 較していただいた。 定性評価では、類似度順表示の全体について、以下のアンケートに回答していただいた。 ①類似度順表示されることで、類似文献発見までの時間が短縮されそうか? ②類似度順表示のない検索結果一覧と比較した場合のメリットとデメリット また、類似度順表示の一機能として、以下のアンケートに回答していただいた。 ③検索結果中、ローカル文献のみを絞り込む機能は、審査上役に立つか?また、その理由は? 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-60 9 結果と考察 d) ア) 結果 定性評価 ①類似度順表示されることで、類似文献発見までの時間が短縮されそうか? 類似度順表示により、類似文献発見までの時間は「ほとんど変わらない」が 69%、「少し短縮」が 31%で、その他の回答は 0%であった。 韓国文献検索 中国文献検索 少し短縮 27% 少し短縮 31% 変わらない 73% 変わらない 69% 変わらない 11/9名 大幅に短縮 0/9名 少し増える 0/9名 少し短縮 5/9名 大幅に増える 0/9名 変わらない 8/11名 大幅に短縮 0/11名 少し増える 0/11名 少し短縮 3/11名 大幅に増える 0/11名 図 9.2-23類似度順表示による審査効率向上 ②類似度順表示のない検索結果一覧と比較した場合のメリットとデメリット 類似度順表示有りでは、検索精度が良いという前提では、閲覧効率が向上するという意見があった。 また、類似度順表示無しは、技術水準の変遷を把握することもでき、有意な点もあるとのことであった。 表 9.2-36類似度順表示有無のメリット・デメリット 類似度順表示有り 閲覧効率 その他 類似度順表示無し ○ ○ <所見(メリット)> ・スクリーニングの時間短縮につながる。 <所見(メリット)> ・特定分野に限定して検索した場合にお いて、技術水準の変遷を把握することが できる。 <所見(デメリット)> ・適切な検索条件の近傍検索・分類を使 用した検索には敵わない印象。 ・検索精度が悪いと、文献により、関連文 献がヒットせず、時間短縮が見込めない <所見(メリット)> ・単純なテキスト検索が困難な状況の外 国文献検索は有効なシーンもある。 ・実際の類似度(値)もある方が、検索式 の適否が判断しやすい。 <所見(デメリット)> 回答なし。 <所見(メリット)> 回答なし。 <所見(デメリット)> 回答なし。 <所見(デメリット)> ・下位では注意力が低下し、類似文献を 見逃す虞がある。 ・重要でない単語まで類似度の判定を行 うと、重要な部分が埋没する。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-61 9 結果と考察 ③検索結果中、ローカル文献のみを絞り込む機能は、審査上役に立つか?また、その理由は? ローカル文献の絞り込み機能は、中韓ともに「審査の役に立つ」が 70%程度であった。また、ローカ ル文献という観点だけではなく、「JP 文献のファミリ文献のみ除外する」という意見も挙がった。 韓国文献検索 中国文献検索 審査に役に立 たない 33% 審査に役に立 たない 27% 審査の役に立 つ 67% 審査の役に立つ 審査に役に立た 6/9名 3/9名 審査の役に立 つ 73% 審査の役に立つ 審査に役に立た 8/11名 3/11名 図 9.2-24ローカル文献絞り込み機能 表 9.2-37ローカル文献絞り込み機能(回答理由) ローカル文献絞り込み 閲覧効率 その他 その他 ○ ○ <所見(メリット)> ・中韓対象の調査は、US や EP、PCT を 一通り調査した後に行うため。 ・中韓独自の引例を探す際に良い。 <所見(メリット)> 対応特許をすぐに閲覧、又は、優先的に 表示する機能は必須 <所見(デメリット)> 回答なし。 <所見(メリット)> ・マーカッシュクレームは、言語の差による ハンデが少ない表記方法のため、原文を 読んでも大意は把握できる。 ・一部重複があっても、全部の範囲を見 直すこともある。 →案件特性、調査状況等により、利用度 や想定される重要性は変わる。 ・ローカル文献で類似文献がヒットした。 ・米国企業から出願されたは翻訳精度が 悪い。 <所見(デメリット)> 回答なし。 <所見(メリット)> ローカル文献でなく、ファミリ情報を用い て、公知のJP文献が存在するものを除くと 良いのでは。 。 <所見(デメリット)> 回答なし。 <所見(デメリット)> ・ローカル文献表示した場合に除かれる 文献が特定できない。 ・文献数が少ないため 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-62 9 結果と考察 e) 考察 類似度順表示をユーザに使用していただいた結果、今後、検索精度が向上するという前提におい ては、類似度順表示により、「審査業務の効率化される」ことがわかった。これは、「業務観点(閲覧効 率の向上)」が満たされるためである。 また、「審査業務の効率化」を更に向上させるためには、以下の要因が重要であることがわかった。 類似判定の可視化 類似度順以外のソート順 スクリーニングし易さの工夫 ア) 類似判定の可視化 「なぜその文献がヒットしたか」「なぜこの類似度順になっているのか」が曖昧だと、審査の再現性が 満たせない。このため、新検索システムでは、類似判定を可視化し、「なぜ」を明確に示し、その判定 結果も別の機会でも再現できるようにする必要がある。また、必要に応じて重み等を自由に変えられる ようにすると良い。 イ) 類似度順以外のソート順 類似度順以外のソート順にもメリットがある。(例えば、出願番号順なら技術の変遷がわかる)このた め、新検索システムでは、一概に類似度順に合わせるのではなく、その他に必要なソート順を調査し、 実装する必要がある。 ウ) スクリーニングのし易さの工夫 機械翻訳した日本語訳よりも、人手で翻訳した日本語訳(JP のファミリ文献)の方が精度は良い。ま た、人手で翻訳した外国語訳(EP のファミリ文献等)の方が読みやすい場合もある。このため、新検索 システムでは、閲覧優先度を設定し、(例えば、JP>EP>US・・・)閲覧優先度順にソートしたり、する 工夫も必要である。 以上を実施することにより、類似度順表示により、閲覧効率が向上し、審査効率全体にも影響すると 考えられる。ただし、モデル検証での検索精度では、著しい効果が得られないため、新検索システム で類似度順表示を実装するには、検索精度の向上が絶対条件である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-63 9 結果と考察 (3) 訳語候補展開 1) 目的 訳語候補展開機能を実装した全文検索の有意性については、『(2)1)検索方式』で述べた通りであ る。文脈を考慮して検索条件を翻訳する自然文検索と同等の効果が確認された。 本項では、訳語候補展開機能において、「訳語を展開する時に翻訳辞書を逆引きした日本語を表 示させる」ことで、「外国語の訳語を適切に理解することが可能であるか」を確認した。 2) 仮説 訳語候補展開時に、単に訳語だけ表示すると、訳語の意味が全くわらかず、適切な訳語を選択で きないと考えられる。ここで、訳語候補に日本語訳を併せて表示することにより、訳語のニュアンスを理 解できると思われる。 どちらが正しいか わからない 日本語訳があるから 違いがわかる 訳語候補一覧 日本語:ウェーハ 1.圆片 2.维夫饼干 訳語候補一覧 日本語:ウェーハ 1.圆片(ウェーハ) 2.维夫饼干(ビスケット) 日本語訳表示なし 日本語訳表示有り 図 9.2-25訳語候補展開機能 3) 方法 ユーザ検証 4 にて、訳語候補展開機能を追加した全文検索を実施していただいた。具体的には、 「訳語候補展開機能の確認」である。このとき、以下のアンケートに回答していただいた。 ①訳語候補の日本語訳表示を行うことで、訳語候補を適切に理解できたか? ②訳語候補展開機能の改善策 尚、訳語候補展開機能は、機能の有効性を確認することが目的のため、中国文献検索のみ対応と した。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-64 9 結果と考察 4) 結果 a) 定性評価 ①訳語候補の日本語訳表示を行うことで、訳語候補を適切に理解できたか? 日本語訳により、適切に訳語を理解できるかは、「概ね理解できた」が 80%を占めた。 回答不能 20% 概ね理解でき た 80% よく理解できた 概ね理解できた 0/5名 4/5名 あまり理解できな 全く理解できない 0/5名 0/5名 変わらない 0/5名 回答不能 1/5名 図 9.2-26日本語訳により訳語候補を適切に理解できる ②訳語候補展開機能の改善策 モデル検証では、辞書の登録語数が少なかったため、「重要な語が訳語候補展開されない」という 意見があった。また、日本語訳だけでなく、「意味合いの違いがわかる機能」があった方が良いという 意見もあった。 表 9.2-38 訳語候補展開結果(定性評価) 項番 1 2 訳語候補展開機能 改善策 ・重要語が訳語候補展開されるよう辞書の用語数を増やす。 ・訳語候補を展開したときに、意味合いの違いが瞬時でわかる機能。 その他 ・どのように訳が展開されているかがわかりやすい。 ・母集団のノイズを減らすのに有効。(検索語の細かいニュアンスで検索結果に差がでるため。) ・適切な訳語が見つからない場合に、試行錯誤的に適切なキーワードを発見するための支援機 能として有効である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-65 9 結果と考察 5) 考察 翻訳辞書を逆引きした日本語訳を表示することにより、「概ね訳語の意味が理解できる」とのことであ った。 ただし、より訳語の意味をわかるようにするには、意味合いの違いを瞬時にわかるようにする必要が ある。これは、以下の要因によるものと考えられる。 同じ日本語訳が表示される a) 同じ日本語訳を表示される 例えば、半導体関連の単語である、「ウェーハ」を条件とすると、「圆片(ウエハ)」「晶片(ウエハ)」 「维夫饼干(ウィグルそもそもビスケット)」の 3 つが展開される。この中で、「维夫饼干」は、その日本語 訳から、半導体関連の単語ではないことがわかる。しかし、「圆片」と「晶片」は、同じ日本誤訳(ウェハ) が表示されているため、どちらが正しいのか、また両方とも正しいのか、判断できない。 このため、新検索システムでは、日本語訳表示以外にも、用例等、意味合いの違いがわかるための 情報を、併せて表示する方法等を検討する必要がある。 また、モデル検証環境では、重要語が訳語候補展開されないという意見があった。訳語候補展開 機能は、辞書に登録された単語がなければ、検索条件のキーワードが翻訳されない。このため、辞書 の充実が大変重要である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-66 9 結果と考察 (4) 検索対象範囲 1) 目的 特許文献の構成において、重要語が記載されている構成部を対象として検索する方がノイズが少 ないと考えられる。このため、検索対象の構成部が「全文」「要約」「実施例」のとき、最も、検索精度が 良い構成部を確認する。 2) 仮説 「実施例」の検索精度が高いと考えられる。「実施例」は、発明の具体的な実施例が記載されている ため、その発明を表す特徴語が多く記載されていると考えられ、また、範囲も最小限のため、ノイズも 少ないと考えられるためである。 3) 方法 業者検証 4 にて、同一本願を「全文」「要約」「実施例」毎に検索し、検索精度(MRR)を算出した。 具体的には、「翻訳技術、検索技術による検索精度向上の検証」の中韓それぞれ 2 つのパターンの 比較から調査した。 表 9.2-39専門用語の重み付け比較パターン 項番 1 2 3 4 5 6 7 作成文書 調査報告書 パターン No. 業② 調査パターン名 検索対象 翻訳方式 検索対象範囲による検索精度の検証 全文 要約 実施例 全文 要約 実施例 全文 コンテンツ翻訳方式 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 キーワード翻訳方式 Rev. 頁 1.0 9-67 結果と考察 4) 結果 a) 定量評価 ア) 中国 分野毎の MRR をみると、分野、翻訳方式を問わず、「要約」の検索精度が良い。 表 9.2-40検索対象毎の検索精度(中国 MRR) 項番 1 2 3 4 5 6 翻訳方式 キーワード A61K 0.2347 0.5822 0.2251 0.2475 0.4943 0.2377 検索対象 全文 要約 実施例 全文 要約 実施例 コンテンツ C07C 0.2784 0.5097 0.2694 0.4172 0.4623 0.4077 C07D 0.0644 0.2212 0.0620 0.1281 0.1650 0.1187 H01L 0.2040 0.3717 0.2001 0.2455 0.3604 0.2394 H04L 0.0854 0.2186 0.0854 0.1127 0.1866 0.1168 平均 0.1830 0.3664 0.1790 0.2278 0.3385 0.2224 検索対象範囲毎の検索精度(中国 キーワード翻訳方式) 1.0 0.9 0.8 0.7 MRR 0.6 0.5822 0.5097 0.5 0.3717 0.4 0.3 0.2784 0.2347 0.3664 0.2694 0.2251 0.2212 0.2040 0.2186 0.2001 0.1830 0.2 0.0644 0.1 0.0854 0.0620 0.1790 0.0854 0.0 A61K C07C C07D 全文 H01L 要約 H04L 平均 実施例 検索対象毎の検索精度(中国 コンテンツ翻訳方式) 1.0 0.9 0.8 0.7 0.6 MRR 9 0.5 0.4943 0.4623 0.4172 0.4077 0.4 0.3 0.3604 0.3385 0.2475 0.2377 0.2455 0.2394 0.1650 0.1281 0.1187 0.2 0.1127 0.2224 0.2278 0.1866 0.1168 0.1 0.0 A61K C07C C07D 全文 H01L 要約 H04L 平均 実施例 図 9.2-27検索対象毎の検索精度(中国) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-68 9 結果と考察 また、キーワード翻訳方式は、全分野にて、要約の有意差(全文との比較、実施例との比較)が認め られた。コンテンツ翻訳方式は、C07C、C07D で有意差が認められなかったが、A61K、H01L、 H04B において有意差が認められた。 表 9.2-41検索対象毎の有意差検定(中国 キーワード翻訳方式) 分野 A61K C07C C07D H01L H04L 平均 検索精度の良い方 要約 要約 要約 要約 要約 要約 有意差(全文との比較) ○ ○ ○ ○ ○ ○ 有意差(実施例との比較 ○ ○ ○ ○ ○ ○ 表 9.2-42検索対象毎の有意差検定(中国 コンテンツ翻訳方式) 分野 A61K C07C C07D H01L H04L 平均 検索精度の良い方 要約 要約 要約 要約 要約 要約 有意差(全文との比較) ○ - - ○ ○ ○ 有意差(実施例との比較 ○ - - ○ ○ ○ イ) 韓国 分野毎の MRR をみると、分野、翻訳方式を問わず、「要約」の検索精度が良い。 表 9.2-43検索対象毎の検索精度(韓国 MRR) 項番 1 2 3 4 5 6 作成文書 調査報告書 翻訳方式 キーワード コンテンツ 検索対象 全文 要約 実施例 全文 要約 実施例 A61K 0.5568 0.7744 0.5465 0.4435 0.7193 0.4046 G06F 0.5064 0.6547 0.4858 0.4972 0.6378 0.4905 H01L 0.5023 0.6021 0.4899 0.2818 0.5480 0.2747 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 H04B 0.4366 0.4864 0.4253 0.4962 0.5356 0.4827 H04N 0.5172 0.5955 0.5130 0.4263 0.5908 0.4191 平均 0.5025 0.6090 0.4904 0.3633 0.5768 0.3536 Rev. 頁 1.0 9-69 結果と考察 検索対象毎の検索精度(韓国 キーワード翻訳方式) 1.0 0.9 0.8 0.7744 0.7 MRR 0.6 0.6547 0.5568 0.5465 0.5064 0.6021 0.4858 0.5023 0.5 0.609 0.5955 0.4899 0.5172 0.4864 0.4366 0.513 0.5025 0.4904 0.4253 0.4 0.3 0.2 0.1 0.0 A61K G06F H01L H04B 全文 要約 H04N 平均 0.5908 0.5768 実施例 検索対象毎の検索精度(韓国 コンテンツ翻訳方式) 1.0 0.9 0.8 0.7193 0.7 0.6378 0.5356 0.6 MRR 9 0.4972 0.5 0.4435 0.548 0.4905 0.4962 0.4827 0.4263 0.4046 0.4 0.2818 0.3 0.4191 0.3633 0.3536 0.2747 0.2 0.1 0.0 A61K G06F H01L 全文 H04B 要約 H04N 平均 実施例 図 9.2-28検索対象毎の検索精度(韓国) また、両翻訳方式ともに、H04B 以外の分野は、要約の有意差(全文との比較、実施例との比較)が 認められたが、H04B については、有意差が認められなかった。 表 9.2-44検索対象毎の有意差検定(韓国 キーワード翻訳方式) 分野 A61K G06F H01L H04B H04N 平均 作成文書 調査報告書 検索精度の良い方 要約 要約 要約 要約 要約 要約 有意差(全文との比較) ○ ○ ○ - ○ ○ 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 有意差(実施例との比較 ○ ○ ○ ○ ○ ○ Rev. 頁 1.0 9-70 9 結果と考察 表 9.2-45検索対象毎の有意差検定(韓国 コンテンツ翻訳方式) 分野 A61K G06F H01L H04B H04N 平均 5) 検索精度の良い方 要約 要約 要約 要約 要約 要約 有意差(全文との比較) ○ ○ ○ - ○ ○ 有意差(実施例との比較 ○ ○ ○ ○ ○ ○ 考察 全パターンにおいて、要約の検索精度が最も良い結果となった。当初の予測では、実施例の検索 精度が最も良いと考えていた。 この原因は、以下が考えられる。 正解データにファミリ文献を使用した 原文データの特性上、実施例をピンポイントで検索できない ア) 正解データにファミリ文献を使用した 業者検証では、ファミリ文献を使用している。このため、ほとんどの単語において、検索課題と正解 データが対応し、マッチング率が高まったものと考えられる。また、対象範囲が狭い方がノイズが少な いため、相乗効果で検索精度が高かったと考えられる。 イ) 原文データの特性により実施例をピンポイントで検索できない。 中国文献、韓国文献ともに、原文 XML データに実施例タグは存在しているが、ほとんど使われて いない。このため、モデル検証では、実施例をピンポイントで検索対象とするのではなく、明細書全文 を検索対象とした。 明細書全文まで範囲を広げると、ノイズが多くでるため、検索精度が低くなったと考えられる。 ただし、「要約」を対象とすると、検索漏れにつながる虞がある。このため、新検索システムでは、基 本的には、「全文」を対象とするべきであると考えられる。 「全文」を対象とした検索は、検索漏れを防止するだけでなく、関連文献が上位にヒットし易いをいう 特性がある。これは、検索された文献群の文章中から、「特徴語」を多く抽出できるため、重みを増や す単語候補が増え、よりその分野に関連する語の重みを増やすことができるからである。審査は、本 願と完全に一致している文献を探すだけでなく、類似性がある程度高い文献も探すため、「全文」を対 象とした検索は、審査に適しているといえる。 しかし、状況に応じて、「要約」や「実施例(今後、実施例タグ整備される前提)」を選択できるように するのも一案である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-71 9 結果と考察 9.2.4 審査関連情報の活用 (1) 書誌情報(IPC) 1) 目的 文献検索条件に IPC 情報(IPC 第 8 版)を用いることが、検索キーとして有効な手段であるかを調 査することが目的である。 2) 仮説 世界共通の検索キーである IPC 第 8 版を用いることは、多言語文献をシームレスに検索でき、先行 技術文献調査の質や効率の向上に有効であると考えられる。 3) 方法 審査官がモデル検証システムを使用し、検索課題への IPC 情報による検索と IPC 情報を使用しな い検索を実施し調査した。評価は審査官記載によるアンケートとモデル検証システムの操作ログより行 った。 4) 結果 アンケートより、「着目する文献の発見のしやすさ」については、「IPC を使用する」への回答が 88% の支持を得た。また、類似文献発見までの時間短縮の可否については、83%が大幅、または少し短 縮するとの回答を得た。 着目する文献の発見のしやすさ IPCを使用 しない検 索 6% 変わらな い 6% IPCを使用 した検索 88% 対象国 中国 韓国 IPCを使用した検索 9/9名 7/9名 IPCを使用しない検索 0/9名 1/9名 変わらない 0/9名 1/9名 図 9.2-29 着目する文献の発見のしやすさ(定性評価) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-72 9 結果と考察 類似文献発見までの時間短縮 変わらな い 17% 大幅に短 縮 28% 少し短縮 55% 対象国 中国 韓国 大幅に短縮 3/9名 2/9名 少し短縮 5/9名 5/9名 変わらない 1/9名 2/9名 少し増加 0/9名 0/9名 大幅に増加 0/9名 0/9名 図 9.2-30 類似文献発見までの時間短縮(定性評価) アンケートによる「IPC を使用する/IPC を使用しない」についての所見は『表 9.2-46 IPC 使用 有無によるユーザ所見(定性評価)』の通りであり、所見からも IPC を使用する場合についての有効性 を肯定する意見が多い。 表 9.2-46 IPC 使用有無によるユーザ所見(定性評価) IPC を使用する IPC を使用しない ・いずれも類似とした文献数は同じだったが、順位、 ・全体的に無関係の分野が多い。 ノイズの少なさは IPC を使用した方が良い。 ・IPC を使用した検索で類似文献が発見できなかった ・類似文献が多く、且つ上位にヒットする。 場合に、IPC を使用せず、範囲を広げて検索する。 ・関連しない分野の文献を事前に排除できることか ・各国で IPC 付与の基準が異なる、あるいは付与方針 ら、相対的に類似判断する文献が減る。 が不明な場合による検索漏れを防ぐ。 ・相手国の IPC 付与の基準を理解していれば、ノイ ・多数の技術分野において利用される技術を検索対 ズの低減につながる。 象とする場合。 ・下位順位文献の技術分野の乖離が少ない。 ・分野横断的な検索が有効な分野でピンポイントに文 ・他の技術分野と関連が低い分野ほど、ノイズの低 献を検索する場合に漏れを防ぐ。 減に役立つ。 ・IPC は不可欠であるが、IPC 使用だけでは引例に 出来る文献が上位に現れない。 <その他> ・どちらも類似文献がヒットしない。 ・IPC を使用する際、サブクラスでは、あまり有意差はなく、メイングループ程度の細かい IPC を使用する必要 あり。 ・H04L 等の通信分野は、隣接分野が多くあるために、ノイズが急増するのではないか。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-73 9 結果と考察 5) 考察 IPC 情報(IPC 第 8 版)を検索キーとして用いることは、審査業務の効率化を図る上で有効な手段 である。これは現状、非英語圏の特許文献に対し FI、ECLA、USPC の分類は付与されておらず、シ ームレスに外国文献を検索するための共通的な検索キーは IPC 以外存在していないためである。 しかし、『表 9.2-46 IPC 使用有無によるユーザ所見(定性評価)』からも見られるように、IPC 情報 を検索に用いる場合、以下の課題が考えられる。 項番 1 2 a) 課題 分野や案件により、指定する IPC 情報の粒度が異なる。 各国で IPC 付与基準が日本と異なる分野が存在する。 分野や案件により、指定する IPC 情報の粒度が異なる。 本検証での指定 IPC はサブクラスまで指定し調査を行った。しかし、分野や案件によって、検索結 果の検索精度に差が発生した。これは、「他の分野と関連性の低い分野」と「隣接分野が多数存在す る分野」が存在するためと考えられる。 ・ サブクラスよりノイズが少ない。また、 ・ IPC を絞ると文献集合が均一な内容 サブグループでは本当に正確なも で、比較的良好な結果が得られる。 のを選択する必要があるため、ある 但し、一部検索漏れとなった文献が 程度絞れる範囲で抑えるのが良い。 ある。 ・ 分野を細かくするに従い徐々に検 索精度が向上する。 ・ 課題の 2/3 は類似すると思われる文 献が 1 位にヒットした。また、類似文 献に付与された IPC はサブグルー プレベルで一致した。 高 ノイズ 少 低 検索漏れ 多 図 9.2-31 IPC の粒度による傾向 『図 9.2-31 IPC の粒度による傾向』のように、IPC の粒度が細かい場合、ノイズが減る傾向にある が、逆に漏れが生じる。適切な粒度は分野や案件により異なるため、基本的な関連分野の検索(クラ ス・サブクラス)から基本的概念の検索(メイングループ・サブグループ)する上で、IPC の適切な粒度 を使い分けることが必要である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-74 9 結果と考察 b) 各国で IPC 付与基準が日本と異なる分野が存在する。 これは、特に新しい分野で各国の IPC 付与基準が異なる傾向にあり、本検証においても検索分野 によりノイズの多い検索結果が得られ、審査官の求める文献が発見できない課題が存在した。 IPC 付与基準が日本と異なる場合、日本基準での IPC 分類にて検索した場合、検索漏れが生じる 可能性がある。また、漏れを防ぐために IPC の上位分類を指定した場合、逆にノイズを多く含む検索 結果となる恐れがある。 以下の例で示すように分野特有の傾向もあり、隣接分野を把握した上で検索することは、IPC 付与 の揺らぎを吸収することが可能と考えられる。 G06F12/16(メモリシステム系の信頼性向上技術)と G06F11(コンピュータ信頼性向上技術)及び G11C29(メモリチップ内部の信頼性向上技術)の区別において、日本では G06F12/16 に付与さ れるものが、外国では G06F11 や G11C に振られることが多い。 しかし、IPC 付与基準の揺らぎを把握していない場合、隣接分野の想定が行えず、試行錯誤を繰り 返すことが考えられる。 c) まとめ 上記2課題を解決するため、MCD に蓄積された分類データを活用し、外国文献に対してシームレ スな検索を実現することが重要である。 IPC 第 8 版は、現在約 7 万項目であり、国内文献の検索に用いられる検索 IPC(FI)の約 19 万項 目と比べ、少ない分類項目であるが、世界共通の検索キー(IPC8)により多言語文献の検索が行える ことは、先行技術文献調査の質や効率の向上が期待できる。 MCD(Master Classification Database) IPC 同盟国の特許文献の分類情報を蓄積したデータベース。各庁にて自国に出願された特許文 献に付与した IPC およびそのバージョン、付与した日等の分類情報を MCD の送付する。また IPC の改正が行われた場合、MCD より割り当てられた既発行文献について、改正に伴う再分類を行い、 そのデータを MCD に送付する。MCD はこれらのデータを一元管理し、各庁は MCD の複製データ を保有してサーチ等に活用することができる。 (特許庁ホームページ内「IPC 第 8 版(2006.01)の概要について」より一部引用) 出典:http://www.jpo.go.jp/shiryou/s_sonota/kokusai_t/pdf/ipc8/ipc8_summary.pdf 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-75 9 結果と考察 (2) ファミリ文献表示 1) 目的 非英語圏の特許文献を参照する際に、その文献に対するファミリ文献および英文抄録、機械翻訳 による日本語訳を表示することで、審査業務の効率化が図れるかを調査することが目的である。 2) 仮説 文献照会時に非英語圏の文献をそのまま参照した場合、その言語を理解していなければ文献理解 は行えない。非英語圏の文献に対し、母国語である日本語、または英語による文献照会が行えること は、文献理解の時間短縮を図り、審査業務の効率化が図れると考えられる。 3) 方法 審査官がモデル検証システムを使用し、文献照会時に表示文献に対するファミリ文献、英文抄録、 機械翻訳による日本語訳の文献を参照して、その効率を調査した。評価は審査官記載によるアンケ ートより行った。 4) 結果 ファミリ文献、英文抄録、日本語訳いずれにおいても、類似判定時間が短縮するという意見が過半 数を大幅に上回った。 ファミリ文献表示による類似判定時間の短縮 100% 不明 不明 不明 90% 少し短縮 変わらない 変わらない 80% 変わらない 70% 60% 50% 少し短縮 少し短縮 少し短縮 40% 大幅に短縮 30% 20% 10% 大幅に短縮 大幅に短縮 大幅に短縮 0% ファミリ文献 表示情報 大幅に短縮 ファミリ文献 3/13名 日本語訳(中国) 2/6名 日本語訳(韓国) 4/5名 英文抄録 2/12名 日本語訳(中国) 少し短縮 7/13名 2/6名 1/5名 8/12名 日本語訳(韓国) 変わらない 2/13名 1/6名 0/5名 1/12名 少し増加 0/13名 0/6名 0/5名 0/12名 英文抄録 大幅に増加 0/13名 0/6名 0/5名 0/12名 不明 1/13名 1/6名 0/5名 1/12名 図 9.2-32 ファミリ文献表示による類似判定時間の短縮(定性評価) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-76 9 結果と考察 5) 考察 非英語圏の特許文献を参照する際に、その文献に対するファミリ文献および英文抄録、機械翻訳 による日本語訳を表示することは、審査業務の効率化を図る手段として有効である。機械翻訳による 日本語訳について中韓を比較した場合、韓国語翻訳の精度の高さが結果に反映されている。 人手による翻訳(日本語、英語)が行われたファミリ文献、英文抄録の表示は、易読性が向上し、文 献理解の時間が短縮され、審査業務の効率化を図る機能であると考えられる。 しかし、ファミリ文献や英文抄録が存在しないローカル文献については、言語を理解していなけれ ば文献理解ができない。その非英語圏の文献に対する日本語訳表示は、新しい引用文献の発見に 繋がり、先行技術調査の質を向上させる重要なツールであると考えられる。 また、より良いスクリーニング環境を実現するため、新検索システムへの導入における改善案(課 題)は『表 9.2-47 新検索システム導入における表示機能改善案』の通りである。 表 9.2-47 新検索システム導入における表示機能改善案 項番 1 2 3 21 改善案(課題) スクリーニング速度の維持 日本語訳の読みやすさの改善 表示レイアウトの改善 4 審査状況や引用文献情報の表示 5 DOCDB の活用21 内容(解決案) 機械翻訳による日本語翻訳速度の向上 機械翻訳による日本語翻訳精度の向上 外国文献に対するファミリ文献、英文抄録、日本語翻訳を 同時に参照可能なユーザインタフェースの改善 現在、SIPO、KIPO では外部公開されていない状況であり、 諸外国機関へのアプローチが必要。 DOCDB のファミリ文献情報を活用したファミリ文献表示。 DOCDB とは、欧州特許庁が提供する約 80 の国/機関で発行される特許文献の書誌情報等を含むデータベースのこと。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-77 9 結果と考察 (3) 分野別辞書 1) 目的 文献検索時に特定分野の専門用語辞書を用いて、検索することの有効性を調査することが目的で ある。 2) 仮説 分野別専門辞書を用いることにより、日本語で入力された条件文を指定分野に特化した専門用語 に翻訳し検索することで、検索精度が向上すると考えられる。 3) 方法 キーワード翻訳データ(原文)への検索時において、分野別専門辞書を使用した検索結果と使用し ない検索結果の比較を行い調査した。評価は審査官記載によるアンケートとモデル検証システムの操 作ログより行った。 また、コンテンツ翻訳データ(日本語)は、分野別専門辞書を用いて翻訳・蓄積を行ったデータであ るが、検索時に分野別専門辞書の使用有無による調査を行うため、実施対象外とした。 4) 結果 本検証において、分野別専門辞書の使用有無を比較する十分な検索精度の差が得られなかった ものの、検索時における分野別専門辞書を使用することが必要である意見が 90%の支持を得た。 分野別専門辞書の必要性 回答不可 10% 必要 90% 必要 9/10名 不要 0/10名 回答不可 1/10名 図 9.2-33 分野別専門辞書の必要性(定性評価) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-78 9 結果と考察 表 9.2-48 分野別専門辞書の使用有無による検索精度(定量評価:MAP) 項番 1 2 5) 翻訳方式 辞書あり 辞書なし A61K 0.0000 0.0000 C07C 0.0000 0.0000 内訳 C07D 0.0909 0.0000 平均 H01L 0.0169 0.0169 H04L 0.2230 0.2230 0.0661 0.0479 考察 分野別専門辞書を用いた検索は必須であると考えられる。しかし、本検証では、分野別辞書の有無 による検索精度の違いを確認することはできなかった。これは、以下の理由が考えられる。 分野別専門辞書の使用有無で、検索クエリに相違がなかった。 これは、上位概念についての条件文である場合や、一般用語による動作についての条件文である 場合、分野別専門辞書に登録された用語が使用されない可能性がある。また、専門用語が分野別専 門fに登録されていない場合は、条件文が分野に特化した訳語へ翻訳されず、検索精度を高めること ができない。 しかし、検索時において専門用語辞書を必要とする支持を受けた結果は、以下のことが考えられ る。 条件文を特定分野の適切な訳語へ翻訳することは、検索精度を高める上で有効である。 多言語文献において、分野独特の単語表現が存在すると考えられ、分野別専門辞書に各国の分 野独特の単語表現を登録し、条件文を適切な訳語へ翻訳し検索することで、検索精度を高め、審査 業務の効率化が図れると考えられる。 しかし、検索精度を高めるためには、分野別専門辞書の整備を大幅に進めることが重要であり、新 検索システムにおける分野別専門辞書の整備が重要な課題である。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-79 9 結果と考察 9.2.5 翻訳精度・検索精度を高めるための工夫 (1) 目的 新検索システムで多言語横断検索が、審査業務の向上を図るための機能的な工夫について検討 し、実現性可否の洗い出しが目的である。 (2) 仮説 多言語横断検索への周辺機能を考慮することで、審査業務の向上を図ること、審査に使える検索 環境の実現が可能であると考えられる。 (3) 方法 弊社実施メンバによる機能レベルの実現性の検討と特許庁ワーキンググループメンバとの全体評 価会合での意見交換、およびアンケートによる評価や意見などの実務観点から、総合的に分析を行っ た。 (4) 結果 多言語横断検索を高めるための工夫についての検討の結果と、アンケートによる評価などから以下 のことが重要である。 現行システムに実装されている機能は多言語横断検索でも実装すべき 検索精度や翻訳精度を高めるための工夫(研究レベルではなく機能レベル)を実装すべき (5) 考察 現行システム機能踏襲および周辺機能を多言語横断検索に実装することは、先行技術文献調査 の質や効率の向上に有効であると考えられる。当然ながら検索精度、翻訳精度の向上は必須である が、検索・翻訳精度向上の補助的な周辺機能を実装することが重要である。 1) 現行システム機能の踏襲 審査業務の質を低下させないことが重要であり、多言語横断検索を用いた外国文献検索において も、現行システムと同等の機能を踏襲する必要がある。 現行システムの検索機能と照会機能について、多言語横断検索の両翻訳方式での実現性を『表 9.2-49 現行機能の踏襲可否(検索機能)』、『表 9.2-50 現行機能の踏襲可否(照会機能)』に示 す。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-80 9 結果と考察 表 9.2-49 現行機能の踏襲可否(検索機能) 項番 1 主要な現行機能(検索/照会)と機能概要 コンテンツ翻訳方式 キーワード翻訳方式 (翻訳された日本語文献) (翻訳前の多言語文献) 全文検索 文献テキストデータに対するキーワード(単語)での検索 ○ 2 △ <理由> <理由> データベース上は日本語のため、JP 公 検索ワード(単語)のため、クエリの訳が一意に 報と同様の扱いで対応可能。 定まらず、ノイズが生じる恐れがある。 <解決策> 訳語候補展開機能を追加し、ユーザが適切な 訳を選択できるようにする。 論理演算式 論理和、論理積、否定を用いた検索式 ○ 3 ○ <理由> <理由> 一般的な検索エンジンならば、製品機能 中国語、韓国語対応の検索エンジンが必要だ の利用で可能。 が、基本的には同左。 近傍検索 2 つの文字列間に存在する文字数および指定された 2 つの文字列の出現順序を指定す る検索(または出現順序を指定しない検索) (語順指定あり) (語順指定あり) △ △ <理由> システム的に対応可能。 ただし、データベース上の翻訳文が、正 しい日本語の語順である必要あり。 (語順指定なし) <理由> システム的には対応可能。 ただし、外国語と日本語の語順が異なるため、 対象言語の構文理解が必要あり。 (語順指定なし) ○ ○ <理由> <理由> 翻訳文の語順が多少前後していても、検 対象言語の文の語順が多少前後していても、 索できる可能性が高い。 検索できる可能性が高い。 検索機能の実現性は、両翻訳方式とも日本語による検索条件文を前提としており、JP 文献と同様 の扱いが可能なコンテンツ翻訳方式がやや高い。 近傍検索で語順を指定する場合など、コンテンツ翻訳方式においても翻訳精度が検索精度に影響 する場合も考えられる。しかし、両翻訳方式への機能踏襲という観点では、システム的に実現可能で ある。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-81 9 結果と考察 表 9.2-50 現行機能の踏襲可否(照会機能) 項番 4 主要な現行機能(検索/照会)と機能概要 コンテンツ翻訳方式 キーワード翻訳方式 (翻訳された日本語文献) (翻訳前の多言語文献) ヒットワード反転・スペクトル表示 検索クエリに対応する文献中の単語(ヒットワード)を反転(表示色反転)させる機能であ る。また文献全体のヒットワード反転分布を示すサーチバーをスペクトル表示という。 (原文) (原文) ○ ○ <理由> <理由> クエリ(日本語)の 1 ワードに対して、複数 同左 の訳語が反転するが、対応箇所の把握 は可能。 (日本語) (日本語) ○ 5 △ <理由> <理由> データベース上は日本語のため、JP 公 システム的には対応可能だが、有効に使えるか 報と同様の扱いで対応可能。 に疑義あり。 例) 対象ワードを選定する場合、 クエリ(日本語) →検索ワード(中国語)で検索 →原文を翻訳して反転(日本語) となる。 日中辞書と中日辞書の内容は、同一では無い ため、日→中→日を行うと、1対N対Mとなり、 検索時には関係ない語まで反転してしまう虞が ある。 スクリーニング性能 検索結果の文献を表示する機能 (原文) (原文) ○ ○ <理由> 原文のまま。性能劣化なし。 <理由> 原文のまま。性能劣化なし。 (日本語) (日本語) ○ × <理由> <理由> データベース上は日本語のため、JP 公 スクリーニング時に翻訳処理が入るため、現行 報と同様の扱いで対応可能。 性能は維持できない。 照会機能を踏襲する場合は、両検索方式ともほぼ同等であるが、スクリーニングでキーワード翻訳 方式文献を日本語表示する際に、翻訳の処理速度が課題となる。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-82 9 結果と考察 2) 検索精度・翻訳精度を高めるための工夫 本調査で検証した機能も含め、審査業務の効率化を図るための機能について検討した。 各機能を『表 9.2-51 検索精度および翻訳精度を高めるための工夫』に示す。 表 9.2-51検索精度および翻訳精度を高めるための工夫 検索精度補助 ①検索式の入力 ②検索結果の表示 検 索 イ ン デ ック ス の 有効活用 ◎ 統制語の有効活用 ・学術用語 ・日・英フリーワード 翻訳精度補助 ③スクリーニング - - ◎ ◎ ◎ ・検索ワードのサジェスト ・文献に予め付与しておくこ とにより、検索漏れを防止 ・訳語の揺れが減り、翻訳精 度向上 ファミリ情報の有効活 ○ 用 サーチ対象国の選定 ・FI/ECLA ・表示優先順序 ・検索範囲の指定 ◎ ◎ 審査関連情報の有 効活用 ・優先権情報 ・他国の引用情報 ・その他情報 類義語/同義語/誤訳 語の有効活用 ◎ ◎ 審査関連情報を用いた検索 検索結果への審査関連情 審査関連情報の補足表示 報の付加表示 ◎ ◎ ◎ ・検索ワードのサジェスト 検索漏れの防止 (検索インデックスの一種) ・誤訳を指定単語へ置換す ることにより、易読性向上。 WPI/英文抄録の活 用 - ◎ ◎ ・人手翻訳を対象にした検 索で、検索漏れを防止。 ・人手翻訳で易読性が向上 図面表示 - ○ ◎ ・検索結果に図面を表示 ・本文と図面が同時に見える UI ◎ ◎ ◎ ・検索条件の多言語入力 ・ニーズの高い出願人名(1 万人程度)を翻訳。 ・文献番号順等、ランキング 表示のキーを選択 ・XML のタグ毎に翻訳→表 示し、待ち時間の軽減 その他 作成文書 調査報告書 ・IPC8 による分類を用いた 検索 ・マルチ分類サーチ手法*1 ・ 閲 覧 優 先 度 ( 国 別 ) を 設 ファミリ文献のターム(FI/F け、易読性を向上*2。 ターム、ECLA、USPC)を ・ファミリを芋づる式にスクリ 活用して横断的に検索す ーニング。 る手法 ・JP 文献がファミリに無い文 献のみ表示 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 ◎ Rev. 頁 1.0 9-83 9 結果と考察 補足: *1 ファミリ情報を活用したマルチ分類サーチ手法 ..CORDO コマンドを用いて, ファミリー範囲を検索 範囲に含める 例) H01H 1/02D/EC and 219/121.38 /UC and 5G026/BA02/FT *2 USC EC FI/FT 通常の案件については, 三極の分類が重なること はない. ..CORDO コマンドを用い て,ファミリーまで検索範囲 に含めると,ファミリーにつ いて有用な文献を検索す ることが可能になる. (Multi-Classification-Sear ch) ファミリ情報を活用した閲覧優先度 国内公報 米国公報 欧州公報 各国ローカル (和抄) (和抄) 文献(和訳) 米国公報 欧州公報 各国ローカル 文献(原語) スクリーニング時に、ファミリ文献に閲覧優先順位を設け、審査官の易読性の高い文献から優先的 に表示を行う方法。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-84 9 結果と考察 9.3 基準値の提示 9.3.1 システムの検索精度 (1) 目的 審査官が審査に使えると判断した時点の検索精度を求め、その解の集合から、多言語横断検索シ ステムに必要な MRR 値(基準値)を算出する。 (2) 方法 以下の流れで検証する。 ① アンケートにて、実施パターン毎に「審査に使えるか否か」を回答していただく。 ② 「審査に使える」と回答した人数の割合と検索精度(MRR)それぞれを算出。 ③ 審査官の支持割合の基準を定義(XX%の審査官が「審査に使える」と判断すれば、 特許庁として「審査に使える」と言える。) ④ ③と一致する時点の検索精度を②から算出し、システムの基準値とする。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-85 結果と考察 (3) 結果 『表 9.3-1 基準値の提示(回答人数と MRR)』に、全検証フェーズで「審査に使える」回答した人数 と、MRR 値である。 表 9.3-1基準値の提示(回答人数と MRR) 項番 1 2 3 4 5 6 7 8 9 10 11 12 13 検証フェーズ 検証 1 検証 2 検証 3 検証 4 回答人数 MRR 2/9 名 2/9 名 5/11 名 2/11 名 2/9 名 6/11 名 0/9 名 0/9 名 1/11 名 1/5 名 1/11 名 1/1 名 0/1 名 0.1885 0.1561 0.3586 0.5086 0.3553 0.5928 0.1321 0.0973 0.3486 0.2278 0.1886 0.3633 0.4955 備考 : 検索条件 言語 翻訳方式 中国 コンテンツ翻訳方式 中国 キーワード翻訳方式 韓国 コンテンツ翻訳方式 韓国 キーワード翻訳方式 中国 キーワード翻訳方式 韓国 キーワード翻訳方式 中国 キーワード翻訳方式 中国 キーワード翻訳方式 韓国 キーワード翻訳方式 中国 コンテンツ翻訳方式 中国 キーワード翻訳方式 韓国 コンテンツ翻訳方式 韓国 キーワード翻訳方式 分野別辞書 あり あり なし なし あり なし あり なし なし あり あり なし なし 検索対象 全文 全文 全文 全文 要約 要約 全文 全文 全文 全文 全文 全文 全文 『図 9.3-1 基準値の提示(グラフ)』に、審査に使える」と回答した人数の割合と検索精度(MRR)の グラフ(Excel の散布図と対数近似を使用)を記載する。グラフをみると、例え、MRR が「1.0」になった としても、審査官の 50%程度しか「審査に使える」という実感が無い、ということとなる。 100% 90% 80% 回答人数(割合) 9 70% 60% 50% 対数 40% 30% 20% 10% 0% 1 .00 0 .95 0 .90 0 .85 0 .80 0 .75 0 .70 0 .65 0 .60 0 .55 0 .50 0 .45 0 .40 0 .35 0 .30 0 .25 0 .20 0 .15 0 .10 0 .05 0 .00 MRR値 図 9.3-1基準値の提示(グラフ) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-86 9 結果と考察 (4) 考察 今回実施した方法では、基準値は求めることができない。「MRR = 1.0」という値は、数千件の検索 課題の検索結果において、正解データが全て 1 位でなければならなず、非現実的な値である。 つまり、「審査に使える」観点と MRR がミスマッチを起こしている。原因は以下が考えられる。 正解データが 1 件しかない ユーザの検索課題に正解が無い可能性がある 翻訳精度が低い 1) 正解データが 1 件しかない 中韓に、整理標準化データのような引例関係がわかるデータが無い。このため、モデル検証では、 ファミリ文献を正解としている。しかし、審査では、正解が 1 件とは限らず、ほとんどの場合において正 解は複数存在する。このため、検証方法が、審査行為とミスマッチを起こしていると考えられる。 2) ユーザの検索課題に正解が無い可能性がある モデル検証では、ユーザの負担軽減のため、正解データが必ず存在するとは限らない条件3(詳細 は、『7.4.1(2)検索課題抽出の条件』を参照。)で検索課題を抽出した。 ユーザの検索課題に正解が存在しないと、業者検証での MRR 値とミスマッチを起こすためこのよう な結果になったと考えられる。 3) 翻訳精度が低い モデル検証では、翻訳精度が大変低かった。翻訳精度が低いことが「審査に使えない」につながる には、2 つの観点がある。 文献理解ができないから「審査に使えない」 その文献が本当に正解か否かがわからない a) 文献理解ができないから「審査に使えない」 「審査に使える」という観点は、検索精度だけではなく、文献理解ができるか否かも大変重要である。 しかし、MRR は、検索精度の観点しか持ち合わせていないため、ミスマッチが起きたと考えられる。 b) その文献が本当に正解か否かがわからない 翻訳精度が低いと、ヒットした文献が本当に正解であるか、判断できない。そのため、上位に正解文 献がヒットしていても「審査に使えない」と判断される可能性、逆に、上位に正解文献がヒットしなくても、 「審査に使える」と判断される可能性がある。このため、MRR とミスマッチが起きたと考えられる。 今後、同様の検証を実施する場合には、①翻訳精度が向上した段階で、②課題に対する正解が引 用関係である文献集合(外国文献)を大規模に作成し、その集合を用いて検証する必要がある。 3 例えば、DBに蓄積したデータ中に、ファミリ文献が存在する文献。この条件と『7.4.1(2)検索課題抽出の条件』を満たす文献が存在し なかったため、「正解データが必ず存在する」と言えなくなった。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-87 9 結果と考察 9.4 審査官の使用感 9.4.1 審査業務への有効性 (1) 目的 多言語横断検索自体が特許庁の審査に使えるものなのか否かを確認する。また、使えるものとする ためにどのような工夫が必要なのか確認する。 (2) 方法 ユーザ検証 4 終了後のアンケートにおいて、「多言語横断検索が審査に使えるか」また、「審査に使 うための課題は何か」をヒアリングする。 尚、アンケートの質問は以下である。 ① モデル検証から総合判断し、多言語横断検索は審査に使えるか?また、その理由は? ② 多言語横断検索を言語拡張して審査に使いたいと思うか?また、その理由は? ③ 多言語横断検索に必要な機能や意見、改善すべき点、課題等 ④ 外国文献検索(特に非英語圏)のあり方 また、全体評価会合にて、アンケートにて得られた意見から、多言語横断検索を審査に使えるもの とするための工夫を検討する。 尚、全体評価会合での議題は以下である。 ① 翻訳精度を高めるための工夫 ② 現行検索機能の踏襲可否 ③ 検索精度を高めるための工夫 ④ ①~③のまとめ 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-88 9 結果と考察 (3) 結果 1) 定性評価 a) アンケート回答 ①モデル検証から総合判断し、多言語横断検索は審査に使えるか?また、その理由は? 中国は、33%が「審査に使える」と回答し、韓国では、60%が「審査に使える」と回答した。 理由としても、検索精度が必要な精度を満たしていないためという回答が多かった。 中国 韓国 中国 韓国 どちらともいえ ない 50% どちらともいえ ない 20% 使える 33% 使える 60% 使えない 20% 使えない 17% 言語 中国 韓国 使える 2/6名 3/5名 使えない 1/6名 1/5名 どちらともいえない 3/6名 1/5名 図 9.4-1多言語横断検索は審査に使えるか 表 9.4-1多言語横断検索が審査に使えるか(回答理由) 中国文献検索 韓国文献検索 ○ ◎ <所見(プラス)> ・今後改良が進むと期待される場合には非常に有 効。 ・モデル検証に代わるツールがないため使いたい。 但し、実務から見ると課題も多い。 ・感覚的には、ワード分野に適した分野とそうでない 分野がある。 <所見(プラス)> ・それなりに特徴的な単語がある場合はヒットするよ うに見える。 ・完璧な結果は得られないものの、通常の検索を補 完するという点では一定の効果がある。 ・中韓文献を日本語で読めるようになるため、文献 理解が容易になり、技術の IPC 付与状況の確認も 簡単になると思われる。 <所見(マイナス)> ・検索の面でも文献理解の面でも有効なレベルにな い。 作成文書 調査報告書 <所見(マイナス)> ・今回の検証では審査に使えるか否かの判断が出 来るほどの印象はない。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-89 9 結果と考察 ②多言語横断検索を言語拡張して審査に使いたいと思うか?また、その理由は? 「中韓以外でも使いたい」という意見が中韓ともに、80%以上あった。また、言語拡張のニーズがある 言語は、英語、ドイツ語、フランス語と、特許文献に使用される上位言語が多かった。ただし、今後、翻 訳精度、検索精度、翻訳スピードの問題点が解決する必要がある。 使いたくない 18% 中韓以外でも 使いたい 82% 中韓以外でも使いた 9/11名 中韓で使いたい 0/11名 使いたくない 2/11名 図 9.4-2言語拡張のニーズ 表 9.4-2言語拡張のニーズ(回答理由) 言語拡張のニーズ <所見(言語)> ・英語ではうまく機能するのでは。 ・英語文献の概念検索に興味がある。精度によるが、需要はあるのでは。 ・ドイツ語は特許文献で用いられる上位語のため、適用することもあり得る。 ・英仏独にも関心がある。 ・翻訳精度によるが、ロシア語等アルファベット以外の文字は判読が困難な言語 <所見(システムの課題)> ・文献照会スピードが担保されるという条件つきで。 ・実際に審査を想定したシステムを作れば使いたいと思うかも。 ・JPO が、EPO の欧州機械翻訳プログラム(EMPT)のリソースを使えるのであれば、それらよりも技術的な 優位性が必要。 <所見(その他)> ・日本語の方が理解しやすい。 ・技術分野や案件によってサーチに適した検索ツールは異なるため、選択肢が多いほうが良い。 ・他の言語に拡張したとしても審査での利用レベルにはならない。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-90 9 結果と考察 ③多言語横断検索に必要な機能や意見、改善すべき点、課題等 韓国文献は、機能の追加への意見が多くあったが、中国文献は、機能よりもまず、翻訳精度を大幅 に向上させないといけない、という意見が多くあった。 また。必要な機能については、現行検索機能に実装されている、「ヒットワード反転機能」「近傍検 索」「論理式演算」や、「バックグラウンドで処理する検索式を表示」「ローカルで簡単に誤訳を修正す る機能」が必要という意見が多くあった。 表 9.4-3多言語横断検索の課題等 中国文献検索 △ ~技術の進歩が必要~ <所見(必要な機能)> ・ヒットワード反転機能 ・DB に投げる検索式を展開する機能 韓国文献検索 ○ ~機能の追加が必要~ <所見(必要な機能)> ・ヒットワード反転機能 ・DB に投げる検索式を展開する機能 ・近傍検索や AND/OR 検索機能。 <所見(課題)> ・ローカルで簡単に修正できる辞書を用意して、審 ・文献照会に分単位の時間を要すならば、非常にス 査官が少し操作するだけで次回の翻訳文表示か トレスであり、業務では到底使用できない。 ら正しい訳語が表示される機能 ・中国語は、翻訳技術が発達しない限り、審査レベ ルへの到達は厳しい。 <所見(課題)> ・技術用語の翻訳というよりも、まずは通常の文章の ・翻訳精度を向上させることが大きな課題。 訳が自然に出来る程度に精度を向上させるべき。 ・まずは翻訳精度と検索精度の向上に力を注ぐべ ・翻訳精度を向上させることが大きな課題。 き。基本機能が動かないのにオプション機能を充 ・辞書をどのように生成させるかが大きな課題。 実させても誰も使わない。 →特許庁において組織的かつ計画的に対応が必 ・現在の翻訳精度では読みづらく、細かい動作まで 要な長期的課題。 理解しようとするとかなり多くの時間がかかる。 <所見(その他)> ・現在の翻訳レベルでは、キーワード検索をベース <所見(その他)> として、それに翻訳機能を足し合わせたようなシス ・クラスタ検索の機能と組み合わせて使うといろいろ な使い方ができそう。 テムが適している。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-91 9 結果と考察 ④外国文献検索(特に非英語圏)のあり方 中国文献検索では、やはり検索精度が低いため、現在の翻訳精度では、ユーザが努力をしないと 審査には使えない。ただし、現在、中国文献を検索するシステムがないため、ニーズはある。 韓国文献検索では、翻訳精度がある程度良いため、比較的実現が近いという意見であった。 言語を問わず、外国文献検索全般の意見としては、使用頻度が高い分野に特化するのも一案をい う意見があった。 表 9.4-4外国文献検索のあり方 中国文献検索 韓国文献検索 <所見> <所見> ・中国の翻訳結果は文意が捉えにくいため、技術用 ・韓国語の機械翻訳の結果が良いためある程度の 語からその技術的な前提や文意を推定し補って読 辞書構築が進めば実用化も近い。 み進めるという使い方になる。 ・前提が分かっている分野であれば、モデル検証の 機械翻訳でもまあまあ使える。 ・似ている文献があるかどうかを大雑把に調べる場 合、本システムが無いよりはあったほうが良い。 <共通的な所見> ・ストレスのない、完成度の高いシステムが必要。 ・拒絶理由を構成する際の機械翻訳文献の証拠性に疑義がある。 ・人手の翻訳結果が必要ならば、費用対効果や効率性の観点から外国の引用例を使いにくくする原因とな り得る。 ・英語圏の外国文献ですらあまり引用しない分野では、非英語圏の文献はほとんど利用されないと思うた め、非英語圏の文献を使う可能性がある分野に特化するのも一案。 ・翻訳された外国文献の F ターム設定を行うことができれば、さらに検索しやすい。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-92 9 結果と考察 b) 全体評価会合 ① 翻訳精度を高めるための工夫 翻訳精度を高める工夫として、i) 辞書整備、ii) 辞書を補助する機能の 2 つの観点が挙がった。 i) 辞書の整備は、大規模に登録するために、英語翻訳辞書を途中に挟む案も可能である。 また、ii) 辞書を補助する機能として、誤訳をローカルで修正する機能が挙げられる。これは、誤訳 を審査官が発見することが難しいが、ファミリ文献と比較することで、ある程度傾向をつかむことは可能 である。 表 9.4-5翻訳精度を高めるための工夫(全体評価会合) 中国文献検索 韓国文献検索 <所見> <所見> ・中国文献が今後も特許分野で優位であるか未 ・韓国語翻訳では、同音異義語が単語の後ろに 知。(現在は出願件数も技術レベルも向上中) ついているため、とても読みにくい。 <所見(共通的な意見)> ・誤訳をローカルで修正する機能 誤訳を発見するには、日本から出願された文献を比較すれば、誤訳の傾向がわかる。 ・外来語の効果的な辞書登録 表音文字(音を当てた文字を含む)で表すものは、英韓、英中辞書と日中辞書を使用することで効果 的に登録できる。 つまり、韓国語は可能、中国語は、人名・地名は表音文字で表すことが多いので可能。ただし、中国 語の専門用語は、意味を当てた文字で表すことが多いので難しい。 ・どの語がどう訳されているかがわかる仕組みがあれば、誤訳の調査をすることは可能。 ・化学物質の名称は、化学事典並みに登録する必要がある。 ・H01L 分野は、分野の幅が広いため、FI ハンドブック等、狭い範囲で辞書を構築するべき。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-93 9 結果と考察 ② 現行検索機能の踏襲可否 多言語横断検索を現行検索機能と同等に使用するための工夫を検討した。特に近傍検索は、単 一言語検索の場合と比較して、それ程効果を実感できないのでは、という考えがあったが、語順を指 定しない近傍検索では、日本語と外国語で文章の構成が異なっていても効果はあると考えられる。 表 9.4-6現行検索機能の踏襲可否(全体評価会合) 中国文献検索 韓国文献検索 <所見> <所見> ・検索結果に図面を表示 回答なし。 担当分野の中国の技術レベルがわかると、どの 程度調査すべきかがわかるため、必要。 <所見(共通的な意見)> ・近傍検索 語順の指定をする近傍検索は、効果が低い可能性があるが、語順の指定をしない検索では、効果が あるのでは。また、化学物質は、単語の途中で区切られることが多い(例えば、「エチルメチルエーテ ル」が「エチル」「メチル」「エーテル」)ため、近傍検索は必須。 ・出願人名の翻訳 出願件数の多い上位 1 万人分を辞書に登録する等すべき。 ・最新の辞書で検索を行いたい 誤訳をローカルで修正しても、辞書更改をしなければ検索ではヒットしない。ただし、キーワード翻訳 方式は、スクリーニング時のレスポンス性能がネック。 → 検索 : キーワード翻訳方式 表示 : コンテンツ翻訳方式 ・スクリーニング時間 化学系は、照会に 5~10 分かかる。翻訳の終わった部分から順次表示すべき。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-94 9 結果と考察 ③ 検索精度を高めるための工夫 検索精度を高めるためには、コンテンツ翻訳方式とキーワード翻訳方式以外の翻訳方式は、まだ確 立されていないため、やはり、コンテンツ翻訳方式とキーワード翻訳方式の検索精度を高めるための 工夫が必要である。また、分野によっては、多言語横断検索に適さない分野も存在するため、初期の 段階では、ニーズが高い分野に絞るのも一案である。 表 9.4-7検索精度を高めるための工夫(全体評価会合) 中国文献検索 <所見> 回答なし。 韓国文献検索 <所見> ・韓国語翻訳では、同音異義語が単語の後ろに ついているため、とても読みにくい。 <所見(共通的な意見)> ・コンテンツ翻訳方式とキーワード翻訳方式以外の方式 検索用に英語翻訳された文献を使用し、照会用に原文から日本語にする方式(中韓言語方式)があ るが、まだ確立されていない技術。また、間に別の言語を挟むため、翻訳精度が低下する。 ・長い目で見れば自然文検索も良いが、現在は全文検索に注力すべき ・コンテンツ翻訳方式の方がコストがかからない キーワード翻訳方式は、辞書の整備が両方向で必要。また、検索エンジンも多言語対応が必要。 ・多言語横断検索は、プロトコル分野は適さない。分野を絞るのも一案。 ④ ①~③のまとめ EPO はコンテンツ翻訳方式で、五極ではコンテンツ翻訳方式が主流である。ただし、やはり重要な 部分については、人手翻訳を参考としているため、機械翻訳の文献だけで、引用するか否かを決定 するのは難しい。 表 9.4-8全体評価会合まとめ 全体評価会合まとめ <所見(共通的な意見)> ・EPO の日本語文献検索 機械翻訳によるコンテンツ翻訳方式を採用しており、重要な部分は人手で翻訳している。 ・翻訳精度をと翻訳速度のトレードオフ 形態素解析でなく、単語区切りで翻訳(単語を置き換えるだけ)することにより、翻訳速度を 1 桁向上 させることは可能。ただし、翻訳精度は期待できない。 ・検索精度が今一つでも、翻訳精度が良ければ、WPI で発見した文献を翻訳するのに効果的。 ・WPI との違いは、全文を対象に検索できること。また、WPI は中韓の蓄積範囲も狭い。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-95 9 結果と考察 (4) 考察 中国、韓国共に、将来、翻訳精度、検索精度が向上する、という前提で、「審査に使える」という結果 となった。韓国文献検索の実現は比較的簡単で、現行レベルの機能を用意することで審査に使えると 考えられる。しかし、中国文献検索は、課題が山積している。 原因は以下が考えられる。 中国語文献の翻訳精度が低い 現行検索機能が踏襲されなかった 1) 中国語文献の翻訳精度が低い 中国語翻訳と韓国語翻訳は、その特性の違いから、翻訳精度の差が大きい。構文解析ひとつをと っても、中国語は、単語の切れ目が明示されていないのに対し、韓国語は、語間をスペースで区切る ため、簡単に単語区切りができる。 表 9.4-9中韓の言語特性(構文解析のし易さ) 言語 中国語 特性 以下の要素もあり、世界中の言語の中で最も翻訳処理が難しい言語。 ①単語の切れ目が明示されていない。 例:日本語 世界をリードする新技術を絶え間なく開発する。 例:中国語 不断开发引领世界的新技术 ○正解 ○ ×単語切り 失敗例 韓国語 不断 (d) 不 (d) 断 (d,v) 开发 (v) 开 (q,v) 断开 (v) 发 (q,v) 引领 (v) 引 (q,v) 领 (q,v) 世界 (n) 世 (n) 的 (u) 新 (a) 技术 (n) ○ 界 (n) 发引 (v) 韓国語の語順は、日本語と良く似ており、また文節をスペースで区切るため、翻訳精 度は比較的高い。 例:日本語 例:韓国語 世界をリードする新技術を絶え間なく開発する。 세계를 리드하는 새기술을 끊임없이 개발한다 世界を リードする 新しい技術を 絶えず 開発する。 翻訳精度が低いと、検索精度も低く、また、文献理解も難しくなるため、そのまま審査に使うのは、難 しい。しかし、翻訳精度は、一朝一夕で向上するものではなく、研究が進むのを待たなければならない。 このため、翻訳精度を向上するための工夫を機能レベルで実装する必要がある。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-96 9 結果と考察 2) 現行検索機能の踏襲 現行機能がモデル検証で実装されなかったためと考えられる。本来、近傍検索等の検索条件作成 に関わる機能が実装されないと、検索精度も低くなり、また、ヒットワード反転機能等の検索結果表示 に関わる機能が実装されないと、そもそも検索された文献が正解か否かの判断が難しくなる。 このため、現行検索機能の実装は、確実に実施するべきである。 全体評価会合では、翻訳精度、検索精度を向上させるための工夫や現行検索機能の踏襲につい て検討した。現行機能を確実に実装するのはもちろんのこと、辞書の用語登録を効率的にする案も出 された。 尚、翻訳精度、検索精度を向上させるための工夫についての詳細は、『9.2.5翻訳精度・検索精度 を高めるための工夫』で述べている。 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-97 9 結果と考察 9.5 システムの実現性 9.5.1 対象言語のスケーラビリティ システムの実現性について具体的には、『11 検索系最適化における多言語横断検索システムの 構成案』で記述している。今回は、対象言語を増やす場合における基本的な考え方や対応課題につ いて検討した。 (1) 一般的な考え方 多言語横断検索において、新しい言語を拡張する場合の基本的な考え方は『表 9.5-1 言語拡張 時における一般的な考え方』の通りである。大きく4つ観点より、コンテンツ翻訳方式、キーワード翻訳 方式それぞれについて記載する。 表 9.5-1 言語拡張時における一般的な考え方 項番 1 2 3 4 観点 翻訳エンジン コンテンツ翻訳方式 キーワード翻訳方式 △ × 片方向の翻訳が必要である。 ・拡張語→日本語翻訳(蓄積時) 双方向の翻訳が必要である。 ・拡張語→日本語翻訳(表示時) ・日本語→拡張語翻訳(検索時) 翻訳辞書 (専門辞書) △ × 片方向の辞書が必要である。 ・拡張語→日本語辞書 双方向の辞書が必要である。 ・拡張語→日本語辞書 ・日本語→拡張語辞書 検索エンジン ○ × ・他の言語同様に日本語での蓄積 ・拡張言語への対応が必要 文書中に用いられる単語の統計的性質 は言語毎に異なるため、言語毎にチュー ニングが必要である。 ○ △ ・他の言語同様に日本語での蓄積 ・蓄積時に統一する場合は文字コードコ ンバート処理。表示時対応する場合は表 示ツールの文字コード対応が必要 照会対応 凡例:○:対応なし、△:対応あり(規模小)、×:対応あり(規模大) 作成文書 調査報告書 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-98 9 結果と考察 (2) 多言語対応の課題 多言語への拡張を行う場合、4つの基本的な考え方のもと、次の『表 9.5-2 多言語拡張時におけ る課題』に示す各課題への考慮も必要である。 表 9.5-2 多言語拡張時における課題 項番 【翻訳エンジン】 1 課題 内容 日本語翻訳可能な翻訳エンジンが 辞書拡張対応可能な「拡張言語→日本語」(キーワード翻訳時: 必要である。 「日本語→拡張言語」)の翻訳エンジンが必要である。 【翻訳辞書(専門辞書)】 2 拡張言語に対応する分野別専門 辞書作成のための対訳データ(日本語・拡張言語)の入手が困 辞書の整備が必要である。 難である。また、対訳の精度についても考慮する必要がある。 【検索エンジン】 3-1 非英語圏言語に対応する検索エン 国内ベンダ製品では、基本的に日本語または英語対応が多く、 ジンが少ない。 非英語圏対応ベンダ製品が少ない。 外国ベンダ製品の使用も考えられるが、外国ベンダのエンジニ アも含めた導入・構築の検討が必要である。 3-2 言語毎のチューニングが必要であ 各言語は特徴が異なり、検索精度を高めるため言語毎に専門 る。 エンジニアによるチューニングが必要である。 【照会対応】 4 XML データの表示対応 各国の XML タグ形式が異なるため、スクリーニング表示の際に 各国データへの表示対応(スタイルシートなど)が必要である。 また、表示ツールにより表示文字コード対応が必要である。 【チューニング要素】 5 シソーラス辞書(訳し分け規則) 拡張言語毎にシソーラス辞書が必要である。 【データ蓄積】 6 文字コードコンバート対応 作成文書 調査報告書 原文データを統一した文字コードで蓄積を行う場合に、拡張言 語文字コードのコンバート処理が必要である。 変換不能コードの調査やコード変換テーブルの作成等が必要 である。 多言語横断検索技術に関する 次世代検索システム開発に向けた調査 Rev. 頁 1.0 9-99