Comments
Description
Transcript
特許情報処理の立場から - C
MELT upフォーラム 2014年7月30日 特許情報処理の立場から 横井 俊夫 一般財団法人日本特許情報機構特許情報研究所顧問 東京工科大学名誉教授 特許情報・特許情報処理 • 良質なビックデータ 6000万件の特許文書の体系だった蓄積、特許分類(IPC、Fターム、ファイルイ ンデックス)は実運用されている最大規模の産業オントロジー • 特許文書は法的産業文書の代表例 法的産業文書:特許文書、知財文書、契約書、規約・定款、 コンプライアンス関連文書等々 厳格な文章(解釈範囲を限定し厳格に伝える文章) 正確な文章:学術文書、技術文書、業務文書、報道記事 印象深い文章:文学作品 • 法的分野としては、ICT利用の先進分野 機械翻訳、特許検索、特許分類、パテントマップ、特許電子図書館 特許情報処理の課題 グローバル化とICT化に向けた課題→いずれ世界特許庁に • 守りの特許から戦える特許へ →国内向け権利取得からグローバルな権利行使へ 権利取得:特許庁に出願し、特許権を取得 権利行使:権利を主張し、特許侵害調査・ライセンス交渉・特許裁判に対応 (実質的に権利行使できない、権利行使を前提としない特許が多い) • 開かれた特許へ 多分野に広く開かれた特許 諸外国語に翻訳できる特許 特許情報処理を高性能化できる特許 • 開かれた日本語へ 諸分野に開かれた日本語 高精度に翻訳できる日本語 日本語処理を高性能化できる日本語 ↑ ↑ 特許情報処理の課題の基底に日本語・日本語処理の課題がある 特許文書の外国出願・参照用翻訳 →高精度翻訳(高度な人手翻訳、知財翻訳ビジネス) • 特許翻訳の種類 • 出願用翻訳(出願に先立って行われる翻訳) • 参照用翻訳(日本語で出願された内容を証明するための翻訳) PCT出願、原語出願、優先権証明書等 • 特許翻訳の課題 • 和文特許文書に忠実な翻訳(正確性、明確性、簡潔性、一貫性、遵守性)が求め られる[機械翻訳のそのままの利用は不可] • 日本語文章上の課題によって直訳では適切な訳文が得られない • 知財翻訳者の永年のノウハウが日本語文章上の課題を解消してきた • 日英翻訳にはノウハウの蓄積があるが、日中翻訳の蓄積は希薄である 日本の特許文書 【特許文書】 【書類名】 明細書 ← 技術文書 【書類名】 特許請求の範囲 ← 権利文書 【書類名】 要約書 ← 付属文書 【書類名】 特許請求の範囲 【請求項1】 <独立請求項>。 【請求項2】 <従属請求項>。 【請求項3】 <従属請求項>。 ・・・ 【書類名】 明細書/Description 【発明の名称】/Title of Invention 【技術分野】/Technical Field 【背景技術】/Background Art 【先行技術文献】/Citation List 【特許文献】/Patent Literature 【非特許文献】/Non Patent Literature 【発明の概要】/Summary of Invention 【発明が解決しようとする課題】/Technical Problem 【課題を解決するための手段】/Solution to Problem 【発明の効果】/Advantageous Effects of Invention 【図面の簡単な説明】/Brief Description of Drawings 【発明を実施するための形態】/Description of Embodiments 【産業上の利用可能性】/Industrial Applicability 【符号の説明】/Reference Signs List (米国特許出願における英文クレーム) WHAT IS CLAIMED IS: 【書類名】 特許請求の範囲 【請求項1】 <独立請求項>。 【請求項2】 <従属請求項>。 【請求項3】 <従属請求項>。 ・・・ 1. <independent-claim>. 2. <dependent-claim>. 3. <dependent-claim>. ・・・ (欧州特許出願・PCT出願における英文クレー ム、EU特許庁の作業言語は英独仏語) CLAIM(S) 1. <independent-claim>. 2. <dependent-claim>. 3. <dependent-claim>. ・・・ (中国特許出願における中文クレーム) 权利要求书 1. <独立权利要求>。 2. <从属权利要求>。 3. <从属权利要求>。 ・・・ 請求項文の課題 • 容認性の悪い一文(一名詞句)表記 Kimballの二文制約(中央埋め込み文は2段まで)に反する長文 英文Claimも一名詞句表記、ただし、英語の表現特性により二文制約に反しない (修飾節や修飾句が被修飾語の後に来る英語と前に来る日本語) • 権利範囲を拡大するための文章術 発明を構成する技術要素を少なくし、上位概念化する 新規造語が多くなる傾向、日本語の曖昧さに依存する傾向 (権利範囲の拡大は論理的で翻訳できるものでなければならない) • 慣習的難解表現 漢語調(漢文訓読体)文章、特許特有用語の使用 • 特許文書全体の日本語文章課題の源 請求項文が明細書や要約書に転用される • 作成困難、読解困難、翻訳困難、専門家でもミスる 構造化クレームを用いる請求項文ライティング 機械翻訳を活用する高精度多言語翻訳 • 構造化言語 • 構造を明示化する言語形式(グラフ表記、テキスト表記) • 構造化日本語、構造化英語、構造化中国語等々、一方、通常の言語は、線状化日本 語、線状化英語、線状化中国語等々 • 基本構造は、各国言語に共通であるとしてよい • 通常のテキスト(線状化言語による線状化テキスト)との手順だった相互変換 • 情報の表現能力の観点からは、制限言語ではない • 構造化プログラミングやオブジェクト指向言語に対応 • 構造化すべき構造は、情報伝達構造 • 擬似対話構造(文章表現とは、書き手と想定する読み手との擬似的な対話) • 参照構造(通常テキストの照応関係を一般化) • 範囲構造(修飾域やスコープ等を一般化) • 構造化言語適用の成功事例が構造化クレーム ライティングの全体プロセス 発明 内容 翻訳原稿 構造化 クレーム A’.特許請求の範囲の基本設計 基本 設計案 訳せる日本語へ A.構造化クレー ムの作成 和文構造化 クレーム B.線状化(読む) C.知財翻訳 +機械翻訳 (英・中・韓) 英文構造化 クレーム D.線状化(読む) 請求項文 名詞句形式文 連文形式文 複文形式文 名詞句形式 英文クレーム 【書類名】 特許請求の範囲 【書類名】 明細書、要約書 WHAT IS CLAIMED IS: クレーム基本パターンから実現パターンへ 【独立請求項:<請求項番号>】 それが <装置> 基本パターン を選ぶ <装置>である <問い> それが備えるのが <要素1> <概要説明> <問い1> <説明1> <要素2> <問い2> <説明2> 実現パターンへ書き換える 【独立請求項:1】 通信端末 それが備えるのが 通知多イミング判断部 <問い1> 返却要否判断部 ヘッダー変更部 <説明1> <問い2> 送信部 <説明2> <問い3> <説明3> <問い4> <説明4> 和文構造化クレームに仕上げる 【独立請求項:1】 通信端末 それが備えるのが 通知多イミング判断部-1 返却要否判断部-2 ヘッダー変更部-3 それが 配信日時-12が到来しているか否かを判断する それが 電子メール-5のヘッダー-9≺5により指定されている 送信部 電子メールを メール受信サーバ-4から受信している それが 電子メール-6←5について、受信メモリ-13に保持 するか或いはメール受信サーバ-4へ返却するか を判断する 電子メールが 通知タイミング判断部-1において配信日時-12が到 来していないと判断されている それが 電子メール-7←6について、ヘッダー-10≺7を変更する 電子メールを 返却要否判断部-2においてメール受信サーバ4へ返却すると判断されている それが 電子メール-8←7をメール送信サーバへ送信する 電子メールの ヘッダー-11≺8がヘッダー変更部-3において 変更されている 本請求項例は、「Japio仮想 特許明細書」による 構造化クレームを読む(線状化) 【独立請求項:1】 メール受信サーバ-4から受信した電子メール-5のヘッダー-9≺5により 指定されている配信日時-12が到来しているか否かを判断する通知タ イミング判断部-1と、 通知タイミング判断部-1において配信日時-12が到来していないと判 断された電子メール-6←5について、受信メモリ-13に保持するか或い はメール受信サーバ-4へ返却するかを判断する返却要否判断部-2と、 返却要否判断部-2においてメール受信サーバ-4へ返却すると判断され た電子メール-7←6について、ヘッダー-10≺7を変更するヘッダー変更 部-3と、 ヘッダー-11≺8がヘッダー変更部-3において変更された電子メール8←7をメール送信サーバへ送信する送信部 を備える通信端末 名詞句形式 へと読む 【請求項 1】 メール受信サーバから受信した電子メールのヘッダーにより指定されている配信日時 が到来しているか否かを判断する通知タイミング判断部と、 その通知タイミング判断部において配信日時が到来していないと判断された電子メー ルについて、受信メモリに保持するか或いは上記メール受信サーバへ返却するかを判 断する返却要否判断部と、 その返却要否判断部において上記メール受信サーバへ返却すると判断された電子メー ルについて、その電子メールのヘッダーを変更するヘッダー変更部と、 そのヘッダー変更部においてヘッダーが変更された電子メールをメール送信サーバへ 送信する送信部を備える通信端末。 請求項文が 書き上がる 翻訳原稿用構造化クレームに言い換える 【独立請求項:1】 通信端末 それが備えるのが 通知多イミング判断部-1 返却要否判断部-2 ヘッダー変更部-3 それが 配信日時-12が到来しているか否かを判断する それが 電子メール-5のヘッダー-9≺5により指定されている 送信部 電子メールが メール受信サーバ-4から受信されている それが 電子メール-6←5を受信メモリ-13に保持するか、 或いは、電子メール-6←5をメール受信サーバ-4 へ返却するかを判断する 電子メールの配信日時が 到来していないと通知タイミング判断部-1によっ て判断されている それが 電子メール-7←6のヘッダー-10≺7を変更する 電子メールが メール受信サーバ-4へ返却されると返却要否 判断部-2によって判断されている それが 電子メール-8←7をメール送信サーバへ送信する 電子メールのヘッダーが ヘッダー変更部-3によって変更されている 翻訳原稿への言い換え [構造化言語のテキスト形式表記] 「→電子メールを/メール受信サーバ-4から受信している」 「→電子メールが/メール受信サーバ-4から受信されている」 「→それが/電子メール-6←5について、受信メモリ-13に保持するか或いはメール受信サーバ-4へ返却するかを 判断する」 「→それが/電子メール-6←5を受信メモリ-13に保持するか、或いは、電子メール-6←5をメール受信 サーバ-4へ返却するかを判断する」 「→電子メールが/通知タイミング判断部-1において配信日時-12が到来していないと判断されている」 「→電子メールの配信日時が/到来していないと通知タイミング判断部-1よって判断されている」 「→それが/電子メール-7←6について、ヘッダー-10≺7を変更する」 「→それが/電子メール-7←6のヘッダー-10≺7を変更する」 「→電子メールを/返却要否判断部-2においてメール受信サーバ-4へ返却すると判断されている」 「→電子メールが/メール受信サーバ-4へ返却されると返却要否判断部-2によって判断されている」 「→電子メールの/ヘッダー-11≺8がヘッダー変更部-3において変更されている」 「→電子メールのヘッダーが/ヘッダー変更部-3によって変更されている」 言い換え規則 ①問い成分(主題成分)を主格化(が格化)する ②状況成分(準主題成分)を格成分化する 情報伝達構造に関する言語の表現特性 • すべての言語に共通の表現特性 事象表現(文)の骨格を定めるのは述語(動詞)と主要格成分 既出情報(問い成分)を文頭、未出情報(答え成分)を文末方向 伝達不要な成分を省き、情報伝達を効率良く • 日本語は主題優勢言語 主題成分や状況成分を文頭に配置し、文末の述語を予測させる 主題成分で既出情報、題述成分で未出情報 辞(助詞)で格役割を表示、不要な格成分は省ける →省略過多の傾向 • 英語は主語優勢言語 動詞成分が文頭近くに配置、簡潔な主語成分で速やかに動詞に到達させる 主語成分で既出情報、述部成分で未出情報 位置で格役割を表示、不要な(主要)格成分も省けず →表出過多の傾向 →代名詞が発達 • 中国語は英語に近く、韓国語は日本語に近い 論理性に関しては、言語そのものに優劣はなく、運用上の問題 高精度翻訳には、表現特性を踏まえることが肝要 英文構造化クレームへ翻訳する 【Independent claim:1】 【Independent claim:1】 A communication terminal A communication terminal It comprises It comprises a notification timing determining unit-1 a return necessity determining unit-2 a header changing unit-3 a sending unit It a notification timing determining unit-1 それが determines whether a delivery date and time-12 has arrived 配信日時-12が到来しているか否かを判断する それが 電子メール-5のヘッダー-9≺5により指定されている 電子メールが メール受信サーバ-4から受信されている それが 電子メール-6←5を受信メモリ-13に保持するか、 或いは、電子メール-6←5をメール受信サーバ-4 へ返却するかを判断する It a return necessity determining unit-2 is specified by a header-9≺5 of an email-5 The mail a header changing unit-3 a sending unit is received from a mail receiving server-4 It determines whether to hold an email-6←5 in a reception memory-13 or to return an email-6←5 to a mail receiving server-4 The delivery date and time of the email 電子メールの配信日時が 到来していないと通知タイミング判断部-1によっ て判断されている is determined not to have arrived by a notification timing determining unit -1 It それが changes a header--10≺7 of an email -7←6 電子メール-7←6のヘッダー-10≺7を変更する The email 電子メールが メール受信サーバ-4へ返却されると返却要否 判断部-2によって判断されている is determined to be returned to a mail receiving server 4 by a return necessity determining unit -2 It sends an email -8←7 to a mail sending server それが 電子メール-8←7をメール送信サーバへ送信する 電子メールのヘッダーが ヘッダー変更部-3によって変更されている The header of the email has been changed by a header changing unit -3 英文構造化クレームをClaim文へと読む 【Independent claim:1】 A communication terminal comprising: a notification timing determining unit-1 determining whether a delivery date and time-12 has arrived, wherein the delivery date and time is specified by a header9≺5 of an email-5 received from a mail receiving server-4; a return necessity determining unit-2 determining whether to hold an email-6←5 in a reception memory-13 or to return an email-6←5 to a mail receiving server-4, wherein the delivery date and time of the email is determined not to have arrived by a notification timing determining unit -1; a header changing unit-3 changing a header--10≺7 of an email -7←6 determined to be returned to a mail receiving server -4 by a return necessity determining unit -2; and a sending unit sending an email -8←7 to a mail sending server, wherein the header of the email has been changed by a header changing unit -3 名詞句形式 へと読む 1. A communication terminal comprising; a notification timing determining unit determining whether a delivery date and time has arrived, wherein the delivery date and time is specified by a header of an email received from a mail receiving server; a return necessity determining unit determining whether to hold an email in a reception memory or to return the email to the mail receiving server, wherein the delivery date and time of the email is determined not to have arrived by the notification timing determining unit ; a header changing unit changing a header- of an email determined to be returned to the mail receiving server by the return necessity determining unit; and a sending unit sending an email to a mail sending server, wherein the header of the email has been changed by the header changing unit. Claim文が書 き上がる 機械翻訳の課題 • 機械翻訳の現状 • ブラックボックス化のジレンマ →方式に関わらず翻訳精度が頭打ちになる • 文章・文レベルの大規模低精度翻訳 →Google翻訳(検索精度に見合った翻訳精度であればよい) • 語・複合語・連語レベルの大規模対訳 →人手によるグループ翻訳作業における用語管理 • インタラクティブ機械翻訳の試み • 成功したテキスト処理はインタラクティブ形式 ←意味・文脈に関わる処理部分 全文検索、かな漢字変換 • 機械翻訳をインタラクティブ形式にするには ユーザとコンピュータとの適切なコミュニケーションメディア あるレベル以上のコンピュータの処理能力 → 構造化言語をコミュニケーションメディアに → 現状の言語処理技術は、求められる処理能力に対応