...

茶器 - 茶筌 - 奈良先端科学技術大学院大学

by user

on
Category: Documents
12

views

Report

Comments

Transcript

茶器 - 茶筌 - 奈良先端科学技術大学院大学
日本語解析済みコーパス管理ツール:
茶器(ChaKi.NET)
松本裕治, 浅原正幸, 岩立将和, 森田敏生*
奈良先端科学技術大学院大学
情報科学研究科
*総和技研
茶器:コーパス管理・検索システム
• タグ付きコーパスのデータベース管理
– 形態素解析,文節区切り,文節係り受けを施し
たコーパスを格納し,各種検索機能や修正機能
を提供
• 種々の検索
– 文字列検索,単語(列)検索,係り受け構造検索
• コーパスのタグ付け誤りの修正
– 形態素,文節区切り,係り受け誤りの修正
• コロケーション抽出機能
– 単語の共起出現頻度,単語N-gram,頻出単語
列の抽出
茶器(ChaKi.NET)の構成
文書データ
(文集合)
言語解析ツール
(茶筌,MeCab, 南瓜)
/ 手作業による解析
解析済み +
テキスト
辞書
ChaKi
検索と
誤り修正
関係データベース
(MySQL, SQLite)
南瓜の出力
フォーマット
1文が1行に
茶器(ChaKi)の構成
特になくてもよい.
ない場合は,コー
パス中の単語が辞
書として取り扱わ
れる
なったファイル
文書データ
(文集合)
言語解析ツール
(茶筌, MeCab,南瓜)
/ 手作業による解析
解析済み +
テキスト
辞書
ChaKi
検索と
誤り修正
関係データベース
(MySQL, SQLite)
茶器の機能
• 対象:
– 形態素解析または係り受け解析済みコーパス (日, 中, 英)
• 検索機能
– 文字列 (正規表現) 検索
– 形態素情報(品詞,読み,活用など)を用いた単語列検索
– 係り受け木の検索
• 検索結果の表示機能
– KWIC形式による文単位の表示
– 文毎の係り受け木の表示
– 統計抽出結果の表示
• 統計機能
– 単語の頻度統計,共起頻度統計,頻出系列の抽出
• 修正機能(一部未実装)
– 検索結果の修正(形態素情報,係り受け情報)
– 形態素解析については,複数の文の一括修正が可能
茶器の実行画面
コーパスサイズ
ヒット数の表示
検索質問
検索履歴
KWIC表示
単語情報
依存構造木
前後文脈
コーパスの指定
このボタンを押して,データベースの中からコーパスを指定する
文字列検索
1.Stringタブを選ぶ
2.Search Expressionの右に検索したい文字列を入力する
3.Searchボタンで検索を開始
文字列検索結果の例
単語検索
1.Tag を選ぶ
2.この箱に検索したい単語の情報を記入する
箱を追加したい場合は,
追加したい側の+をクリック
単語検索の例
• 品詞(PartOfSpeech)を選ぶ際は,品詞一覧が自動的
に表示されるので,選択するだけでよい
• 各箱の右上の赤いくさび型をクリックするとそこが中心
位置とみなされる
単語検索結果の例
係り受け検索
Dependencyタブを選ぶ
係り受け検索質問
• 文節,および,文節内の単語の箱の追加の方法は単語検索
の場合と同様.
• 一つの文節からもう一つの文節へマウスをドラッグアンド
ドロップすると,文節間の係り受け関係を定義できる
係り受け検索の結果
コロケーション検索
•
•
•
•
Collocationタグを選ぶ
検索したい統計情報(Raw Frequency, MI-scoreなど
計数の対象とする単語情報(表層,原形など)を選ぶ
計数する前後文脈長を選ぶ
コロケーション検索結果の例
係り受け木の表示と修正インタフェース
茶器(ChaKi.NET)の情報
• 文部科学省科学研究費補助金 基盤研究B「言語研究のための
コーパスの作成と利用に関する研究」(2002-2005年度),および,
文部科学省科学研究費補助金 特定研究「日本語コ-パス」
(2006年度-2010年度)による支援
• 関連文献:
– Yuji Matsumoto, et al, “An Annotated Corpus Management Tool:
ChaKi,” Proceedings of the 5th International Conference on
Language Resources and Evaluation, Genoa, Italy, May 2006.
– 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生,
「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回
年次大会論文集, pp.460-463, March 2006.
• 現メンバー
– 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和
技研)
• 公開ページ
– http://sourceforge.jp/projects/chaki/releases/
– このページのChaKi.NETの Setup.msi をダウンロード
Fly UP