...

修士論文 DOM構造を利用した条件付確率場による Wikipedia文書中の

by user

on
Category: Documents
11

views

Report

Comments

Transcript

修士論文 DOM構造を利用した条件付確率場による Wikipedia文書中の
NAIST-IS-MT0551137
修士論文
DOM 構造を利用した条件付確率場による
Wikipedia 文書中の固有表現の意味体系への割り当て
渡邉 陽太郎
2007 年 3 月 9 日
奈良先端科学技術大学院大学
情報科学研究科 情報処理学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
渡邉 陽太郎
審査委員:
松本 裕治 教授
(主指導教員)
石井 信 教授
(副指導教員)
乾 健太郎 助教授
(委員)
DOM 構造を利用した条件付確率場による
Wikipedia 文書中の固有表現の意味体系への割り当て∗
渡邉 陽太郎
内容梗概
本稿では,Wikipedia 内に出現する固有表現を獲得し,精度よく分類する手法
を提案する.Wikipedia の記事に出現するアンカーテキストの単語および句は,リ
ンク先の記事に語釈が記述されている.この Wikipedia の特性を用いて,我々は,
固有表現の分類問題を固有表現を表すアンカーテキストに対するラベル付与問題
として定式化する.まず,アンカーテキストをノードとして定義されるグラフを
構成する.次に,グラフに HTML の構造を取り入れるため,HTML の DOM 構
造に基づく 3 種類のエッジを導入する.このようにして構成したグラフのノード
に対するラベル付与を教師あり学習器である Conditional Random Fields (CRFs)
を用いて行う.しかし,構成したグラフは閉路を含むため,CRFs の正確な演算を
行うことは計算量が大きく困難である.そこで,Tree-based Reparameterization
(TRP) を用いて近似的に演算をおこなう手法を導入する.実施した評価実験にお
いて,提案手法が2つ組に対する Support Vector Machines の順次適用による手
法と比較して高い精度で固有表現の分類ができたことを報告する.
キーワード
固有表現, 情報抽出,語彙獲得, 機械学習, 条件付確率場
∗
奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 修士論文, NAIST-IS-
MT0551137, 2007 年 3 月 9 日.
i
A Graph-based Approach to Named Entity
Categorization in Wikipedia Texts
∗
– Applying Conditional Random Fields to HTML DOM Structures –
Yotaro Watanabe
Abstract
This thesis proposes a method for categorizing named entities in Wikipedia.
In Wikipedia, a word or phrase of an anchor text is glossed in the linked HTML
text. We formalize named entity categorization as a task categorizing the the
anchor text with linked HTML text which glosses a named entity. Using this representation, we introduce a graph structure in which anchor texts are regarded
as nodes. In order to introduce HTML structure on the graph, three types of
edges are spanned based on the HTML DOM structure. We propose a method
with Conditional Random Fields (CRFs) to categorize the nodes on the graph.
Since the defined graph includes cycles, the exact inference of CRFs is computationally expensive. We introduce an approximate inference method using
tree-based reparameterization framework (TRP) to reduce computational cost.
Experimental results show the proposed method outperforms a baseline method
with Support Vector Machines.
Keywords:
Named Entity, Information Extraction, Lexical Acquisition, Machine Learning,
Conditional Random Fields
∗
Master’s Thesis, Department of Information Processing, Graduate School of Information
Science, Nara Institute of Science and Technology, NAIST-IS-MT0551137, March 9, 2007.
ii
目次
1. はじめに
1
2. 関連研究
3
2.1 固有表現抽出タスクにおける固有表現の分類 . . . . . . . . . . . .
3
2.1.1
IREX . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1.2
関根の拡張固有表現階層 . . . . . . . . . . . . . . . . . . .
4
2.1.3
その他の固有表現分類 . . . . . . . . . . . . . . . . . . . .
5
2.2 機械学習に基づくデータの依存関係を考慮した分類手法 . . . . . .
6
2.2.1
Iterative Methods . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.2
Probabilistic Relational Models . . . . . . . . . . . . . . .
8
2.2.3
Relational Markov Networks . . . . . . . . . . . . . . . . .
8
2.2.4
Tree-structured Conditional Random Fields . . . . . . . .
9
2.3 Web 文書からの語彙獲得 . . . . . . . . . . . . . . . . . . . . . . .
10
3. Conditional Random Fields
11
3.1 モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.2 パラメータ推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
4. Conditional Random Fields を用いた Wikipedia 文書中の固有表現
分類
17
4.1 DOM 構造からのグラフ構造の構築 . . . . . . . . . . . . . . . . .
19
4.2 model 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.3 model 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
4.4 周辺確率の算出によるラベルの信頼度推定 . . . . . . . . . . . . .
25
5. 実験
28
5.1 訓練・評価用データ . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.2 実験方法・評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5.3 実験結果・考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
iii
6. おわりに
37
謝辞
38
参考文献
39
付録
43
A. 実験結果の詳細
43
B. 関根の拡張固有表現階層 クラス一覧
45
iv
図目次
1
Linear-Chain CRFs と Factorial DCRFs のグラフ構造 . . . . . . .
12
2
Wikipedia の記事 . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3
HTML 文書中のリスト要素とアンカー . . . . . . . . . . . . . . .
18
4
HTML 文書と対応する DOM 構造の例 . . . . . . . . . . . . . . .
19
5
DOM 構造と定義したクリークとの対応関係 . . . . . . . . . . . .
21
6
Sibling,Cousin,Relative を含めるか含めないかの各組合せによっ
て構成されるグラフ
7
. . . . . . . . . . . . . . . . . . . . . . . . .
30
Precision-Recall 曲線 . . . . . . . . . . . . . . . . . . . . . . . . .
36
表目次
1
IREX の固有表現の定義 . . . . . . . . . . . . . . . . . . . . . . .
3
2
ACE の固有表現の定義 . . . . . . . . . . . . . . . . . . . . . . . .
5
3
訓練・評価用データの固有表現クラスと Wikipedia の記事数一覧 .
29
4
分類に用いる素性 . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5
CRFs と SVM の分類精度比較 (全体) . . . . . . . . . . . . . . . .
33
6
Wikipedia データの SVM と CRFs の分類精度比較 (リンク先なし)
34
7
Wikipedia データの CRFs (model 1) と CRFs (model 2) の分類精
9
度比較 (全体) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
拡張固有表現階層クラス一覧
49
. . . . . . . . . . . . . . . . . . . .
v
1. はじめに
固有表現とは,人名,地名,組織名などの固有名詞や,時間表現,日付表現な
どを指す.非常に多くの数の固有表現が存在するため,形態素解析の段階で用い
る辞書に登録されていない表現が多く出現し,解析時に未知語になりやすいとい
う問題がある.そのため,解析誤りを避けるためには,多くの固有表現を辞書に
登録しておくことが有効である.
また,自然言語処理の応用分野である関係抽出や情報検索,質問応答などにお
いても固有表現は非常に重要や役割を持つ.例えば,質問応答システムは,自然
言語で質問が与えられ,質問の答えとなる範囲を文書中から探し,回答するとい
う一連の処理をおこなうシステムであるが,固有表現が回答となるような質問
(Factoid 型の質問) が与えられたとき,質問文がどのようなクラスの固有表現を
要求しているかを判別した上で,答えなければならない固有表現のクラスに該当
する表現を探す.例えば,
「富士山の高さは何メートルですか?」という質問が与
えられた時,質問文を解析することで数値表現を答える必要があると判断される.
そこで文書中から数値表現に該当する表現を探し,その中で回答となるものを返
すが,文書中のどの部分が数値表現であるかということがわからなければ,回答
を探すことはできない.
固有表現の同定は一般的に,テキスト中から自動的に固有表現を抽出する固有
表現抽出によりおこなわれる.固有表現抽出は,近年では機械学習に基づく手法
が用いられることが多いが,テキスト中の固有表現を全て網羅できるわけではな
く,限界がある.そのため,獲得できる固有表現については,既存の資源などを
利用して獲得することが必要となる.
World Wide Web (WWW) の発展により,Web 上には多くの有用な資源が存
在する.その中で,本稿では固有表現獲得のための資源として Wikipedia1 に注目
した.Wikipedia は Web 上の多言語百科事典であり,日々新たな記事が追加され
ている.記事の見出し語には,本研究で抽出対象となる固有表現が数多く含まれ,
DOM 構造やカテゴリなど,抽出の手がかりとなる情報が多く存在している.ま
た,各記事からアンカーによって別の関連する記事を参照することができる.こ
1
http://ja.wikipedia.org/
1
のような特徴を持つ Wikipedia は,固有表現の獲得に適した資源であると考えら
れる.
Wikipedia の記事は一つの文書についてある特定の事柄について記述されてい
るため,その文書がどのような事柄について記述されているかを分類する文書分
類の問題として扱うことが考えられる.一般的な分類問題に対するアプローチと
して,分類対象を個別に分類する手法が用いられることが多いが,Wikipedia は
HTML 文書,すなわち半構造データである.ある特定の文書中に存在するアン
カーの出現の仕方には規則性がある.例えば,リストにおいて列挙されているア
ンカーは,同じクラスに属するような固有表現が記述されている記事を参照して
いる傾向がある.そのようなアンカーの相互の依存関係をとらえた上で分類をお
こなうことで,より高い精度での獲得が期待できる.
依存関係を考慮した分類手法はいくつか提案されてきているが,本稿では Con-
ditional Random Fields (CRFs) を用いて分類をおこなう.CRFs を用いる場合,
どのようなグラフ構造を与えるかが問題となるが,HTML 文書は木構造上とし
て扱うことができるため,その木構造上で依存関係があるようなアンカーの組を
CRFs のクリークとすることでグラフ構造に依存関係を反映させることができる.
そこで本稿では,HTML 文書の構造によって出現する依存関係をグラフ構造に反
映させた CRFs のモデルを提案する.
2 章ではまず固有表現とその分類について述べた上で,本研究に関連する,依
存関係を持つようなデータに対する識別手法,Web 文書からの語彙獲得および
Wikipedia を資源として利用する研究について述べる.3 章では Conditional Random Fields (CRFs) について述べる.4 章では,CRFs を Wikipedia から固有表現
を獲得する問題に適用する方法について述べる.5 章では,評価実験により提案
手法を検証する.6 章でまとめと今後の課題について述べる.
2
2. 関連研究
本稿は,固有表現,文書分類,Web 文書からの語彙獲得,Wikipedia を利用す
る研究と関連がある.従って,本節では各分野と本稿で関連する研究について触
れる.
2.1 固有表現抽出タスクにおける固有表現の分類
2.1.1 IREX
Infomation Retrieval and Extraction Exercise (IREX) [19] は,情報抽出,情報
検索の評価型ワークショップである.情報抽出,情報検索の各分野で共有タスク
がおこなわれており,情報抽出の課題では,文書中から固有表現を抽出する固有
表現抽出タスクが行われている.
IREX の固有表現の分類を表 1 に示す.
固有表現名
例
固有名詞的
組織名, 政府組織名 (ORGANIZATION)
国連,日本 IBM
表現
人名 (PERSON)
木村庄之助
地名 (LOCATION)
東京都,法隆寺駅
固有物名 (ARTIFACT)
魚沼産コシヒカリ,カローラ
日付表現 (DATE)
5 月 14 日,去年,ある秋
午後 5 時 25 分,正午
時間表現
時間表現 (TIME)
数値表現
金額表現 (MONEY)
500 億円,$104,500
15%,5 分の 1,倍
割合表現 (PERCENT)
表 1 IREX の固有表現の定義
IREX の固有表現の分類は,Message Understanding Conference (MUC) [7]
で定義されていた組織名 (ORGANIZATION),人名 (PERSON),地名 (LOCA-
TION),日付表現 (DATE),時間表現 (TIME),金額表現 (MONEY),割合表現
(PERCENT) の計 7 種類に,固有物名 (ARTIFACT) が加わえられ計 8 類種定義
されている.
3
IREX の固有表現分類において問題となっているのは,分類がカバーしている
固有表現の範囲,および曖昧性である.
まず分類がカバーする固有表現の範囲については,例えば情報抽出分野におい
て,目的によって抽出対象となる固有表現は異なってくる.そのため、分類に含
まれない固有表現については新たに定義する必要がある.
分類の曖昧性については,例えば,地名にも組織名にもなりうる固有表現 (例:
成田空港) の存在がある.どちらであるか判断がつかない場合は,IREX では (OP-
TIONAL) というカテゴリを別個に用意し,評価対象としていなかった.
2.1.2 関根の拡張固有表現階層
関根らは,MUC で定義された固有表現および IREX の固有表現分類を基準に拡
張した,拡張固有表現階層 (Extended Named Entity Hierarchy) を提案した [20].
この分類は,新聞記事を知識源とした時に,人が質問応答システムで知りたいよ
うな主に名詞句で表現されている実体,情報抽出システムで抽出したい実体のう
ち,高い頻度で現れるようなものを意味,用法にそってまとめたものである.
この分類は,従来の非階層的な分類とは異なり階層構造を持つ.当初,150 種
類のクラスが定義されていたが,幅広い応用で適用できるよう拡張がなされ,現
在,末端ノードのみで 171 クラス,中間ノードを含めると約 200 クラスとなって
いる.階層内のクラスはノードと呼ばれ,中間ノード (子クラスを持つノード) と
末端ノード (子クラスを持たないノード) に大別される.固有表現は中間ノードに
は属さず,末端ノードの何れかに属する.
この分類では,IREX の分類よりも幅広い固有表現を扱えるようになっており,
自然物など IREX の分類では扱われていなかったクラスについても新たに定義が
なされている.例えば,動物名,植物名,物質名などがそれに該当する.
IREX の分類では,地名にも組織名にもなりうる固有表現 (例:成田空港) の扱
いに問題があった.文脈によって判断できる場合は,その文脈に応じて地名,組
織名を区別して扱い,曖昧な場合は OPTIONAL として扱っていたが,拡張固有
表現階層では地名,組織名とは異なる,施設名 (FACILITY) という別のクラスが
設けられている.
4
固有表現名
下位分類名
Facility
Geo-Political Entity
Airport, Building-Grounds, Path, Plant, Subarea-Facility
Continent, County-or-Distinct, GPE-Cluster, Nation,
Population-Center, Special, State-or-Province
Address, Boundary, Celestial, Land-Region-Natural,
Region-General, Region-International, Water-Body
Commercial, Educational, Entertainment,
Government, Media, Medical-Science, Non-Governmental,
Religious, Sports
Group, Inderminate, Individual
Air, Land, Subarea-Vehicle, Underspecified, Water
Biological, Blunt, Chemical, Exploding, Nuclear,
Projectile, Sharp, Shooting, Underspecified
Location
Organization
Person
Vehicle
Weapon
表 2 ACE の固有表現の定義
また,IREX の分類中の ARTIFACT(固有物名) に属する固有表現は多岐にわた
るものであったが,拡張固有表現階層において固有物名に該当する固有表現につ
いては,非常に細かな分類がなされている.例えば,新たに設けられた製品名の
クラスは従来の固有物名に該当するクラスであるが,製品名の子クラスには食べ
物名,文化名,宗教名,芸術名など多くのクラスが定義されている.関根の拡張
固有表現階層クラス一覧は付録 B を参照.
2.1.3 その他の固有表現分類
The Conference on Natural Language Learning (CoNLL) の 2002 年,2003 年
の shared task において固有表現抽出タスクが行われた.2002 年の shared task で
はスペイン語,オランダ語が,2003 年の shared task では英語とドイツ語が抽出
対象となる言語として選択された.固有表現の分類は,双方において PERSON,
ORGANIZATION, LOCATION, TIMES, QUANTITIES の 5 種類となっている.
MUC の流れを引き継いだ情報抽出のプロジェクトである Automatic Content
Extraction (ACE) においては,非階層的な分類ではなく階層性を持つ固有表現
分類が採用された.ACE の固有表現分類を表 2 に示す.
5
ACE の固有表現分類では,固有表現の種類が 7 種類,下位分類は 44 種類であ
る.2.1.2 節の拡張固有表現 [20] についてもそうであるが,様々な要求に応えるた
め,固有表現の分類は階層化,細分類化の方向に向かっている.
2.2 機械学習に基づくデータの依存関係を考慮した分類手法
伝統的な文書分類のアプローチでは,分類対象となる文書集合 X = {X1 , ..., XN }
は独立で同一の分布に従うという仮定に基づいているが,分類対象となる文書間
に依存関係がある場合には,その関係を捉えた上で分類を行うことで精度向上が
期待できる.ここで,文書間の依存関係の例として Web 文書のハイパーリンクが
挙げられる.ここで Web 文書 Xi , Xj ∈ X を分類することを考えた時にもし,文
書 Xi から文書 Xj へのリンクが存在する場合,文書 Xj において言及されている
事柄について,文書 Xj においても言及されている可能性が高く,依存関係があ
ると言える.文書分類の視点で捉えた場合,このような依存関係を分類に用いる
ことで精度向上が期待できる.
そのような依存関係を捉えた識別を,Relational Classification という.本稿
で扱う対象となる Wikipedia はハイパーリンクを多く含む Web 文書であるため,
Relational Classification が有効であると考えられる.そこで本節では,Relational
Classification の手法を中心に触れる.
2.2.1 Iterative Methods
Lu ら [12][13] は,リンク関係にある文書のラベルを用いた Link-based Classification の手法を提案した.このモデルは,ロジスティック回帰に基づき,識別対
象となる文書の内容からクラスを推定する識別器,リンク関係にある文書のカテ
ゴリからクラスを推定する識別器を個々に作成し,それらを統合して最終的な出
力結果を決定する.
カテゴリの推定には以下の式を用いる.
Ĉ(X) = arg max P (c|OA(X))P (c|LD(X))
c∈C
6
ここで X は分類対象となる文書,C はカテゴリ集合,OA(X) は文書の持つ特徴
(object features),LD(X) はリンク構造の持つ特徴 (link features) を表している.
文書の持つ特徴が与えられた時のカテゴリの事後確率 P (c|OA(X)) と,リンク構
造の持つ特徴が与えられた時のカテゴリの事後確率 P (c|LD(X)) は独立であると
仮定し,個別に定義する.
P (c|OA(X)) は以下の式を用いる.
P (c|OA(X)) =
1
exp(−woT OA(X)c)
+1
また,P (c|LD(X)) は以下の式を用いる.
P (c|LD(X)) =
1
exp(−wlT LD(X)c)
+1
wo と wl は分布を決定するパラメータであり,訓練データを用いてロジスティッ
ク回帰により決定する.
局所的な識別を繰り返して全体の識別結果を得る Iterative Classification の手
法であるため,各文書に対してクラスを割り当て,その割り当てた結果を用いて
他の文書のクラスを割り当てるという手続きを再帰的におこなう.
ラベル推定の手順は,以下のように行われる.
1. object features のみを用いて各文書に対してカテゴリを割り当てる
2. 終了基準を満たすまで各文書へのカテゴリの割り当てを再帰的におこなう
(a) リンク関係にある文書の現在のカテゴリの割り当てから,リンクに関
する統計を計算する
(b) 文書のカテゴリに関する事後確率を計算する
(c) 事後確率の最も高いカテゴリを新たなカテゴリとして選択する
7
2.2.2 Probabilistic Relational Models
Getoor らの Probabilistic Relational Models (PRMs) [6] は,Bayesian Network
を Relational Classification へ応用したモデルである.
Bayesian Network は有向グラフィカルモデルであり,変数を表すノードと変数
間の依存関係を表すエッジによって構成する.Getoor らは,推定する文書のカテ
ゴリから,その文書を構成する単語が生成される形でモデルを構成した.
問題点として,Bayesian Network は有向モデルであるため,循環するような形
でエッジを張ることができない.Web 文書の分類に用いる場合,相互にハイパー
リンクを持つような文書が存在する場合は,直接リンク構造をモデル化しようと
した場合,循環が生じてしまう.そのため,リンクの情報をノードに持たせる形
で間接的に扱っており,文書間のリンク関係を直接モデル化していない.
2.2.3 Relational Markov Networks
Taskar らの Relational Markov Networks (RMNs) [25] は,Markov Network の
条件付モデルである Conditional Markov Network を,データ間に依存関係のあ
るような問題へ適用するため拡張された無向グラフィカルモデルである.
ここではまず RMNs の出発点である Markov Network について述べ,次に Markov
Network の条件付モデル (conditional model) である Conditional Markov Network
について述べ,最後に Taskar らが提案した Conditional Markov Network の拡張
である RMNs について述べる.
Markov Network は,クリーク集合 C を持つ無向グラフ G = (V , E) において,
各クリーク c ∈ C を構成するノード集合 Vc ,クリークに対してポテンシャル関数
φc (Vc ) が与えられた時,以下のような分布を定義する.
P (V ) =
1 φc (Vc )
Z c∈C
ここで Z はパーティション関数と呼ばれる正規化項で,Z =
v
φc (v ) である.
Conditional Markov Network は,x を観測ノード集合,y を推定するラベル
ノード集合とするとき,以下のような条件付分布 (conditional distribution) を与
8
える Markov Network である.
P (y|x) =
1 φc (xc , yc )
Z(x) c∈C
ここで,xc はクリーク c を構成する観測ノード集合,yc はクリーク c を構成する
ラベルノード集合,Z(x) は正規化項で,Z(x) = y φc (xc , yc ) である.
RMNs は,Conditional Markov Network を,関係 (Relation) を持つ設定に拡張
したモデルであり,関係によって決定するグラフの構造 (relational structure) お
よび内容に関する特徴 (content attribute) が与えられた時の,各ノードに対する
全てのラベル割り当てに関する条件付分布を与える.
RMNs は以下の式で与えられる.
P (I.y|I.x, I.r) =
1
φc (I.xc , I.yc )
Z(I.x, I.r) C∈C
(1)
c∈C(I)
ここで Z(I.x, I.r) は正規化項で,Z(I.x, I.r) =
I.y
C∈C
c∈C(I)
φC (I.xc , I.yc )
である.x は観測ノード集合,y は推定するラベルノード集合である.
Taskar らは分類に用いる素性として,リンク関係にあるノードの間のラベル間
素性 (Link モデル),またある特定の文書内に文書よりも小さい Section という単
位を考え,その Section とリンク先の間のラベル間素性 (Section モデル) を導入す
ることで文書間の依存関係をとらえた分類をおこなっている.Naı̈ve Bayes と比
較し,Link モデル,Section モデルが高い性能を示し,また,Link モデルの素性,
Section モデルの素性を単独で使用する場合と比較し,両方用いた場合に高い性
能を示したと報告している.
RMNs は,条件付マルコフネットワークであるという点では本稿で用いる Conditional Random Fields (CRFs) [10] と同一のモデルである [23].CRFs について
は 3 節にて詳しく述べる.
2.2.4 Tree-structured Conditional Random Fields
Tang ら [8] は,Web 文書のレイアウトの階層性を考慮したモデルである Treestructured Conditional Random Fields (TCRFs) を提案した.
9
TCRFs は CRFs の特殊型で,以下の式で与えられる.
⎛
⎞
1
exp ⎝
p(y|x) =
λj tj (e, y|e , x) +
μk sk (v, y|v , x)⎠
Z(x)
pc
cp
ss
v∈V,k
e∈{E
,E
(2)
,E },j
ここで,V はノード,E pc は親から子への依存関係を持つエッジ, E cp は子から親
へ依存関係を持つエッジ, E ss は兄弟関係を持つエッジである.
Tang らは,企業の年次情報が記述された Web 文書から会社名や住所など全 14
項目を抽出する実験をおこない,SVM と比較して TCRFs が高い精度を示したこ
とを報告している.しかし,データからどのようにして E pc ,E cp ,E ss のエッジ
を構成するかは詳しく述べられていない.
2.3 Web 文書からの語彙獲得
Web 文書からの語彙獲得の研究としては,新里ら [29] が HTML のレイアウト
情報を利用して,単語クラスを自動的に抽出する手法を提案している.HTML 文
書において同一のレイアウト (リスト,テーブルなど) に現れる表現は互いに関連
しているということ、また,意味的に類似した表現同士は共起しやすいという傾
向を利用することで単語クラスの獲得をおこなう.具体的には,同一のレイアウ
トに現れる表現を関連する表現の集合として獲得し,それらの間の共起の強さを
検索エンジンにより得られるヒット件数を利用して相互情報量を求め,求めた相
互情報量を特徴量として Support Vector Machines [1] を用いて単語クラスかどう
か判別する.
本稿で獲得する固有表現のクラスは事前に定義されているが,新里らは獲得す
る語彙を固有表現に限定せず,単語クラスを獲得された単語から決定しているた
め,扱っている問題が異なる.
10
3. Conditional Random Fields
3.1 モデル
Conditional Random Fields (CRFs) [10] は,無向グラフィカルモデルであり,
観測系列 x が与えられた時のラベル系列 y の条件付確率 p(y|x) を与える確率モ
デルである.
CRFs は,観測系列 x と y の同時分布 p(x, y) をモデル化するような生成モデ
ル (generative models) とは異なり,観測系列 x が与えられた時のラベル系列 y の
条件付確率を直接モデル化する識別モデル (discriminative models) である.柔軟
な素性設計が可能である上,Hidden Markov Models (HMMs) などの生成モデル
と比較して高い性能を示すため,品詞タグ付け,テキストチャンキング [21],テ
キストからのテーブル抽出 [18],同一指示解決 (Coreference Resolution) [15] [28],
関係抽出 (Relation Extraction) [5],日本語形態素解析 [32] など様々な自然言語処
理の問題に適用され,高い精度を示している.
CRFs は以下のように定義される.G = {V, E} を確率変数 y 、x 上の無向グラ
フとする.クリーク集合 C = {{yc , xc }} が与えられたとき,CRFs は観測系列 x
が与えられた時のラベル系列 y の条件付確率 p(y|x) を定義する.
1 Φ(xc , yc )
(3)
Z(x) c∈C
ここで,Z(x) は正規化項であり,Z(x) =
y
c∈C Φ(xc , yc ) で与えられる.
P (y|x) =
これは可能なラベル割り当ての各条件付確率について足し合わせたものである.
Φ(xc , yc ) はポテンシャル関数と呼ばれ,クリークに対して定義される関数で
ある.ここで,ポテンシャル関数は事前に与えられる素性関数の集合 {fk } と,各
素性に割り当てられる重み {λk } に分解可能であると仮定すると,ポテンシャル
関数は以下の式となる.
Φ(xc , yc ) = exp
λk fk (xc , yc )
(4)
k
ここで fk (xc , yc ) は素性関数と呼ばれるもので,観測系列とラベル系列の特徴を
捉えるための関数である.クリークを構成するノード数 1(c = vi , |c| = 1) の場合
11
yt-1
xt-1
yt
xt
yt+1
xt+1
……
……
yT
xT
Linear-Chain CRFs
yt-1
yt
yt+1
yt-1
yt
yt+1
xt-1
xt
xt+1
……
……
……
yT
yT
xT
Factorial DCRFs
図 1 Linear-Chain CRFs と Factorial DCRFs のグラフ構造
の素性関数としては例えば以下のようなものが考えられる.
⎧
⎨1 if yi = ”経済” & xi = ”株”
fk (yi, xi ) =
⎩0 otherwise
(5)
また,λk (∈ Λ = {λ1 , ..., λK ∈ R}) は各素性関数に対する重みであり,モデル
を決定するパラメータである.
原論文 [10] では,系列タギング問題へ適用するためのモデル (Linear-Chain
CRFs) として提案されたが,その後,McCallum らにより,閉路を持つ CRFs(Dynamic
Conditional Random Fields, DCRFs) が提案された [14] [24].Sutton らは Dynamic Conditional Random Fields の特殊型である,Factorial DCRFs を用いて,
品詞タグ付けおよびチャンキングを同時におこなう (Joint Inference) 手法を提案
し,品詞タグ付け,チャンキングを Linear-Chain CRFs を用いて個別におこなった
場合と比較して高い精度で推定ができたことを報告している.Linear-Chain CRFs
および Factorial DCRFs のグラフ構造を図 1 に示す.
3.2 パラメータ推定
パラメータ推定の問題は,訓練データ D = {x(i) , y (i) }N
i=1 が与えられたときに,
最適なモデルのパラメータ集合 Λ = {λ1 , λ2 , ..., λK } を推定する問題である.
12
具体的には,以下のような条件付対数尤度 LΛ を最大化するようなパラメータ
を推定する.
LΛ =
log p(y (i) |x(i) )
1
log
λk fk (yc(i) , x(i)
=
exp
c )
(i) )
Z(x
i
c∈C k
=
λk fk (yc(i) , xc(i) ) − log Z(x(i) )
i
i
c∈C
k
Λ̂ = arg max LΛ
Λ
LΛ を大きくすることは,正解のラベル割り当てと,正解以外のラベル割り当て
の選ばれやすさの差を最大化することに相当し,これによって全てのラベル割り
当てから正解のラベル割り当てを分別するような学習がおこなわれる.
目的関数は凸であり,最適点では以下の式が成り立つ.
∂L
=
fk (yc(i) , x(i) ) −
p(yc(i) |x(i) )fk (yc(i) , x(i) )
∂λk
y c∈C
i c∈C
i
(6)
パラメータの最適化には様々な方法があるが,Limited Memory BFGS (L-BFGS)[11]
がよく用いられる.
また,最尤推定を用いる場合,訓練データに対して過学習を起こしてしまう問
題が生じる.そこで,各パラメータに対して事前分布を考え,目的関数に以下の
式を用いることで過学習を防ぐことができる.
LΛ =
log p(y (i) |x(i) ) + log p(Λ)
(7)
i
ここで,log p(Λ) はパラメータの事前分布であり,これには Gaussian Prior [3],
Laplacian Prior [9] などが用いられる.
13
平均 μ = 0 の Gaussian Prior を用いて正則化をおこなった場合,目的関数は,
λ2k
1
(i) (i)
exp − 2
LΛ =
log p(y |x ) +
log √
2σ
2πσ
i
k
λ2k
1
(i)
(i)
(i)
exp − 2
λk fk (yc , xc ) − log Z(x ) +
log √
=
2σ
2πσ
i
c∈C k
k
λ2
(i)
k
λk fk (yc(i) , x(i)
)
−
log
Z(x
)
−
+ Const
=
c
2
2σ
i
c∈C
k
k
となる.ここで,σ 2 は分散,Const は定数である.また,このとき,
∂L
λk
=
fk (yc(i) , x(i) ) −
p(yc(i) |x(i) )fk (yc(i) , x(i) ) − 2
∂λk
σ
y c∈C
i c∈C
i
(8)
となる .
(i)
ここで,p(yc |x(i) ) は,観測系列 x(i) が与えられたときのクリーク c を構成する
ノードへのラベル割り当ての周辺確率である.周辺確率の計算は,モデルに閉路
が含まれていない場合は forward-backward アルゴリズムを用いて正確に計算する
ことが可能であるが,閉路が含まれている場合は近似手法を用いて用いて求める
必要がある.近似的に求める手法として,Loopy Belief Propagation,Tree-based
Reparameterization (TRP) [26] などがある.ここでは本稿で用いる Tree-based
Reparameterization について触れる.
Tree-based Reparameterization は,木構造のグラフにおいて周辺確率の正確
な計算ができることを利用し,閉路を含むグラフから構成できる全域木の集合
Υ = {T } を列挙し,各全域木について Belief Propagation などの手法を用いて推
論をおこない,周辺確率を更新していくという手続きを繰り返すことで近似的に
周辺確率を求めるアルゴリズムである.
まず,ノード集合 V ,エッジ集合 E ,クリーク C および各クリークに対して
定義されるポテンシャル関数 φc を持つ Markov Network(G = {V, E}) を考える.
TRP では,グラフを構成する各クリークの大きさは 1 または 2 であると仮定して
いる (Markov Network の場合は pairwise Markov Network).クリークを構成す
るノード数が 3 以上の高次 Markov Network への適用は,超グラフ (hyper graph)
上で構成できる hyper tree 上でおこなうことが可能である [27].
14
pairwise Markov Network では C = V ∪ E となり,ポテンシャル関数は確率変
数 x,ノードに対するポテンシャル関数を φs ,エッジのポテンシャル関数を φst
とすると,x の分布 p(x) は,以下の式で与えられる.
1 p(x) =
φs (xs )
φst (xs , xt )
Z
s∈V
(9)
(s,t)∈E
ここで,グラフ G が木である場合,式 (9) の分布は以下の式で表現することが
できる (Tree factorization).
p(x) =
s∈V
μ( xs )
(s,t)∈E
μst (xs , xt )
μs (xs )μt (xt )
(10)
ここで,μs (xs ), μt(xt ) はノードの周辺確率,μst (xs , xt ) はエッジの結合周辺確率
である.
TRP の更新手続きについて述べる.TRP の手続きは,辺集合 E を持つグラフ
U の周辺確率 T n → T n+1 の更新手続きとして表すことができる.ここで,T は
ノードおよびエッジの周辺確率の集合であり,単一のノードの周辺確率 Tun+1 (xu )
n+1
とノード 2 つ組の周辺確率 Tuv
(xu , xv ) から構成される.n は反復 (iteration) の
回数を表している.
TRP は以下のような手続きを繰り返す.
0
1. 初期化: 各ノード,各エッジに対して,T 0 を,Tu0 = κφu , Tuv
= κφuv とし
て初期化する.ここで κ は正規化項である.
2. 更新: for i = 1, 2, ..., do:
• 辺集合 E i をもつ全域木 T i ∈ Υ を選択する.ここで,Υ = {T } はグ
ラフ U から構成できる全域木の集合である.
• Belief Propagation といったアルゴリズムを使用し,T i 上の正確な周
辺確率 μi (x) を計算する.全ての (u, v) ∈ E i に対して,以下の計算を
おこなう.
Tui+1 (xu ) = μi (xu )
i+1
Tuv
(xu , xv ) =
15
μi(xu , xv )
μi (xu )μi (xv )
• 全ての (u, v) ∈ E \ E i ,すなわち T i に含まれていない全ての辺につい
i+1
i
て,Tuv
= Tuv
とする.
選択した全域木 T ∈ Υ は,元のグラフ U の辺集合を全て含んでいなければな
らない.
16
図 2 Wikipedia の記事
4. Conditional Random Fields を用いた Wikipedia
文書中の固有表現分類
本節では,Conditional Random Fields を用いて Wikipedia から固有表現を獲
得し分類する,具体的な適用方法について述べる.
Wikipedia では,一文書につきある特定の事柄に関して記述されている.各記
事には,その事柄を表している語(見出し語),その事柄の定義文,その事柄に
関連する事柄が記述されている.また,その事柄が属する 1 つ以上の Wikipedia
のカテゴリが付与されている.例えば,図 2 の記事「東ローマ帝国」では,見出
語の定義文には「東ローマ帝国 (ひがしローマていこく、395 年-1453 年) は,東
西に分裂したローマ帝国の東方地域を継承し,オスマン帝国によって滅ぼされる
までの 1000 年以上にわたって存続した帝国.…(以下略)」と記述されている.
この定義文は,その項目が何について記述されているかを表す重要な手がかりと
「帝国」の 2 つが割
なる.また,Wikipedia のカテゴリとして「東ローマ帝国」,
り当てられている.カテゴリは,項目間で共通に持つような属性のラベルと考え
ることができる.
17
アンカー
リンク先あり
リンク先なし
×
図 3 HTML 文書中のリスト要素とアンカー
ここで,定義文やカテゴリなどの情報を手がかりに,その文書で述べられてい
る事柄がどのようなものかを分類する文書分類の問題として扱うことで固有表現
を獲得するという方法が,一つのアプローチとして考えられる.これは,その文
書に関する特徴を用いて分類対象となる文書を個別に分類するという,一般的に
用いられる文書分類の問題設定と同じである.
一方,Wikipedia は HTML 文書であり,これは半構造化された文書であるため,
構造化されていないテキストには無い特徴がある.その特徴の中で特に重要な特
徴を持っているのは,リスト (<UL><OL>など) およびテーブル (<TABLE>) であり,
これらに出現する要素には強い規則性がある.本稿ではこの中で,Wikipedia に
て頻繁に出現するリストに焦点を当てることにする.
図 3 において,リストの各要素 (<LI>タグで囲まれている要素) にはまず人名,
次に著書,出版社名,最後に出版年が規則的に並んでいる.このような規則性は
分類に寄与する重要な構造である.また,Wikipedia 内の記事にはアンカーが存
在する.アンカーとは,図 3 で示しているような,別の記事へのリンクのことを
いい,このアンカーからリンク先の記事を参照することができる.アンカーに記
述されている文字列は「アンカーテキスト」と呼ばれ,リンク先の記事が述べて
「香山リカ」,
いる事柄を表す単語または句が用いられる.ここで図 3 において,
「金子勝」などの著者名は,共著者という同じ文脈で出現しており,これは相互
「金
に依存関係を持っていると言える.すなわち「香山リカ」が” 人名” ならば,
子勝」も” 人名” であるという依存関係である.逆もまた成立する.
ここで,上記のようなリストの特徴およびアンカーテキストの存在を踏まえる
と,Wikipedia から固有表現抽出の問題を,依存関係を持つアンカーテキストに
18
<UL>
<UL>
<LI><A HREF=“…”>バート・バカラック</A> …
<A HREF=“…”>作曲家</A></LI>
<LI><A HREF=“…”>カーペンターズ</A>
<UL>
<LI><A HREF=“…”>カレン・カーペンター</A></LI>
</UL>
</LI>
</UL>
<LI>
<A>
<A>
<LI>
<A>
バートバカ
ラック 作曲家 カーペン
ターズ
<UL>
<LI>
<A>
カレン・カー
ペンター
図 4 HTML 文書と対応する DOM 構造の例
対するラベリング問題として扱うということが考えられる.リストなどの規則性
によって出現するアンカーテキストの依存関係を分類に利用することで,個別に
分類をおこなうアプローチと比較して高精度な分類が期待できる.
依存関係を考慮した分類には Conditional Random Fields を用い,ノード集合
V をアンカーテキストとし,アンカーテキスト間の依存関係を G のエッジ E と
するような無向グラフ G を構成し,各ノード vi ∈ V へのラベル割り当てが全体
で最適となるような arg maxy p(y|x) を求める問題として扱う.
次節にて具体的なグラフの構成の仕方について述べる.
4.1 DOM 構造からのグラフ構造の構築
HTML や XML といった半構造化された文書は,DOM (Document Object Model)
構造 [2] として表現される.ここで DOM とは,HTML 文書や XML 文書を扱う
ための Application Programming Interface (API) であり,DOM において HTML
および XML 文書の論理構造は木構造の形で扱われる.この構造を DOM 構造と
いう.HTML 文書と対応する DOM 構造を図 4 に示す.
DOM 構造は,唯一の親を持ち,子が順序をもつ順序木として扱うことができ
る.図 4 では,唯一の他と区別される頂点が<UL>に対応し,各タグの子に対応す
るタグには出現順序があるため,順序木の定義を満たす.(通常は,唯一の親に対
19
応するのは<HTML>タグであるが,説明の簡単化のため図 4 のような局所的な構造
を示した.) よって以後,DOM 構造を順序木として扱う.
次に,DOM 構造から Conditional Random Fields を構成するために,無向グ
ラフ G のクリーク C を定義する.ここで問題となるのは,どのようなクリークを
定義するかということである.一般的にどのようなノード集合をクリークとする
かは,クリークを構成するノード間に何らかの依存関係があるかどうかを基準と
すればよい.ここで,図 4 の例において,依存関係が考えられるアンカーの組に
ついて考えることにする.まず,
「バート・バカラック」と「作曲家」は,DOM 構
造上では兄弟関係であり,同一のリストの中で出現している.この間には,
「バー
ト・バカラック」の職業が「作曲家」であるというような関係が成り立ち,この
ような出現の仕方には,先に出現したものが持っている属性,または関連する事
柄が後ろに来るという傾向がある.
次に「バート・バカラック」と「カーペンターズ」という関係は,DOM 構造上
では従兄弟の関係になっている.これらの間には,ある特定の属性を共通に持っ
ているという関係があると言え,このような出現の仕方は,双方が同じようなク
ラスに属する傾向がある.
「カーペンターズ」と「カレン・カーペンター」の関係は,DOM 構造上では,
「カーペンターズ」から見て「カレン・カーペンター」が兄弟の孫という関係に
なっている.これらの間には「カーペンターズ」の構成員としての「カレン・カー
ペンター」という関係があり,このような出現の仕方は,先に出現したものを構
成している要素が後にくる傾向がある.
このような,相互に依存関係があるようなアンカーの集合をクリークを構成す
るノードとすることで,依存関係を捉えることができると考えられる.ここで,
上記の観察に基づき,DOM 構造上において以下で述べる 3 つのクリークの定義
に該当するものを,CRFs のクリークとする.
DOM 構造に対応する順序木を T ordered = (V T , E T ) とする.まず,先祖・子関係
にある頂点間 viT , vjT ∈ V T に対して距離 d(viT , vjT ) を定義する.頂点 viT , vjT ∈ V T
間の距離を d(viT , vjT ),順序木の頂点 viT ∈ V T から k 回辿った先祖を pa(viT , k),
頂点 viT の k 番目の子を ch(viT , k),頂点 viT , vjT ∈ V T の共通の先祖を cpa(viT , vjT ),
20
<UL>
<UL>
<LI><A HREF=“…”>バート・バカラック</A> …
<A HREF=“…”>作曲家</A></LI>
<LI><A HREF=“…”>カーペンターズ</A>
<UL>
<LI><A HREF=“…”>カレン・カーペンター</A></LI>
</UL>
</LI>
</UL>
<LI>
<A>
<LI>
<A>
<A>
バートバカ
ラック 作曲家 カーペン
ターズ
Sibling
Cousin
Relative
<UL>
<LI>
<A>
カレン・カー
ペンター
図 5 DOM 構造と定義したクリークとの対応関係.
と表すことにする.
以下の 3 つの関係をクリークとして定義する.
Sibling 共通の先祖までの距離が 1(すなわち親が同じ) であり,なおかつ親からの
順序が最も近い頂点の対.すなわち次のような集合を Sibling とする.ES =
{(viT , vjT )|viT , vjT ∈ V T , d(viT , cpa(viT , vjT )) = d(vjT , cpa(viT , vjT )) = 1, vjT =
ch(pa(vjT , 1), k), viT = ch(pa(viT , 1), max{l|l < k})}
Cousin viT , vjT の共通の先祖までの距離が 2 以上で等しく,なおかつ親からの
順序が等しい頂点の組の中で,共通の先祖の子の順序が最も近い頂点の
対.すなわち次のような集合を Cousin とする.EC = {(viT , vjT )|viT , vjT ∈
V T , d(viT , cpa(viT , vjT )) = d(vjT , cpa(viT , vjT )) ≥ 2, viT = ch(pa(viT ), k), vjT =
ch(pa(vjT ), k), pa(vjT , d(vjT , cpa(viT , vjT ))−1) = ch(pa(vjT , d(vjT , cpa(viT , vjT ))), k),
pa(viT , d(viT , cpa(viT , vjT )) − 1) = ch(pa(viT , cpa(viT , vjT )), max{l|l < k})}
Relative 共通の先祖までの距離が vi からは 1,vj からは 3 であり,vi と,vj の親
の親の順序が最も近い頂点の対.すなわち次のような集合を Relative とする.
ER = {(viT , vjT )|viT , vjT ∈ V T , d(viT , cpa(viT , vjT )) = 1, d(vjT , cpa(viT , vjT )) =
3, vjT = ch(pa(vjT , 1), k), pa(viT , 2) = ch(pa(viT , 3), max{l|l < k})}
ES は Sibling の関係にある頂点の組の集合,EC は Cousin の関係にある頂点の組
の集合,ER は Relative の関係にある頂点の組の集合を表している.ここで,上
21
記の関係の定義にて,関係として扱う頂点の組を,ある頂点とその頂点から最も
近い頂点に限定している.その理由は,もし「最も近い」という条件を除いた場
合,ある頂点と特定の関係にある頂点の数は複数個該当する可能性が出てくるが,
それらの組を全てクリークとした場合,計算量の問題が生じるためである.例え
ば,|A| = 8 とし,それらの間に全て Cousin の関係があるとすると,クリーク数
は 82 = 28 と,指数的に増大する.本稿では周辺確率 p(yi |x) の計算および最適
解 ŷ = arg maxy p(y|x) の導出に TRP を用いるが,TRP では前述の通り,グラ
フから構成できる全域木を列挙し,周辺確率の更新をおこなう.エッジの数が増
加するとそれに伴って構成できる全域木が増え,計算量が多くなる.
上記の定義を満たす頂点の組を,構成する Conditional Random Fields のクリー
クとする.すなわち,C = ES ∪ EC ∪ ER である.図 5 に,DOM 構造とクリーク
の対応関係を示す.
次節以降,ラベル間の依存関係を考慮した 2 つのモデルを提案する.
4.2 model 1
前節で定義したクリーク C を持つ無向グラフ G = (V, E) のクリークに対して
ポテンシャル関数を定義することで p(y|x) を与える CRFs を構成する.
model 1 の,観測系列 x が与えられたときのラベル系列 y の条件付分布を以下
の式で与える.
⎛
1 ⎝
p(y|x) =
Z(x)
⎞
ΦSCR (yi, yj )⎠
ΦV (yi , x)
(11)
vi ∈V
(vi ,vj )∈ES ,EC ,ER
Z(x) は正規化項で,
Z(x) =
y
⎛
⎝
⎞
ΦSCR (yi , yj )⎠
ΦV (yi , x)
vi ∈V
(vi ,vj )∈ES ,EC ,ER
である.ここで,ΦSCR (yi , yj ) は Sibling, Cousin, Relative {(vi , vj ) ∈ ES , EC , ER }
22
に対応するクリークのポテンシャル関数で,以下の式で与える.
ΦSCR (yi , yj ) = exp
λk fk (yi , yj )
(12)
k
ここで,k ∈ {(yi , yj )|Y × Y} であり,これはラベル集合 Y の直積集合のある要素
に対応する.素性関数は例えば以下のようなものが考えられる.
⎧
⎨1 if yi = ”人名” & yj = ”人名”
fk (yi , yj ) =
⎩0 otherwise
この素性は,クリークを構成するノード vi , vj ∈ V に対するラベル割り当てが,
双方ともに人名であるかどうかという素性である.このような素性を導入するこ
とで,どのようなラベルの組合せが起こりやすいかを学習することができる.訓
練データにおいて上記の組合せが頻繁に出現した場合,fk (yi , yj ) に対応する素性
の重み λk が大きくなり,この組合せが選択されやすくなる.
ΦV (yi, x) はノード vi ∈ V に対応するポテンシャル関数であり,以下の式で与
える.
ΦV (yi, x) = exp
λk fk (yi , x)
(13)
k
ここで,k ∈ {(yi , xj )|Y × X } であり,これは観測系列に出現する素性 xj と,ラ
ベル yi ∈ Y の共起をとらえるための素性である.素性関数は例えば以下のよう
なものが考えられる.
⎧
⎨1 if yi = ”人名” & xj = ”タレント”
fk (yi, xj ) =
⎩0 otherwise
これは,観測系列に”タレント”という形態素が出現し,なおかつそのラベルが”
人名”であるかどうかという素性である.”タレント”という単語が含まれ,なお
かつそれが人名について述べられている傾向が訓練データに強く現れていた場合,
fk に対応する重み λk が大きくなり,”タレント”という形態素が出現している場
合に”人名”のラベルが選ばれやすくなる.
model 1 は,基本的には ΦV によって各ノードに付与されるべきラベルが何で
あるかを捉え,ΦSCR によって各クリークの依存関係を捉えることにより相互に
影響を及ぼし合うことで,全体として最適となるようなラベル系列が選択される.
23
4.3 model 2
model 1 では,各クリーク (vi , vj ) ∈ ES , EC , ER のポテンシャル関数に対して定
義した素性関数は,単純に Y × Y のラベルの組み合わせについてのみ見ており,
観測系列を全く考慮していなかったが,観測系列から得られる素性を結びつける
ことで,どのような観測素性が現れたときに依存関係が強く現れるかということ
を学習できると考えられる.
ここで,3 つのクリークのうち,一番重要な依存関係があると考えられるのは
Cousin である.Cousin の関係にあるアンカーは,一般的には同じラベルになり
やすいという傾向があるが,そのような関係にあるアンカー全てが同じラベルに
なるというわけではない.そのため,観測素性を model 1 で用いた式 (12) に結び
つけたものを Cousin に対応するクリークのポテンシャル関数とすることで,ど
のような場合に同じラベルになりやすいかを学習することが可能になると考えら
れる.
model 2 の,観測系列 x が与えられたときのラベル系列 y の条件付分布を以下
の式で与える.
⎛
1 ⎝
p(y|x) =
Z(x)
⎞⎛
ΦC (yi , yj , x)⎠ ⎝
(vi ,vj )∈EC
⎞
ΦSR (yi , yj , x)⎠
ΦV (yi , x)
vi ∈V
(vi ,vj )∈ES ,ER
(14)
ここで Z(x) は正規化項で,
⎞⎛
⎛
⎝
Z(x) =
ΦC (yi, yj , x)⎠ ⎝
y
(vi ,vj )∈EC
⎞
ΦSR (yi, yj , x)⎠
ΦV (yi, x)
vi ∈V
(vi ,vj )∈ES ,ER
である.また,ΦC (yi , yj , x) は Cousin {(vi , vj ) ∈ EC } に対応するクリークのポテ
ンシャル関数, ΦSR (yi , yj , x) は Sibling,Relative {(vi , vj ) ∈ ES , ER } に対応する
クリークのポテンシャル関数,ΦV (yi , x) はノードに対応するポテンシャル関数を
表している.
ここで,model 1 で用いた Cousin に対応するクリークのポテンシャル関数 ΦC (yi , yj , x)
を以下の式で与える.
ΦC (yi , yj , x) = exp
k
24
λk fk (yi , yj , x)
(15)
ここで,k ∈ {(yi , yj , xl )|Y × Y × X } であり,ラベル yi , yj ∈ Y に対して観測系列
に出現する素性 xj を結び付けた素性である.素性関数は例えば以下のようなも
のが考えられる.
⎧
⎨1 if yi = ”人名” & yj = ”人名” & xl = ”タレント”(∈ (xi ∩ xj ))
fk (yi , yj , xl ) =
⎩0 otherwise
ここで,xi , xj ⊆ x であり,xi はノード vi に対応する観測系列,xj はノード vj に
対応する観測系列を表している.これは,クリークを構成するノード双方のラベ
ルが”人名”であり,なおかつ各ノードに対応する観測系列 xi と xj に”タレント”
という形態素が共通して出現しているかどうかという素性である.”タレント”と
いう単語が観測系列に共通に含まれ,なおかつそれが人名について述べられてい
る傾向が訓練データに強く現れていた場合,fk に対応する重み λk が大きくなり,
双方で”人名”のラベルが選ばれやすくなる.
ΦSR (yi , yj , x) は,model 1 で用いた式 (12) と同様の式を Sibling および Relative
に対応するクリークのポテンシャル関数とする.
ΦSR (yi , yj , x) = exp
λk fk (yi , yj , x)
(16)
k
ここで,k ∈ {(yi , yj )|Y × Y} である.
また,ΦV (yi , x) についても model 1 で用いた式 (13) と同様の式を用いる.
ΦV (yi , x) = exp
λk fk (yi, x)
(17)
k ここで,k ∈ {(yi , xj )|Y × X } である.
4.4 周辺確率の算出によるラベルの信頼度推定
CRFs では,グラフ G のノード vi ∈ V に対するラベル割り当ての周辺確率
p(yi|x) を求めることができる.周辺確率は,識別器がどの程度自身をもってラベ
ルを割り当てたかという確信度,どの程度信用できる結果であるかという信頼度
とみなすことができる.
25
本稿では,文書中のアンカーがどの固有表現に属するか,各アンカーに対して
ラベル割り当てをおこなうが,得られた結果から固有表現の辞書を作成し,応用
に用いるといったことが考えられる.CRFs によって得られた結果には誤りは必
ず含まれるため人手で確認するという作業を省くことは不可能であるが,確率が
高いラベル割り当てほど一般的には誤りが少ないものと考えられるため,算出し
た周辺確率を用いることで,信頼度の高い結果のみを人手で確認するということ
が可能となり,それによって人手のコストが削減され,作業を効率的におこなう
ことができるようになると考えられる.
周辺確率を積極的に利用した研究としては,Peng ら [17] が中国語のわかち書
き問題に対して Linear-Chain CRFs を適用し,わかち書き問題で生じる未知語の
同定に,Linear-Chain CRFs によって求められる周辺確率を用いている.中国語
は日本語と同様,明示的な単語境界が与えられないため,まず単語境界を同定す
る必要があるが,辞書に登録されていない文字列が出現した場合,正しく単語境
界を推定することが難しい.そこで,辞書に登録されていない文字列のある特定
の分割がどの程度信頼できるものか,周辺確率を用いて算出するということをお
こなっている.特定の分割の周辺確率の算出は制約付き forward-backward [4] を
用い,確率の高いものを辞書に追加していくことでわかち書きの精度を向上させ
ている.
工藤ら [31] は,形態素解析において,テキストの分割を一意に定めるのではな
く,可能な分割の各形態素に対する期待頻度を周辺確率から算出し,曖昧性を保っ
たまま扱う手法を提案している.一般に,複合語で構成される単語列は,どの分
割が最適か一意に決定するのは困難である.そのような問題が生じるものとして
は,例えば以下のようなものがある.
• 本部長 本部/長 or 本/部長
• 応援団員 応援団/員 or 応援/団員
このような例に対して,一意に単語分割列を与えるのではなく,可能な分割にお
ける各形態素の期待頻度からなる BOW(bag-of-words,単語の集合) のベクトル
として扱うことで,多様な分割を保持したまま扱うことが可能となる.
26
岡野原ら [30] は,Linear-chain CRFs の周辺確率を用いて文字列境界の分割確
率を算出し,確率的単語分割コーパスを構築する方法を提案している.確率的単
語分割コーパス [16] は,コーパス x1...n と連続する 2 文字 xi , xi+1 の間に単語境界
が存在する確率 Pi の組として定義される.確率変数 Xi を,
⎧
⎨1 xi , xi+1 の間に単語境界が存在する場合
Xi =
⎩0 x , x が同じ単語に属する場合
i
i+1
とすると,単語分割確率は P (Xi = 1) = Pi , P (Xi = 0) = 1 − Pi で与えられる.
ここで原論文では形態素解析の結果,単語境界であると判断された境界について
は Pi = α,そうでない場合は Pi = 1 − α としていたが,このような決め方をした
場合,もし非常に近い確率の 2 通りの分割が可能性としてあった場合でも片方の
み採用され,もう一方の情報は失われてしまう.そこで,このような問題に対処
するため,この分割確率に Linear-chain CRFs によって算出できる周辺確率を用
いることが岡野原らの提案である.Linear-chain CRFs の周辺確率を用いること
によって,全系列の情報が分割確率に反映されるため,上記の問題が解決される.
27
5. 実験
本節では,前節で述べた手法を用いて,Wikipedia の記事から固有表現を獲得
する評価実験の結果について報告する.
5.1 訓練・評価用データ
2005 年 10 月 29 日時点の Wikipedia の記事から,ランダムに選択した日本語の
記事約 2300 について,HTML のリスト (<LI>タグ) 内に含まれるアンカー (<A>タ
グ) に対して,関根の拡張固有表現階層の対応するクラスを人手で付与したデー
タを用いる.ここで,リンク先の記事が存在しない場合 (アンカーのみ存在する
場合) についても,記事が存在する場合と同様にクラス付与をおこない分類対象
とした.また,Sibling,Cousin,Relative の関係にあるアンカーによって構成さ
れる連結グラフのノード数が 2 以下となるような事例については分類対象から除
外した.その結果,全体で 16136 アンカーが分類対象となった.このうち,固有
表現は 14285 である.
関根の拡張固有表現階層のクラス数は 200 以上であるが,本稿ではラベル数を
限定し,拡張固有表現階層の深さ 2 までに限定したラベルセットを使用した.ま
た,訓練・テストデータに存在する数が極端に少ない固有表現クラスについては,
一つのクラスに統合した.名前-識別番号 (ID NUMBER),名前-神名 (GOD),名
前-病気名 (DISEASE),名前-名前_その他 (NAME OTHER) を統合して「名前その他」に,数値表現-個数 (COUNTX),数値表現-学齢 (SCHOOL AGE),数値
表現-寸法表現 (MEASUREMENT) は,時間表現-時間 (TIMEX) と統合して「時
間・数値表現」とした.また,固有表現クラスに該当しないアンカーは「固有表
現以外」とした.その結果,訓練・評価用データに含まれるクラス数は,全体で
13 クラスとなった.拡張固有表現階層のクラスと Wikipedia 記事数の対応を表 3
に示す.統合対象となったクラス以外で,表 3 に存在しないクラスは,訓練・テ
ストデータに存在しなかったものである.
28
固有表現クラス
名前
SIZE
イベント名 (EVENT)
人名 (PERSON)
単位名 (UNIT)
地名 (LOCATION)
施設名 (FACILITY)
称号名 (TITLE)
組織名 (ORGANIZATION)
職業名 (VOCATION)
自然物名 (NATURAL OBJECT)
製品名 (PRODUCT)
名前_その他 (NAME OTHER)
時間・数値表現
時間・数値表現
固有表現以外
全体
121
3315
15
1480
2449
42
991
303
1132
1664
24
2749
1851
16136
表 3 訓練・評価用データの固有表現クラスと Wikipedia の記事数一覧
5.2 実験方法・評価
本稿で提案した手法の有効性を示すために,ベースラインの手法として汎化性
能に優れ,文書分類など多くの分類問題において高い精度を示している Support
Vector Machines (SVM) [1] を用い,CRFs との精度を比較する.
SVM は 2 値分類器であるのに対して,本稿で扱っている問題は多値分類問題
である.そこで,識別器を組み合わせて多値分類を行う one-vs-rest 法を用いて分
類をおこなう.one-vs-rest 法は,Z = {Z1 , Z2 , ..., Zn } の多値分類問題を,Zk に
属するか,属さないかという二値分類問題に分解して解く手法であり,SVM を
多値分類問題へ適用するためによく用いられる.CRFs,SVM で用いた素性を表
4 に示す.
CRFs のグラフを構成するために定義した 3 種類のクリークのうち,どのクリー
クが精度向上に寄与するかを調査するため,Sibling(S),Cousin(C),Relative(R)
の各クリークを含むか含まないかの全組合せについて実験をおこなう (SCR 全て,
29
S
S
C
C
C
R
C
S
C
R
C
S
S
S
C
C
C
S
S
C
R
S
S
S
S
R
SC model
SCR model
S
SR model
S
C
C
C
R
C
C
S
C
R
S
CR model
S model
R model
I model
C
C
C
C
C model
R
R
図 6 Sibling,Cousin,Relative を含めるか含めないかの各組合せによって構成さ
れるグラフ.モデル名の S は Sibling クリーク,C は Cousin クリーク,R は Relative
クリークが,構成されるグラフに含まれることを表している.各モデルにおいて,
連結部分グラフごとに分類がおこなわれる.I には定義したクリークは含まれず,
各アンカーは個別に分類される.
30
素性の種類
素性
unigram
features
記事の定義文 (bag-of-words)
記事の見出し
記事の見出し (形態素)
記事のカテゴリ
記事のカテゴリ (形態素)
リンク元のアンカーテキスト
リンク元のアンカーテキスト (形態素)
アンカーテキストの親タグ
アンカー直前のヘッダのテキスト
アンカー直前のヘッダのテキスト (形態素)
bigram
features
other
SVM
√
√
√
√
√
√
√
√
√
√
ラベル間素性
ラベルと特定の unigram feature
前ラベル
CRFs (model 1)
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(S, C, R)
√
CRFs (model 2)
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(V )
√
(S, R)
√
(C)
√
表 4 分類に用いる素性.” ” は該当する素性を与えたこと,CRFs の V はノー
ドに対して,S は Sibling,C は Cousin,R は Relative クリークに対して素性を
与えたことを意味している.
SC,SR,CR,S のみ,C のみ,R のみ,個別に分類 (I とした) の 8 通り).各設
定によって構成されるグラフの例を図 6 に示す.各クリークを除いた結果,グラ
フが全体で非連結となるものについては,その構成要素となる部分連結グラフご
とに分類をおこなう.
SVM による識別では,アンカーを個別に分類する手法 (以後 I),SCR によって
構成されるノード集合に対応するアンカー A = {a1 , a2 , ..., aN } のうち,出現順序
の早いものから順番に識別する手法 (以後 P) の 2 種類の手法を適用した.P では
アンカー aj の識別に,アンカー aj−1 の識別結果を素性として用いた.
評価は Wikipedia データを 5 分割し,訓練 4,テスト 1 の比率で交差検定によ
りおこなう.交差検定のためのデータの分割は,SCR によって構成されるグラフ
の部分連結グラフ単位でおこない,分類対象となるアンカー数が各データセット
ごとに,ある程度等しくなるよう分割をおこなった.
31
各固有表現クラスおよび全体の抽出精度の評価には以下の 3 つの尺度を用いる.
システムが正しく固有表現のクラスを同定した数
システムが固有表現であると判断した数
システムが正しく固有表現のクラスを同定した数
Recall =
固有表現の数
2 × P recision × Recall
F値=
P recision + Recall
P recision =
CRFs の学習および実行には,GRaphical Models in Mallet (GRMM) [22] を
用い,パラメータ推定および最適解の算出には Tree-based Reparameterization
(TRP) を,モデルの各素性に対する重みの事前分布には Gaussian Prior を用い,
分散は σ 2 = 10 に設定した.SVM の学習および実行には,TinySVM 2 を用い,
カーネルは線形カーネルを用いた.また,形態素の素性を得るため,形態素解析
器として MeCab 3 を用いた.
5.3 実験結果・考察
表 5 は,アンカーのリンク先に文書が存在するもの,しないものの双方を含め
た Wikipedia データに対する,SVM と CRFs (model 1) の各固有表現クラスおよ
び全体の F 値を示している.
全体の傾向として,イベント名,単位名など全体数の少ない固有表現について
は,CRFs (model 1) と比較して SVM の精度が高い傾向となっているが,人名,
地名,製品名など出現する頻度の高い固有表現については CRFs が SVM を上回
る結果となり,全体として CRFs が高い精度を示す結果となった.これは,CRFs
においてノード間の依存関係を捉えた分類をおこなったことで,全体として良い
結果が得られたものと考えられる.
CRFs の Sibling,Cousin,Relative の各クリークを含めた場合と含めなかった
場合の全ての組合せの中では,Cousin と Relative を含む場合 (CR) に最も高い F
値が得られ,以降 SC,SCR,C,SR,S,R,I の順となっている.これは,個
別に分類する場合 (I) と比較し,依存関係を考慮した分類をおこなうことで精度
2
3
http://www.chasen.org/ taku/software/TinySVM/
http://mecab.sourceforge.net/
32
CRFs (model 1)
NE CLASS
人名
時間・数値表現
施設名
製品名
地名
自然物名
組織名
職業名
イベント名
称号名
名前・その他
単位名
ALL
N
3315
2749
2449
1664
1480
1132
991
303
121
42
24
15
14285
C
.7419
.9936
.8546
.7414
.7265
.3333
.7122
.9088
.2740
.1702
.0000
.2353
.7846
CR
.7429
.9944
.8541
.7540
.7239
.3422
.7160
.9050
.2345
.0889
.0000
.1250
.7862
I
.7453
.9940
.8540
.7164
.6989
.3476
.7100
.9075
.2533
.2800
.0000
.2353
.7806
R
.7458
.9936
.8516
.7208
.7048
.3513
.7073
.9059
.2667
.2800
.0000
.2353
.7814
S
.7507
.9938
.8500
.7130
.6974
.3547
.7122
.9150
.2800
.3462
.0000
.2353
.7817
SVM
SC
.7533
.9931
.8530
.7371
.7210
.3294
.6961
.9122
.2740
.2083
.0000
.1250
.7856
SCR
.7981
.9933
.8495
.7418
.7232
.3304
.5580
.9100
.2759
.1277
.0000
.1250
.7854
SR
.7515
.9940
.8495
.7187
.7033
.3316
.7109
.9186
.2667
.3462
.0000
.2353
.7823
I
.7383
.9933
.8504
.7154
.7022
.3670
.7141
.9091
.3418
.2593
.0690
.3333
.7790
P
.7386
.9935
.8560
.7135
.7132
.3326
.7180
.9069
.3500
.2642
.0000
.3158
.7798
表 5 CRFs (model 1) と SVM の分類精度 (全体,F 値).CRFs (model 1) の S は
Sibling クリーク,C は Cousin クリーク,R は Relative クリークが,構成される
CRFs のエッジに含まれていることを意味し,I は事例を個別に分類したことを意
味している.SVM の I は個別に,P は前ラベルを与えて分類をおこなったことを
意味している.
向上が可能であることを示している.また,定義した 3 種類のクリークのうち,
Cousin が最も精度向上に寄与している.これは,他のクリークと比較して出現頻
度が高く,またクリークを構成するアンカー間に強い依存関係があるがゆえ,精
度に影響を与えているものと考えられる.
各固有表現クラス個別の分類精度に関して,まず人名については Sibling,Cousin
を含むもの (SC,SCR) にて高い F 値が得られた.データ中の Sibling の関係にあ
るラベルの組で双方のアンカーのラベルが人名である事例は 4925 中 435,Cousin
の関係にあるラベルの組で双方のアンカーのラベルが人名である事例は 13125 中
2557 であり,それぞれ高い頻度で出現していたため,ラベル間素性が有効に働き,
高い精度で分類できたものと考えられる.製品名,地名については Cousin を含
むもの (C,CR,SC,SCR) にて高い F 値が得られた.Cousin の関係にあるラベ
ルの組で双方のアンカーのラベルが製品名である事例は 1072,地名である事例は
738 と高頻度で出現していたため,高い頻度で分類できたと考えられる.
表 6 は,表 5 の実験結果のうちリンク先が存在しないアンカーのみ,SVM と
33
CRFs (model 1)
NE CLASS
施設名
人名
自然物名
地名
製品名
組織名
イベント名
名前・その他
時間・数値表現
職業名
単位名
称号名
ALL
N
1080
1068
623
552
359
174
21
8
7
4
1
1
3898
C
.9363
.6709
.0799
.5306
.6894
.2120
.1000
.0000
.8571
.5714
.0000
.0000
.6469
CR
.9369
.6732
.0795
.5303
.6991
.2353
.0909
.0000
.8571
.5714
.0000
.0000
.6487
I
.9343
.6480
.0828
.4631
.6089
.2342
.1000
.0000
.6667
.0000
.0000
.0000
.6231
R
.9351
.6492
.0828
.4758
.6133
.2192
.1000
.0000
.6667
.0000
.0000
.0000
.6258
S
.9273
.6507
.0858
.4540
.6169
.3108
.0000
.0000
.8571
.5714
.0000
.0000
.6245
SVM
SC
.9382
.6741
.0284
.5313
.6839
.2648
.0000
.0000
.8571
.5714
.0000
.0000
.6463
SCR
.9347
.6855
.0222
.5236
.6851
.2132
.0000
.0000
.8571
.5714
.0000
.0000
.6440
SR
.9324
.6441
.0253
.4593
.6034
.2996
.0000
.0000
.8571
.5714
.0000
.0000
.6182
I
.7602
.5485
.0712
.3157
.5867
.3165
.1739
.0000
.5455
.4000
.0000
.0000
.5278
P
.7789
.5572
.0712
.3121
.6066
.2932
.1739
.0000
.6000
.4000
.0000
.0000
.5386
表 6 Wikipedia データの CRFs (model 1) と SVM の分類精度 (リンク先なしの
み,F 値).
CRFs (model 1) の各固有表現クラスおよび全体の分類結果 (F 値) をまとめたも
のである.
リンク先が存在しない場合,見出語,定義文,Wikipedia のカテゴリの情報が
欠落するため分類が難しくなる.そのため,CRFs,SVM の双方,F 値が大幅に低
下しているが,CRFs (model 1) の精度低下の幅は SVM と比較して小さく,SVM
との差が顕著に現れる結果となった.これは,CRFs において依存関係をとらえた
分類が精度向上に寄与しているものと考えられる.各固有表現クラス個別の分類
精度に関して,出現頻度の低い固有表現クラスについては差がみられないが,施
設名,人名,地名,製品名など,出現数の多い固有表現クラスについては,SVM
と比較して高い精度を示している.特に,Cousin クリークを含むものについては,
地名,製品名において,Cousin クリークを含まないものと比較して精度向上が顕
著である.これらはリスト内で列挙された出現の仕方をしていることが多く,こ
のようなアンカーの出現に対して依存関係を考慮した分類が有効であることを示
している.
表 7 は,CRFs の (model 1) と CRFs (model 2) は,アンカーのリンク先に文書
が存在するもの,しないものの双方を含めた Wikipedia データに対する,CRFs
(model 1) と CRFs (model 2) の各固有表現クラスおよび全体の F 値を示してい
34
CRFs (model 1)
NE CLASS
人名
時間・数値表現
施設名
製品名
地名
自然物名
組織名
職業名
イベント名
称号名
名前・その他
単位名
ALL
N
3315
2749
2449
1664
1480
1132
991
303
121
42
24
15
14285
C
.7419
.9936
.8546
.7414
.7265
.3333
.7122
.9088
.2740
.1702
.0000
.2353
.7846
CR
.7429
.9944
.8541
.7540
.7239
.3422
.7160
.9050
.2345
.0889
.0000
.1250
.7862
SC
.7533
.9931
.8530
.7371
.7210
.3294
.6961
.9122
.2740
.2083
.0000
.1250
.7856
CRFs (model 2)
SCR
.7981
.9933
.8495
.7418
.7232
.3304
.5580
.9100
.2759
.1277
.0000
.1250
.7854
C
.7419
.9915
.8558
.7352
.7104
.3071
.7223
.9031
.2416
.0465
.0000
.1250
.7815
CR
.7411
.9920
.8535
.7346
.7114
.2960
.7095
.9034
.2400
.0909
.0000
.1250
.7797
SC
.7458
.9909
.8528
.7163
.7033
.3088
.7090
.8997
.2597
.0889
.0000
.1250
.7783
SCR
.7565
.9907
.8512
.7157
.6963
.3218
.6731
.8877
.2710
.0870
.0000
.1250
.7779
表 7 Wikipedia データの CRFs (model 1) と CRFs (model 2) の分類精度比較 (全
体,F 値).
る.model 1 と model 2 では,Cousin クリークに対する素性の与え方のみ異な
り,Sibling,Relative クリークに対する素性の与え方は同じであるため,ここで
は Cousin クリークを含む model の結果のみを示している.
まず全体の傾向として,CRFs (model 1) と比較し,CRFs (model 2) の F 値は
やや低い傾向がある.CRFs (model 1) における Cousin クリークにおける素性の
数 |FCmodel1 | がラベルの組合せの数 |FCmodel1 | = |L| × |L| であるのに対し,CRFs
(model 2) における Cousin クリークの素性の数 |FCmodel2 | は,ラベルの全組合せの
数と観測素性の数の積 |FCmodel2 | = |L| × |L| × |Fo|(Fo : 観測素性) となる.ラベ
ルの組によっては,データ中の出現数が僅かであるものも存在するため,観測素
性を結びつけることで素性空間がスパースとなり,パフォーマンスの低下につな
がっていると考えられる.
次に各固有表現クラス個別の分類精度に関して,まず人名については Cousin ク
リークの関係にあるアンカーの組全体 (13125) のうち,アンカーの組の固有表現
クラスが「人名-人名」となってるものは 2557 であった.これは,Cousin クリー
35
0.95
0.90
0.85
Precision
0.80
model 1
model 2
0.4
0.5
0.6
0.7
0.8
Recall
図 7 CRFs (model 1, model 2) の分類精度の Precision-Recall 曲線
ク全体の中最も頻出する固有表現クラスの組合せである.しかし,model 2 の人
名の分類精度は model 1 と比較して大差はみられず,SCR model では逆に精度が
低下してしまうなど,期待した効果を得ることはできなかった.
図 7 は,CRFs (model 1,model 2) の CR の実験結果について,各ラベル割り当
ての周辺確率 p(yj |x) を閾値でフィルタリングした時の Precision と Recall の関係
をプロットしたものである.ここで,図 7 中の実線は model 1 の Precision-Recall
曲線,破線は model 2 の Precision-Recall 曲線である.双方ともに Recall0.6 付近
にピークがあり,その点での Precision は 0.98 近くとなっている.これは,デー
タ中に存在する固有表現全体のうち 6 割を,精度 98%,つまり 50 固有表現候補中
誤りが 1 程度と非常に高い精度で獲得できることを示している.このように,周
辺確率を用いてフィルタリングをおこなうことによって,少ないコストで固有表
現を獲得することが可能である.
36
6. おわりに
本稿では,Web 上の多言語百科事典である Wikipedia から精度よく固有表現を
獲得し分類する手法を提案した.具体的には,Wikipedia の文書の DOM 構造が
持つ依存関係を,3 種類のクリーク (Sibling,Cousin,Relative) を定義すること
によってグラフ構造に反映させ,グラフを構成するそれらのクリークに対して依
存関係を考慮したポテンシャル関数を導入することで相互の影響をとらえた上で
全体に対する最適なラベル割り当てを求める Conditional Random Fields のモデ
ルを提案した.評価実験にて,汎化性能に優れ多くの分類問題に適用されている
Support Vector Machines に対する提案手法と比較して高い精度で固有表現の分
類が可能であることを示した.
今後の課題としては,付与する固有表現クラスの粒度の細分化が挙げられる.
分類した固有表現を質問応答や関係抽出などの応用に用いることを考えた場合,
固有表現クラスの粒度の細分化は非常に重要である.例えば,質問応答システム
への応用を考えた場合,固有表現が細分化されていることで回答候補を少数に絞
ることが可能となり,回答の精度向上が期待できる.しかし,一般的に付与する
ラベル集合が大きい場合,各ラベルごとの事例数は少なくなくなるため,統計的
手法による分類は難しくなる.その問題をどう解消するかは今後の課題である.
37
謝辞
主指導教官の松本裕治教授には,終始温かい御指導,御助言をいただきました.
深く感謝いたします.お忙しい中論文審査委員をお引き受けくださった副指導教
官の石井信教授に深く感謝いたします.本研究に関して,適切な御助言をくださ
いました乾健太郎助教授に深く感謝いたします.本研究を進めるにあたり直接の
御指導をいただき,数々の的確な御助言をくださいました浅原正幸助手に深謝い
たします.本研究を進めるにあたり,適切な御助言をくださいました新保仁助手
に深く感謝いたします.Wikipedia のアノテーションデータの作成にあたり,タ
グ付け作業をしてくださった樋口章子技術補佐員,山下華代技術補佐員に深く感
謝いたします.研究活動および大学生活を暖かく支えてくださいました大川基子
秘書に感謝いたします.最後になりましたが,研究に関して貴重なアドバイスを
くださった先輩方,研究生活を暖かく支えてくださった研究室の皆様に深く感謝
いたします.
38
参考文献
[1] Statistical Learning Theory. 1998.
[2] Document Object Model (DOM) Level 3 Core Specification.
cal report, 2002.
Techni-
http://www.w3.org/TR/2002/WD-DOM-Level-3-Core-
20020409.
[3] Stanley F. Chen and Ronald Rosenfeld. A gaussian prior for smoothing
maximum entropy models. Technical report, 1999.
[4] Aron Culotta and Andrew McCallum. Confidence estimation for information extraction. In In Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational
Linguistics (HLT-NAACL), 2004.
[5] Aron Culotta, Andrew McCallum, and Jonathan Betz. Integrating probabilistic extraction models and relational data mining to discover relations
and patterns in text. In HLT-NAACL, 2006.
[6] Lise Getoor, Eran Segal, Ben Taskar, and Daphne Koller. Probabilistic
models of text and link structure for hypertext classification. 2001.
[7] Ralph Grishman and Beth Sundheim. Message understanding conference 6: A brief history. In In Proceedings of COLING-96, 1996.
[8] Juanzi Li Jie Tang, Mingcai Hong and Bangyong Liang. Tree-structured
conditional random fields for semantic annotation. In Proceedings of 5th
International Conference of Semantic Web (ISWC-06), 2006.
[9] Jun’ichi Kazama and Jun’ichi Tsujii. Evaluation and extension of maximum
entropy models with inequality constraints. In In Proceedings of Empirical
Methods of Natural Language Processing, 2003.
39
[10] John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data.
In Proceedings of the 18th International Conference on Machine Learning,
pp. 282–289. Morgan Kaufmann, San Francisco, CA, 2001.
[11] Dong C. Liu and Jorge Nocedal. The limited memory bfgs methods for large
scale optimization. In Mathematical Programming 45, 1989.
[12] Qing Lu and Lise Getoor. Link-based classification using labeled and unlabeled data. In Proceedings of the International Conference On Machine
Learning, Washington DC, August 2003.
[13] Qing Lu and Lise Getoor. Link-based text classification. In Proceedings of
the International Joint Conference on Artificial Intelligence, 2003.
[14] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton. Dynamic conditional random fields for jointly labeling multiple sequences. In
NIPS Workshop on Syntax, Semantics, and Statistics, December 2003.
[15] Andrew McCallum and Ben Wellner. Toward conditional models of identity
uncertainty with application to proper noun coreference. In IJCAI Workshop
on Information Integration on the Web, 2003.
[16] Shinsuke Mori, Daisuke Takuma, and Gakuto Kurata. Using encyclopedic knowledge for named entity disambiguation. In In Proceedings of the
21st International Conference on Computational Linguistics and 44th Annual Meetings of the Association for Computational Linguistics, 2006.
[17] Fuchun Peng, Fangfang Feng, and Andrew McCallum. Chinese segmentation
and new word detection using conditional random fields. In In Proceedings
of The 20th International Conference on Computational Linguistics (COLING), 2004.
40
[18] David Pinto, Andrew McCallum, Xing Wei, and W. Bruce Croft. Table
extraction using conditional random fields. In Proceedings of the IEEE, 77,
257-286, 2003.
[19] Satoshi Sekine and Hitoshi Isahara. IREX: IR and IE evaluation project in
Japanese, 2000.
[20] Satoshi Sekine, Kiyoshi Sudo, and Chikashi Nobata. Extended named entity
hierarchy. 2002.
[21] Fei Sha and Fernando Pereira. Shallow parsing with conditional random
fields. In Proceedings of Human Language Technology Conference and North
American Chapter of the Association for Computational Linguistics (HLTNAACL), 2003.
[22] Charles
Sutton.
GRMM:
A
graphical
models
toolkit.
http://mallet.cs.umass.edu, 2006.
[23] Charles Sutton and Andrew McCallum. An introduction to conditional random fields for relational learning. In Lise Getoor and Ben Taskar, editors,
Introduction to Statistical Relational Learning. MIT Press, 2006. To appear.
[24] Charles Sutton, Khashayar Rohanimanesh, and Andrew McCallum. Dynamic conditional random fields: Factorized probabilistic models for labeling and segmenting sequence data. In Proceedings of the 21th International
Conference on Machine Learning, 2004.
[25] Ben Taskar, Pieter Abbeel, and Daphne Koller. Discriminative probabilistic models for relational data. In Proceedings of the 18th Conference on
Uncertainty in Artificial Intelligence. Morgan Kaufmann, 2002.
[26] Martin Wainwright, Tommi Jaakkola, and Alan Willsky. Tree-based reparameterization framework for analysis of belief propagation and related algorithms, 2003.
41
[27] Martin Wainwright, Tommi Jaakkola, and Alan Willsky. Tree consistency
and bounds on the performance of the max-product algorithm and its generalizations, 2004.
[28] Ben Wellner, Andrew McCallum, Fuchun Peng, and Michael Hay. An integrated, conditional model of information extraction and coreference with
application to citation matching. In Conference on Uncertainty in Artificial
Intelligence (UAI), 2004.
[29] 新里圭司, 鳥澤健太郎. Web からの単語クラスの簡単な作り方. 言語処理学
会第 11 回年次大会, 2005.
[30] 岡野原大輔, 工藤拓, 森信介. 形態素周辺確率を用いた確率的単語分割コーパ
スの構築とその応用. Technical report, 第 1 回 NLP 若手の会, 2006.
[31] 工藤拓. 形態素周辺確率を用いた分かち書きの一般化とその応用. 言語処理
学会全国大会 NLP-2005, 2005.
[32] 工藤拓, 山本薫, 松本裕治. Conditional random fields を用いた日本語形態素
解析. 情報処理学会自然言語処理研究会 SIGNL-161, 2004.
42
付録
A. 実験結果の詳細
CRFs (model 1)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
製品名
名前・その他
時間・数値表現
ALL
N
121
3315
15
1480
2449
42
991
303
1132
1664
24
2749
14285
Prec.
.8000
.6081
1.0000
.8181
.9196
.8000
.7627
.9496
.9463
.7609
.0000
.9935
.7856
C
Rec.
.1653
.9514
.1333
.6534
.7983
.0952
.6680
.8713
.2023
.7230
.0000
.9938
.7835
Prec.
.6897
.6258
1.0000
.7896
.9211
.8750
.7607
.9808
.9494
.7539
.0000
.9942
.7929
R
Rec.
.1653
.9228
.1333
.6365
.7918
.1667
.6609
.8416
.2155
.6905
.0000
.9931
.7702
Prec.
.8333
.6869
1.0000
.8140
.9026
.6000
.4745
.9564
.9576
SCR
Rec.
.1653
.9523
.0667
.6507
.8024
.0714
.6771
.8680
.1996
F
.2740
.7419
.2353
.7265
.8546
.1702
.7122
.9088
.3333
.7414
.0000
.9936
.7846
Prec.
.7083
.6091
1.0000
.8179
.9179
.6667
.7649
.9493
.9368
.7761
.0000
.9945
.7876
CR
Rec.
.1405
.9520
.0667
.6493
.7987
.0476
.6731
.8647
.2094
.7332
.0000
.9942
.7849
F
.2345
.7429
.1250
.7239
.8541
.0889
.7160
.9050
.3422
.7540
.0000
.9944
.7862
Prec.
.6552
.6250
1.0000
.7689
.9269
.8750
.7589
.9846
.9639
.7513
.0000
.9942
.7912
I
Rec.
.1570
.9231
.1333
.6405
.7918
.1667
.6670
.8416
.2120
.6845
.0000
.9938
.7702
F
.2533
.7453
.2353
.6989
.8540
.2800
.7100
.9075
.3476
.7164
.0000
.9940
.7806
Prec.
.8000
.6238
1.0000
.8062
.9078
.8333
.7267
.9532
.9615
.7538
.0000
.9931
.7875
SC
Rec.
.1653
.9508
.0667
.6520
.8044
.1190
.6680
.8746
.1988
.7212
.0000
.9931
.7837
F
.2740
.7533
.1250
.7210
.8530
.2083
.6961
.9122
.3294
.7371
.0000
.9931
.7856
CRFs (model 1)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
製品名
名前・その他
時間・数値表現
ALL
N
121
3315
15
1480
2449
42
991
303
1132
1664
24
2749
14285
F
.2667
.7458
.2353
.7048
.8516
.2800
.7073
.9059
.3513
.7208
.0000
.9936
.7814
Prec.
.7241
.6340
1.0000
.7683
.9180
.9000
.7426
.9439
.9647
.7370
.0000
.9942
.7910
S
Rec.
.1736
.9201
.1333
.6385
.7913
.2143
.6842
.8878
.2173
.6905
.0000
.9935
.7727
F
.2800
.7507
.2353
.6974
.8500
.3462
.7122
.9150
.3547
.7130
.0000
.9938
.7817
CRFs (model 1)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
N
121
3315
15
1480
2449
42
991
303
1132
F
.2759
.7981
.1250
.7232
.8495
.1277
.5580
.9100
.3304
43
Prec.
.6897
.6347
1.0000
.7807
.9131
.9000
.7362
.9443
.9578
CRFs (model 2)
SR
Rec.
.1653
.9210
.1333
.6399
.7942
.2143
.6872
.8944
.2005
F
.2667
.7515
.2353
.7033
.8495
.3462
.7109
.9186
.3316
Prec.
.6429
.6070
1.0000
.7922
.9185
1.0000
.7792
.9491
.9583
C
Rec.
.1488
.9538
.0667
.6439
.8011
.0238
.6731
.8614
.1829
F
.2416
.7419
.1250
.7104
.8558
.0465
.7223
.9031
.3071
製品名
名前・その他
時間・数値表現
ALL
1664
24
2749
14285
.7650
.0000
.9938
.7871
.7200
.0000
.9927
.7838
Prec.
.6207
.6065
1.0000
.7937
.9186
1.0000
.7489
.9458
.9612
.7734
.0000
.9916
.7822
CR
Rec.
.1488
.9523
.0667
.6446
.7971
.0476
.6741
.8647
.1749
.6995
.0000
.9924
.7773
Prec.
.7241
.6315
1.0000
.7683
.9182
.9000
.7418
.9439
.9647
.7375
.0000
.9942
.7898
S
Rec.
.1736
.9198
.1333
.6385
.7840
.2143
.6842
.8878
.2173
.6905
.0000
.9935
.7714
.7418
.0000
.9933
.7854
.7444
.0000
.9949
.7919
.6947
.0000
.9931
.7729
.7187
.0000
.9940
.7823
.7732
.0000
.9906
.7842
.7007
.0000
.9924
.7789
.7352
.0000
.9915
.7815
Prec.
.6897
.6277
1.0000
.7823
.9225
.8750
.7621
.9846
.9494
.7503
.0000
.9942
.7931
R
Rec.
.1653
.9216
.1333
.6385
.7918
.1667
.6660
.8449
.2155
.6935
.0000
.9935
.7709
F
.2667
.7468
.2353
.7031
.8521
.2800
.7108
.9094
.3513
.7208
.0000
.9938
.7819
Prec.
.6176
.6312
1.0000
.7786
.9126
.5000
.6793
.9476
.9563
.7121
.0000
.9891
.7791
SCR
Rec.
.1736
.9439
.0667
.6297
.7975
.0476
.6670
.8350
.1935
.7194
.0000
.9924
.7768
F
.2710
.7565
.1250
.6963
.8512
.0870
.6731
.8877
.3218
.7157
.0000
.9907
.7779
P
Rec.
.2314
.9285
.2000
.6493
.7975
.1667
.6963
.8680
.2005
.7025
.0000
F
.3500
.7386
.3158
.7132
.8560
.2642
.7180
.9069
.3326
.7135
.0000
CRFs (model 2)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
製品名
名前・その他
時間・数値表現
ALL
N
121
3315
15
1480
2449
42
991
303
1132
1664
24
2749
14285
F
.2400
.7411
.1250
.7114
.8535
.0909
.7095
.9034
.2960
.7346
.0000
.9920
.7797
Prec.
.6552
.6250
1.0000
.7689
.9269
.8750
.7589
.9846
.9639
.7513
.0000
.9942
.7912
I
Rec.
.1570
.9231
.1333
.6405
.7918
.1667
.6670
.8416
.2120
.6845
.0000
.9938
.7702
F
.2533
.7453
.2353
.6989
.8540
.2800
.7100
.9075
.3476
.7164
.0000
.9940
.7806
CRFs (model 2)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
製品名
名前・その他
時間・数値表現
ALL
N
121
3315
15
1480
2449
42
991
303
1132
1664
24
2749
14285
F
.2800
.7489
.2353
.6974
.8458
.3462
.7118
.9150
.3547
.7132
.0000
.9938
.7805
Prec.
.6061
.6161
1.0000
.7796
.9185
.6667
.7528
.9455
.9674
.7314
.0000
.9898
.7811
SC
Rec.
.1653
.9448
.0667
.6405
.7958
.0476
.6700
.8581
.1837
.7019
.0000
.9920
.7756
Prec.
.7297
.6152
1.0000
.7625
.9218
.5833
.7241
.9464
.9734
.7415
.2000
I
Rec.
.2231
.9231
.2000
.6507
.7893
.1667
.7043
.8746
.2261
.6911
.0417
CRFs (model 2)
NE CLASS
イベント名
人名
単位名
地名
施設名
称号名
組織名
職業名
自然物名
製品名
名前・その他
N
121
3315
15
1480
2449
42
991
303
1132
1664
24
Prec.
.6667
.6344
1.0000
.7772
.9154
.9000
.7322
.9443
.9620
.7494
.0000
SR
Rec.
.1653
.9204
.1333
.6365
.7913
.2143
.6842
.8944
.2014
.6935
.0000
F
.2597
.7458
.1250
.7033
.8528
.0889
.7090
.8997
.3088
.7163
.0000
.9909
.7783
SVM
F
.2649
.7511
.2353
.6999
.8489
.3462
.7074
.9186
.3331
.7203
.0000
44
F
.3418
.7383
.3333
.7022
.8504
.2593
.7141
.9091
.3670
.7154
.0690
Prec.
.7179
.6131
.7500
.7909
.9238
.6364
.7411
.9495
.9742
.7247
.0000
時間・数値表現
ALL
2749
14285
.9949
.7921
.9931
.7716
.9940
.7817
.9920
.7812
.9945
.7768
.9933
.7790
.9924
.7817
.9945
.7779
B. 関根の拡張固有表現階層 クラス一覧
ノード名
TOP
# TOP
名前
名前_その他
# NAME
# NAME OTHER
人名
組織名
組織名_その他
企業名
企業グループ名
軍隊名
協会名
政府組織名
政党名
競技グループ名
国際組織名
民族名
国籍名
#
#
#
#
#
#
#
#
#
#
#
#
#
PERSON
ORGANIZATION
ORGANIZATION OTHER
COMPANY
COMPANY GROUP
MILITARY
INSTITUTE
GOVERNMENT
POLITICAL PARTY
GAME GROUP
INTERNATIONAL ORGANIZATION
ETHNIC GROUP
NATIONALITY
地名
地名_その他
GPE
GPE _その他
市区町村名
郡名
都道府県名
国名
大陸地域名
国内地域名
地形名
地形名_その他
陸上地形名
河川湖沼名
海洋名
天体名
天体名_その他
恒星名
惑星名
アドレス
アドレス_その他
郵便住所
電話番号
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
LOCATION
LOCATION OTHER
GPE
GPE OTHER
CITY
COUNTY
PROVINCE
COUNTRY
CONTINENTAL REGION
DOMESTIC REGION
GEOLOGICAL REGION
GEOLOGICAL REGION OTHER
LANDFORM
WATER FORM
SEA
ASTRAL BODY
ASTRAL BODY OTHER
STAR
PLANET
ADDRESS
ADDRESS OTHER
POSTAL ADDRESS
PHONE NUMBER
45
.9935
.7798
電子メイル
URL
# EMAIL
# URL
施設名
施設名_その他
GOE
GOE _その他
学校名
公共機関名
取引所名
美術博物館名
遊園施設名
神社寺名
駅名
駅名_その他
空港名
電車駅名
港名
停車場名
路線名
路線名_その他
電車路線名
道路名
航路名
トンネル名
橋名
公園名
スポーツ施設名
記念碑名
施設部分名
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
FACILITY
FACILITY OTHER
GOE
GOE OTHER
SCHOOL
PUBLIC INSTITUTION
MARKET
MUSEUM
AMUSEMENT PARK
WORSHIP PLACE
STATION TOP
STATION TOP OTHER
AIRPORT
STATION
PORT
CAR STOP
LINE
LINE OTHER
RAILROAD
ROAD
WATERWAY
TUNNEL
BRIDGE
PARK
SPORTS FACILITY
MONUMENT
FACILITY PART
製品名
製品名_その他
乗り物名
乗り物名_その他
車名
列車名
飛行機名
宇宙船名
船名
食べ物名
衣服名
医薬品名
武器名
株名
賞名
理論名
規則名
便名
キャラクター名
方式制度名
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
PRODUCT
PRODUCT OTHER
VEHICLE
VEHICLE OTHER
CAR
TRAINN
AIRCRAFT
SPACESHIP
SHIP
FOOD
CLOTHES
DRUG
WEAPON
STOCK
AWARD
THEORY
RULE
SERVICE
CHARACTER
METHOD SYSTEM
46
主義思想名
文化名
宗教名
言語名
政策計画名
学問
等級
競技名
罪名
芸術
芸術名_その他
絵画名
番組名
映画名
公演名
音楽名
文学名
出版物名
出版物名_その他
新聞名
雑誌名
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
DOCTRINE
CULTURE
REGION
LANGUAGE
PLAN
ACADEMIC
CLASS
SPORTS
OFFENCE
ART
ART OTHER
PICTURE
BROADCAST PROGRAM
MOVIE
SHOW
MUSIC
BOOK
PRINTING
PRINTING OTHER
NEWSPAPER
MAGAZINE
イベント名
イベント名_その他
催し物名
催し物名_その他
大会名
会議名
自然現象名
自然災害名
戦争名
事故事件名
#
#
#
#
#
#
#
#
#
#
EVENT
EVENT OTHER
OCCASION
OCCASION OTHER
GAMES
CONFERENCE
NATURAL PHENOMENA
NATURAL DISASTER
WAR
INCIDENT
自然物名
自然物名_その他
生物名
生物名_その他
動物名
動物名_その他
無脊椎動物
無脊椎動物_その他
昆虫類
脊椎動物
脊椎動物_その他
魚類
爬虫類
両生類
鳥類
哺乳類
植物名
動物部位名
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
NATURAL OBJECT
NATURAL OBJECT OTHER
LIVING THING
LIVING THING OTHER
ANIMAL
ANIMAL OTHER
INVERTEBRATE
INVERTEBRATE OTHER
INSECT
VERTEBRATE
PVERTEBRATE OTHER
FISH
REPTILE
AMPHIBIA
BIRD
MAMMAL
FLORA
BODY PARTS
47
植物部位名
物質名
# FLORA PARTS
# MINERAL
称号名
称号名_その他
地位名
# TITLE
# TITLE OTHER
# POSITION TITLE
単位名
単位名_その他
通貨名
# UNIT
# UNIT OTHER
# CURRENCY
職業名
# VOCATION
病気名
# DISEASE
神名
# GOD
識別番号名
# ID NUMBER
色名
# COLOR
時間表現
時間表現_その他
時間
時間_その他
時刻表現
日付表現
曜日表現
時代表現
#
#
#
#
#
#
#
#
TIME TOP
TIME TOP OTHER
TIMEX
TIMEX OTHER
TIME
DATE
DAY OF WEEK
ERA
期間
期間_その他
時刻期間
日数期間
週期間
月期間
年期間
#
#
#
#
#
#
#
PERIODX
PERIODX OTHER
TIME PERIOD
DATE PERIOD
WEEK PERIOD
MONTH PERIOD
YEAR PERIOD
数値表現
数値表現_その他
金額表現
株指標
ポイント
割合表現
倍数表現
頻度表現
順位表現
年齢
学齢
緯度経度
#
#
#
#
#
#
#
#
#
#
#
#
NUMEX
NUMEX OTHER
MONEY
STOCK INDEX
POINT
PERCENT
NULTIPLICATION
FREQUENCY
RANK
AGE
SCHOOL AGE
LATITUDE LONGITUDE
48
寸法表現
寸法表現_その他
長さ
面積
体積
重量
速度
密度
温度
カロリー
震度
マグニチュード
#
#
#
#
#
#
#
#
#
#
#
#
MEASUREMENT
MEASUREMENT OTHER
PHYSICAL EXTENT
SPACE
VOLUME
WEIGHT
SPEED
INTENSITY
TEMPERATURE
CALORIE
SEISMIC INTENSITY
SEISMIC MAGNITUDE
個数
個数_その他
人数
組織数
場所数
場所数_その他
国数
施設数
製品数
イベント数
動物数
植物数
物質数
#
#
#
#
#
#
#
#
#
#
#
#
#
COUNTX
COUNTX OTHER
N PERSON
N ORGANIZATION
N LOCATION
N LOCATION OTHER
N COUNTRY
N FACILITY
N PRODUCT
N EVENT
N ANIMAL
N FLORA
N MINERAL
序数
# ORDINAL NUMBER
表 9: 拡張固有表現階層クラス一覧
49
Fly UP