...

修士論文 ニューラルネットワークを用いた センテンス類似度モデルの

by user

on
Category: Documents
26

views

Report

Comments

Transcript

修士論文 ニューラルネットワークを用いた センテンス類似度モデルの
NAIST-IS-MT1451006
修士論文
ニューラルネットワークを用いた
センテンス類似度モデルの
エンティティ曖昧性解消への応用
有山 祐平
2016 年 3 月 11 日
奈良先端科学技術大学院大学
情報科学研究科 情報科学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
有山 祐平
審査委員:
松本 裕治 教授
中村 哲 教授
新保 仁 准教授
進藤 裕之 助教
(主指導教員)
(副指導教員)
(副指導教員)
(副指導教員)
ニューラルネットワークを用いた
センテンス類似度モデルの
エンティティ曖昧性解消への応用 ∗
有山 祐平
内容梗概
近年,ウィキペディアなどの知識ベースが急速に発展し,知識ベースを用い
たエンティティリンキングの技術に関心が高まっている.エンティティリンキン
グは,文章中に出現する実世界上のモノやこと等の実態(メンション) を知識ベー
スのエンティティのエントリにリンクするというものである.この技術の発展に
より,人々の文章に対する意味理解を向上させることが期待できる.しかし,文
章中のメンションには曖昧性があるため,周辺の情報を用いてエンティティの曖
昧性を解消し,正しいエンティティのエントリにリンクさせる必要がある.本研
究では,ニューラルネットワークを用いたセンテンス類似度モデルをエンティティ
リンキングのタスクに応用することで,エンティティの曖昧性解消の精度向上を
目指す.
キーワード
エンティティリンキング, エンティティ曖昧性解消, センテンス類似度, ニューラ
ルネットワーク
∗
奈良先端科学技術大学院大学 情報科学研究科 情報科学専攻 修士論文, NAIST-IS-MT1451006,
2016 年 3 月 11 日.
i
The application of
Sentence Similarity Model with Neural Networks
for Entity Disambiguation∗
Yuhei Ariyama
Abstract
In recent years, knowledge bases such as Wikipedia have been developed rapidly.
Entity linking is the task of linking mentions in natural language text to entities registered in a knowledge base, and aims to help understand the meaning of sentences for
people with little background knowledge. Because, there is an ambiguity in mentions
in natural language text, we need to disambiguate entities using information in the
surrounding text. In this research, we aim to improve entity disambiguation accuracy
using a sentence similarity model with neural networks.
Keywords:
Entity Linking, Entity Disambiguation, Sentence Similarity, Neural Networks
∗
Master’s Thesis, Department of Information Science, Graduate School of Information Science,
Nara Institute of Science and Technology, NAIST-IS-MT1451006, March 11, 2016.
iii
v
謝辞
本研究を進めるにあたり,多大な助言とご指導をいただいた主指導教員である
自然言語処理学講座 松本裕治教授に感謝いたします.お忙しい中にも関わらず,
本研究や論文執筆に関して終始ご指導ご鞭撻を頂きました.
また,知能コミュニケーション研究室の中村哲教授には,中間発表から多くの
助言をいただきました.新保仁准教授,進藤裕之助教には研究会などで研究のこ
とに限らず進路のことなど様々なアドバイスをいただきました.深く感謝いたし
ます.
長期のインターンシップに参加させていただき,研究室に足を運ぶことが出来
なかった時期があったにも関わらず,自然言語処理学研究室の先輩,後輩,同期
の方々には変わらず多くの知識や示唆を頂きました.本当にありがとうございま
した.
vii
目次
謝辞
第1章
1.1
1.2
1.3
第2章
2.1
2.2
2.3
第3章
3.1
3.2
v
序論
背景 . . . . . . . . . . . . . . . . . . . . .
1.1.1 知識ベースの発展 . . . . . . . . . .
1.1.2 エンティティリンキング . . . . . .
本研究の目的 . . . . . . . . . . . . . . . .
1.2.1 知識ベースのプロパティ情報の利用
1.2.2 センテンス類似度モデルの利用 . .
構成 . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
関連研究
エンティティリンキング . . . . . . . . . . . . . . . . . . . . .
エンティティリンキングに使用されるデータセットと評価手法
2.2.1 データセット . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 NIL エンティティ . . . . . . . . . . . . . . . . . . . . .
2.2.3 評価手法 . . . . . . . . . . . . . . . . . . . . . . . . . .
ニューラルネットワークを用いた従来手法 . . . . . . . . . . .
2.3.1 word embedding . . . . . . . . . . . . . . . . . . . . . .
2.3.2 畳み込みニューラルネットワーク . . . . . . . . . . . .
2.3.3 ニューラルテンソルネットワーク . . . . . . . . . . . .
2.3.4 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
提案手法
知識ベースのプロパティ情報 .
センテンス類似度モデル . . .
3.2.1 センテンスモデリング
3.2.2 類似度測定レイヤー .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
3
3
4
4
.
.
.
.
.
.
.
.
.
.
7
7
7
7
9
9
10
11
12
12
13
.
.
.
.
17
17
17
18
19
センテンス類似度モデルを応用したエンティティ曖昧性解消のた
めの新しいモデル . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
実験
トレーニング . . . . .
4.1.1 データセット .
4.1.2 前処理 . . . . .
4.1.3 パラメータ設定
テスト . . . . . . . . .
評価手法 . . . . . . . .
.
.
.
.
.
.
23
24
24
24
25
25
26
第5章
5.1
5.2
5.3
結果と考察
結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
本論文の成果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
27
28
28
第6章
おわりに
29
3.3
第4章
4.1
4.2
4.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
参考文献
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
viii
ix
図目次
1.1
1.2
”Bohn ”の wikiPageDisambiguates プロパティを取得するコード .
エンティティの曖昧性解消の模式図 . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
Sun らのニューラルネットワークを用いたエンティティ曖昧性解消
のモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
コンテキストモデリング . . . . . . . . . . . . . . . . . . . . . . . 12
ニューラルテンソルネットワーク . . . . . . . . . . . . . . . . . . 13
3.1
3.2
He らのセンテンス類似度モデル . . . . . . . . . . . . . . . . . . . 18
センテンス類似度を用いたエンティティ曖昧性解消のモデル . . . 20
2
3
xi
表目次
1.1
”Bohn ”で検索した際の wikiPageDisambiguates プロパティ情報 .
3
2.1
2.2
エンティティリンキングで使用されるデータセット . . . . . . . .
ニューラルネットワークを使用した既存研究の結果 . . . . . . . .
8
15
5.1
5.2
提案手法の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . .
エンティティ候補の削減に関する実験結果 . . . . . . . . . . . . .
27
27
1
第1章
序論
本研究の動機と,貢献について述べる.
1.1 背景
1.1.1
知識ベースの発展
近年,ウィキペディアや DBpedia,YAGO といった知識ベースが急速に発展して
いる.知識ベースとは,知識を検索可能とし,知識を組織化し,知識をコンピュー
タ上に集約させたものである.また,情報通信技術の急速な発展・普及に伴い,我々
は現在,多種多様かつ膨大なデータに容易にアクセス可能な環境にある.DBpedia
は,ウィキペディアから構造化コンテントの抽出を目的とするプロジェクトであ
る.2011 年 09 月において,DBpedia のデータセットは 364 万件のエンティティ
を扱い,うち 183 万件が一貫したオントロジーに分類されている.利用者はこの
データセットから多数のウィキペディアの記事に分散している情報に対して問い
合わせを行うことができる.データへのアクセスは,SPARQL という問い合わせ
言語で行う.以下に,Bohn という文字列で検索した際の wikiPageDisambiguates
プロパティ情報を抽出するコードを図 1.1 に示す.
図 1.1 で問い合わせを行った際の出力は html 形式で取得することが出来る.Bohn
で検索した際のエンティティの候補を表 1.1 に示す.このように DBpedia を利用
することで,エンティティのプロパティ情報を得ることが出来る.また,
「出身地
が奈良県の人物」,といったようにプロパティ情報を利用した関連情報の一覧を
取得することも可能である.
1.1.2
エンティティリンキング
ウェブページ,ニュース記事などの投稿や,インターネットの文章が急速に増
大している,これらの文章には人物や地名,組織などのメンション (言及)を含
んでいる場合が多い.その人名や地名,組織などのメンションを正しい知識ベー
図 1.1: ”Bohn ”の wikiPageDisambiguates プロパティを取得するコード
スのエンティティとリンクさせることがエンティティリンキングのタスクである
[17][18][25][20][21].例えば,
They performed Kashmir written by Page and Plant.
というセンテンス(文)があった時に,”Kashmir”というメンションは KB:Kashmir (song)
へ,”Page ”は KB:Jimmy Page へ,”Robert ”は KB:Robert Plant へリンクするのが
正解である.しかし,”Page ”のようなメンションがリンクされるエンティティには
曖昧性があり,KB:Jimmy Page や KB:Larry Page といった候補の中から,このセ
ンテンスにあった正しい知識ベースのエンティティへとリンクさせる必要がある.
このように,候補の中から文章及びセンテンスにあったエンティティを選ぶタスク
をエンティティの曖昧性解消と呼ぶ.候補の取得には,ウィキペディアのウィキペ
ディア本文,DBpedia の wikiPageDisambiguates プロパティ情報が利用される.例
えば,”President Obama ”というアンカーテキストのリンク先が KB:Barack Obama
であった時に,”President Obama ”の候補として,KB:Barack Obama を追加する.
図 1.2 にエンティティの曖昧性解消のモデル図を示す.入力は,曖昧性を解消し
たいメンションと,そのメンションが含まれるセンテンスである.システムは,
知識ベースからメンションのリンク先であるエンティティの候補を取得し,その
エンティティの候補から入力された文章,センテンスに適したエンティティを選
択する.
2
表 1.1: ”Bohn ”で検索した際の wikiPageDisambiguates プロパティ情報
syn
http://dbpedia.org/resource/J. G. S. B. Bohn
http://dbpedia.org/resource/John Bohn
http://dbpedia.org/resource/T. J. Bohn
http://dbpedia.org/resource/Hans Bohn
http://dbpedia.org/resource/Jason Bohn
http://dbpedia.org/resource/Carsten Bohn
http://dbpedia.org/resource/Parker Bohn III
http://dbpedia.org/resource/Frank P. Bohn
http://dbpedia.org/resource/Henry George Bohn
図 1.2: エンティティの曖昧性解消の模式図
1.2 本研究の目的
1.2.1
知識ベースのプロパティ情報の利用
知識ベースのプロパティ情報とは,エンティティの属性や特性を表すデータこ
とである.例えば,KB:Larry Page の birthPlace と呼ばれるプロパティ情報は,
East Lansing, Michigan, U.S.A
である.KB:Kashmir (song) の comment(コメント)と呼ばれるプロパティ情報は,
”Kashmir” is a song by the English rock band Led Zeppelin from their
sixth album Physical Graffiti, released in 1975. It was written by Jimmy
3
Page and Robert Plant (with contributions from John Bonham) over a period of three years with lyrics dating to 1973. The song became a concert
staple, performed by the band at almost every concert after its release.
である.
Sun ら [2] は,ニューラルネットワークを利用した,エンティティの曖昧性解
消のモデルを提案している.彼らのモデルも知識ベースのプロパティ情報を使用
したものであるが,クラスと呼ばれるプロパティ情報しか使用していない.例え
ば,KB:Barack Obama のクラスは
president of the united states
である.
我々は,クラスの情報ではなくコメントというプロパティ情報を使用すること
を提案する.例えば,KB:Barack Obama のコメントは
Barack Hussein Obama II (/brk husełn bm/; born August 4, 1961) is the
44th and current President of the United States, and the first African American to hold the office. Born in Honolulu, Hawaii, Obama is a graduate of Columbia University and Harvard Law School, where he served as
president of the Harvard Law Review. He was a community organizer in
Chicago before earning his law degree.
である.ここには,エンティティのクラス情報だけでなく,関係する組織や人物
がより詳細に記載されている.エンティティのコメントというプロパティ情報を
利用することで,エンティティ曖昧性解消の精度を向上を目指す.
1.2.2
センテンス類似度モデルの利用
He ら [5] は,ニューラルネットワークを利用した,センテンス類似度を学習す
るモデルを提案している.1.2.1 で説明した,知識ベースのコメントのプロパティ
情報とセンテンス類似度を学習するモデルを,エンティティの曖昧性解消のタス
クに応用することで,エンティティの曖昧性解消の精度を向上を目指す.
1.3 構成
本論文の構成を以下に示す.
4
まず始めに,第2章において関連研究を述べる.次に,センテンス類似度モデ
ルを利用したエンティティ曖昧性解消のモデルを第3章で述べる.続く第4章,
第5章で実験と考察を述べる.最後に第6章で本論文のまとめを行う.
5
7
第2章
関連研究
2.1 エンティティリンキング
従来のエンティティリンキングの研究における,エンティティ曖昧性解消の精
度は,センテンスとエンティティの特徴量選択に依存していた.センテンスの特
徴量は,表層的な単語,品詞タグ [9] や,構造的な係り受け情報,トピック情報
などが使用され [10],エンティティの特徴量は単語,同義語,意味カテゴリなど
が利用された [17][12].
特徴選択はとても大事であるが,データの説明可能な情報の裏に隠れたものを
利用できない.自然言語処理学では近年,ニューラルネットワークを用いてテキ
ストの情報をより効果的な特徴量を用いて学習する手法が開発された.エンティ
ティ曖昧性のタスクにおいても,He ら [14] は積層自己符号化器 [15] を用いたエ
ンティティ曖昧性解消の手法を提案した.
2.2 エンティティリンキングに使用されるデータセット
と評価手法
Ling ら [1] は,従来のエンティティリンキングの手法,データセットをまとめ,
エンティティリンキングのタスクに使用されるデータセット,手法が統一されて
いないという問題を指摘している.このセクションでは,エンティティリンキン
グに使用される主なデータセット,評価手法を紹介する.
2.2.1
データセット
エンティティリンキングのタスクでは多くのデータセットが使用されている.
データセットは大きく分けて UIUC グループ [18],AIDA グループ [7],TAC グ
ループ [6] と呼ばれる3つのグループに分けられる.それぞれメンション数,エ
ンティティタイプ,知識ベース,NIL 数,評価手法が異なる.表 2.1 に詳細を示
す.グループによって使用している知識ベース,エンティティタイプ,評価手法
や NIL の扱いが異なる.
グループ
UIUC
UIUC
AIDA
AIDA
TAC KBP
TAC KBP
TAC KBP
TAC KBP
TAC KBP
表 2.1: エンティティリンキングで使用されるデータセット.
データセット メンション数 エンティティタイプ 知識ベース NIL 数
ACE
244
Any Wikipedia Topic Wikipedia
0
MSNBC
654
Any Wikipedia Topic Wikipedia
0
AIDA-dev
5917
PER,ORG,LOC,MISC
Yago
1126
AIDA-test
5616
PER,ORG,LOC,MISC
Yago
1131
TAC09
3904
PER,ORG,GPE
TAC ⊂ Wiki 2229
TAC10
2250
PER,ORG,GPE
TAC ⊂ Wiki 1230
TAC10T
1500
PER,ORG,GPE
TAC ⊂ Wiki 426
TAC11
2250
PER,ORG,GPE
TAC ⊂ Wiki 1126
TAC12
2226
PER,ORG,GPE
TAC ⊂ Wiki 1049
評価手法
BOC F1
BOC F1
Accuracy
Accuracy
Accuracy
Accuracy
Accuracy
B3+ F1
B3+ F1
UIUC
UIUC グループ [18] に属する ACE[22],MSNBC[23] はそれぞれメンション数が
244, 654 個あるデータセットである.それぞれのエンティティにはタイプとい
う情報が付属しており,タイプはウィキペディアのトピックを利用している.知
識ベースとしてウィキペディアを使用している.
AIDA
AIDA グループ [7] は CoNLL2003 の固有表現抽出のデータセットにタグ付けを
行ったものである.CoNLL2003 のデータセットはロイターニュースのコーパスに
固有表現のタグ付けがされたものである.AIDA のデータセットは,AIDA-train,
AIDA-dev,AIDA-test に分けられる.AIDA-dev,AIDA-test はそれぞれエンティ
ティが 5917, 5616 個あるデータセットである.それぞれのエンティティにはタ
イプという情報が付属しており,PER,ORG,LOC,MISIC という 4 種類のタイ
プがある.
8
TAC
TAC グループ [6] には TAC10∼12 のデータセットがある.TAC とは The Text
Analysis Conference の略で,自然言語処理の研究を促進させるためのワークショッ
プである.TAC KBP は構造化されていないテキストから,知識ベースの情報を
集めるためのタスクである.そのデータセットをエンティティの曖昧性解消に利
用する.また,”Sherlock Holmes ”のような架空の人物や組織は含まれていない.
2.2.2 NIL エンティティ
知識ベースに登録されていないエンティティを NIL エンティティと呼ぶ.それ
ぞれのデータセットや手法によって NIL の扱いが異なる点に注意する必要があ
る.UIUC グループ [18] では,NIL エンティティは存在しない.また,TAC グルー
プ [6] の一部のデータセットでは,エンティティの曖昧性解消を行うだけでなく,
NIL エンティティをクラスタリングする必要がある.
2.2.3
評価手法
エンティティ曖昧性解消のタスクにおいて,種々の評価手法が使用される.使
用する評価手法によって結果が大幅に異なるので評価手法の選択は重要である.
以下に,エンティティ曖昧性解消のタスクにおいて,一般的に使用される評価手
法を紹介する.
Bag-of-Concept F1
それぞれの文章に対して,正解のウィキペディアエンティティの集合がある.シ
ステムが出力した結果の中で正しかったエンティティの割合を適合率 (precision),
結果として出てくるべきエンティティのうち,実際に出てきたエンティティの割
合を再現率 (recall) とする.そのとき,以下の式 (2.1) の Fmeasure を Bag-of-Concept
F1 の出力とする.
Fmeasure =
2 · precision · recall
precision + recall
(2.1)
この評価手法は欠点もあり,メンションがすべて正解とは異なるエンティティ
にリンクされても,エンティティの集合が正解のエンティティの集合と等しけれ
ば,Fmeasure は 100% になってしまう.
9
Micro Accuracy
メンションとそののメンションが含まれるセンテンスがリストで与えられてい
る.その中で正しいエンティティにリンクしたメンションのパーセンテージを出
力とする評価手法である.100 件のメンションがあり,50 件のメンションが正し
いエンティティにリンクされた場合,Micro Accuracy での評価は 50% となる.
TAC-KBP B3+ F1
知識ベースに登録されていないメンション(NIL エンティティ)に対して,NIL
クラスタリングを行う.”Mr Obama ”や ”President Obama ”といったメンション
をそれらと同じ実態を指す KB:Barack Obama といったエンティティにクラスタリ
ングする.評価は B3 + F1[24] を使用する.
NER-style F1
センテンス中のメンションを特定し.また,そのメンションが正しい知識ベー
スのエンティティにリンクされて始めて正解とする評価手法である.主に AIDA
を利用した時に使用される評価手法である.例えば,
They performed Kashmir written by Page and Plant.
というセンテンスがあった時に,”Kashmir ”というメンションを特定し,”Kashmir ”
というメンションを KB:Kashmir (song) へリンクさせて,このメンションに対し
てシステムは正解を出力したとする評価手法である.
2.3 ニューラルネットワークを用いた従来手法
Sun ら [2] は,ニューラルネットワークを利用した,エンティティの曖昧性解消
のモデルを提案している.図 2.1 にそのモデルを示す.
センテンス,メンション,エンティティ候補,エンティティクラスのそれぞれ
を特徴ベクトル vc , vm , vew , vec に変換する.ニューラルテンソルネットワークでセ
ンテンスとメンションの特徴ベクトル,エンティティ候補とエンティティクラス
の特徴ベクトルを合成し,vmc , ve を得る.候補の中の正しいエンティティのエン
ティティワードとエンティティクラスの特徴ベクトルを合成した特徴ベクトル ve
が,センテンス,とメンションの特徴ベクトル vmc と近くなるようにモデルを学
習する.
10
図 2.1: Sun らのニューラルネットワークを用いたエンティティ曖昧性解消のモ
デル
sim(e, mc) = cosine(ve , vmc )
(2.2)
ロス関数を式 (2.3) に示す.ここで e は正解のエンティティ,e, は不正解のエン
ティティを表す.正解のエンティティと mc の出力が不正解のエンティティより
も大きくなるように学習する.
loss =
∑
max(0, 1 − sim(e, mc) + sim(e, , mc))
(2.3)
(m,c)∈T
2.3.1 word embedding
word embedding では単語を連続値ベクトルで表す.ベクトルの中身がその単
語の特徴を表し,似た単語同士は似たベクトルになるように学習する.学習は
ニューラル言語モデルによって行われ,その結果得られた離散的な単語表現を
word embedding と呼ぶ.Sun ら [2] の手法においても,コンテキストモデリング,
メンションモデリング,エンティティモデリングにウィキペディアの本文で学習
した word embedding が利用されている.
11
2.3.2
畳み込みニューラルネットワーク
Sun ら [2] の手法で文をモデリングする際,畳み込みニューラルネットワーク
が利用されている.畳み込みニューラルネットワークは,入力側から出力側へ向
けて,畳み込み層とプーリング層がペアで並び,このペアが複数回繰り返される.
畳み込み層の出力は式 (2.4) のように表す.
Oconv = Wconv inconv + bconv
(2.4)
プーリング層では,出力を,固定長のベクトルにするため,k − maxpooling と
いう手法を用いる.文のモデリングの流れを,図 2.2 に示す.
図 2.2: コンテキストモデリング
まず,センテンスが入力されそれぞれの単語ごとに,word embedding を用いて
ベクトルを得る.また単語ごとに,メンションからの距離,つまりセンテンス上
で何単語メンションと離れているかという情報を position embedding として得る.
これらより得た行列が inconv となる.それを畳み込み層の式 (2.4) を用いて Oconv
を得る.そして k − maxpooling を用いて,固定長の特徴ベクトル vc を得る.
2.3.3
ニューラルテンソルネットワーク
vc , vm と vew , vec の合成にニューラルテンソルネットワークを用いる.パラメー
ター数を減らすために通常のニューラルネットワークを使用するのではなく,そ
れぞれのスライスの行列を,二つの低次元の行列と,対角行列の掛け算に近似す
る.ニューラルテンソルネットワークの模式図を図 2.3 に示す.
12
図 2.3: ニューラルテンソルネットワーク
スライス i のパラメータは,Mi1 ∈ RN×r ,Mi2 ∈ Rr×N ,mi ∈ RN とするとき
= Mi1 × Mi2 + diag(mi ) と表される.そうすると,ニューラルネットワー
クの出力は,式 (2.5) に定式化出来る.
Miappr
vmc = [vm ; vc ]T [M appr i ][1;L] [vm ; vc ]
(2.5)
ここで,[vm ; vc ] ∈ RN はメンションベクター vm とセンテンスベクター vc を表
appr [
す.また,[Mi
] 1 : L] はローランくテンソル,L はスライスナンバーを表す.ス
ライスナンバーは,出力ベクトル vmc の次元と等しい.この実験での出力ベクト
ルの次元は 30 に設定されている.
2.3.4
実験
Sun ら [2] は,トレーニングデータセットの取得にウィキペディアのアンカー
テキストを利用している.例えば,”President Obama ”というアンカーテキスト
が ”Barack Obama ”へリンクされている場合,そのセンテンスにおける”President
Obama”のリンク先を ”Barack Obama ”とする.また word embedding も SkipGram
と呼ばれる手法 [16] を用いてトレーニングデータセットに対して事前学習を行っ
ている.広く使用されている word2vec の toolkit を用い,ワードベクトルの次元
数を 50,ウィンドウサイズを 5 として設定している.また,前処理として,すべ
ての文字を小文字に変え,数字も特殊文字に変更している.Sun ら [2] は,テスト
に TAC KBP 2009,TAC KBP 2010 の二つのデータセットを使用している.TAC
のデータセットを使用しているが,NIL エンティティは無視し,TAC KBP 2009,
TAC KBP 2010 のデータセットで 1675 と 1020 個のエンティティがある.評価の
手法は,Micro Accuracy を使用している.また,候補の取得にヒューリスティッ
クな条件を設け,候補を削減している.
13
実験では 4 種類のモデルを使用している.
Model1
センテンス,エンティティクラスの情報を使用しないモデル.エンティティと
エンティティ候補に現れる単語ベクトルの平均をそれぞれを表す特徴ベクトルと
し,その類似度の cosine 類似度を測るもの.
Model2
センテンス情報,エンティティのクラス情報を使用したもの.センテンスの特
徴ベクトルを得るために畳み込みニューラルネットワークを使用する.特徴ベク
トルの合成には,ニューラルテンソルネットワークを利用せずに,ベクトルを連
結させる.
Model3
センテンスの特徴ベクトルを得る畳み込みニューラルネットワークに,position
embedding を追加したもの.特徴ベクトルの合成には,ニューラルテンソルネッ
トワークを利用せずに,ベクトルを連結させる.
Model4
Model3 に加えて特徴ベクトルの合成に,ニューラルテンソルネットワークを
用いたモデル.
実験結果
これらのモデルを TAC KBP 2009,TAC KBP 2010 に適用した際の,結果を表
2.2 に示す.Rank1, Rank2, Rank3 は KBP 2009 および KBP 2010 の公式なラン
ク付けシステムを表す.Sun らの手法 [2] が,Model1,Model2,Model3,Model4
である.
従来の TAC KBP 2009 における Han らの手法 [25] を用いたベースラインの精
度,TAC KBP 2010 における He らの手法 [14] を用いたベースラインの精度を超
えた精度が達成されていることが分かる.
14
表 2.2: ニューラルネットワークを使用した既存研究の結果.
手法
KBP 2009 KBP 2010
Rank 1
77.25
80.59
Rank 2
76.54
75.20
Rank 3
75.88
73.73
79.00
Han et al, 2011
He et al., 2013a
80.97
Sun et al., Model1
73.85
75.98
Sun et al., Model2
80.47
81.56
Sun et al., Model3
80.75
83.92
Sun et al., Model4
82.26
81.07
15
17
第3章
提案手法
Sun らのニューラルネットワークを利用したエンティティ曖昧性解消の手法 [2]
は,知識ベースのプロパティ情報を使用したものであるが,クラスと呼ばれるプ
ロパティ情報しか使用していない.我々は,コメントというプロパティ情報を使
用する.また,センテンス類似度モデルを使用する新たなエンティティ曖昧性解
消のモデルを提案する.
3.1 知識ベースのプロパティ情報
DBpedia などの知識ベースを利用すると,エンティティから様々なプロパティ
情報が取得できる.コメントと呼ばれるプロパティにはエンティティと関係のあ
る人物やや組織などがより詳細に記載されている.例えば,”Kashmir (song) ”の
コメントは
”Kashmir” is a song by the English rock band Led Zeppelin from their
sixth album Physical Graffiti, released in 1975. It was written by Jimmy
Page and Robert Plant (with contributions from John Bonham) over a period of three years with lyrics dating to 1973. The song became a concert
staple, performed by the band at almost every concert after its release.
である.ここには,”Led Zeppelin ”や ”Jimmy Page ”,”Robert Plant ”など,関
係のある人物が記載されている.また,”song ”や,”tour ”といった,エンティ
ティと共起する単語などの情報も含まれる.Sun ら [2] のエンティティワード,エ
ンティティクラスを利用するだけでなく,エンティティの情報としてコメントを
利用する.
3.2 センテンス類似度モデル
He[5] らは,ニューラルネットワークを用いて,センテンスの類似度を学習す
るモデルを提案している.センテンスの類似度を測るというのは,S1 と S2 とい
う文が与えられたときに,類似度スコア sim(S1 , S2 ) を計算することである.類似
度スコアを計算するためのシステムには,大きく分けてセンテンスモデリングと
類似度測定レイヤーの2つのコンポーネントがある.モデルの模式図を図 3.1 に
示す.
図 3.1: He らのセンテンス類似度モデル
センテンスモデリング,類似度測定レイヤーのそれぞれについて解説する.
3.2.1
センテンスモデリング
畳み込みニューラルネットワークを用いて,それぞれのセンテンスをモデリン
グする.入力は連続したトークンであり,トークン数を len,i 番目のトークンの
word embedding を senti ∈ RDim としたとき,センテンスは sent ∈ Rlen×Dim と表せ
る.また,senti: j はトークン i からトークン j までのベクトルを連結させたものを
[k]
表す.i 番目のトークンの k 次元の値を senti で表し,i 番目のトークンから j 番
[k]
目のトークンまでの k 番目の次元を連結したものを senti: j と表す.畳み込み層の
フィルター F は < ws wF , bF , hF > のタプルで表すことが出来る.ws はスライディ
ングウィンドウ幅,wF ∈ Rws×Dim はフィルターの重みベクトル,bF ∈ R はバイア
スを表す.また,hF は活性化関数を表す.このフィルターを sent に適用すると,
出力ベクトル outF [i] ∈ R1+len−ws の i 番目の値は i ∈ [1, 1 + len − ws ] のとき,
outF[i] = hF (wF ṡenti:i+ws −1 + bF )
18
(3.1)
となる.センテンスの情報をよりきめ細かく抜き出すために,次元 k ごとにフィ
ルター F [k] =< ws , wF[k] , bF[k] , hF[k] > も追加する.このフィルターの出力ベクトル
outF[k] ∈ R1+len−ws は,
[k]
outF[k] [i] = hF[k] (wF[k] ṡenti:i+ws−1 + bF[k] )
(3.2)
となる.畳み込み層で得た out f はプーリング層で,スカラー値に変換される.
プーリング層での操作は,”max-pooling”,”min-pooling”,”mean-pooling”などがあ
る.”max-pooling”では,outF を走査し,最大値を取得する.group(ws, pooling, sent)
は,畳み込み層での幅 ws,使用するプーリング操作 pooling,対象のセンテンス
を sent で表したグループである.彼らはふたつのブロックを用意している.ひと
つめの blockA は式 (3.3) のように定義できる.
{groupA (wsa , p, sent) : p ∈ {max, min, mean}}
(3.3)
{blockA } は三種類の畳み込みレイヤー ”max-pooling ”,”min-pooling ”,”meanpooling ”を持ち,これを,outF[i] へ適用する.また,blockB は
{groupB (wsb , p, sent) : p ∈ {max, min}
(3.4)
で表され,”max-pooling ”,”min-pooling ”を持ち,これを outF[k] [i] へ適用する.
また,文全体の情報を保持するため,ウィンドウサイズが ∞ のコンテキストすべ
てのトークンの word embedding の情報を用いた行列も使用する.
3.2.2
類似度測定レイヤー
センテンスの類似度を測る最も単純な方法は,ふたつのセンテンスを二つのベ
クトルの表現に変換し,そのコサイン類似度を測ることである.しかし,その場
合表層的な情報しか使用していないため,He ら [5] は,プーリングの種類やウィ
ンドウ幅のサイズなどの領域的な情報の比較を行っている.そして,それぞれの
領域での類似度を累算し,最終的にベクトル f ea を得る.類似度測定レイヤーの
最上位には,類似度スコアを算出する log-softmax 層があり,類似度スコアを算
出する.教師データとの誤差を誤差逆伝搬法で伝搬し,ニューラルネットワーク
の重みを更新する.
19
3.3 センテンス類似度モデルを応用したエンティティ曖
昧性解消のための新しいモデル
本論文では,Sun ら [2] の手法を応用したエンティティ曖昧性解消のための新
しいモデルを提案する.模式図を図 3.2 に示す.
図 3.2: センテンス類似度を用いたエンティティ曖昧性解消のモデル
提案するモデルでは,メンションが含まれるセンテンスと,そのメンションの
正しいエンティティのコメントプロパティ情報の類似度を学習する.He[5] らのセ
ンテンス類似度モデルと同様に,メンションが含まれるセンテンス及びエンティ
ティのコメントを畳み込みニューラルネットワークを用いてモデリングする.モ
デリングされたベクトルから,類似度測定レイヤーにて,類似度特徴ベクトルを
得る.最後に,log-softmax 層で類似度スコアを算出する.そして,教師データと
の誤差を誤差逆伝搬法で伝搬し,ニューラルネットワークの重みを更新する.
以下に例を挙げる.
They performed Kashmir written by Page and Plant.
というセンテンスにおける Kashmir は KB:Kashmir (song) を表す.KB:Kashmir (song)
のコメントは
”Kashmir” is a song by the English rock band Led Zeppelin from their
sixth album Physical Graffiti, released in 1975. It was written by Jimmy
20
Page and Robert Plant (with contributions from John Bonham) over a period of three years with lyrics dating to 1973. The song became a concert
staple, performed by the band at almost every concert after its release.
となる.この場合,
They performed Kashmir written by Page and Plant.
と,
”Kashmir” is a song by the English rock band Led Zeppelin from their
sixth album Physical Graffiti, released in 1975. It was written by Jimmy
Page and Robert Plant (with contributions from John Bonham) over a period of three years with lyrics dating to 1973. The song became a concert
staple, performed by the band at almost every concert after its release.
の類似度が高くなるように,つまり,エンティティのコメントと,メンションが
含まれるセンテンスの類似度が高くなるように学習する.また,ひとつのセンテ
ンスに対してランダムで 5 つエンティティを取得し,それらのコメントとの類似
度が低くなるように学習を行う.
このようにより多くの情報を利用し,それをセンテンス類似度モデルを用いて
学習させることで,エンティティなどの名詞に限らず動詞や前置詞,またそれら
の単語の位置関係を考慮した学習が出来ることが期待できる.
21
23
第4章
実験
本論文で提案するセンテンス類似度モデルを応用したエンティティ曖昧性解消
モデルが,Sun ら [2] の,ニューラルネットワークを利用したエンティティの曖昧
性解消のモデルに比べて TAC KBP 2009 及び TAC KBP 2010 の二つのデータセッ
トに対して精度が向上するのかという比較を試みるべきである.しかし,Sun ら
[2] が評価に使用している TAC KBP 2009,TAC KBP 2010 と呼ばれるデータセッ
トは,それらのデータセットを管理する Linguistic Data Consortium(LDC) にデー
タセット取得申請を行ったところ,現在ライセンスの関係で評価に使用すること
は禁止されているとのことである.ゆえに,テストデータセットにはエンティティ
曖昧性解消のタスクで広く使用されている AIDA test を使用することにした.し
かし,Sun らが使用しているデータセット TAC KBP 2009,TAC KBP 2010 はウィ
キペディアの本文から作成したデータセットであり,AIDA test は CoNLL 2003 の
固有表現抽出のデータセットにタグ付けを行ったものであり,センテンスやメン
ションが異なる.
これらにより,Sun ら [2] と同じ条件下でテストが行えないと判断し,ニューラ
ルネットワークを用いたセンテンスとコメントの類似度が,エンティティ曖昧性
解消のタスクの素性として使用できる可能性について考察を行うことにした.
また,エンティティ曖昧性解消のタスクにおいて,メンションが人名の場合など
はメンションに対する候補が多くなり,システムの精度に悪影響を及ぼす場合が
ある.これ対処するため,あらかじめエンティティのポピュラリティを使用して
候補を削減する場合が多い.ポピュラリティは,ウィキペディアのインターナル
リンクを使用し,インターナルリンク数が多い場合ポピュラリティは高くなり,
インターナルリンク数が少ない場合,ポピュラリティは低くなるように設定する.
エンティティの候補のなかからポピュラリティ上位 30 件を残すなどして事前に
エンティティの候補削減を行う.しかし,エンティティの候補の削減方法は手法
ごとに異なり,独自の文字列マッチングルールを用いて候補を削減している手法
も存在する.
これらにより,ポピュラリティによるエンティティ候補の削減が再現率にどの
ような影響を与えるか探る実験を行った.
• ニューラルネットワークを用いたセンテンスとコメントの類似度が,エン
ティティ曖昧性解消のタスクにおける素性として使用できる可能性につい
て考察を行するため,実験を行う.
• ポピュラリティによるエンティティ候補の削減が再現率にどのような影響
を与えるか探る実験をする.
4.1 トレーニング
4.1.1
データセット
トレーニングのデータセットにはペア数が 14278 個の AIDA train を使用した.
Sun ら [2] は,トレーニングデータセットとしてウィキペディアの本文から作成
したデータセットを使用している.我々は,トレーニングに要する時間,ニュー
ラルネットワークを用いたセンテンスとコメントの類似度がエンティティ曖昧性
解消のタスクの素性として使用できる可能性を探るという観点から AIDA train を
使用する.AIDA train は,センテンスに対して正例のエンティティがひとつ与え
られている.そのセンテンスと正例のエンティティのコメントとの類似度が 5.00
に近くなるように学習を行う.また,負例はひとつのセンテンスに対してランダ
ムに5つエンティティを取得し,それらのコメントとセンテンスの類似度が 0.00
に近くなるように学習を行う.
4.1.2
前処理
word embedding には,word2vec skip-gram[16] を使用した.word2vec の学習
データには,ウィキペディアの本文を利用した.また,スパース化を防ぐために,
前処理として,数字を 0 へ,単語をすべて小文字に変更を行い,トークナイズに
は,NLTK[8] の word tokenize() を使用した.例えば,
”Kashmir” is a song by the English rock band Led Zeppelin from their
sixth album Physical Graffiti, released in 1975. It was written by Jimmy
Page and Robert Plant (with contributions from John Bonham) over a period of three years with lyrics dating to 1973. The song became a concert
staple, performed by the band at almost every concert after its release.
24
というセンテンスは,
” kashmir ” is a song by the english rock band led zeppelin from their sixth
album physical graffiti , released in 0000 . it was written by jimmy page
and robert plant ( with contributions from john bonham ) over a period of
three years with lyrics dating to 0000 . the song became a concert staple ,
performed by the band at almost every concert after its release .
と変換される.同様に,トレーニングデータセット,テストデータセットにも同
様の前処理を施した.
また,エンティティの候補を削減するために,エンティティのポピュラリティ
を利用した.ウィキペディアのインターナルリンク数が多いほどポピュラリティ
が高いとみなす.ポピュラリティが上位 30 件のものをエンティティの候補として
残す.
4.1.3
パラメータ設定
word2vec のパラメータは,次元数 50,スレッド数 32 に設定した.
また,提案手法のモデルのパラメータは,mini-batch サイズを 25,epoch 数を
30,learning late を 0.01 に設定した.
4.2 テスト
Sun ら [2] は,テストデータセットとして,TAC 2009,TAC 2010 を使用して
いる.我々も TAC 2009,TAC 2010 でテストすることを試みたが,データセット
を管理している Linguistic Data Consortium(LDC)に問い合わせたところ,現在,
TAC 2009,TAC 2010 を評価に使用することは,ライセンスの関係で禁止されて
いるとのことである.ゆえに,テストデータセットにはエンティティ数が 4485 個
の AIDA test を使用した.また,素性としてセンテンスとエンティティのコメン
トの類似度は有効か検証するため,AIDA test から context のトークン数が 10 以
下のセンテンスを除いたデータセットでも実験を行った.AIDA test の中には,
Swindon .
といったトークン数が少ないセンテンスが存在し,この ”Swindon ”の正しいエ
ンティティのリンク先は KB:Swindon Town F.C. となっている.これらのトークン
数が少ないセンテンスに対して,本論文が提案するセンテンス類似度を応用した
25
エンティティ曖昧性解消のモデルの効果は薄いと考えられる.このように AIDA
test からトークン数が少ない (トークン数 10 以下の) センテンスを除いたデータ
セットに対する提案手法の精度が,AIDA test に対する提案手法の精度を上回って
いるか検証し,上回っている場合,提案手法がエンティティの曖昧性解消に対し
て有効に働いていると考えられる.
4.3 評価手法
評価手法として,Micro Accuracy を用いる.これは,センテンスとメンションが
リストで与えられ,その中で正しいエンティティにリンクしたメンションのパー
センテージを出力とする評価手法である.
26
27
第5章
結果と考察
5.1 結果
提案モデルを AIDA train で学習し,AIDA test 及び AIDA test (トークン数 10 以
下のセンテンスを除外) に対してテストを行った実験結果を表 5.1 に示す.
AIDA test
14.20
表 5.1: 提案手法の実験結果.
AIDA test (トークン数 10 以下のセンテンスを除外)
20.36
AIDA test に比べ AIDA test からセンテンスのトークン数が 10 以下のセンテンス
を除いたデータセットに対しての精度が向上していることが確認できる.これに
より,提案モデルは,トークン数が多いセンテンスに対してより良い分類精度が
発揮できることが推測できる.
また,ポピュラリティによるエンティティ候補の削減に関する実験を行った.
エンティティの候補削減方法は統一されておらず,実験ごとに異なるのが現状で
ある.我々は,ポピュラリティによる候補の削減によって生じる再現率の変化を
検証した.AIDA test に対してポピュラリティの実験を行った結果を表 5.2 に示す.
表 5.2: エンティティ候補の削減に関する実験結果.
件数 再現率
40
99.43
30
99.00
98.13
20
10
96.92
5
95.02
2
88.14
1
74.05
候補をポピュラリティ順上位 5 件までに絞っても,再現率が 95.02%保たれるこ
とが分かる.また,候補をポピュラリティ上位 1 件までに絞ると,つまり一番ポ
ピュラリティが高いエンティティを正解として出力すると,74.05%の精度でエン
ティティの曖昧性解消を行えることが確認できた.
5.2 考察
提案モデルの実験結果に対する考察と,ポピュラリティによる候補の削減に関
する考察を以下に示す.
• AIDA test と比較し,AIDA test からセンテンスのトークン数が 10 以下の
ものを除いたデータセットの方が高い分類精度が確認でき,提案モデルは
トークン数が多いセンテンスに対しての分類精度が高いことが分かる.こ
れにより,ニューラルネットワークを用いたセンテンス類似度がエンティ
ティ曖昧性解消のタスクの素性として使用できることが示唆出来る.
• ポピュラリティによる候補の削減は,候補の件数を 5 件まで絞った際も
95%以上の再現率が保たれることが確認できた.AIDA はより詳細なエンティ
ティにリンクさせるように設定されている.データセットよって,一般的な
エンティティにリンクさせるのか,より詳細なエンティティにリンクさせ
るのかは異なるため,データセットやアプリケーションにに合わせて,ポ
ピュラリティを用いたエンティティの候補削減を調整する必要がある.ま
たは,データセット間で,リンクさせるエンティティの基準を統一させる
必要があると考えられる.
5.3 本論文の成果
本論文の成果は以下の 2 点である.
• センテンス類似度を利用したエンティティ曖昧性解消のための新たなモデ
ルを提案した.このモデル自体の有用性の検証は,これからの課題とする
が,センテンスとエンティティのコメントの類似度がエンティティ曖昧性
解消のタスクの素性としての使用可能性について考察を行った.
• ポピュラリティによる候補の削減によって生じる再現率の変化を検証した.
28
29
第6章
おわりに
本研究では,エンティティ曖昧性解消タスクに,ニューラルネットワークを用
いたセンテンス類似度モデルを応用した新しいエンティティ曖昧性解消のモデル
を提案した.
このモデル自体の有用性の検証は,これからの課題とするが,センテンスとエ
ンティティのコメントの類似度がエンティティ曖昧性解消のタスクの素性として
の使用可能性について考察を行った.また,ポピュラリティによる候補の削減に
よって生じる再現率の変化を検証し,件数を 5 件に絞っても 95%以上の再現率が
保たれることを確認した.
今後の課題として,大きなトレーニングデータセットを用い,他のモデルとの
比較を行い,また,ニューラルネットワークにポピュラリティの情報を組み込み,
精度を向上させることが出来ないか検証する必要がある.
31
参考文献
[1] Xiao Ling, Sameer Singh, and Daniel S. Weld, Design Challenges for Entity Linking, In Transactions of the Association of Computational Linguistics Volume 3,
Issue 1, pages 315-328, 2015.
[2] Sun, YamingLin, LeiTang, DuyuYang, NanJi, ZhenzhouWang, and Xiaolong. Modeling Mention, Context and Entity with Neural Networks for Entity Disambiguation, In Proceeding of The 24th International Joint Conference on Artificial Intelligence, 2015.
[3] Richard Socher, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. Recursive deep models for semantic
compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 16311642,
2013.
[4] Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom. A convolutional neural network for modelling sentences. In Association for Computational Linguistics, pages 655665, 2014.
[5] Hua He, Kevin Gimpel, and Jimmy Lin. Multi-Perspective Sentence Similarity
Modeling with Convolutional Neural Networks. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1576-1586,
2015.
[6] Heng Ji, Ralph Grishman, Hoa Trang Dang, Kira Grif- fitt, and Joe Ellis.
Overview of the tac 2010 knowledge base population track. In Text Analysis Conference (TAC 2010). 2010.
[7] Johannes Hoffart, Mohamed A. Yosef, Ilaria Bordino, Ha- gen Furstenau, Manfred
Pinkal, Marc Spaniol, BilyanaTaneva, Stefan Thater, and Gerhard Weikum. Robust
disambiguation of named entities in text. In Proceedings of the Conference on
Empirical Methods in Natural Language Processing, pages 782792. Association
for Computational Linguistics. 2011.
[8] Steven Bird and Edward Loper. NLTK: The Natural Language Toolkit. In Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics, pages 214217. Association for Computational Linguistics.
2004.
[9] Pablo N Mendes, Max Jakob, Andr´es Garc´a-Silva, and Christian Bizer. Dbpedia spotlight: shedding light on the web of documents. In Proceedings of the 7th
International Conference on Semantic Systems, pages 18. ACM, 2011.
[10] Zheng Chen Taylor Cassidy, Javier Artiles, Heng Ji, Hongbo Deng, Lev-Arie
Ratinov, Jing Zheng, Jiawei Han, and Dan Roth. Cuny-uiuc-sri tac- kbp2011 entity
linking system description. In Proceedings Text Analysis Conference (TAC2011),
2011.
[11] Zheng Chen and Heng Ji. Collaborative ranking: A case study on entity linking.
In EMNLP, pages 771781, 2011.
[12] Taylor Cassidy, Heng Ji, Lev-Arie Ratinov, Arkaitz Zubiaga, and Hongzhao
Huang. Anal- ysis and enhancement of wikification for microblogs with context
expansion. In COLING, pages 441456, 2012.
[13] Jeff Mitchell and Mirella Lap- ata. Composition in distributional models of semantics. Cognitive science, 34(8):13881429, 2010.
[14] Zhengyan He, Shujie Liu, Mu Li, Ming Zhou, Longkai Zhang, and HoufengWang.
Learning enti- ty representation for entity disambiguation. In ACL, pages 3034,
2013.
[15] Pascal Vincent, Hugo Larochelle, Yoshua Bengio, and Pierre-Antoine Manzagol.
Extract- ing and composing robust features with denoising autoen- coders. In
ICML, pages 10961103. ACM, 2008.
[16] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed rep- resentations of words and phrases and their composition- ality. In
NIPS, pages 31113119, 2013.
32
[17] Zheng Chen and Heng Ji. Collaborative ranking: A case study on entity linking.
In EMNLP, pages 771781, 2011.
[18] Lev Ratinov, Dan Roth, Doug Downey, and Mike Anderson. Local and global
algo- rithms for disambiguation to wikipedia. In ACL, pages 13751384, 2011.
[19] Xianpei Han, Le Sun, and Jun Zhao. Col- lective entity linking in web text: a
graph-based method. In SIGIR, pages 765774. ACM, 2011.
[20] Saurabh S Kataria, Krishnan S Kumar, Rajeev R Rastogi, Prithviraj Sen, and
Srinivasan H Sen- gamedu. Entity disambiguation with hierarchical topic models.
In SIGKDD, pages 10371045. ACM, 2011.
[21] Prithviraj Sen. Collective context-aware topic models for entity disambiguation.
In WWW, pages 729 738. ACM, 2012.
[22] Alexis Mitchell, Stephanie Strassel, Shudong Huang, and Ramez Zakhary. 2005.
Ace 2004 multilingual training corpus. Linguistic Data Consortium, Philadelphia.
[23] S. Cucerzan. 2007. Large-scale named entity disam- biguation based on
wikipedia data. In Proceedings of EMNLP-CoNLL, volume 2007, pages 708716.
[24] Amit Bagga and Breck Baldwin. 1998. Entity-based cross-document coreferencing using the vector spacemodel. In Proceedings of the 36th Annual Meeting of
the Association for Computational Linguistics and 17th International Conference
on Computational Linguistics, pages 7985, Montreal, Quebec, Canada.
[25] Xianpei Han, Le Sun, and Jun Zhao. Col- lective entity linking in web text: a
graph-based method. In SIGIR, pages 765774. ACM, 2011.
33
Fly UP