...

メタファー的写像に基づくエンティティ表現の発見

by user

on
Category: Documents
24

views

Report

Comments

Transcript

メタファー的写像に基づくエンティティ表現の発見
DEIM Forum 2016 G6-4
メタファー的写像に基づくエンティティ表現の発見
宇都宮 圭†
大島 裕明†
田中 克己†
† 京都大学情報学研究科 〒 606–8501 京都市左京区吉田本町
E-mail: †{utsunomiya,ohshima,tanaka}@dl.kuis.kyoto-u.ac.jp
あらまし あるドメインにおけるエンティティの位置付けを理解するために,別ドメインでの対応するエンティティ
の位置付けを用いた比喩表現が有効な場合がある.本研究では,あるドメインとそのドメインに属するエンティティ
の組が与えられた時,別のドメインにおいて類似の位置関係をもつエンティティを発見する手法を提案する.例えば,
ドメインを「ラグビー」とし,(日本, 南アフリカ) というエンティティ組が与えられた場合,ドメイン「野球」におけ
るエンティティ組 (高校野球, プロ野球) を発見し提示することで,2 国のラグビー代表チームの強さの違いが理解し
やすくなる.提案手法では,与えられたドメインにおけるエンティティ間の関係を表す語を,Web マイニングによっ
て抽出する.これらを,あらかじめ Wikipedia のカテゴリに基づいて取得したドメインにおいて,抽出された関係情
報と類似する関係をもつエンティティの組を取得し提示する.
キーワード
メタファー的写像,Web マイニング,言語パターン
1. は じ め に
ある事柄について知りたいと感じたときに, Web 検索はよ
く用いられる手段である.検索結果に現れた Web ページにア
本研究は,あるドメインとそのドメインに属するエンティ
クセスし,一つ一つの内容を確認することは,確実ではあるが
ティの組が与えられた時,別のドメインにおいて類似の位置関
手間がかかる方法である.簡潔な説明を提供する方法には要約
係をもつエンティティの組を発見する手法を提案する.
など様々なものがある.
あるドメインに属する複数のエンティティがあり,それらが
物事を説明する際に,別の物に例えるという方法は,理解を
特定の関係をもつことがある.例えば “日本のプロ野球チーム”
促したり興味を喚起することを期待して用いられる.例えを
というドメインにおいて “読売ジャイアンツ(巨人)” と “阪
用いた表現には様々な分類があるが,そのひとつに隠喩表現が
神タイガース(阪神)” の関係は,その試合が「伝統の一戦」
ある.
と称されるほどに際立っている.一方で “スペインのプロサッ
隠喩とは,修辞技法のひとつであり,比喩の一種に分類され
カーチーム” というドメインにおいて “レアル・マドリード”
る.比喩のうち「のようだ」といった句を用いて,比喩である
と “FC バルセロナ” の関係はその試合が「エル・クラシコ (El
ことを明らかにしているものは直喩,あるいは明喩と呼ばれ,
Clasico)」と称される関係である.
そうでないものが隠喩と呼ばれる.隠喩はまた,暗喩,メタ
このような関係は,しばしば例えの表現として用いられる.
ファー (metaphor) とも呼ばれる.
日本において,スペインなどの海外サッカーに不慣れな人に
修辞技法は,言語表現を豊かにするために用いられる.文章
“レアル・マドリード” と “FC バルセロナ” の関係を説明する
や演説といった場において,著者や話者の主張がより魅力的で
際に,比較的知名度があると思われる日本のプロ野球を用いて
説得力があるように,読者や聴衆に印象づけることを期待する
「巨人と阪神のようなものだ」と説明する場合がある.
「2015 年のラグビーワールドカップで日本代表が南アフリカ
代表に勝利した」というニュースがあり,現在の日本で他のプ
ロスポーツと比較するとやや馴染みの薄いラグビーにおけるこ
の健闘に対して,様々な例えがなされた.
ために用いられる技術である.我々が普段他人と会話する場に
おいても,自分の考えを相手にうまく伝えるために様々な修辞
技法を用いることがある.
それらの中でも隠喩は,ある物事のもつ特徴について,より
簡潔に,具体的な対象を挙げることで想起を容易にする効果を
「ラグビーにおける日本と南アフリカ」の関係について「サッ
期待して用いられる.効果的な隠喩は,比喩であることを感じ
カーにおける日本とブラジル」「野球における高校とプロ」「ド
させず,適切に物事の特徴についてイメージを伝達することが
ラえもんにおけるのび太とジャイアン」「ドラゴンボールにお
でき,慣用句のように用いられる場合もある.
けるクリリンとフリーザ」(注 1) のように,様々なドメインに関
係を例える表現がなされたことが伺える.
一方で,物事を理解したいときに,簡単な手段でこのような
隠喩などの例えの表現を得ることが難しいという課題がある.
日本語 QA サイトである Yahoo!知恵袋(注 2) には,例えにつ
(注 1):以下 4 例本文と同順,2015 年 9 月 20 日
いての質問が投稿されている.野球選手や戦国武将で例えるこ
https://twitter.com/haruharu0629/status/645395183123566592
https://twitter.com/ktre 729/status/645385078336389120
https://twitter.com/kskalternative/status/645314677648396288
https://twitter.com/tebasAKii p/status/645397852408037376
(注 2):Yahoo!知恵袋
http://chiebukuro.yahoo.co.jp/
2. 関 連 研 究
Lakoff [1] は,例えられる概念を target 概念,例える概念を
source 概念と呼び,メタファーは source 概念から target 概念
へのドメインを横断する写像であると定義している.
Iwayama et al. [2] はある概念の性質の顕現性について確率
的に定式化する手法を提案し ,source 概念から target 概念へ
と移されるべき性質という点からの隠喩理解を行っている.
内海ら [3] は,顕現性に関する計算モデルに文脈との関連性
についての枠組みを取り入れる手法を提案している.
桝井ら [4] は,直喩表現を生成する指標パターンを用いて Web
から断片知識を収集し,クエリ語に対する素描を提示する手法
を提案している.
近村ら [5] は,Web を活用した比喩説明の自動収集と生成に
ついての手法を提案している.
青木ら [6] は,比較表現の言語パターンに基づいた,2 つのオ
ブジェクトの比較観点の Web からの抽出手法を提案している.
図 1 Yahoo!知恵袋の例えに関する QA の例
加藤ら [7] は,関係を入力として与え,その関係との類似度
に基づいてオブジェクト名を検索する手法を提案している.こ
とを求める質問などを含め,“例えて” 及び “例えると” の少な
くとも一方を含む QA を検索した結果が 88,000 件以上(注 3) 存
在する.
QA サイトを利用するという手段は,人間の感性やユーモア
に基づいた答えが得られる可能性があるという利点がある一方
で,答えを得るのに時間がかかるという問題点がある.
また,例えの表現を Web 検索によって発見することは,検
索に慣れていない人にとって難しいと考えられる.
「ラグビー 日本 南アフリカ」というキーワードを入力しただけでは,検
索結果に現れるページ内に偶然例えの表現が現れることを期待
するほかない.
クエリを修正し「例えると」「まるで のようだ」などの語
を付け加えるといった方法が考えられるが,比喩の表現の記述
のされ方は様々であり,そのような語を直接含むような文書以
外は得ることができない.加えて,このような検索方法では,
同一文書内に例えとして記述されているものしか発見できない
といった問題がある.
れは,既知であるがクエリ化し難い関係を用いてオブジェクト
名を検索するものである.
Duc ら [8] は,Web のテキストコーパスから,ワイルドカー
ドを用いた手法で語彙パターンのクラスタリングを行うことで,
エンティティペア間の関係を決定している.また,その関係に
基づいたペアの相手を発見する検索を行っている.
Fang ら [9] は,知識ベースに基づいた関係説明の生成手法と,
そのランキング手法を提案している.
Mikolov ら [10] は,ニューラルネットワークの学習に基づい
た語のベクトル表現モデルを提案している.この評価において,
アナロジー問題を解くことを行っている.
これらの手法との違いについて,我々は,ドメインと 2 つの
エンティティの組についての関係を扱う.2 つのエンティティが
ドメインに属していることは前提でありドメイン内では全ての
エンティティについて共通である.関係がもつ特徴のうち「属
する」というのはさほど重要ではないものとして扱われるべき
である.
本研究では,入力されたドメインとそれに属するエンティティ
の組から,それらを例えるような別ドメインのエンティティ組
を発見することを目的とする.
3. 問 題 定 義
以降,ドメインのラベルを表す文字列を x, y で表し,それ
すなわち「ラグビー」ドメインの「日本」と「南アフリカ」の
ぞれのドメインを Dx , Dy で表す,それぞれに属するエンティ
エンティティ組に対して,出力として「野球」ドメインの「高
ティのある 1 つは ex , ey で表し,特定の 1 つを表すとき ex1 , eyi
校野球」と「プロ野球」や,
「サッカー」ドメインの「日本」と
「ブラジル」が得られることを目指す.
2. 章では関連研究について述べる.3. 章ではこの問題を定式
化する定義を行う.4. 章では提案手法について述べる.6. 章で
はまとめと今後の課題について記す.
のようにインデックスを付けて表す.また,Name(ex ) によっ
て ex を表す文字列を示す.
本論文では,ドメイン Dx に属する 2 つのエンティティex1 と
ex2 の組が入力として与えられる.このとき,あるドメイン Dy
に属する 2 つのエンティティeyi と eyj を組として,入力に与え
られた組の関係を表すのにより適している組を発見し出力する.
ドメインのラベル y は人手によって,事前に複数の候補が
与えられている.以降,y は与えられた複数のラベル y1 , y2 ,
(注 3):2015 年 9 月 10 日現在
..., yn のいずれか 1 つを表すとする.出力はそれぞれの y ご
日本の野球チーム
入力: ドメインのラベル y1, y2,
スペインのサッカーチーム
写像
写像
ドメインの条件設定
(人手で) Wikipedia
中日
巨人
バレンシアCF
写像
阪神
レアル
マドリード
Wikipediaからドメイン構成
FCバルセロナ
各記事に形態素解析
出力ドメイン
ドメインごとにTF-IDF行列作成
図 2 “日本の野球チーム” ドメインのエンティティ“巨人” と “阪神”
の組から “スペインのサッカーチーム” ドメインの “レアル・マ
TF-­‐IDF行列
エンティティ組作成
ドリード” と “FC バルセロナ” の組への写像
組の特徴ベクトル作成
とに対して得られる.それぞれの D y を構成する ey は事前に
出力: 各組の特徴ベクトル VW1,2,3 (eyi, eyj)
人手によって選択条件が与えられるか,直接一覧として与えら
れる.|Dy | はドメインのサイズであり,含まれる ey の個数で
特徴ベクトル VW1,2,3 (eyi, eyj)
ある.
Dy のエンティティから成るの組の集合を Dy で表す.ex1 と
図3
ex2 の組とそれぞれ対応づけることを考慮すると,これらは次の
ように表される.
出力ドメイン構成手法の概略図
仮定 3 Dx の組 (ex1 , ex2 ) と D y の組 (eyi , eyj ) の類似度は,次の
Dy = {(eyi , eyj )|(eyi , eyj ) ∈ Dy × Dy ∧ i =
| j}.
(1)
( 1 ) V1 (ex1 , ex2 ) と V1 (eyi , eyj ) の類似度.
以上より,次のように表される.
Name(ex1 ),
3 つを足し合わせたものである.
Name(ex2 ).
入力
文字列 3 つ: x,
出力
y それぞれについて,順序付けられた組 (Name(eyi ) ,
Name(eyj )) のリスト.
“スペインサッカー” を x,“レアル・マドリード” を Name(ex1 ),
“FC バルセロナ” を Name(ex2 ) として入力に与えたとき,y が
“日本のプロ野球チーム” である結果には,(“読売ジャイアン
ツ”,“阪神タイガース” ) のペアが上位に現れるべきである.な
ぜなら,一般的に “レアル・マドリード” と “FC バルセロナ”
( 2 ) V2 (ex1 , ex2 ) と V2 (eyi , eyj ) の類似度.
( 3 ) V3 (ex1 , ex2 ) と V3 (eyi , eyj ) の類似度.
仮定 4 2 組の類似度が高ければ,一方の組は他方の組を比喩
的に表現するのにより適している.
2 つ の 特 徴 ベ ク ト ル の 類 似 度 を Sim と 表 す こ と と
す る .V1 (ex1 , ex2 ) と V1 (eyi , eyj ) の 類 似 度 は Sim(V1 (ex1 , ex2 ),
V1 (eyi , eyj )) と表される.
2 つの組の類似度を,係数 w1 , w2 , w3 を用いて,次のように
表す.
の関係は,“伝統” や “ライバル” といった語で表され,“読売
ジャイアンツ” と “阪神タイガース” の関係も同じような語で
表されるからである.
図 2 は,“日本の野球チーム” ドメインのエンティティ“巨人”
と “阪神” の組から “スペインのサッカーチーム” ドメインの
“レアル・マドリード” と “FC バルセロナ” の組への写像を示
Similarity((ex1 , ex2 ), (eyi , eyj ))
= w1 Sim(V1 (ex1 , ex2 ), V1 (eyi , eyj ))
+ w2 Sim(V2 (ex1 , ex2 ), V2 (eyi , eyj ))
+ w3 Sim(V3 (ex1 , ex2 ), V3 (eyi , eyj )).
(2)
す.エンティティを白丸で表し,ドメインとエンティティの関
我々の目標は,組 (ex1 , ex2 ) が与えられたとき,それぞれの
係を黒丸と白丸の間の矢印で表している.ドメイン-エンティ
y について Similarity((ex1 , ex2 ), (eyi , eyj )) を最大化する組 (eyi ,
ティ関係と 2 つのエンティティ-エンティティ関係の合計 3 つが
eyj ) を発見し,(Name(eyi ), Name(eyj )) を出力することである.
写像される様子を表している.
我々は,以下のような仮定をおく.
4. 提 案 手 法
仮定 1 Dy に含まれる組 (ex1 , ex2 ) の特徴は,次の 3 つの関係
4. 1 手法の概略
を表す特徴によって表される.
前もって,4. 2 節と 4. 3 節で出力のためのドメインを構成す
x
(1) D と
ex1
の関係を表す特徴.
る.図 3 に概略図を示す.4. 2 節ではドメインの決定方法を示
( 2 ) D x と ex2 の関係を表す特徴.
す.4. 3 節では TF-IDF によってエンティティ組の特徴ベクト
( 3 ) ex1 と ex2 の関係を表す特徴.
ルを作る.
(eyi ,
eyj )
仮定 2
の特徴についても同様とする.
図 4 に入力エンティティ組に対する特徴ベクトル作成と組の
仮定 1 の特徴は,各元が単語に対応した特徴ベクトルで
類似度計算の概略図を示す.4. 4 節では,Web から入力エン
表すことができる.それぞれを V1 , V2 , V3 で表し V1 (ex1 , ex2 )
ティティ組の特徴を抽出する.4. 5 節で入力エンティティ組の
というように用いる.
特徴ベクトルを作る.最後に 4. 6 節で,入力エンティティ組と
はドメインとエンティティの関係を表し,1 つはエンティティ
入力: x, Name(ex1), Name(ex2)
とエンティティの関係を表す.
クエリ生成
Web
その前に,まず 2 つの特徴ベクトルを作る.これはエンティ
スニペット収集
ティごとに Wikipedia の記事から作られる.これにはそれぞれ
形態素解析器で語抽出
のドメインごとに TF-IDF を用いる.t をある語とすると,こ
れは次のようになる.
各語に対するχ2 検定
特徴ベクトル
VS1,2,3 (ex1, ex2)
特徴ベクトル
VW1,2,3 (eyi, eyj)
特徴ベクトル作成
2組の類似度計算
TF(t, ey ) = ey の記事に t が現れた回数.
(3)
|Dy |
.(4)
IDF(t) = log2 y
D のうち t が現れる ey 記事数
TFIDF(t, ey ) = TF · IDF.
(5)
ソート
出力: 組のリスト (Name(eyi), Name(eyj)),
図4
t は数字を除いた日本語の名詞とする.Wikipedia の各記事
から,形態素解析器 MeCab を用いて抽出したそれぞれの t に
入力エンティティ組に対する特徴ベクトル作成と組の類似度計算
の概略図
対し,TF-IDF 行列を作成する.これは各行が ey に対応する
記事を表し,各列が語 t に対応する.各列のベクトルは長さ 1
の単位ベクトルに正規化される.
出力候補組の類似度を求め,出力する.
各列ベクトルの元について,上位のスコアをもつ元に対応す
4. 2 出力ドメインの構成
る語が,ey の特徴語であるとみなす.そこで,それを表すバイ
出力に用いるドメイン Dy を,前もって構成する.以下の 3
ナリベクトル U W (ey ) を作成する.これは各語が対応する元
つの理由により,これには日本語版 Wikipedia を用いる.
第一に,Wikipedia はカテゴリ構造を導入している.全ての
(注 4)
記事は基本的には 1 つ以上のカテゴリに属している.
を 1,それ以外を 0 としたベクトルである.
組 (eyi , eyj ) に対し U W (eyi ) と U W (eyj ) から組の特徴ベクト
この
ル V1 ,V2 ,V3 を作る.これらは Wikipedia から抽出用いて
構造は,記事を概念ごとにグループ分けしており,ドメインの
作られるので,V1W ,V2W ,V3W と書くこととする.ベクト
作成に有用である.
ルの各元ごとに最大値,最小値をとりベクトルを返す関数をそ
第二に,Dy に含まれる組の数の問題がある.これはおよそ
|Dy |2 に上る.これだけの組の関係を Web 検索によって求める
場合,|Dy | の大きさによっては相応の検索回数を必要とし,コ
ストがかかる.
第三に,我々 [11] が,ドメインとエンティティの関係を得る
ために提案する手法に必要な検索回数の問題である.手法では,
言語パターンに従って特徴語候補を収集し,それが専門語でな
いかを与えられた 1 つの出力ドメインを用いて Web 検索によっ
て確認するものである.これは,ドメインとエンティティの関
係を得るために 1 エンティティに対して数百回の Web 検索を
必要とする.これを |Dy | 回行うのはコストがかかる.
y に対して,“日本のプロ野球チーム” や,“NHK 紅白歌合
戦出場者”, “日本の都道府県” といったラベルを選択し,ドメ
インを構成する.エンティティey は,Wikipedia の記事とし,
Name(ey ) は記事のタイトルを用いる.それぞれのラベルに対
して,記事を集めるカテゴリの条件を人手で設定する.“日本の
都道府県” は数が少ないので直接与える.“NHK 紅白歌合戦出
場者” ならば「“NHK 紅白歌合戦出場者” カテゴリに属し,“一
れぞれ pmax,pmin と表すと,これらは,
V1W (eyi , eyj ) = pmax(U W (eyi ) − U W (eyj ), 0).
V2W (eyi , eyj )
V3W (eyi , eyj )
= pmax(U
= pmin(U
W
W
(eyj )
−U
W
(eyi ), 0).
(eyi ), U W (eyj )).
(6)
(7)
(8)
と表される.バイナリベクトルの場合順番に,U W (eyi ) のみが
表す語,U W (eyj ) のみが表す語,両方が表す語,というように
それぞれ対応する.
4. 4 入力エンティティの特徴語取得
ドメイン D x およびそのエンティティ組 (ex1 ,ex2 ) が与えられ
たときに,ドメインとそれぞれのエンティティとの関係を表す語
を取得する.これらは Web を用いる.その理由は,Wikipedia
のみを用いる場合,例えば Name(ex1 ) が “日本”,x が “ラグ
ビー” であるとき,Wikipedia の “日本” というタイトルの記
事にはラグビーの記述がないからである.
加藤ら [7] は,Web 検索結果のスニペットを用いて,χ2 検定
により 2 つのエンティティの関係を得る手法を提案している.
覧” をカテゴリ名に含むカテゴリに属していない記事」となる.
Name(ex1 ) ∧ Name(ex2 ),
“野球の日本代表選手経験者” は「属するカテゴリのうちどれか
Name(ex1 )
が “野球”,“日本”,“代表”,“選手”,“人物” を含み,“一覧”
(9)
∧
¬Name(ex2 ),
(10)
¬Name(ex1 )
∧
Name(ex2 ).
(11)
を 1 つも含まない」となる.
4. 3 出力ドメインの特徴ベクトル
式 をクエリとして検索した結果に表れる語の出現率を基準に用
1 つの組に対し,特徴を表すベクトルを 3 つ作成する.2 つ
いる.ここで出現率とは,全てのスニペットの個数のうち語が
現れたスニペットの個数の割合である.式 10 と式 11 をクエリ
(注 4):https://ja.wikipedia.org/wiki/Wikipedia:カテゴリの方針 , 2016
年 2 月 8 日閲覧
とした検索結果における語の出現率が基準と有意差があり,か
つ基準より大きければ,その語が 2 つのエンティティの関係を
表 1 出力に用いるドメインの一覧
表す語だとみなしている.
ドメインのラベル yk
Name(ex1 ),
我々は ,こ の 手 法 を も と に ,3 つ の 文 字 列
k :記事が属するカテゴリ名の条件(もしくは人手)
Name(ex2 ),x から 4 つのクエリを作成する.
1
x∧
Name(ex1 )
∧
Name(ex2 ),
x∧
Name(ex1 )
∧
¬Name(ex2 ),
(13)
x ∧ ¬Name(ex1 ) ∧ Name(ex2 ),
(14)
¬Name(ex1 )
x∧
∧
204
手” “人物” を含み “一覧” を含まない
(12)
¬Name(ex2 ).
野球の日本代表選手経験者:“野球” “日本” “代表” “選
|Dky |
2
サッカーの日本代表選手経験者:“サッカー” “日本”
822
“代表” “選手” “人物” を含み “一覧” を含まない
3
NHK 紅白歌合戦出場者:“NHK 紅白歌合戦出場者”
686
を含み “一覧” を含まない
(15)
4
戦国大名:“戦国大名” を含み “一覧” を含まない
それぞれで Web 検索を行い,スニペットを取得する.取得し
5
日本のプロ野球チーム:
(人手で列挙)
12
たスニペットに対して形態素解析器 MeCab を用いて,数字を
6
日本の都道府県:
(人手で列挙)
47
除く日本語の名詞のみを取得する.
7
世界の国:
(Wikipedia“国の一覧 (大陸別)” から人手
499
206
で列挙)
4. 5 入力エンティティ組の特徴ベクトル
1 つの組に対して 3 つの特徴ベクトル V1 ,V2 ,V3 を作成す
る.Web 検索によって取得した語をもとに作成するこれらを,
5. 実
V1S ,V2S ,V3S と書くこととする.
Dx と ex1 の関係を表す特徴ベクトル V1S (ex1 , ex2 ) を作成する.
験
5. 1 実 験 設 定
2
抽出された各語についてそれぞれ 2 つの χ 検定を行う.式 13
Wikipedia 日本語版の 2015 年 12 月 26 日付けダンプデー
の検索結果における語の出現率を基準として,式 12 と式 15 の
(注 5)
タ
検索結果における出現率がともに有意差があり,かつ基準より
1,598,053 件の日本語版記事が含まれている.本文は,ウィキ
大きければ,その語は Dx と ex1 の関係を表しているとみなす.
のマークアップ構文にを用いて記述されている.形態素解析器
それらの語が V1S (ex1 , ex2 ) で該当する元の値を 1,それ以外を 0
に入力する前に,これらのマークアップ記号を取り除いておく.
とすることで,バイナリベクトルを作成する.
x
D と
ex2
の関係を表す特徴ベクトル
形態素解析器は,IPA 辞書を適用した MeCab を用いた.Web
V2S (ex1 , ex2 )
を作成する.
式 13 の代わりに式 14 の検索結果を基準に用いて,上記の方法
と同様に行うことで,V2S (ex1 , ex2 ) を得る.
ex1
と
ex2
の関係を表す特徴ベクトル
V3S (ex1 , ex2 )
のうち,記事全体をダンプしたものを用いた.これには
検索は,Bing の API の結果を用いた.
4. 3 節において,U W (ey ) を作成するのに,各 ey に対応す
る文書における TF-IDF 値が上位 50 件の単語を用いた.
を作成する.
式 13 と式 14 の検索結果における語の出現率を基準とした 2 つ
の χ2 検定を行う.両方において式 12 の語の出現率が有意差
があり,かつ基準より大きければ,その語は ex1 と ex2 の関係を
表しているとみなす.これによりバイナリベクトル V23 (ex1 , ex2 )
を得る.
4. 4 節では,検索結果上位 50 件のスニペットを使用した.ま
た,χ2 検定は有意水準 5%で行った.
式 17 の係数 w1 , w2 ,w3 の値は全て 1 とした.
事前に,7 つのドメインを人手で選択し構築した.これらの
カテゴリの条件や含まれるエンティティの数を表 1 に示す.
以上の条件で,以下の 5 つの入力を与えた.それぞれをドメ
4. 6 2 組間の類似度計算
イン名 x,エンティティ名の組 (Name(ex1 ), Name(ex2 )) の順で
組 (ex1 , ex2 ) と組 (eyi , eyj ) の類似度を計算する.ここでは,
記す.さらに,評価を行った際に参考にしたそれぞれの関係の
Jaccard 係数を用いる.ベクトル A = (a1 , ..., an ) と B =
(b1 , ..., bn ) について,Jaccard 係数は次のように表される.
∑n
i=1 min(ai , bi )
∑
Jaccard(A, B) =
.
(16)
n
i=1 max(ai , bi )
バイナリベクトルでは,2 つのベクトルの両方とも 1 である元
の個数を,どちらかが 1 である元の個数で除した値になる.式
2 は,Jaccard 係数を用いると,次のようになる.
=
概略を続けて記す.
•
サッカー, (FC バルセロナ, レアル・マドリード)
-ライバル関係.
•
ラグビー, (日本, 南アフリカ) -強弱の関係.
•
芸人, (8.6 秒バズーカー, オリエンタルラジオ)
•
大統領選, (トランプ, サンダース) -対極の関係.
•
福岡, (天神, 博多) -種類が異なる代表者の関係.
-後続者の関係.
Similarity((ex1 , ex2 ), (eyi , eyj ))
5. 2 結
w1 Jaccard(V1S (ex1 , ex2 ), V1W (eyi , eyj ))
5 つのクエリについて,7 つのドメインそれぞれで出力され
た上位 3 件について,各入力クエリとともに示した関係を満た
+ w2 Jaccard(V2S (ex1 , ex2 ), V2W (eyi , eyj ))
+ w3 Jaccard(V3S (ex1 , ex2 ), V3W (eyi , eyj )).
果
しているかを人手によって評価した.合計 105 件の出力につい
(17)
これをそれぞれの y について,全ての組 (eyi , eyj ) ∈ D y につい
て評価し,適合率の平均 (Precision@3) を求めたところ,0.171
であった.
て求める.Similarity の値が大きい順に,上位数件の組を結果
として出力する.
(注 5):http://dumps.wikimedia.org/jawiki/
x
表 2 x が “サッカー”,Name(ex
1 ) が “FC バルセロナ”,Name(e2 )
x
表 3 x が “サッカー”,Name(ex
1 ) が “FC バルセロナ”,Name(e2 )
が “レアル・マドリード” のときの各ドメインにおける上位 3 件
が “レアル・マドリード” のとき各 V S が表す特徴語(V S の
元が 1 の値をとる語)
の出力及び評価
k Similarity Name(yk i )
1
2
評価
Name(yk j )
V1S
佐藤康弘
×
0.122 佐藤友昭
佐藤康弘
×
0.116 中村大伸
佐藤康弘
×
0.147 乾貴士
ハーフナー・マイク
○
フランス, レ, フットボール, バスケットボール, 参加, 市,
×
アル, 掲載, ファンデーション, 記, スクール, 付き, 財団,
0.125 渡辺淳一 (サッカー 樹森大介
名門, スクール, 商品, データ, 付き, メンズ, グッズ, 件.
V2S
0.12 渡辺淳一 (サッカー ハーフナー・マイク
×
V2S
選手)
4
0.069 奥村チヨ
D-51
×
約, クラ, ファン, チケット, 安, 格安, リー, 対, エル, チャ
0.069 SEAMO
KAN
×
ンピオンズ.
0.069 オユンナ
KAN
×
0.083 松平親忠
龍造寺隆信
×
0.083 松平親忠
蒲池鎮漣
×
0.083 松平親忠
蒲池鑑盛
×
ズ
x
表 4 x が “ラグビー”,Name(ex
1 ) が “日本”,Name(e2 ) が “南アフ
リカ” のときの各ドメインにおける上位 3 件の出力及び評価
k Similarity Name(yk i )
○
1
ローズ
0.03 千葉ロッテマリーン 広島東洋カープ
×
ズ
0.016 千葉ロッテマリーン 埼玉西武ライオンズ
○
2
ズ
6
7
ガ, 手配, 観戦, バレンシア, 事前, ここ, 杯, 動画, 国王, マ
ンチェスター, シコ, 戦, はじめ, 首都, 節, 移動, 最大, 予
0.03 千葉ロッテマリーン 東 京 ヤ ク ル ト ス ワ
5
マドリード, 強豪, 設立, 横浜, 育成, 校, 機関, 公式, 所属,
アカデミー, 開催, 出場.
選手)
3
用, ホームスタジアム, カタルーニャ, プロ, 公式, 所属, 満
載, 応援, フットボール, 本拠地, 各種, 東京, 毎日, クラブ,
0.122 野島正弘
Name(yk j )
評価
0.125 黒須隆
井端弘和
○
0.107 黒須隆
黒田博樹
○
0.104 黒須隆
米村明
×
0.103 京川舞
佐藤寿人
×
0.094 井原正巳
大儀見優季
×
0.094 斎藤才三
大儀見優季
×
0.063 Sexy Zone
ポケットビスケッツ
×
0.063 Sexy Zone
ゴスペラーズ
×
0.029 宮崎県
大分県
○
0.029 東京都
神奈川県
×
0.029 香川県
岩手県
×
0.063 Sexy Zone
CHEMISTRY
×
0.065 スペイン
ヨルダン
×
0.082 南部信義
蠣崎光広
×
0.063 スペイン
ベネズエラ
○
0.078 南部信義
筒井順政
×
0.061 スペイン
モロッコ
○
0.074 南部信義
結城明朝
×
0.015 広島東洋カープ
埼玉西武ライオンズ
×
0.015 広島東洋カープ
千葉ロッテマリーン
×
結果の具体例を示す.x を “サッカー” ,Name(ex1 ) を “FC
3
4
5
ズ
バルセロナ”,Name(ex2 ) を “レアル・マドリード” として入力
0.015 広島東洋カープ
に与えたときの,7 つのドメインそれぞれの上位 3 件の結果を
0.049 佐賀県
愛知県
○
0.049 山口県
愛知県
○
について表 3 に示す.同様に x
0.049 福岡県
愛知県
×
“日本”,Name(ex2 )
0.071 バーレーン
ニュージーランド
○
0.065 アイルランド
ニュージーランド
×
0.065 セ ン ト ク リ ス ト フ ニュージーランド
○
のクエリに対する Precision@3 は 0.286 であった.中間出力と
して得られた
を “ラグビー”
,Name(ex1 )
○
イターズ
表 2 に示す.評価は,適合としたものを○で表している.こ
V1S ,V2S ,V3S
北海道日本ハムファ
を
6
を “南アフ
リカ” としたときの結果を表 4,中間出力を表 5 に示す.この
クエリに対する Precision@3 は 0.333 であった.
形態素解析により分割されているが表 3 の V3S に得られた,
7
ァー・ネイビス
“クラ”,“シコ” や,表 5 の V3S に得られた,“衝撃”,“金星”,
“番狂わせ” などは,関係を表すのに適している語だと考えた.
これらをスコア付けしたり,V3W で得られた語とマッチングさ
せる必要があると考えられる.
表 2,4 に,同じエンティティが何件も出力されている.こ
れは,4. 3 節で原因があると考えられる.半分以上の V3W が
0 ベクトルであった.すなわち,2 つのエンティティについて
TF-IDF の上位 50 件に共通する単語が存在しなかった.また,
0 でないものについても,共通する単語が 1 つのみであるよう
なものが多くみられた.そのため,V1W や V2W が大きな影響
を与えたと考えられる.
6. まとめと今後の課題
あるドメインとそのドメインに属するエンティティの組が与
えられた時,別のドメインにおいて類似の位置関係をもつエン
ティティの組を発見する手法を提案した.
1 つの組に対し 3 つの特徴ベクトルを作り,それぞれを比較
することにより,組の類似度を求めた.入力エンティティ組と
あらかじめ用意したドメインにおけるエンティティの組との類
似度を求め,類似度の高い順に出力した.
これにより,ユーザが不慣れなドメインについて,エンティ
ティ組の関係を,慣れたドメインにおけるエンティティ組の例
x
表 5 x が “ラグビー”,Name(ex
1 ) が “日本”,Name(e2 ) が “南アフ
リカ” のとき各 V S が表す特徴語(V S の元が 1 の値をとる語)
V1S
選手権, ニュース, 日程, 日本一, ヤマハ発動機, その他, 速
報, 福岡, 網羅, ラグビーフットボール, 帝京大, 回, パナソ
ニック, 協会, コラム, 表, 秩父宮, 満載, 組み合わせ, 総合,
森, 決勝, トップ, 特集, 問い合わせ, 界, 順位.
V2S
愛称, 編集, 新品, ボックス, 楽天, アシックス, ニュージー
ランド, カンタベリー, 製, 国, 共和, オーク, スプリング,
商品, コメント, オーストラリア.
V3S
衝撃, 的, 星, ブライトン, 金星, イングランド, 瞬間, 開幕,
時間, 予選, 南ア, 杯, 前半, 撃破, 動画, 優勝, 話題, 日, 次,
候補, 分, 組, 大金, 世界, 試合, 初戦, 前回, ファン, 位, 史
上, 興奮, 代表, 後, 南部, 五郎丸, プール, 開始, 英国, 逆
転, 発表, 歴史, メンバー, 番狂わせ, ランキング, ランク,
開催, 出場, 勝利, ワールドカップ, さ.
えによって理解することができる検索を行う,といった応用が
期待できる.
本論文における手法は,ドメインをあらかじめ用意している.
これは,出力可能な関係があらかじめ制限されているというこ
とでもある.候補を絞り,Web 検索を併用することにより,よ
り多様な出力が得られると考えられる.
語を直接関係を表す語として用いていることで,専門語がド
メインを横断して写像されなかったり,誤って写像されること
があり得る.語の上位下位関係や同位語を用いるということが
考えられる.また青木ら [6] や Mikolov ら [10] は,周辺語を用
いている.
出力候補全ての組に対して計算を行うことは時間がかかる.
出力候補のドメインを,サブドメインなどを用いて構成するこ
とにより,あらかじめ候補を絞ることができるという改善が考
えられる.これは,ドメイン内においてエンティティ組の特徴
を抽出する際にも有効にはたらくことが考えられる.
謝
辞
本研究の一部は,文部科学省科学研究費補助金(課題番号
15H01718,24680008)によるものです.ここに記して謝意を
表します.
文
献
[1] Lakoff, G., “The contemporary theory of metaphor,” In A.
Ortony (Ed.), Metaphor and thought 2nd Edition, Cambridge: Cambridge University Press, pp. 202–251, 1993.
[2] Iwayama, M., Tokunaga, T., and Tanaka, H. “A Method
of Calculating the Measure of Salience in Understanding
Metaphors,” in Proceedings of the Eighth National Conference on Artificial Intelligence (AAAI-90), pp. 298-303, 1990.
[3] 内海彰, 菅野道夫, “関連性理論を用いた文脈の中の隠喩解釈の
計算モデル,” 情報処理学会論文誌 37(6), pp. 1017-1029, 1996.
[4] 桝井文人, ジェプカ・ラファウ, 木村泰知, 福本潤一, 荒木賢治,
“WWW 活用による語の比喩的素描手法,” 日本知能情報ファジ
イ学会誌 Vol.22, No.6, pp. 707-719, 2010.
[5] 近村亮一, ジェプカ・ラファウ, 荒木賢治, “Web データを用いた
単語に対する比喩的説明文収集手法,” 日本知能情報ファジィ学会
ファジィ システム シンポジウム 講演論文集 27, pp. 112-115,
2011.
[6] 青木伸也, 湯本高行, 新居学, 高橋豐, “Web 上の比較表現を用
いた 2 オブジェクト間の比較観点の発見,” DEWS2008, A7-6,
2008.
[7] 加藤誠, 大島裕明, 小山聡, 田中克己, “関係の類似性に基づく
Web からのオブジェクト名検索情報処理学会論文誌. データベー
ス 2(2), pp. 110-125, 2009.
[8] グェン トアン ドゥク, ボレガラ ダヌシカ, 石塚満, “エンティ
ティペア間類似性を利用した潜在関係検索,” 情報処理学会論文
誌 Vol.52, No.4, pp. 1790-1802, 2011.
[9] “Fang, L. and Sarma, A. D. and Yu, C. and Bohannon,
P.” REX: Explaining Relationships Between Entity Pairs,
VLDB Endow Proceedings, Vol. 5, No. 3, pp. 241–252, 2011.
[10] Mikolov, Tomas, et al., “Efficient estimation of word representations in vector space,” arXiv preprint arXiv:1301.3781,
2013.
[11] 宇都宮圭, 大島裕明, 田中克己, “隠喩表現に着目した Web 情報
検索,” 第 7 回データ工学と情報マネジメントに関するフォーラ
ム (DEIM Forum 2015), E8-4, 2015.
Fly UP