...

Twitterからの地域特徴語の自動抽出に関する一検討

by user

on
Category: Documents
19

views

Report

Comments

Transcript

Twitterからの地域特徴語の自動抽出に関する一検討
情報処理学会第 75 回全国大会
1V-3
Twitter からの地域特徴語の自動抽出に関する一検討
伊藤晶 †
荒川豊 ‡
田頭茂明 ††
福田晃 ‡
†
‡
1
九州大学工学部電気情報工学科
九州大学大学院システム情報科学研究院
††
関西大学総合情報学部
はじめに
これまで我々は,位置に応じて変換候補を変更する
位置連携日本語入力システム GeoIME1 の開発を行なっ
ている.GeoIME では,位置に応じて携帯内部の辞書
を動的に更新 [1] しているが,その際,その位置に関係
した単語をどのように決定するかが重要な研究課題と
なっている.位置に関係した単語は地域特徴語と呼ば
れ,地理情報における検索語推薦 [2][3] などの研究が
行われている.
文献 [2] では,地域名による検索で得られたウェブ
ページを解析し,地域特徴語を抽出している.文献 [3]
でも同様に,ウェブページをソースとして地域特徴語
を抽出している.ウェブページには緯度経度情報が含
まれないため,ウェブページがどの地域を指している
かは,ウェブページ上に登場する単語で判断され,例
えば,
「中央区」という単語が含まれていた場合,何県
の中央区なのか判断できない.
そこで,本論文では,緯度経度情報とテキストを同
時に含むデータである Twitter に着目し,そこから地
域特徴語を抽出する手法に関して検討した.提案手法
では,文章の特徴語抽出に用いられる TF-IDF を改良
する.単語ごとに算出された地域依存度による重み付
けを行い,地域特徴語を抽出する.地域依存度の定義
はいくつか考えられるが,本論文では,荒川らが文献
[4] で提案している 3 階層 2 次元幅優先探索を用いる.
独自に収集した位置情報付き日本語ツイートを用い
て評価した結果,単純な TF-IDF と比較して,提案手
法が地域特徴語を抽出可能であることを示す.
2
提案手法
本研究では,地域特徴語を抽出するためのアプロー
チとして TD-IDF を適用する.また,TF-IDF を地域
Automatic extraction of location-specific words from
Twitter
Akira ITOU† , Yutaka ARAKAWA‡ , Shigeaki TAGASHIRA†† ,
and Akira FUKUDA‡
† Department of Electrical Engineering and Computer Science,
School of Engineering, Kyushu University
‡ Graduate School of Information Science and Electrical Engineering, Kyushu University
†† Faculty of Informatics, Kansai University
1 http://www.f.ait.kyushu-u.ac.jp/
特徴性に特化させるために,ツイートから抽出したキー
ワードそれぞれに重み付けを行なっており,その重み
付けには 3 階層 2 次元幅優先探索 [4] を用いている.
2.1 3 階層 2 次元幅優先探索
3 階層 2 次元幅優先探索とは,指定したキーワード
の位置(地域)依存度を定量化するために提案された
手法で,探索エリアを,大きさの異なる 3 階層のメッ
シュに分割し,大きなメッシュから小さなメッシュへと
幅優先探索を行う.文献 [4] では,最小メッシュ(1km)
が存在すれば,その単語は地域依存性があると判定し
ている.
2.2 重み付けの定義
本論文では,各単語の地域度 L をローカリティと定
義する.3 階層 2 次元幅優先探索では,小さなエリア
が抽出されるほど地域依存性が高いとしていることか
ら,ある単語が 100km,10km,1km エリアの,どのエリ
アまで抽出されたかによって以下に示すように重み付
けを行う.











L=










1
(30 個以下の 1km エリアが抽出されたとき)
0.1
(10km エリアが抽出されたとき)
0.01
(10 個以下の 100km エリアが抽出されたとき)
0
(それ以外)
0.2775
(重み付けされなかったとき)
重み付けを行う際に,エリアの個数制限を与えている.
L=1 に関しては,地域特徴性のない単語に対して 3 階
層 2 次元幅優先探索を行った結果,例えば,
「人」で
あれば約 300,
「雨」であれば約 50 の 1km エリアが
検出されたことなどから判断した.L=0.01 に関して
は,日本の面積が約 38 万 km2 であることから判断し
た.L = 0.2775 は,重みの定義値の平均である.制限
法については今後の課題としている.
2.3 重み付き TF-IDF
前提として,分析対象ツイートは全て形態素解析に
よって単語に分割されたあと,データベースに格納さ
れているものとする.その時のデータベース (D) に対
する tf 値は,
tf (t) =
D 内での単語 t の出現回数
D に含まれる全単語数
arakawa/geoime/
3-101
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.
情報処理学会第 75 回全国大会
すべてのツイートを
1つの文章として統合
ツイート
データベース
キーワード
TF 計算
TF 値
キーワード
TFIDF 値
キーワード
IDF 値
TFIDF 計算
MeCab による
形態素解析
緯度・経度・半径
で分析対象ツイートを抽出
キーワード
各キーワードの
ローカリティ算出
L
重み付き
IDF 計算
3 階層 2 次元
幅優先探索
図 1: 提案手法の構成
必要となる.
と表すことができる.
また,idf 値は,
D 内の全ツイート数
idf (t) = 1 + ln( D 内における単語
)
t を含むツイート数
4
と表すことができる.本研究では,この idf 計算にロー
カリティL を適用し,
D 内の全ツイート数
idf (t) = 1 + ln( D 内のにおける単語
)×L
t を含むツイート数
のように修正する.
3
評価
ツイート収集圏を山手線周辺,地域特徴語を抽出す
る対象地域を「新宿駅 (北緯 35 度 68 分 97 秒 東経 139
度 70 分 04 秒)」,「渋谷駅 (北緯 35 度 65 分 88 秒 東経
139 度 70 分 12 秒)」を中心とした 2km 四方エリアと
して,各地域の特徴語が提案手法によってどの程度抽
出できるか検証した.データは,2009 年 12 月 15 日∼
2010 年 5 月 26 日までに収集された Twitter の位置情
報付き日本語データ約 3000 件である.
評価は,ツイート収集圏に既存の TF-IDF を適用して
出した特徴語 TOP5 と,対象地域に提案手法を適用し
て出した特徴語 TOP5 を比較し,提案手法により各地
域の特徴語がどの程度抽出できるかによって行なった.
山手線
既存
提案
1
2
3
4
5
人
笑
東京
自分
渋谷
東京 (1)
電車 (1)
渋谷 (1)
会社 (1)
新宿 (1)
新宿駅付近
既存
提案
新宿
人
電源
笑
ディナー
新宿 (1)
みそ汁 (1)
ディナー (1)
時代 (1)
アナ (1)
渋谷駅付近
既存
提案
渋谷
迴育栖
人
笑
店
渋谷 (1)
益坂 (1)
会社 (1)
代官山 (1)
東口 (1)
おわりに
本研究では,地域特徴語を抽出する手法として,位置
情報とテキストを持つ Twitter のデータに注目し,単
語の地域依存性を表すローカリティを用いて TF-IDF
計算式の改良を行った.3 階層 2 次元幅優先探索に基
づくローカリティによって,地域度の高い単語を抽出
しやすく,低い単語を抽出しにくくすることができる
可能性を示した.今後の予定として,分析対象の全国
化,抽出語の高精度化,より適切なローカリティの付
与の研究を行う予定である.
謝辞
本研究の一部は,財団法人人工知能研究振興財団の研
究助成に基づくものである.ここに記して謝意を示す.
参考文献
[1] 荒川豊, 末松慎司, 田頭茂明, 福田晃, “ コンテキス
トアウェア IME の実現へ向けた動的辞書生成手法
の提案, ” 情報処理学会論文誌, 特集論文 マルチ
メディア・分散・協調とモバイルシステム, Vol.52,
No.3, pp.1033-1044, 2011 年 3 月.
[2] 藤坂達也, 北山大輔, 李 龍, 角谷和俊,“ 地域依存検
索のための地域特徴語に基づくクエリ生成支援シス
テム, ” 電子情報通信学会 第 1 回データ工学と情
報マネジメントに関するフォーラム (DEIM2009),
i1-32,2009 年 3 月.
※ () 内は 3 階層 2 次元幅優先探索で付いた重み
表 1: 地域特徴語 TOP5 の比較
山手線全体では,地名の抽出精度が上がっているの
が分かる.渋谷に注目してみると,既存式では抽出さ
れなかった「益坂」(地名) という地域度の高い単語を
抽出することができた.しかし,未だ「会社」のよう
な地域度の低い単語も抽出してしまうので,このよう
な単語が抽出されないような重み付けアルゴリズムが
[3] 廣嶋伸章, 安田宜仁, 藤田尚樹, 片岡良治, “ 地理情
報検索におけるクエリ入力支援のための特徴語の提
示, ” 第 26 回人工知能学会全国大会, JSAI(2012).
[4] 荒川豊, 田頭茂明, 福田晃, “ Twitter を用いたコン
テキストと入力文字列の相関関係分析, ” 情報処
理学会論文誌, Vol.52, No.7, pp.2268-2276(2011).
3-102
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.
Fly UP