Twitterからの地域特徴語の自動抽出に関する一検討

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Twitterからの地域特徴語の自動抽出に関する一検討

Transcript

Twitterからの地域特徴語の自動抽出に関する一検討

情報処理学会第 75 回全国大会
1V-3
Twitter からの地域特徴語の自動抽出に関する一検討
伊藤晶 †
荒川豊 ‡
田頭茂明 ††
福田晃 ‡
†
‡
1
九州大学工学部電気情報工学科
九州大学大学院システム情報科学研究院
††
関西大学総合情報学部
はじめに
これまで我々は，位置に応じて変換候補を変更する
位置連携日本語入力システム GeoIME1 の開発を行なっ
ている．GeoIME では，位置に応じて携帯内部の辞書
を動的に更新 [1] しているが，その際，その位置に関係
した単語をどのように決定するかが重要な研究課題と
なっている．位置に関係した単語は地域特徴語と呼ば
れ，地理情報における検索語推薦 [2][3] などの研究が
行われている．
文献 [2] では，地域名による検索で得られたウェブ
ページを解析し，地域特徴語を抽出している．文献 [3]
でも同様に，ウェブページをソースとして地域特徴語
を抽出している．ウェブページには緯度経度情報が含
まれないため，ウェブページがどの地域を指している
かは，ウェブページ上に登場する単語で判断され，例
えば，
「中央区」という単語が含まれていた場合，何県
の中央区なのか判断できない．
そこで，本論文では，緯度経度情報とテキストを同
時に含むデータである Twitter に着目し，そこから地
域特徴語を抽出する手法に関して検討した．提案手法
では，文章の特徴語抽出に用いられる TF-IDF を改良
する．単語ごとに算出された地域依存度による重み付
けを行い，地域特徴語を抽出する．地域依存度の定義
はいくつか考えられるが，本論文では，荒川らが文献
[4] で提案している 3 階層 2 次元幅優先探索を用いる．
独自に収集した位置情報付き日本語ツイートを用い
て評価した結果，単純な TF-IDF と比較して，提案手
法が地域特徴語を抽出可能であることを示す．
2
提案手法
本研究では，地域特徴語を抽出するためのアプロー
チとして TD-IDF を適用する．また，TF-IDF を地域
Automatic extraction of location-specific words from
Twitter
Akira ITOU† , Yutaka ARAKAWA‡ , Shigeaki TAGASHIRA†† ,
and Akira FUKUDA‡
† Department of Electrical Engineering and Computer Science,
School of Engineering, Kyushu University
‡ Graduate School of Information Science and Electrical Engineering, Kyushu University
†† Faculty of Informatics, Kansai University
1 http://www.f.ait.kyushu-u.ac.jp/
特徴性に特化させるために，ツイートから抽出したキー
ワードそれぞれに重み付けを行なっており，その重み
付けには 3 階層 2 次元幅優先探索 [4] を用いている．
2.1 3 階層 2 次元幅優先探索
3 階層 2 次元幅優先探索とは，指定したキーワード
の位置（地域）依存度を定量化するために提案された
手法で，探索エリアを，大きさの異なる 3 階層のメッ
シュに分割し，大きなメッシュから小さなメッシュへと
幅優先探索を行う．文献 [4] では，最小メッシュ（1km）
が存在すれば，その単語は地域依存性があると判定し
ている．
2.2 重み付けの定義
本論文では，各単語の地域度 L をローカリティと定
義する．3 階層 2 次元幅優先探索では，小さなエリア
が抽出されるほど地域依存性が高いとしていることか
ら，ある単語が 100km,10km,1km エリアの，どのエリ
アまで抽出されたかによって以下に示すように重み付
けを行う．











L=










1
(30 個以下の 1km エリアが抽出されたとき)
0.1
(10km エリアが抽出されたとき)
0.01
(10 個以下の 100km エリアが抽出されたとき)
0
(それ以外)
0.2775
(重み付けされなかったとき)
重み付けを行う際に，エリアの個数制限を与えている．
L=1 に関しては，地域特徴性のない単語に対して 3 階
層 2 次元幅優先探索を行った結果，例えば，
「人」で
あれば約 300，
「雨」であれば約 50 の 1km エリアが
検出されたことなどから判断した．L=0.01 に関して
は，日本の面積が約 38 万 km2 であることから判断し
た．L = 0.2775 は，重みの定義値の平均である．制限
法については今後の課題としている．
2.3 重み付き TF-IDF
前提として，分析対象ツイートは全て形態素解析に
よって単語に分割されたあと，データベースに格納さ
れているものとする．その時のデータベース (D) に対
する tf 値は，
tf (t) =
D 内での単語 t の出現回数
D に含まれる全単語数
arakawa/geoime/
3-101
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.
情報処理学会第 75 回全国大会
すべてのツイートを
１つの文章として統合
ツイート
データベース
キーワード
TF 計算
TF 値
キーワード
TFIDF 値
キーワード
IDF 値
TFIDF 計算
MeCab による
形態素解析
緯度・経度・半径
で分析対象ツイートを抽出
キーワード
各キーワードの
ローカリティ算出
L
重み付き
IDF 計算
3 階層 2 次元
幅優先探索
図 1: 提案手法の構成
必要となる．
と表すことができる．
また，idf 値は，
D 内の全ツイート数
idf (t) = 1 + ln( D 内における単語
)
t を含むツイート数
4
と表すことができる．本研究では，この idf 計算にロー
カリティL を適用し，
D 内の全ツイート数
idf (t) = 1 + ln( D 内のにおける単語
)×L
t を含むツイート数
のように修正する．
3
評価
ツイート収集圏を山手線周辺，地域特徴語を抽出す
る対象地域を「新宿駅 (北緯 35 度 68 分 97 秒東経 139
度 70 分 04 秒)」,「渋谷駅 (北緯 35 度 65 分 88 秒東経
139 度 70 分 12 秒)」を中心とした 2km 四方エリアと
して，各地域の特徴語が提案手法によってどの程度抽
出できるか検証した．データは，2009 年 12 月 15 日∼
2010 年 5 月 26 日までに収集された Twitter の位置情
報付き日本語データ約 3000 件である．
評価は，ツイート収集圏に既存の TF-IDF を適用して
出した特徴語 TOP5 と，対象地域に提案手法を適用し
て出した特徴語 TOP5 を比較し，提案手法により各地
域の特徴語がどの程度抽出できるかによって行なった．
山手線
既存
提案
1
2
3
4
5
人
笑
東京
自分
渋谷
東京 (1)
電車 (1)
渋谷 (1)
会社 (1)
新宿 (1)
新宿駅付近
既存
提案
新宿
人
電源
笑
ディナー
新宿 (1)
みそ汁 (1)
ディナー (1)
時代 (1)
アナ (1)
渋谷駅付近
既存
提案
渋谷
迴育栖
人
笑
店
渋谷 (1)
益坂 (1)
会社 (1)
代官山 (1)
東口 (1)
おわりに
本研究では，地域特徴語を抽出する手法として，位置
情報とテキストを持つ Twitter のデータに注目し，単
語の地域依存性を表すローカリティを用いて TF-IDF
計算式の改良を行った．3 階層 2 次元幅優先探索に基
づくローカリティによって，地域度の高い単語を抽出
しやすく，低い単語を抽出しにくくすることができる
可能性を示した．今後の予定として，分析対象の全国
化，抽出語の高精度化，より適切なローカリティの付
与の研究を行う予定である．
謝辞
本研究の一部は，財団法人人工知能研究振興財団の研
究助成に基づくものである．ここに記して謝意を示す.
参考文献
[1] 荒川豊, 末松慎司, 田頭茂明, 福田晃, “ コンテキス
トアウェア IME の実現へ向けた動的辞書生成手法
の提案, ” 情報処理学会論文誌, 特集論文マルチ
メディア・分散・協調とモバイルシステム, Vol.52,
No.3, pp.1033-1044, 2011 年 3 月.
[2] 藤坂達也, 北山大輔, 李龍, 角谷和俊,“ 地域依存検
索のための地域特徴語に基づくクエリ生成支援シス
テム, ” 電子情報通信学会第 1 回データ工学と情
報マネジメントに関するフォーラム (DEIM2009)，
i1-32，2009 年 3 月.
※ () 内は 3 階層 2 次元幅優先探索で付いた重み
表 1: 地域特徴語 TOP5 の比較
山手線全体では，地名の抽出精度が上がっているの
が分かる．渋谷に注目してみると，既存式では抽出さ
れなかった「益坂」(地名) という地域度の高い単語を
抽出することができた．しかし，未だ「会社」のよう
な地域度の低い単語も抽出してしまうので，このよう
な単語が抽出されないような重み付けアルゴリズムが
[3] 廣嶋伸章, 安田宜仁, 藤田尚樹, 片岡良治, “ 地理情
報検索におけるクエリ入力支援のための特徴語の提
示, ” 第 26 回人工知能学会全国大会, JSAI(2012).
[4] 荒川豊, 田頭茂明, 福田晃, “ Twitter を用いたコン
テキストと入力文字列の相関関係分析, ” 情報処
理学会論文誌, Vol.52, No.7, pp.2268-2276(2011).
3-102
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.