Comments
Description
Transcript
Twitterからの地域特徴語の自動抽出に関する一検討
情報処理学会第 75 回全国大会 1V-3 Twitter からの地域特徴語の自動抽出に関する一検討 伊藤晶 † 荒川豊 ‡ 田頭茂明 †† 福田晃 ‡ † ‡ 1 九州大学工学部電気情報工学科 九州大学大学院システム情報科学研究院 †† 関西大学総合情報学部 はじめに これまで我々は,位置に応じて変換候補を変更する 位置連携日本語入力システム GeoIME1 の開発を行なっ ている.GeoIME では,位置に応じて携帯内部の辞書 を動的に更新 [1] しているが,その際,その位置に関係 した単語をどのように決定するかが重要な研究課題と なっている.位置に関係した単語は地域特徴語と呼ば れ,地理情報における検索語推薦 [2][3] などの研究が 行われている. 文献 [2] では,地域名による検索で得られたウェブ ページを解析し,地域特徴語を抽出している.文献 [3] でも同様に,ウェブページをソースとして地域特徴語 を抽出している.ウェブページには緯度経度情報が含 まれないため,ウェブページがどの地域を指している かは,ウェブページ上に登場する単語で判断され,例 えば, 「中央区」という単語が含まれていた場合,何県 の中央区なのか判断できない. そこで,本論文では,緯度経度情報とテキストを同 時に含むデータである Twitter に着目し,そこから地 域特徴語を抽出する手法に関して検討した.提案手法 では,文章の特徴語抽出に用いられる TF-IDF を改良 する.単語ごとに算出された地域依存度による重み付 けを行い,地域特徴語を抽出する.地域依存度の定義 はいくつか考えられるが,本論文では,荒川らが文献 [4] で提案している 3 階層 2 次元幅優先探索を用いる. 独自に収集した位置情報付き日本語ツイートを用い て評価した結果,単純な TF-IDF と比較して,提案手 法が地域特徴語を抽出可能であることを示す. 2 提案手法 本研究では,地域特徴語を抽出するためのアプロー チとして TD-IDF を適用する.また,TF-IDF を地域 Automatic extraction of location-specific words from Twitter Akira ITOU† , Yutaka ARAKAWA‡ , Shigeaki TAGASHIRA†† , and Akira FUKUDA‡ † Department of Electrical Engineering and Computer Science, School of Engineering, Kyushu University ‡ Graduate School of Information Science and Electrical Engineering, Kyushu University †† Faculty of Informatics, Kansai University 1 http://www.f.ait.kyushu-u.ac.jp/ 特徴性に特化させるために,ツイートから抽出したキー ワードそれぞれに重み付けを行なっており,その重み 付けには 3 階層 2 次元幅優先探索 [4] を用いている. 2.1 3 階層 2 次元幅優先探索 3 階層 2 次元幅優先探索とは,指定したキーワード の位置(地域)依存度を定量化するために提案された 手法で,探索エリアを,大きさの異なる 3 階層のメッ シュに分割し,大きなメッシュから小さなメッシュへと 幅優先探索を行う.文献 [4] では,最小メッシュ(1km) が存在すれば,その単語は地域依存性があると判定し ている. 2.2 重み付けの定義 本論文では,各単語の地域度 L をローカリティと定 義する.3 階層 2 次元幅優先探索では,小さなエリア が抽出されるほど地域依存性が高いとしていることか ら,ある単語が 100km,10km,1km エリアの,どのエリ アまで抽出されたかによって以下に示すように重み付 けを行う. L= 1 (30 個以下の 1km エリアが抽出されたとき) 0.1 (10km エリアが抽出されたとき) 0.01 (10 個以下の 100km エリアが抽出されたとき) 0 (それ以外) 0.2775 (重み付けされなかったとき) 重み付けを行う際に,エリアの個数制限を与えている. L=1 に関しては,地域特徴性のない単語に対して 3 階 層 2 次元幅優先探索を行った結果,例えば, 「人」で あれば約 300, 「雨」であれば約 50 の 1km エリアが 検出されたことなどから判断した.L=0.01 に関して は,日本の面積が約 38 万 km2 であることから判断し た.L = 0.2775 は,重みの定義値の平均である.制限 法については今後の課題としている. 2.3 重み付き TF-IDF 前提として,分析対象ツイートは全て形態素解析に よって単語に分割されたあと,データベースに格納さ れているものとする.その時のデータベース (D) に対 する tf 値は, tf (t) = D 内での単語 t の出現回数 D に含まれる全単語数 arakawa/geoime/ 3-101 Copyright 2013 Information Processing Society of Japan. All Rights Reserved. 情報処理学会第 75 回全国大会 すべてのツイートを 1つの文章として統合 ツイート データベース キーワード TF 計算 TF 値 キーワード TFIDF 値 キーワード IDF 値 TFIDF 計算 MeCab による 形態素解析 緯度・経度・半径 で分析対象ツイートを抽出 キーワード 各キーワードの ローカリティ算出 L 重み付き IDF 計算 3 階層 2 次元 幅優先探索 図 1: 提案手法の構成 必要となる. と表すことができる. また,idf 値は, D 内の全ツイート数 idf (t) = 1 + ln( D 内における単語 ) t を含むツイート数 4 と表すことができる.本研究では,この idf 計算にロー カリティL を適用し, D 内の全ツイート数 idf (t) = 1 + ln( D 内のにおける単語 )×L t を含むツイート数 のように修正する. 3 評価 ツイート収集圏を山手線周辺,地域特徴語を抽出す る対象地域を「新宿駅 (北緯 35 度 68 分 97 秒 東経 139 度 70 分 04 秒)」,「渋谷駅 (北緯 35 度 65 分 88 秒 東経 139 度 70 分 12 秒)」を中心とした 2km 四方エリアと して,各地域の特徴語が提案手法によってどの程度抽 出できるか検証した.データは,2009 年 12 月 15 日∼ 2010 年 5 月 26 日までに収集された Twitter の位置情 報付き日本語データ約 3000 件である. 評価は,ツイート収集圏に既存の TF-IDF を適用して 出した特徴語 TOP5 と,対象地域に提案手法を適用し て出した特徴語 TOP5 を比較し,提案手法により各地 域の特徴語がどの程度抽出できるかによって行なった. 山手線 既存 提案 1 2 3 4 5 人 笑 東京 自分 渋谷 東京 (1) 電車 (1) 渋谷 (1) 会社 (1) 新宿 (1) 新宿駅付近 既存 提案 新宿 人 電源 笑 ディナー 新宿 (1) みそ汁 (1) ディナー (1) 時代 (1) アナ (1) 渋谷駅付近 既存 提案 渋谷 迴育栖 人 笑 店 渋谷 (1) 益坂 (1) 会社 (1) 代官山 (1) 東口 (1) おわりに 本研究では,地域特徴語を抽出する手法として,位置 情報とテキストを持つ Twitter のデータに注目し,単 語の地域依存性を表すローカリティを用いて TF-IDF 計算式の改良を行った.3 階層 2 次元幅優先探索に基 づくローカリティによって,地域度の高い単語を抽出 しやすく,低い単語を抽出しにくくすることができる 可能性を示した.今後の予定として,分析対象の全国 化,抽出語の高精度化,より適切なローカリティの付 与の研究を行う予定である. 謝辞 本研究の一部は,財団法人人工知能研究振興財団の研 究助成に基づくものである.ここに記して謝意を示す. 参考文献 [1] 荒川豊, 末松慎司, 田頭茂明, 福田晃, “ コンテキス トアウェア IME の実現へ向けた動的辞書生成手法 の提案, ” 情報処理学会論文誌, 特集論文 マルチ メディア・分散・協調とモバイルシステム, Vol.52, No.3, pp.1033-1044, 2011 年 3 月. [2] 藤坂達也, 北山大輔, 李 龍, 角谷和俊,“ 地域依存検 索のための地域特徴語に基づくクエリ生成支援シス テム, ” 電子情報通信学会 第 1 回データ工学と情 報マネジメントに関するフォーラム (DEIM2009), i1-32,2009 年 3 月. ※ () 内は 3 階層 2 次元幅優先探索で付いた重み 表 1: 地域特徴語 TOP5 の比較 山手線全体では,地名の抽出精度が上がっているの が分かる.渋谷に注目してみると,既存式では抽出さ れなかった「益坂」(地名) という地域度の高い単語を 抽出することができた.しかし,未だ「会社」のよう な地域度の低い単語も抽出してしまうので,このよう な単語が抽出されないような重み付けアルゴリズムが [3] 廣嶋伸章, 安田宜仁, 藤田尚樹, 片岡良治, “ 地理情 報検索におけるクエリ入力支援のための特徴語の提 示, ” 第 26 回人工知能学会全国大会, JSAI(2012). [4] 荒川豊, 田頭茂明, 福田晃, “ Twitter を用いたコン テキストと入力文字列の相関関係分析, ” 情報処 理学会論文誌, Vol.52, No.7, pp.2268-2276(2011). 3-102 Copyright 2013 Information Processing Society of Japan. All Rights Reserved.