Comments
Description
Transcript
外国人Twitterユーザの観光訪問先の属性別分析
DEIM Forum 2015 C4-3 外国人 Twitter ユーザの観光訪問先の属性別分析 佐伯 圭介† 遠藤 雅樹†,†† 廣田 雅春†,††† 石川 倉田 陽平†††† 横山 昌平††††† 博† † 首都大学東京大学院 システムデザイン研究科 〒 191–0065 東京都日野市旭が丘 6-6 †† 職業能力開発総合大学校 基盤ものづくり系 〒 187–0035 東京都小平市小川西町 2-32-1 ††† 日本学術振興会 〒 102–0083 東京都千代田区麹町 5-3-1 †††† 首都大学東京大学院 都市環境科学研究科 〒 192–0397 東京都八王子市南大沢 1-1 ††††† 静岡大学大学院 情報学研究科 〒 432–8011 静岡県浜松市中区城北 3-5-1 E-mail: †{saeki-keisuke,endo-masaki}@ed.tmu.ac.jp, {hirota-masaharu,ishikawa-hiroshi}@tmu.ac.jp, † † ††[email protected], † † † † †[email protected] あらまし 近年,Web 上の情報から,観光に関連する情報を抽出する研究が活発である.しかし,ユーザの国籍や, 滞在期間などのユーザの属性によって,日本での訪問先や,その感想には差異があることが予想されるが,日本人,在 日外国人,および訪日外国人などのユーザ属性を考慮して観光に関連する情報を抽出する研究は少ない.そこで,本 研究では,ツイートの投稿時間や,付与された位置情報に着目することで,外国語を用いるユーザの属性が訪日外国 人か,在日外国人かを判別する手法を提案する.さらに,観光情報を抽出する際に,分析に用いるデータに含まれる ユーザ群の属性が異なることが原因で結果に差異があることを確認するため,日本人ユーザ,訪日外国人ユーザ,お よび在日外国人ユーザに対して同一の手法を適用することで観光情報を抽出し,考察を行う. キーワード 観光情報,ユーザ属性,属性推定,位置情報,ソーシャルメディア分析 1. は じ め に の行動や感想を知る必要がある. Web 上から,人の行動や,関心を知ることができる情報源と 近年,訪日外国人観光客は増加傾向にある.2014 年には,1 して,SNS(ソーシャル・ネットワーキング・サービス)があ 年間の訪日外国人観光客は過去最高を更新した(注 1).世界全体 る.特に,ユーザ数の多い SNS として,Twitter(注 5) があげら においても,国際観光客到着数は増加傾向にあるため(注 2),訪 れる.マイクロブログサービスのひとつである Twitter では, 日外国人観光客数は,さらなる増加の可能性がある.また,国 ユーザは,ツイートと呼ばれる短い文章を投稿する.一度に投 内観光旅行についても,宿泊観光旅行,日帰り観光旅行ともに, 稿可能な文字数の少なさや,携帯端末での利用が容易であるこ 1 人あたりの旅行回数は,2011 年までは減少傾向にあったが, とから,投稿が容易である.そのため,旅行の際に,行動や感 2011 年以降は増加傾向にある(注 3).しかしながら,2013 年に 想をその場で投稿することが多い.また,一部のユーザは,位 おける 1 人あたりの国内観光旅行回数は,減少が始まる前の回 置情報を付与して投稿するため,ユーザの滞在地点を把握する 数よりも少ないため,1 人あたりの国内観光旅行回数には,増 ことが容易である. 加の余地があると考えられる.これらのことから,観光客数の 増加による,観光収入の増加が期待されている. そのため,Twitter などの Web 上の情報を用いて,実際の 旅行者の感想や,観光地のイメージをなどの観光情報を抽出す 観光客数を増加させるために重要なことのひとつとして,観 る研究が盛んである [1], [4], [6].これらの観光情報を抽出する 光を計画している人に対する適切な情報提供があげられる.近 研究において,国籍や,滞在期間などの観光客の属性を考慮す 年,旅行者は,ツアーを利用せず,個人で訪問先を決める傾向 ることは重要である.例えば,台湾からの旅行者は,他国から にあるため(注 4),旅行者に対して観光に関連するより適切な情 の旅行者よりも,訪日期間中にテーマパークを訪れることが多 報を推薦する必要性が高まっている.観光客に有用な情報を提 く(注 4),国籍や滞在期間などの,観光客の属性によって,日本 供するためには,観光客の目的地や旅行ルート,また,そこで での訪問先や,その感想には差異があることが予想される. そこで,本研究では,主に外国語を用いるユーザが,訪日外 (注 1):日本政府観光局 平成 26 年 報道発表資料: http://www.jnto.go.jp/jpn/news/press releases/pdf/20141119.pdf (注 2):国土交通省 観光白書 平成 26 年版: http://www.mlit.go.jp/common/001042911.pdf (注 3):観光庁 旅行・観光消費動向調査: 国人なのか,在日外国人なのかを判別する手法を提案する.こ こで,本論文では,外国語を日本語以外の言語とする.外国人 ユーザを対象に属性を推定する場合,プロフィール情報やツ イート本文を用いて推定する方法が考えられる.しかし,他国 http://www.mlit.go.jp/kankocho/siryou/toukei/shouhidoukou.html (注 4):東京都 平成 25 年度国別外国人旅行者行動特性調査:http:// www.metro.tokyo.jp/INET/CHOUSA/2014/09/DATA/60o99102.pdf (注 5):https://twitter.com/ から訪れる外国人を分析することを想定した場合,英語や韓国 それらの手法が複数の言語が含まれるデータから生成された特 語などの複数の外国語に対応する必要がある.その際に,プロ 徴量に対して対応可能であるとは限らない.そのため,本論文 フィール情報やツイート本文に対して自然言語処理を適用し, では,ユーザの属性を推定するために,言語に依存しない投稿 在日外国人か,訪日外国人かを判定することは,言語ごとに文 時間や,位置情報を特徴量として用いる. 法や,単語の意味が異なることなどが原因で,言語ごとに判定 手法を調整する必要があるため,手法で用いる特徴量の生成や, パラメータの再設定などのコストが,分析を行う言語ごとに必 要となる.そこで,本研究では,使用言語に依存しない特徴量 3. 提 案 手 法 本章では,外国語を用いるユーザが訪日外国人なのか,在日 外国人なのかを判定する手法について述べる. として,ツイートの投稿時間や,付与された位置情報を用いる はじめに,分析に用いるツイートの取得方法について述べ ことで,使用言語に依存しない,訪日外国人なのか,在日外国 る.Twitter からのツイートの取得には,Twitter Streaming 人なのかを判定する手法を提案する.さらに,観光情報を抽出 API(注 6) を用いた.その際に,ツイートに付与された位置情報 する場合に,分析に用いるデータが含むユーザ群の属性が異な に基づいて,日本国内で投稿されたツイートを取得するよう ることが原因で,抽出結果に差異があることを確認するため, に設定した.また,取得したツイート本文の URL 部分は削除 日本人ユーザ,訪日外国人ユーザ,および在日外国人ユーザに した. 対して同一の手法で観光情報を抽出し,考察を行う. 日本国内でツイートを投稿したユーザについて,ユーザが外 本論文の構成は次の通りである.2 章では,関連研究につい 国人であるかを判定した後,訪日外国人なのか,在日外国人な て述べる.3 章では,ツイートに付与された位置情報を用いて, のかを判別する.本論文では,ユーザごとに属性を判別する 2 外国語を用いるユーザが訪日外国人なのか,在日外国人なのか つの手法を提案する.1 つは,ユーザが日本国内でツイートを を判別する,手法について述べる.4 章では,提案手法の性能 投稿した期間が,一時的な滞在かどうかを推定することで,外 を評価する実験を行い,考察を述べる.5 章では,属性の異な 国人ユーザを判別する手法であり,もう 1 つは,分析する期間 るユーザ群に対して,同一の手法で観光情報を抽出した結果を 内の日本国内でのツイートの割合に着目して,外国人ユーザを 示し,考察を述べる.6 章では本研究のまとめを述べる. 判別する手法である. 2. 関 連 研 究 3. 1 提案手法 1 提案手法 1 では,ユーザが日本国内でツイートを投稿した期 Web 上の情報を用いて,観光情報を抽出する研究は,近年盛 間が,一時的な滞在かどうかを推定することによって,外国人 んに行われている.例えば,Web 上のデータから観光イメー ユーザが訪日外国人なのか,在日外国人なのかをユーザごとに ジを分析する研究 [1], [2], [3] や,旅行者の感想を分析する研 判別する. 究 [4], [5],SNS に投稿された情報から観光ルートを推薦する研 はじめに,日本国内でツイートを行ったユーザの主な使用言 究 [6], [7] などがある.Choi らの研究 [1] では,Web 上の旅行 語の判定を行う.本論文では,ユーザが Twitter のプロフィー に関連した情報源から,マカオの観光イメージを分析している. ル情報に登録している使用言語情報と,ツイートの言語が半数 Wenger の研究 [4] では,オーストリアを旅行した人のブログを 以上一致している場合に,その言語をユーザの主な使用言語と 分析し,オーストリアの観光イメージを抽出している.中嶋ら する.これは,ほかのサービスを経由して投稿した場合に,自 の研究 [6] では,観光に関連するツイートを分析し,旅行者の 動生成された文字列がツイートに挿入されることや,ツイート 好みに合わせた観光ルートを推薦している.これらの研究では, の文字数の少なさによって,言語判定が有効に機能しない場合 観光情報を抽出する際に,ユーザの属性を考慮していない.し を考慮したためである.ツイートの言語判定は, ツイートに対 かし,抽出される観光情報には,国籍や滞在期間などの,ユー して, Language-Detection(注 7) を適用する.言語判定の結果, ザの属性によって,差異があることが予想される.そこで,本 使用言語が日本語以外であると判定されたユーザを外国人ユー 研究では,主に外国語を用いると判断されたユーザについて, ザとし,訪日外国人なのか,在日外国人なのかを判別する. 訪日外国人と在日外国人の 2 つの属性のどちらであるかを判別 提案手法 1 のイメージを図 1 に示す.まず,ユーザが日本国 する手法を提案し,さらに,属性が異なる複数のユーザ群に同 内で投稿したツイートを投稿時間の古い順に並び替えて,i 番 一の手法を適用し,結果を比較する. 目に投稿されたツイートを ti とする.また,分析する期間の開 また,観光情報の分析に応用可能な,投稿者の属性を推定す 始日 start date と終了日 stop date を設定する.次に,分析す る研究として,Cheng らの研究 [8] では,ユーザのツイート本 る期間の中で,ユーザが投稿した投稿時間の最も古いツイート 文を用いてユーザの居住地を都市レベルで推定している.榊ら の投稿時間 Told を選択する.訪日外国人の日本での滞在期間の の研究 [9] では,ユーザのツイート本文や,プロフィール情報 最長日数 travel period を設定し,Told から travel period 日 などを用いて,ユーザの職業を推定している.Burger らの研 後までの期間の中で,投稿時間の最も新しいツイートの投稿時 究 [10] では,ブログの本文やメタデータを利用し,ユーザの年 間 Tnew を選択する.日本に到着する前であること,帰国後で 齢を推定している.これらの研究では,ユーザが投稿した内容 やプロフィール情報などのテキスト情報を特徴量として,ユー ザの属性を推定している.しかし,言語の性質の差異により, (注 6):https://dev.twitter.com/streaming/overview (注 7):https://code.google.com/p/language-detection/ ݁ݐ̴ܽ݀ݐݎܽݐݏ ݁ݐ̴ܽ݀ݐݏ ݆ ݁ݐ̴ܽ݀ݐݎܽݐݏ ݁ݐ̴ܽ݀ݐݏ ݆ ܦ ܶௗ ܶ௪ ツイート数︓ ʹ ͳ ʹ 提案手法 1 Ͳ Ͳ 図 2 提案手法 2 あることを判定するための日数 j を設定し,Told の j 日前まで 表1 パラメータの値 提案手法 1 の期間と,Tnew の j 日後までの期間において,ユーザがツイー 提案手法 2 travel period 14, 15, ..., 33 D トを投稿したかどうかを判定する.これらの期間にて,ツイー j 3, 4, ..., 19 Tmin 1, 2, ..., 10 トが投稿されておらず,Told から Tnew までの期間に投稿され たツイート数が,Tmin 以上である場合,Told から Tnew の期間 を訪日外国人の一時滞在期間とする.ここで,Tmin は,ユー R 1, 2, ..., 30 0.1, 0.2, ..., 0.7 表 2 F 値:提案手法 1 ザの投稿するツイート数が少ないことによる,誤判定を防ぐた めに設定する,最低ツイート数である.そして,Tnew 以降の ͳ ͷൗ ൝ ܴ ֜௰ਗবয ֜ ݁ݏ݅ݓݎ݄݁ݐਗবয ݀݅ݎ̴݈݁݁ݒܽݎݐ 図1 ͳ F値 Tmin 訪日外国人 1 29 16 6 0.9714 0.9781 0.9748 分析期間内のすべてのツイートが一時滞在期間における投稿 2 29 14 5 0.9714 0.9781 0.9748 であると判定された場合,ユーザは訪日外国人ユーザであると 3 29 15 3 0.9787 0.9706 0.9747 判定する.また,訪日外国人ではないと判定されたユーザのう 4 29 14 3 0.9645 0.9781 0.9713 ち,ツイート数が Tmin 以上であったユーザを在日外国人ユー 5 20 18 3 0.9710 0.9714 0.9712 6 25 14 3 0.9714 0.9710 0.9712 7 19 9 3 0.9710 0.9714 0.9712 8 20 16 4 0.9635 0.9787 0.9711 9 19 10 4 0.9635 0.9787 0.9711 10 19 12 3 0.9635 0.9787 0.9711 ツイートに対して,同様の処理を繰り返す. ザであると判定する.訪日外国人ユーザ,在日外国人ユーザの どちらにも判定されなかったユーザは,判別不能ユーザである とする. 3. 2 提案手法 2 順位 travel period j 在日外国人 全体 提案手法 2 では,分析する期間を設定し,その期間内の日本 国内でのツイートの割合に着目して,外国人ユーザが訪日外国 表 3 F 値:提案手法 2 F値 人なのか,在日外国人なのかをユーザごとに判別する. R 訪日外国人 1 13 0.2 0.9781 0.9787 0.9784 2 18 0.3 0.9640 0.9855 0.9748 3 21 0.3 0.9714 0.9781 0.9748 4 21 0.4 0.9714 0.9781 0.9748 start date と終了日 stop date を設定する.次に,start date 5 9 0.2 0.9710 0.9784 0.9747 から,stop date までの期間を,D 日ごとに分割することで,D 6 25 0.4 0.9645 0.9781 0.9713 日間のツイートを 1 つのブロックとする.分割した結果,最後 7 14 0.2 0.9710 0.9714 0.9712 のブロックの長さが D 日よりも短くなった場合は,最後のブ 8 8 0.2 0.9635 0.9787 0.9711 ロックは使用しないこととする.分割されたそれぞれのブロッ 9 17 0.3 0.9565 0.9710 0.9638 クの期間内に,ユーザがツイートを投稿していたかどうかを確 10 11 0.3 0.9577 0.9630 0.9604 はじめに,3.1 節と同様の手順で,言語判定を行い,ユーザ が外国人であるかを判定し,外国人であるとされたユーザにつ いて,訪日外国人なのか,在日外国人なのかを判別する. 提案手法 2 のイメージを図 2 に示す.分析する期間の開始日 順位 D 在日外国人 全体 認する. ユーザがツイートを投稿していたブロックの数を数え,ユー ザが投稿していたブロックの分析期間全体に対する比率 r を 求める.ここで,ユーザがツイートを投稿していたブロックの 分析期間全体に対する比率 r が,閾値 R 以下であった場合は, ユーザは訪日外国人ユーザであると判定する.また,比率 r が, 4. 評 価 実 験 本章では,Twitter から取得したツイートを用いて,2 つの 提案手法の適切なパラメータを探索し,性能を評価する. はじめに,適切なパラメータの探索,および評価に用いるた 閾値 R よりも大きい場合は,在日外国人ユーザであると判定 めに作成した正解データについて述べる.正解データを作成す する. るため,Twitter から 2014 年 6 月 11 日から 2014 年 12 月 20 日の期間内に日本国内で投稿されたツイートを 72,059,720 件取 表 4 評価結果:提案手法 1 を 29,j を 14,Tmin を 5 とした場合であった.提案手法 1 で travel period = 29, j = 16, Tmin = 6 は,精度の値を大きくするには,travel period はある程度長 判別結果 訪日外国人 在日外国人 判別不能 正解データ 訪日外国人 0.9000 0.0333 0.0667 在日外国人 0.0333 0.9000 0.0667 えられる.また,パラメータの値を若干変更しても,精度の値 は大きく変化しなかった. 表 1 のパラメータのそれぞれの組み合わせで提案手法 2 を適 travel period = 29, j = 14, Tmin = 5 用した結果,性能の高い上位 10 件を表 3 に示す.提案手法 2 判別結果 訪日外国人 めに,j は 15 前後,Tmin は 3 以上に設定する必要があると考 在日外国人 判別不能 を用いて,ユーザの判定を行った結果,最も精度が高かったの 正解データ 訪日外国人 0.9667 0.0333 0.0000 は,分析期間を分割する際の日数 D を 13,ユーザがツイート 在日外国人 0.0667 0.8667 0.0667 を投稿していた期間の分析期間全体に対する比率 R を 0.2 とし た場合であった.提案手法 2 では,精度の値を大きくするには, 表 5 評価結果:提案手法 2 R は,0.2 から 0.4 の間に,D は,8 よりも大きい値に設定す 判別結果 訪日外国人 在日外国人 正解データ 訪日外国人 0.8667 0.1333 在日外国人 0.1000 0.9000 る必要があると考えられる. 次に,提案手法の精度を評価するため,適切とされたパラ メータを用いて,提案手法 1,2 を,パラメータの探索に用い たものとは異なる,訪日外国人ユーザ 30 人,在日外国人ユー 得した.取得したツイートの中から,ユーザのツイート本文や, Twitter のプロフィール情報に登録しているユーザの住む場所 の情報をもとに,主に英語を使用するユーザのなかから,訪日 外国人ユーザと,在日外国人ユーザのリストを 100 人ずつ,合 計 200 人,人手で抽出した.平均のツイート数は,訪日外国人 ユーザが 29.13 件,在日外国人ユーザが 171.44 件である.こ れらのユーザのリストから,訪日外国人ユーザと,在日外国人 ユーザを 70 人ずつ,合計 140 人選択し,適切なパラメータの 探索に使用する.また,選択されなかった 30 人ずつ,合計 60 人のユーザは,提案手法の精度の検証に使用する. 次に,2 つの提案手法の適切なパラメータを探索する.ユー ザが訪日外国人なのか,在日外国人なのかを判別する期間の開 始日 start date と終了日 stop date をそれぞれ 2014 年 7 月 1 日,2014 年 11 月 30 日とした.そのほかのパラメータについ ては,複数の値を選択し,すべてのパラメータの組み合わせに ついて,ユーザの判別を行う.判別結果の精度が最も高くなっ た組み合わせを,提案手法の適切なパラメータとする.提案手 法 1 と提案手法 2 の,各パラメータに適用する値の一覧を表 1 に示す. 適切なパラメータを決定するための基準とした,精度の算出 方法について述べる.提案手法の判別結果のうち,訪日外国人 かどうかの判別結果について,F 値を算出する.ここで,F 値と は,適合率と再現率の調和平均である.また,在日外国人ユー ザかどうかの判別結果についても,同様に F 値を算出する.こ れら 2 つの F 値の平均値を,提案手法全体の性能とする. 表 1 のパラメータのそれぞれの組み合わせで,訪日外国人 ユーザ 70 人,在日外国人ユーザ 70 人の合計 140 人に対して提 案手法 1 を適用した結果,性能の高い上位 10 件を表 2 に示す. 提案手法 1 を用いて,ユーザの判定を行った結果,最も精度の 値が高かったのは,それぞれのパラメータを,日本での滞在期間 の最長日数 travel period を 29,日本に到着する前であること, 帰国後であることを判定するための日数 j を 16,誤判定を防ぐ ための最低ツイート数 Tmin を 6 とした場合と,travel period ザ 30 人の合計 60 人に対して適用した.判別した結果を表 4, 表 5 に示す.表 4 において,判別不能とされたユーザは,提案 手法 1 において,投稿されたツイート数が Tmin 未満であった ユーザである.表 4,表 5 より,提案手法 1 の判別結果は,提 案手法 2 の判別結果と比べて,誤りが少なく,正確であった. しかし,どちらの手法においても,訪日外国人,在日外国人の 判別結果の正答率は 9 割程度となり,高い精度で判別ができた と考えられる.提案手法では,言語判定以外の手順にて,言語 に依存する処理を行っていない.そのため,評価実験では,英 語を用いるユーザを正解データとして評価を行ったが,英語以 外の言語を用いるユーザについても,提案手法は適切に機能す ると考えられる. 最後に,提案手法 1,2 の実行時間を比較した.2014 年 7 月 1 日から 2014 年 11 月 30 日までの期間に日本国内でツイート を投稿したユーザの中で,登録している使用言語情報が日本語 以外であった,149,401 人のユーザに対して,2 つの提案手法 を適用し,すべてのユーザの判別が終了するまでの時間を 100 回計測した.表 6 に,それぞれの手法の 1 ユーザあたりの実行 時間の平均値を示す.表 6 より,1 ユーザあたりの実行時間は, 提案手法 2 が,提案手法 1 より約 0.3 ミリ秒短かった.判別器 に適用するユーザ数が少ない場合には,実行時間にはあまり差 がないが,日本でツイートを投稿するすべてのユーザを対象に 判別を行う場合には,実行時間に大きな差が生じる. 提案手法 1,2 を比較した場合,どちらの手法においても,高 い精度で判別ができていたが,提案手法 1 の方が,判別結果の 精度が高かった.しかし,実行時間については,提案手法 2 の 方が,1 ユーザあたりの実行時間が短かった.また,提案手法 1 は 3 つのパラメータを設定する必要があるが,提案手法 2 は, 1 つ少なく,2 つのパラメータを設定するだけでよい.よって, 精度と速度のどちらを重視するかで,提案手法 1 と提案手法 2 を使い分ける必要があると考えられる. 表 6 提案手法の 1 ユーザあたりの実行時間 実行時間 [ms] 提案手法 1 3.143 提案手法 2 2.822 表9 ツイートを投稿したユーザ数の多いエリアの重複率 比較対象 エリアの重複率 日本人ユーザ 訪日外国人ユーザ 0.580 日本人ユーザ 在日外国人ユーザ 0.640 訪日外国人ユーザ 在日外国人ユーザ 0.660 表 7 観光スポットの訪問先ランキングの順位相関係数 比較対象 順位相関係数 日本人ユーザ 訪日外国人ユーザ 0.587 日本人ユーザ 在日外国人ユーザ 0.718 訪日外国人ユーザ 在日外国人ユーザ 0.902 訪日外国人ユーザ,および在日外国人ユーザのツイートを用い て作成したランキングについて,訪問者数の多い観光スポット をそれぞれ上位 10 件ずつ表 8 に示す.例えば,表 8 において, 築地市場は,訪日外国人ユーザでは 3 位に位置しているが,在 日外国人ユーザでは 14 位,日本人ユーザでは 17 位であった. 5. 日本人,訪日・在日外国人ユーザの 観光情報の比較 本章では,日本人ユーザ,訪日外国人ユーザ,および在日外 国人ユーザに対して同一の方法で観光情報を抽出することで, それらの属性により観光に関連する情報が変化することを確認 する.ここで,日本人ユーザとは,3 章で述べた方法で言語判 定を行い,主な使用言語が日本語であるとされたユーザである. ツイートを取得する期間は 2014 年 6 月 11 日から,2014 年 12 月 20 日までとした.取得したツイート数は,全体で 72,059,720 件であった.2014 年 7 月 1 日から 2014 年 11 月 30 日までの期 間に日本国内でツイートを投稿したユーザについて,提案手法 1 を用いて,訪日外国人ユーザと在日外国人ユーザを判別した 結果,訪日外国人ユーザは 5,699 人,在日外国人ユーザは 4,675 人選択された.また,日本人ユーザは 643,432 人であった. 5. 1 観光スポットの訪問者数ランキング 本節では,日本人ユーザ,訪日外国人ユーザ,および在日外 国人ユーザが訪問した観光スポットについて比較する. まず,ランキングの作成に使用する,観光スポットを設定す る.観光スポットの設定には,旅行に関する情報を提供する Web サイトである,TripAdvisor(注 8)を使用した.TripAdvisor に含まれている日本国内の観光エリアのランキングから,東 京 23 区や京都市など,上位 200 の観光エリアを取得した.こ の観光エリアの中に存在し,TripAdvisor でのレビューの数が 500 件以上である観光スポットを選択した結果,69ヶ所の観光 スポットが得られた.さらに,これらの観光スポットについて, 観光スポットの範囲を人手で設定し,範囲内でツイートを投稿 したユーザの人数を集計し,ランキングを作成した. 日本人ユーザ,訪日外国人ユーザ,および在日外国人ユーザ のツイートを用いて作成されたランキングについて,それぞれ を比較し,相関係数を求めた.相関係数の指標は,スピアマン の順位相関係数を用いた.この指標は,2 つのランキングの相 関係数が 1 に近いほど,2 つのランキングに正の相関がある.2 つのランキングの順位相関係数を表 7 に示す.どのランキング これは,築地市場が,日本の市場や,食文化を感じることがで きる場所のひとつであるため,外国人向けガイドブックに掲載 されるなど,日本に訪れる外国人にとって人気の高い観光ス ポットであることが原因であると考えられる(注 9).また,外国 人ユーザの訪問先は,日本人ユーザと比べて,関東圏,関西圏 に集中していた.これは,在日外国人の居住地が,関東圏や関 西圏に集中していること(注 10)や,成田国際空港,羽田空港,お よび関西国際空港から入国する訪日外国人が多いこと(注 11) が 原因であると考えられる.さらに,訪日外国人ユーザは,日本 人ユーザ,在日外国人ユーザと比べて,テーマパークを訪れる ことが少なかった.これは,訪日外国人は,日本食やショッピ ング,景勝地などに期待して訪日することが多く,テーマパー クを目的に訪日する外国人が少ないためであると考えられる. 5. 2 ユーザの投稿エリアの分析 本節では,日本全国について,ツイートを投稿したユーザ数 の多いエリアを分析する. まず,日本の国土を 1 辺が 1km の正方形のエリアに分割し た.次に,日本人ユーザ,訪日外国人ユーザ,および在日外国 人ユーザについて,各エリアの範囲内でツイートを投稿した ユーザの人数を集計し,ユーザ数の多いエリアの上位 100 件を 抽出し,地図上に可視化した.日本人ユーザ,訪日外国人ユー ザ,および在日外国人ユーザの,滞在したユーザ数の多いエリ アの上位 100 件を図 3 にそれぞれ示す.次に,日本人ユーザ, 訪日外国人ユーザ,および在日外国人ユーザのツイートを用い て求めた,ツイートを投稿したユーザの人数が多いエリアの上 位 100 件について,それぞれを比較し,重複しているエリアの 比率を求めた.ツイートを投稿したユーザ数の多いエリアの重 複率を表 9 に示す. 図 3,および表 9 より,多くのユーザがツイートを投稿する エリアは,ユーザの属性が異なる場合にも,人口の集中する東 京 23 区などで,類似していることが分かった.差異のあった 点としては,例えば,訪日外国人ユーザは,図 3 の A で示され た,河口湖周辺にてツイートを投稿することが多かった.これ 同士を比較した場合にも,訪問先には正の相関があるため,日 本人ユーザ,訪日外国人ユーザ,および在日外国人ユーザの訪 問する観光スポットは類似していることが分かった.しかしな がら,一部の順位には差異が存在した.ここで,日本人ユーザ, (注 9):http://news.searchina.ne.jp/ disp.cgi?y=2013&d=0403&f=national 0403 008.shtml (注 10):法務省 報道発表資料:http://www.moj.go.jp/nyuukokukanri/ kouhou/nyuukokukanri04 00043.html (注 11):観光庁 訪日外国人消費動向調査: (注 8):http://www.tripadvisor.jp/ http://www.mlit.go.jp/kankocho/siryou/toukei/syouhityousa.html 表 8 観光スポットの訪問者数ランキング 順位 日本人ユーザ 東京駅 1 2 ユニバーサル・スタジオ・ジャパン 訪日外国人ユーザ 在日外国人ユーザ 17,292 東京駅 366 東京駅 239 9,859 東京スカイツリー 279 原宿竹下通り 155 3 東京ディズニーランド 9,431 築地市場 275 東京ディズニーランド 140 4 東京ディズニーシー 7,073 原宿竹下通り 5 新宿御苑 6,156 浅草寺 265 ユニバーサル・スタジオ・ジャパン 138 235 5,480 ユニバーサル・スタジオ・ジャパン 224 皇居 127 6 皇居 東京スカイツリー 123 7 伏見稲荷大社 5,231 大阪城公園 219 代々木公園 121 8 代々木公園 5,050 東京タワー 218 新宿御苑 111 9 大通公園 4,175 東京ディズニーランド 218 東京タワー 106 10 原宿竹下通り 4,100 東京ディズニーシー 205 東京ディズニーシー 91 $ % মযঘش२ ௰ਗবযঘش२ 図3 ਗবযঘش२ ツイートを投稿したユーザ数の多いエリア は,2013 年に世界文化遺産に登録されるなど,富士山に対す 訪日外国人と在日外国人を約 9 割の精度で分類できたが,提案 る関心が世界的に高まっており,夏季,富士山五合目までの路 手法 1 の方が精度は高くなった.一方,提案手法 1 よりも,提 線バスが停車する (注 12) 河口湖駅のある,河口湖周辺を訪れる ユーザが多くなったためであると考えられる. また,在日外国人ユーザについては,図 3 の B で示された, 案手法 2 の方が高速であった.そのため,精度と速度のどちら を重視するかで,提案手法 1 と提案手法 2 を使い分ける必要が あると考えられる. 沖縄にてツイートを投稿するユーザが多かった.このエリアに また,観光情報を抽出する場合に,分析に用いるデータが含 は,米軍基地が存在するため,日本に滞在している米軍の関係 むユーザ群の属性が異なることが原因で,抽出結果に差異があ 者が原因であると考えられる. ることを確認するため,日本人ユーザ,訪日外国人ユーザ,お 5.1 節,5.2 節の実験から,日本人,訪日外国人,および在日 外国人など,分析に用いるデータの属性が異なる場合,抽出さ よび在日外国人ユーザに対して同一の手法で観光情報を抽出し, 考察を行い,その結果に差異があることが確認された. れる観光情報に差異が存在することが分かった.よって,外国 今後の課題として,大量のデータを対象にした場合の,手法 語を用いるユーザについて,訪日外国人と在日外国人の 2 つの の最適化がある.提案した 2 つの手法では,分析期間が与えら 属性に判別する本論文の提案手法は,効果的な観光情報の抽出 れた場合に,期間中に投稿されたすべてのツイートを分析して に有用であると考えられる. いる.しかし,長期間のデータを対象に分析をする場合,ユー 6. お わ り に 本論文では,ツイートの投稿時間や,付与された位置情報を ザごとに全てのツイートを分析している提案手法では,実行時 間が長くなる可能性がある.分析するツイート数が増加した場 合に,実行時間を短縮するには,一部のツイートのみを用いて, 用いることで,外国語を用いるユーザが,訪日外国人なのか, 訪日外国人ユーザと在日外国人ユーザを判別する手法を提案す 在日外国人なのかを判別する 2 種類の手法を提案した.提案手 る必要があると考えられる. 法の判別結果を評価した結果,どちらの手法を用いた場合にも, (注 12):富士急行:http://bus.fujikyu.co.jp/line/jikokuhyo/28.html 謝 辞 本研究は首都大学東京傾斜的研究費(ミニ研究環,戦略的研 究)による. 文 献 [1] S. Choi, X. Y. Lehto, A. M. Morrison, “Destination image representation on the web: Content analysis of Macau travel related websites”, Tourism Management, Vol. 28, pp. 118-129 (2007) [2] S. Stepchenkova, A. M. Morrison, “The destination image of Russia: From the online induced perspective”, Tourism Management, Vol. 27, pp. 943-956 (2006) [3] X. Peng, “A study on the tourism destination image of Japan in the Chinese market”, Working Paper Series, Vol. 2013-09 (2013) [4] A. Wenger, “Analysis of travel bloggers’ characteristics and their communication about Austria as a tourism destination”, Journal of Vacation Marketing, Vol. 14, No. 2, pp. 169-176 (2008) [5] 村上 嘉代子,川村 秀憲:外国人から見た日本旅行 –英語ブログ からの観光イメージ抽出–,人工知能学会誌,Vol. 26,No. 3, pp. 286-293 (2011) [6] 中嶋 勇人,新妻 弘崇,太田 学:位置情報付きツイートを利用した 観光ルート推薦,情報処理学会研究報告,Vol. 2013-DBS-158, No. 28,pp. 1-6 (2013) [7] 青山 賢,廣田 雅春,石川博,横山 昌平:写真に付与されたジ オタグに基づいた道草発見,第 6 回データ工学と情報マネジメ ントに関するフォーラム,E4-2 (2014) [8] Z. Cheng, J. Caverlee, K. Lee, “You Are Where You Tweet: A Content-based Approach to Geo-locating Twitter Users”, Proceedings of the 19th ACM International Conference on Information and Knowledge Management, pp. 759-768 (2010) [9] 榊 剛史,松尾 豊:ソーシャルメディアユーザの職業推定手法の提 案,日本知能情報ファジィ学会誌,Vol. 26,No. 4,pp. 773-780 (2014) [10] J. D. Burger, J. C. Henderson, “An Exploration of Observable Features Related to Blogger Age”, AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs, pp. 15-20 (2006)