Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 D8-1 マイクロブログを対象とした 100,000 人レベルでの著者推定手法の提案 奥野 峻弥†1 浅井 洋樹†1†2 山名 早人†3†4 †1 早稲田大学 基幹理工学研究科 〒169-8555 東京都新宿大久保 3-4-1 †2 早稲田大学 グローバルエデュケーションセンター 〒169-8050 東京都新宿区戸塚町 1-104 †3 早稲田大学 理工学術院 〒169-8555 東京都新宿大久保 3-4-1 †4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: {o_syunya,asai,yamana}@yama.info.waseda.ac.jp あらまし 近年,インターネットを利用した犯罪の捜査などを行うため,web 上の文章に対する著者推定手法の研 究が盛んに行われている.しかし,近年人気の web コンテンツとなっているマイクロブログへ投稿された文章に対 し著者推定技術を用いる場合,ブログなどと比べて一文が 140 字と非常に短く,話題に一貫性がないため,推定精 度が低下するという問題がある.さらに,マイクロブログの利用者は刻々と増加しているため,著者推定技術を使 用する際の候補者となる利用者は日本ユーザのみでも 1,000 万人を越えている.そのため,大規模な候補者群から 著者を推定することを前提として,より高速に計算を行うアルゴリズムが必要とされている.そこで本稿では,1) 文 章中から取得した n-gram に対し n の大きさに応じた重みをかける.2) 推定対象と類似する話題分布となる訓練デ ータの選択を行い,推定精度を保ちつつ使用する文章量を削減する.これらの手法を用いて,より文章中から著者 の特徴を抽出することにより,より精度が高く,かつ高速な著者推定手法を提案する.100,000 ユーザによる評価実 験の結果,MRR にして 0.646 で推定ができた. キーワード 著者推定, Authorship Identification, マイクロブログ, Twitter 1. は じ め に あ る Twitter に 投 稿 さ れ た メ ッ セ ー ジ を 対 象 と す る 著 近年,インターネットバンキングにおける不正送金 者 推 定 手 法 に つ い て 研 究 を 続 け て い る [8][11]. Web 上 や,遠隔操作によるインターネット掲示板上での犯罪 のテキストコンテンツを対象とした著者推定手法はこ 予告などのサイバー犯罪が増加している.これは れまでにも存在するが,マイクロブログに投稿された Twitter 1 や メッセージを対象に著者推定手法を応用するためには, Tumblr 2 を は じ め と す る マ イ ク ロ ブ ロ グ に お い て も 例 外 で は な い . 事 実 , 2011 年 か ら 2013 年 ま で 以下の 3 つの問題が存在する. の Twitter に 関 す る 犯 罪 報 告 件 数 は 677 件 か ら 1,291 件 1. 多種多様な話題に起因する精度低下 と 2 倍 近 く に 急 増 し て い る [1][2]. 2. 推定対象となる文章の短文化による特徴量 サイバー犯罪における捜査上の問題点として,イン ターネットは匿名性が高い媒体であるために,犯人の 選択の失敗 3. 膨大な候補者群による計算時間の増大 特定が難しいことが挙げられる.事実,遠隔操作を利 1 つ目は,著者推定で用いる候補者ごとの文章を, 用し,他者に成りすまして犯罪予告をインターネット 各々同一話題として収集できなくなる問題である.こ 掲示板に投稿する,という事件が発生している.しか れは,1 つの話題について大量にメッセージを書くユ し ,事 件 の 捜 査 に お い て ,IP ア ド レ ス に よ る 犯 人 の 特 ーザが少ないことに由来する.著者推定で用いる候補 定 が で き ず ,誤 認 逮 捕 が 発 生 し て い る [3].そ こ で ,今 者の文章が同一話題でなく相違話題となる時,著者推 後 は IP ア ド レ ス や 通 信 ロ グ な ど ,偽 装 さ れ う る 情 報 の 定 精 度 は 低 下 す る .こ れ は ,我 々 の 先 行 研 究 [9]で 示 さ みならず,犯人の文体をはじめとする,偽装が難 しい れている. 情報を併用して犯人を特定していく捜査が必要となる. 2 つ目は,推定対象として用いる文章が短いため, このような背景のもと,犯人特定の補助手段として, 文章から特徴量を十分に取得できないという問題であ Web 上 の テ キ ス ト コ ン テ ン ツ を 対 象 と し て , コ ン テ ン る.既存の著者推定手法においては,ブログや掲示板 ツの著者を推定する著者推定研究が増えてきている といったユーザによる一定量の書き込みを期待できる [4][5][6][7]. コ ン テ ン ツ を 対 象 に し て い る .し か し ,Twitter に 投 稿 著者らは,これまでに,代表的なマイクロブログで さ れ る メ ッ セ ー ジ は 最 大 で も 140 字 で あ り , か つ 140 字で完結する内容のメッセージがほとんどであること 1 2 Twitter, https://twitter.com/ Tumblr, https://www.tumblr.com/ に由来する. 3 つ目は,推定対象文章の著者を推定するとき,処 由 と し て , IBA に よ る 著 者 推 定 タ ス ク で 用 い る 学 習 デ 理しなくてはならない計算量が増加する問題である. ータが不均衡データであることが挙げられる.不均衡 これは,推定対象文章ごとにすべての候補者に対して データとは,正例と負例の数に極端な差がある学習デ 著者推定の処理をしなくてはならないことに由来する. ー タ を 指 す . IBA に よ る 著 者 推 定 タ ス ク で は , 学 習 デ 本 稿 で は 以 上 の 問 題 点 を 解 決 す る た め ,1) 推 定 対 象 ータ中の文章群を,特定の 1 人の候補者の文章である 文章と類似する話題を含む学習データセットの選定に 正例,それ以外の複数候補者の文章である負例の 2 つ よ る 「 相 違 話 題 に 起 因 す る 推 定 精 度 低 下 の 回 避 」, 2) に分類する.しかし,一般に負例を集めることは容易 特 徴 量 と し て 使 用 す る 文 字 n-gram の n に 比 例 し た 重 み であるが,正例を多く集めることは困難である.この 付けによる「より文体を表す特徴量取得」の 2 つの手 た め , IBA に よ る 著 者 推 定 で は ,正 例 と 負 例 の 数 に 差 法 を 用 い る . 1)の 手 法 に よ り , 推 定 の 前 段 階 に 各 ユ ー が生まれ,学習データは不均衡データとなる. ザの学習データセットを選定することで,学習データ 不均衡データに対処するため,正例の数に合わせて セットと推定対象文章に含まれる話題が一致する可能 負例の数を減らす,負例の数に合わせて正例の数を多 性を上昇させ,推定精度を向上する.同時に,推定の くするといった対策が考えられる.しかし,前者の方 際に用いるデータセット数を減らすことで,計算量を 法では学習が十分にできない問題が生じる.一方,後 削 減 で き る . ま た , 2)の 手 法 を 用 い る こ と で , 1 文 が 者の方法を講じることも難しい.これは,候補者ごと 短いマイクロブログのメッセージから,より多くの特 に集められる文章は数万文字の大量文章でなくてはな 徴量を取得しつつ,より著者の文体を表す特徴量を抽 らないが,マイクロブログを対象とした大規模候補者 出することが可能となる. 群においてこのような文章を1人の候補者に対し多く 本稿では以下の構成をとる.まず 2 節では,著者推 集めることは困難であるためである. そこで,本研究 定研究で取り扱われてきた著者推定タスクについて述 に お い て は PBA に よ る 著 者 推 定 タ ス ク に 基 づ く ア プ べる.次の 3 節では,既存の著者推定手法について述 ローチを行う. べる.続く 4 節では,本稿で提案する著者推定手法に 2.2. PBA に よ る 著 者 推 定 タ ス ク ついて述べる.そして,5 節にて既存手法と提案手法 PBA に よ る 著 者 推 定 タ ス ク で は ,事 前 に 用 意 さ れ て とに対する評価実験の方法と結果について述べる.最 い る 候 補 者 の 文 章 群 と ,推 定 対 象 文 章 を 順 に 比 較 す る . 後に 6 節で本稿をまとめる. 比較された候補者群の中から,推定対象文章の著者と 文体が最も類似する候補者を得ることで,各著者推定 2. 関 連 研 究 手 法 は 著 者 推 定 を 行 う .PBA に 分 類 さ れ る 著 者 推 定 タ 一般に著者推定手法は,機械学習を用いて著者推定 ス ク は , Regal ら [6]や , 我 々 の 既 存 研 究 [8]に て 取 り 扱 を 行 う Instance-Based Approach(IBA) と ,類 似 度 計 算 を っ て い る .一 般 的 な PBA に よ る 著 者 推 定 タ ス ク の 流 れ 用 い て 著 者 推 定 を 行 う Profiled-Based Approach(PBA) は以下の手順になる. の 2 つに分類される.以下では上記2つの観点から著 2.2.1. PBA に よ る 著 者 推 定 タ ス ク の 流 れ 者推定タスクを説明する. 手 順 1) 学 習 デ ー タ と テ ス ト デ ー タ の 収 集 2.1. IBA に よ る 著 者 推 定 タ ス ク 学習データとは,著者が既知である文章群のことを IBA に よ る 著 者 推 定 タ ス ク で は , 機 械 学 習 に よ り 各 指す.テストデータとは複数の推定対象文章を指す. 候補者の文章群を学習し,推定対象文章を各候補者の ただし,著者推定タスクでは,推定したテストデータ いずれかに分類する.推定対象文章の分類先となる候 中の文章の著者と実際の著者が同じであることを確か 補 者 を 得 る こ と で ,各 著 者 推 定 手 法 は 著 者 推 定 を 行 う . めるため,テストデータ中の文章の著者が既知である IBA に 分 類 さ れ る 著 者 推 定 タ ス ク は , ブ ロ グ ユ ー ザ に も の を 用 い る .ま た ,テ ス ト デ ー タ 中 の 文 章 の 著 者 は , 対 し て は Narayana ら [4]が 100,000 人 に 対 し て の 著 者 推 学習データにおけるいずれかの文章の著者と同一であ 定 タ ス ク を P@1 に し て 約 20%で の 推 定 を 行 っ て い る . るとする.このような条件の下,著者推定の候補者群 ま た Schwartz ら [5]が 50 人 の Twitter ユ ー ザ に 対 し て となる著者を決定した後,候補者ごとに学習データと の 著 者 推 定 タ ス ク を ,P@1 に し て 70%超 の 推 定 精 度 で テストデータの 2 種類の文章を取集する. 行 っ て い る . 他 に も Silva ら [7]が , Twitter ユ ー ザ 3 人 手 順 2) 各 文 章 の 文 体 定 量 化 に 対 し て の 著 者 推 定 タ ス ク を ,F 値 に し て 0.54 の 推 定 手順 1 で収集された学習データ及びテストデータ中 精度で取り扱っている.しかし,これらの研究におい のすべての文章に対して文体定量化を行う.文章の文 て,我々の知る限りでは推定精度が十分なものは存在 体定量化とは,その文章の著者が持つ文体を,当該文 しない. 章を用いて数値ベクトルに定量化することである.文 IBA に よ る 著 者 推 定 タ ス ク の 精 度 が 不 十 分 に な る 理 体の定量化方法は,各著者推定手法によって異なる. 𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, 𝑞) 手 順 3) 各 文 章 間 の 文 体 相 違 度 計 算 2 テストデータ中の文章ごとに,学習データ中の各文 章との間の文体相違度をすべて計算する.2 つの文章 間の文体相違度とは,各文章の著者の文体がどれほど 異なるかを定量化したものである.2 つの文章間の文 体相違度は,手順 2 で得られる定量化された文体を用 いて算出される.文体相違度をどのように算出するか は,各著者推定手法によって異なる. 手 順 4) 文 体 類 似 度 順 位 の 算 出 テストデータ中の文章ごとに文体類似度順位を算 出する.文体類似度順位とは,文体相違度の低い順に 候補者群を並び替えたとき,推定対象文章の著者が何 = √∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅ 𝑓𝑝𝑞 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 − ̅̅̅̅ 𝑓𝑞𝑝 ) 2 (1) ∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅ 𝑓𝑝𝑞 )(𝑓𝑞𝑖 − ̅̅̅̅ 𝑓𝑞𝑝 ) ∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖 ̅̅̅̅ 𝑓𝑝𝑞 = (2) |𝐶𝑝𝑞 | ′ 0.4 (𝑓𝑝𝑖 > 0.4) (3) 𝑓𝑝𝑖 = { ′ 𝑓𝑝𝑖 (𝑓𝑝𝑖′ ≤ 0.4) 𝑑𝑝𝑖 𝑓𝑝𝑖′ = (4) 𝑎𝑝 文 体 相 違 度 Dissimpos は , そ の 値 が 小 さ い ほ ど 2 つ の 文 章 p, q の 文 体 が 似 て い る こ と を 表 す . さ ら に , 我 々 は 浅 井 ら [10]が 提 案 し た , マ イ ク ロ ブ 位に順位付けされたかを表す. ログ上で投稿される突発的な感情を表わす「叫喚フレ 手 順 5) 著 者 推 定 手 法 の 評 価 ーズ」と呼ばれる表現に着目し,それらの表現を除去 手順 4 で得られたテストデータ中の各文章に対する することによる推定精度向上を試みた. 文体類似度順位に基づいて,手順 2 及び手順 3 で用い 叫喚フレーズは以下のように定義される . た著者推定手法の評価を行う.得られた文体類似度順 語尾の母音が 3 回以上繰り返して付加される 位からどのように著者推定手法を評価するかは,著者 母音は大文字,小文字を区別しない 推定手法評価方法によって異なる. 母音はひらがな,カタカナの大小文字すべて 2.2.2. PBA に よ る 従 来 の 著 者 推 定 手 法 この定義から,我々は以下の正規表現に基づいて, 我 々 は 以 前 ,マ イ ク ロ ブ ロ グ の 文 章 を 用 い た 10,000 叫喚フレーズの含まれるメッセージの正規化を行った. 人 レ ベ ル の 候 補 者 群 に 対 す る 著 者 推 定 手 法 [8] を 提 案 [あ |ぁ |ア |ァ ]{3,}|[い |ぃ |イ |ィ ]{3,}|[う |ぅ した.その際の文体定量化手法として,井上らが提案 | ウ | ゥ ]{3,}|[ え | ぇ | エ | ェ ]{3,}|[ お | ぉ | オ | し た ,品 詞 タ グ・文 字 混 合 n-gram 頻 度 分 布 を 用 い て い ォ ]{3,} る .こ こ で ,品 詞 タ グ・文 字 混 合 n-gram と は ,文 章 を 具体的には,以下の手順のようになる. 文字または品詞タグの羅列に変換したときに,当該羅 1. た正規表現を用いて抽出する. 列中に存在する n 個の連続した要素順列を指す. 例) うわあぁあどうしようぅうぅう 我々の手法で用いる文章中の文体定量化は,文章 p 中 に お け る 品 詞 タ グ・文 字 混 合 n-gram x の 生 起 回 数 dpx 2. 繰り返される母音を大文字化する. 3. すべての繰り返される母音部分に対して,母音 例) うわあああどうしよううううう の 集 合 Dp を 得 る こ と で 行 う . 文 章 を 文 字 ま た は 品 詞 タ グの羅列に変換するために以下の手順をとる.まず, 形 態 素 解 析 器 を 用 い て 文 章 を 形 態 素 に 分 割 す る .な お , 形 態 素 解 析 器 は lucene-gosen 3 を 用 い て い る .次 に , 「動 叫喚フレーズの含まれる文章を,本項で説明し 一文字とそれ以前の文字列を削除する. 例) うわあどうしよう 詞 」「 接 続 詞 」「 記 号 」「 副 詞 」「 形 容 詞 」「 感 動 詞 」「 未 さらに,我々はマイクロブログユーザが主とする話 知 語 」の 形 態 素 に つ い て は ,文 字 列 を そ の ま ま 採 用 し , 題が時間経過によって変化した場合も精度よく著者推 これら 6 種類の品詞以外について品詞タグを用いる. 定 を 行 う た め の 手 法 を 提 案 し た [11]. 具 体 的 に は , 時 井上らが提案する著者推定タスクにおける文体相 間経過によって文体が変化することを考慮し ,各ユー 違 度 計 算 で は , 文 章 p お よ び q に つ い て の Dp , Dq だ け ザの学習データセットについて,投稿期間を変え たも で は な く , 𝐶𝑝𝑞 お よ び 𝑎𝑝 を 用 い る . Cpq は , 文 章 p と 文 のを 3 個用意し,テストデータセットとの間で各々文 章 q の各々に存在するすべての品詞タグ・文字混合 体相違度の算出をする.そして,テストデータセット n-gram の 和 集 合 で あ る . ap は , 文 章 p を 構 成 す る 記 事 と最も文体が似ている学習データセットとの文体相違 の数である.記事とは,マイクロブログにおける 1 件 度( 最 も 小 さ い 文 体 相 違 度 )を 用 い て 著 者 推 定 を 行 う . のメッセージのように,一度に投稿する文のまとまり 具 体 的 に は 図 1 の よ う に な る . こ こ で , t last は テ ス ト を 指 す . 井 上 ら は 𝐶𝑝𝑞 , 𝐷𝑝 お よ び 𝐷𝑝 を 用 い る こ と で , 2 データセットを作成する際に用いたツイートのうち, つ の 文 章 p, q に お け る 文 体 相 違 度 Dissimpos を 以 下 の よ 投稿時間が最も古いものを指す. うに定義している. 3 lucene-gosen, https://code.google.com/p/lucene-gosen/ そ こ で ,n の 数 に 応 じ て 各 n-gram に 重 み 付 け を 行 う こ とで,よりデータセット内に含まれる,著者の文体を 表 す n-gram を 強 く す る . 2.4. 評価手法 多 く の 著 者 推 定 手 法 の 評 価 は ,2.2.1 で 述 べ た 著 者 推 定タスクの手順 5 において,テストデータ中の文章群 図 1 従 来 手 法 [8]で の 学 習 デ ー タ セ ッ ト 作 成 の中で文体類似度順位が 1 位となる文章の割合である, p 仮 に 推 定 対 象 ユ ー ザ p の テ ス ト デ ー タ Ttest に 対 し , ui ui ui ユ ー ザ ui の 学 習 デ ー タ セ ッ ト Ttrain,1 ,Ttrain,2 お よ び Ttrain,3 PRECISION@1 を 指 標 と し て 評 価 を 行 っ て き た . こ れ を 作 成 し た 場 合 , 算 出 さ れ る 文 体 相 違 度 DissimTop は 以 とき,著者推定タスクの手順 4 で並び替えられる候補 下 の 式 (5)の よ う に な る . ui DissimTop = max(𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1 ), ui 𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1 ), ui 𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1 )) 者群において 1 位となる候補者を推定対象文章の著者 2.3. は,テストデータ中の各文章に対して著者推定を行う であると推定するためである. (5) 既存手法からの発展 井 上 ら [9] は 大 規 模 候 補 者 群 に 対 す る 著 者 推 定 手 法 評価方法として,文体類似度順位の累積相対度数分布 を 定 量 的 に 評 価 す る MRR 及 び , 正 解 が 上 位 k 件 以 内 2.2.2 で 説 明 し た ,我 々 が こ れ ま で に 発 表 し た マ イ ク に入っていれば 1 と,そうでなければ 0 としてその平 ロブログのデータを用いた大規模候補者群に対する著 均 を と る mean top-k call を 評 価 方 法 と し て 用 い た . 具 者 推 定 [8]で は ,推 定 に 用 い る メ ッ セ ー ジ の 投 稿 時 間 に 体 的 に は ,MRR に つ い て は 式 (6)に よ っ て 算 出 さ れ る . ついての選択基準を十分に考察 してこなかった.つま こ こ で ,Q は テ ス ト デ ー タ 中 の 文 章 の 著 者 の 集 合 ,𝑁𝑞 は り,各ユーザについて作成する学習データセットに用 い る メ ッ セ ー ジ の 選 択 の 際 , t last の 直 後 か ら k 個 の 出力される候補者群順列中における候補者の順位であ る. tweet, t last の 一 週 間 前 か ら k 個 の tweet, t last の 一 ヶ 月 M𝑅𝑅 = 前 か ら k 個 の tweet を 用 い る と い っ た よ う に , 画 一 的 1 1 ∑ |𝑄| 𝑁𝑞 (6) 𝑞 ∈𝑄 なツイート選択手法を取っていた.そのため ,従来手 井 上 ら が MRR 及 び mean top-k call に よ る 評 価 方 法 法のままでは各学習データセットで主とする話題が全 を用いたのは,著者推定タスクにおける候補者群の並 て統一されてしまう可能性が存在する. つまり,推定 び替えにおいて,実際の著者が 1 位に順位付けされて 対象文章と学習データセットが相違話題となる可能性 いるかだけでなく,上位に順位付けされているかを評 が高くなり,推定精度の低下が懸念される.そこで, 価するためである.これは,誤った推定をしない著者 本 稿 で は k-means 法 を 用 い て よ り 話 題 分 布 を 考 慮 し た 推定手法が存在しない以上,推定結果を実用するため 学習データセット作成を行うことで,推定対象文章と には複数の候補から人手によって選択することが要求 同一話題となる学習データセットの作成を行えるよう されるためである.特に,推定精度低下が顕著となる にする. 大規模候補者群に対する著者推定では,人手による確 ま た ,従 来 手 法 [8]で は 文 章 を 特 徴 量 に 変 換 す る 際 に 認が要求される.人手による推定を行う際は,複数の 品 詞 タ グ ・ 文 字 混 合 2-gram を 用 い て き た . し か し , 推定結果から著者を精査することで,正しい著者推定 精度向上の観点から,特徴量は多く取得できる方が良 を行うことができる.しかし,そのためには 2 位以降 い .そ も そ も ,従 来 手 法 [9]で は 相 違 話 題 で あ る デ ー タ の 上 位 に 正 解 が 含 ま れ て い な け れ ば な ら な い .よ っ て , セット間での計算を行うため,品詞タグ・文字混合 大 規 模 候 補 者 群 に 対 す る 著 者 推 定 の 評 価 に は ,MRR に 2-gram を 用 い て き た .し か し ,本 研 究 で は 推 定 対 象 文 よる評価方法が適しているといえる. 章と同一話題となる学習データセットの作成を目指す ため,推定対象文章と学習データセット間で話題が異 なることによる精度低下については気にしなくても良 3. 提 案 手 法 3.1. 概 要 いと考えられる.そこで,メッセージからより多くの 推定対象文章が含む話題に類似した話題分布を持 特徴量を取得することで,より精度を高めるため,文 つ学習データセットを適切に作成することで,より推 字 1-gram, 2-gram, 3-gram の 併 用 を 行 う . 定精度を向上する手法について述べる. ま た ,各 文 字 n-gram に つ い て ,n の 数 が 大 き く な る 具体的には,候補者となるユーザの投稿したツイー ほ ど メ ッ セ ー ジ 中 で の 出 現 頻 度 は 小 さ く な る .し か し , ト全てを用いて k 個の学習データセットを作成し, 我々は n の数が大きくなるほど,それぞれの文字 k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行 う こ と で , 含 n-gram は よ り 著 者 の 文 体 を 表 す も の と な る と 考 え た . 有する特徴量分布の異なるデータセットを選択する. また学習データセット作成の際,メッセージから取得 者推定を行う.これにより,各ユーザの持つ学習デー す る n-gram の n に 応 じ た 重 み 付 け を 行 う こ と に よ り , タセット全てが互いに異なる話題分布をもち,推定対 より著者の文体を表す特徴量を取得する. 象文章に含まれる話題と類似する学習データセットを 作成した学習データセットとテストデータセット の 間 で 文 体 相 違 度 DissimTop を 計 算 す る こ と に よ り , 著 作成できる可能性が高くなるため,精度向上が実現で きると考えられる. 図 2 提案手法の概要図 図 3 文体定量化手法のイメージ図 メッセージからの特徴量取得 3.2. メッセージから特徴量を取得する際の手順につい ては以下の通りである. step 1. ユ ー ザ un が 投 稿 し た メ ッ セ ー ジ t に 対 し , 2.2.2 で 述 べ た 叫 喚 フ レ ー ズ の 正 規 化 を 行 う . step 2. メ ッ セ ー ジ t か ら 文 字 1-gram,2-gram,3-gram を 取 得 し , ⃗⃗⃗⃗⃗⃗ xu n を 作 成 す る . step 3. xu n に 含 ま れ る 各 要 素 に 対 し , n-gram の n に ⃗⃗⃗⃗⃗⃗ 応 じ て 3n 倍 を 行 う . step 4. 2.2.2 の 式 (3)お よ び 式 (4)に 基 づ き . 各 特 徴 量 の正規化を行う. 3.3. 学習データとテストデータの作成 学習データ及びテストデータを作成する手順は以 下 に 示 す 通 り で あ る .収 集 し た 全 て の メ ッ セ ー ジ を 𝐷𝑎𝑙𝑙 step 2. 𝐷𝑎𝑙𝑙 か ら ,ラ ン ダ ム に 1 つ の ユ ー ザ ID 𝑢𝑖 を 抽 出 し , step3 か ら step 10 を 適 用 し た 後 , ユ ー ザ ID 集 合 で あ る UID に 追 加 す る .こ れ を | UID| =n に なるまで繰り返す. step 3. 𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ を , 投 稿 時 刻 を 用 い て降順に並び替える. step 4. 𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ の う ち , 図 1 に 示 す ように投稿時刻が最新のものから k 件を選択し, u i Ttest と す る .な お ,k 件 選 択 で き な い 場 合 は ,step2 に戻る. step 5. step 4 で 選 択 し た メ ッ セ ー ジ の う ち , 最 も 投 稿 時 刻 が 古 い メ ッ セ ー ジ が 投 稿 さ れ た 時 刻 を t last とおく. step 6. 𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ の う ち ,t last と 比 較 し u とする.また,各ユーザについてのテストデータ及び i 投 稿 時 刻 が 古 い も の か ら 順 に k 件 を 選 択 し ,Ttrain,1 学習データセットを作成する際に用いるメッセージ数 i と す る .Ttrain,1 に 含 ま れ る メ ッ セ ー ジ の う ち ,最 も を k とする.さらに,ここでは n 名に対する著者推定 投稿時刻が古いメッセージが投稿された時刻を タスクを行うものとする. t last に す る . step 1. ユ ー ザ ID 集 合 を UID と し , UID=∅と す る . u step 7. step 6 に つ い て , メ ッ セ ー ジ を k 件 選 択 で き なくなるまで繰り返す. u i 𝑢𝑖 に つ い て 作 成 し た メ ッ セ ー ジ 集 合 Ttrain,1 step 8. u u u i i i か ら Ttrain,e に つ い て , e<6 で あ れ ば Ttrain,1 か ら Ttrain,e u i ま で の 全 て , お よ び Ttest を廃棄する. 評価実験では,既存手法としては我々がこれまでに 用 い て き た 著 者 推 定 手 法 [8]を 用 い ,提 案 手 法 と の 比 較 ui ui ui Ttest , お よ び Ttrain,1 か ら Ttrain,e の各データセッ step 9. 評価実験 4. トごとに,データセット内に含まれる全てのメッ セ ー ジ に つ い て 3.2 で 示 し た 手 順 を 適 用 し 特 徴 量 とする.このときの流れを図 4 に示す. を行う. 4.1. 実験環境 Twitter か ら 収 集 し た tweet を デ ー タ セ ッ ト と し て 用 いた.データセットの概要は以下の通りである. ui ui の 場 合 , Ttrain,4 か ら Ttrain,e の各データセッ デ ー タ 収 集 期 間 : 2013 年 1 月 ~ 12 月 ト に 対 し ,k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行 総 収 集 tweet 数 : 7,955,714 名 ×最 大 2,000 件 step 10. e>6 う .こ の と き ,k-means 法 に よ り 分 割 す る ク ラ ス タ 本実験で使用するデータセットに含まれるすべて 数は使用する学習データセット数の半数である 3 のメッセージには,そのメッセージを投稿したユーザ とする.また各データセット間の距離計算につい に 固 有 の 情 報 で あ る「 ユ ー ザ ID」が 付 随 す る .こ こ で , て は コ サ イ ン 類 似 度 を 用 い て , 式 (7)の よ う に 行 う . Twitter を 代 表 と す る マ イ ク ロ ブ ロ グ に お い て は ,引 用 ui ui 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(Ttrain,a , Ttrain,b ) =1− ui ui 𝐶𝑜𝑠(Ttrain,a , Ttrain,b ) (7) こ こ で ,step 10 で 設 定 し た ク ラ ス タ 数 は ,経 験 的 に やアプリによる投稿など,アカウントを所持するユー ザ以外によるメッセージの投稿が頻繁に行われる. 設定したものである. 我々の手法では,メッセージを記述した人物の文体を ui 以 上 に よ り 生 成 さ れ る Ttest は , ユ ー ザ ID 𝑢𝑖 を 持 つ ユ ui ui ー ザ に つ い て の テ ス ト デ ー タ と な り ,Ttrain,1 , Ttrain,2 及び ui Ttrain,3 は そ れ ぞ れ ユ ー ザ ID 𝑢𝑖 を 持 つ ユ ー ザ に つ い て の 特徴量として用いるため,当該ユーザ以外によって投 学習データとなる.つまり,各ユーザは k 件のメッセ メ ン シ ョ ン ( @username ), ハ ッ シ ュ タ グ (#hashtag) , ー ジ か ら 文 字 n-gram を 取 得 し た デ ー タ セ ッ ト で あ る 他 人 の 文 章 で あ る リ ツ イ ー ト (RT)を デ ー タ セ ッ ト か ら ui Ttest を 稿 さ れ た メ ッ セ ー ジ は 全 て 除 く 必 要 が あ る .そ の た め , 前処理としてデータセット内のメッセージに含まれる 1 つ と , k 件 の メ ッ セ ー ジ か ら 文 字 n-gram を 取 除 去 し た . ま た ,各 メ ッ セ ー ジ に つ い て ,メ ッ セ ー ジ 得したデータセットのうち,投稿時刻がテストデータ に付随するクライアントアプリについての情報から, セットに最も近いメッセージから構成されたデータセ bot に よ る 投 稿 な ど , ユ ー ザ 以 外 の 文 章 で あ る と 判 断 u u u i i i ッ ト Ttrain,1 , Ttrain,2 ,Ttrain,3 お よ び k-means 法 に よ り 選 択 さ れた 3 つのデータセットからなる 6 つの学習データセ したものについては除外を行った. ま た ,評 価 実 験 で は 形 態 素 解 析 器 と し て lucene-gosen 4 を 利 用 す る . 辞 書 に つ い て は , IPAdic の ラ イ セ ン ス 問 題 を 解 決 し た NAIST-Japanese Dictionary 5 を 形 態 素 解 析 ットの組を 1 つ持つこととなる. に 用 い る 基 本 の 辞 書 と す る . NAIST-Japanese Dictionary は IPA 品 詞 体 系 に 基 づ く 辞 書 で あ る た め , 本 実 験 で の 品 詞 体 系 は IPA 品 詞 体 系 に 依 存 し た も の と なる. 4.2. 評価実験全体の流れ 3.3 で 作 成 し た 学 習 デ ー タ と テ ス ト デ ー タ の 組 に つ いて,著者推定タスクにおける手順 2 と手順 3 の方法 で文体相違度を算出する.文体相違度算出には,項で 図 4 メッセージからの特徴量取得 3.4. 文体相違度の決定手法 説明した手法を用いる.次に,テストデータ中のすべ 文 体 相 違 度 の 計 算 は ,こ れ ま で の 我 々 の 手 法 [8]と ほ u i ぼ 同 様 に 以 下 の 方 法 に よ り 行 う .す な わ ち ,Ttrain,1 から ての文章に対して,著者推定タスクにおける手順 4 よ り , 3.4 で 示 し た 手 順 を 用 い て 文 体 類 似 度 順 位 を 算 出 ui ui Ttrain,6 に 対 し ,テ ス ト デ ー タ セ ッ ト Ttest に対する文体相 し , MRR を 算 出 す る . 違度を計算する.各学習データセットから得られた文 4.3. 予備実験 体 相 違 度 の う ち , 最 も 数 値 が 小 さ な も の を Dissimtop と 本 研 究 は , 100,000 ユ ー ザ レ ベ ル で の 大 規 模 著 者 推 す る . た だ し , 2.2.2 項 の 式 (1)の み , コ サ イ ン 類 似 度 定手法の提案ということになっているが, 各種パラメ を 用 い た 以 下 の 式 (8)に 置 き 換 え て 計 算 を 行 う . ータ決定,及び,提案手法の有効性確認のため,候補 2 𝐷𝑖𝑠𝑠𝑖𝑚𝑐𝑜𝑠 (𝑝, 𝑞) = √∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 ) ∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖 ∙ 𝑓𝑞𝑖 2 (8) 4 IPADic legacy, http://sourceforge.jp/projects/ipadic/ NAIST-Japanese Dictionary, http://sourceforge.jp/projects/naist -jdic/ 5 者 数 n=1,000,お よ び k=30 と し て ,予 備 実 験 を 行 っ た . 用いて学習データセットの選択を行う比較手法 b より な お , 評 価 手 法 に は MRR を 用 い た . 提 案 手 法 が 高 い MRR を 持 っ て い る .こ れ に つ い て は , 4.3.1. 学 習 デ ー タ セ ッ ト 数 の 決 定 提案手法では推定対象文章から投稿時刻が近い学習デ 本節では,1 ユーザごとに作成する学習データセッ ー タ セ ッ ト を 用 い て い る た め ,従 来 研 究 [8]で 調 査 を 行 ト数についての前実験を行う.具体的には,1 ユーザ った,時刻経過によるユーザの文体の変化にも対応が あ た り の 学 習 デ ー タ セ ッ ト 数 を 1 個 か ら 63 個 ま で 変 化 できるものと考えられる. させ,それぞれの精度についての比較を行う.結果と 4.3.3. n に 応 じ た 重 み 付 け に つ い て の 前 実 験 しては,図 5 のようになった. 次 に ,文 字 n-gram 取 得 の 際 に n に 応 じ た 重 み 付 け を 行 う 提 案 手 法 の 評 価 実 験 を 行 う .結 果 ,表 2 の よ う に な っ た . こ こ で , 従 来 手 法 a は 文 字 {1,2,3}-gram を 用 い て ,か つ n に 応 じ た 重 み 付 け を 行 わ な い 手 法 を 示 す . ま た , 従 来 手 法 b は 品 詞 タ グ ・ 文 字 混 合 {1,2,3}-gram を 用 い る 既 存 手 法 [8]を 示 す . そ れ 以 外 に つ い て は 3.3 項で説明した手順に順ずるものとする. 表 2 n に応じた重み付け 図 5 データセット数による精度変化 MRR 提案手法 0.849 図 5 か ら わ か る よ う に ,学 習 デ ー タ セ ッ ト 数 が 6 付 従来手法 a 0.773 近 で MRR が 収 束 し て お り ,17 個 前 後 を ピ ー ク に MRR 従来手法 b 0.825 が低下していることがわかる.そこで,提案手法では 学習データセット数を 6 個とすることにした. 表 2 から,提案手法は従来手法 a および従来手法 b と 比 べ ,高 い MRR を 示 し て い る .こ れ は ,2.3 項 で 述 4.3.2. 話 題 分 布 を 考 慮 し た 学 習 デ ー タ セ ッ ト 生成の有効性確認 べ た よ う に ,提 案 手 法 に よ り 著 者 の 文 体 を 表 す n-gram を強調することができているためである. k-means 法 を 用 い た 「 話 題 分 布 を 考 慮 し た 学 習 デ ー タセット生成手法」の有効性について確認する. ここ 4.4. 評価実験 で ,比 較 手 法 a,b に つ い て は ,学 習 デ ー タ セ ッ ト の 作 本 節 で は , 提 案 手 法 を 用 い て 100,000 人 レ ベ ル の 著 成 時 に 3.3 項 で 示 し た step 10 を ,そ れ ぞ れ 以 下 の よ う 者推定を行った際の結果を示す. 本実験においては, に置き換えた際の結果である. テ ス ト デ ー タ と し て 1,000 ユ ー ザ を 候 補 者 中 か ら ラ ン step 10-a. u u i i e>6 の 場 合 , Ttrain,1 か ら Ttrain,6 の 6 個のデー タ セ ッ ト を 選 択 し , ui の 学 習 デ ー タ セ ッ ト と す る . step 10-b. u u i i e>6 の 場 合 , Ttrain,1 か ら Ttrain,e の各データセ ダムに選出し,推定を行うこととする. 当該実験を 5 回 行 っ た 結 果 と し て ,MRR は 平 均 0.646,P@1 は 平 均 0.596 と な っ た . そ の 他 の 結 果 を 表 3 に 記 す . ッ ト に 対 し ,k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行 表 3 う .こ の と き ,k-means 法 に よ り 分 割 す る ク ラ ス タ 数 は 6 とし,また各データセット間の距離計算につい て は コ サ イ ン 類 似 度 を 用 い て , 式 (7)の よ う に 行 う . 表 1 k-means 法 に つ い て の 評 価 実験回数 MRR 提案手法 0.867 比較手法 a 0.864 比較手法 b 0.827 1 2 3 4 5 Average 5. 100,000 ユ ー ザ に よ る 推 定 実 験 MRR 0.668 0.622 0.637 0.644 0.657 0.646 P@1 0.623 0.573 0.585 0.593 0.608 0.596 P@10 0.752 0.719 0.728 0.733 0.746 0.736 P@100 0.856 0.859 0.858 0.866 0.846 0.857 おわりに 表 1 の 結 果 か ら , k-means 法 を 用 い て 学 習 デ ー タ セ 本稿では,マイクロブログデータに対する著者推定 ットの選択を行う提案手法は,推定対象文章と投稿時 手法について,推定に使用するメッセージの投稿時間 刻のより近い学習データセットのみを選択する 比較手 を考慮した手法の提案を行った.本稿で提案した著者 法 a よ り , 高 い MRR を 持 っ て い る . そ の た め , 推 定 推定手法を用いることで,マイクロブログのデータを 対象文章に近い話題をもつデータセットの選択が でき 用いた大規模候補者群に対する著者推定において,よ て い る こ と が わ か っ た . ま た , た だ 単 に k-means 法 を り高精度の推定が行えることがわかった. 参 考 文 献 [1] mail online, http://www.dailymail.co.uk/news/article-2579345/Tw itter-crimes-double-three-years-police-forces-reportsharp-rise-social-media-crimes.html, accessed 2014-12-09 [2] CNET Japan, http://japan.cnet.com/news/society/35014782/ , accessed 2014-12-09. [3] 時 事 ド ッ ト コ ム , http://www.jiji.com/jc/graphics?p=ve_soc_network2 0121021j-02-w550pcvirus, accessed 2014-12-30 [4] Narayanan A., Paskpv, H., et al. "On the Feasibility of Internet-Scale Author Identification." Proc. of IEEE Symp. on Security & Privacy, pp.300 -314, 2012. [5] R. Schwartz, O. Tsur, A. Rappoport and M. Koppel: ”Authorship Attribution of Micro-Messages”, EMNLP-13, pp. 1880-1891, 2013. [6] Ragel, R., Herath, P., and Senanayake, U. "Authorship Detection of SMS Messages Using Unigrams." Proc. of IEEE Industrial and Information Systems, pp.387-392, 2013. [7] Silva, R. S., Laboreiro, G., et al. "‘twazn me!!!;(’ Automatic Authorship Analysis of Micro -blogging Messages." Natural Language Processing and Information Systems, LNCS, vol.6716, pp.161 -168, 2011. [8] 奥 野 峻 弥 , 浅 井 洋 樹 , 山 名 早 人 ”マ イ ク ロ ブ ロ グ を 対 象 と し た 著 者 推 定 手 法 の 提 案 - 10 , 000 人 レ ベ ル で の 著 者 推 定 - ”, 情 処 研 報 (DBS-159-12), Vol.2014, pp.1-6, 2014. [9] 井 上 雅 翔 , 山 名 早 人 : “品 詞 n-gram を 用 い た 著 者 推 定 手 法 : 話 題 に 対 す る 頑 健 性 の 評 価 ”, 日 本 デ ー タ ベ ー ス 学 会 論 文 誌 , Vol.10, No.3, pp.7-12, 2012. [10] 浅 井 洋 樹 , 秋 岡 明 香 , 山 名 早 人 : “き た あ あ あ あ あ あ あ あ あ あ あ あ あ あ あ あ ! ! ! ! ! 1 1:マ イ ク ロ ブ ロ グ を 用 い た 教 師 な し 叫 喚 フ レ ー ズ 抽 出 ”, DEIM2013, A4-1, 2013. [11] Syunya Okuno, Hiroki Asai, Hayato Yamana: ”A Challenge of Authorship Identification for Ten-thousand-scale Microblog Users”, IEEE BigData 2014, 2014.