...

電子情報通信学会ワードテンプレート (タイトル)

by user

on
Category: Documents
2

views

Report

Comments

Transcript

電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 D8-1
マイクロブログを対象とした
100,000 人レベルでの著者推定手法の提案
奥野 峻弥†1
浅井 洋樹†1†2
山名 早人†3†4
†1 早稲田大学 基幹理工学研究科 〒169-8555 東京都新宿大久保 3-4-1
†2 早稲田大学 グローバルエデュケーションセンター 〒169-8050 東京都新宿区戸塚町 1-104
†3 早稲田大学 理工学術院 〒169-8555 東京都新宿大久保 3-4-1
†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: {o_syunya,asai,yamana}@yama.info.waseda.ac.jp
あらまし 近年,インターネットを利用した犯罪の捜査などを行うため,web 上の文章に対する著者推定手法の研
究が盛んに行われている.しかし,近年人気の web コンテンツとなっているマイクロブログへ投稿された文章に対
し著者推定技術を用いる場合,ブログなどと比べて一文が 140 字と非常に短く,話題に一貫性がないため,推定精
度が低下するという問題がある.さらに,マイクロブログの利用者は刻々と増加しているため,著者推定技術を使
用する際の候補者となる利用者は日本ユーザのみでも 1,000 万人を越えている.そのため,大規模な候補者群から
著者を推定することを前提として,より高速に計算を行うアルゴリズムが必要とされている.そこで本稿では,1) 文
章中から取得した n-gram に対し n の大きさに応じた重みをかける.2) 推定対象と類似する話題分布となる訓練デ
ータの選択を行い,推定精度を保ちつつ使用する文章量を削減する.これらの手法を用いて,より文章中から著者
の特徴を抽出することにより,より精度が高く,かつ高速な著者推定手法を提案する.100,000 ユーザによる評価実
験の結果,MRR にして 0.646 で推定ができた.
キーワード 著者推定, Authorship Identification, マイクロブログ, Twitter
1. は じ め に
あ る Twitter に 投 稿 さ れ た メ ッ セ ー ジ を 対 象 と す る 著
近年,インターネットバンキングにおける不正送金
者 推 定 手 法 に つ い て 研 究 を 続 け て い る [8][11]. Web 上
や,遠隔操作によるインターネット掲示板上での犯罪
のテキストコンテンツを対象とした著者推定手法はこ
予告などのサイバー犯罪が増加している.これは
れまでにも存在するが,マイクロブログに投稿された
Twitter 1 や
メッセージを対象に著者推定手法を応用するためには,
Tumblr 2 を は じ め と す る マ イ ク ロ ブ ロ グ に お
い て も 例 外 で は な い . 事 実 , 2011 年 か ら 2013 年 ま で
以下の 3 つの問題が存在する.
の Twitter に 関 す る 犯 罪 報 告 件 数 は 677 件 か ら 1,291 件
1.
多種多様な話題に起因する精度低下
と 2 倍 近 く に 急 増 し て い る [1][2].
2.
推定対象となる文章の短文化による特徴量
サイバー犯罪における捜査上の問題点として,イン
ターネットは匿名性が高い媒体であるために,犯人の
選択の失敗
3.
膨大な候補者群による計算時間の増大
特定が難しいことが挙げられる.事実,遠隔操作を利
1 つ目は,著者推定で用いる候補者ごとの文章を,
用し,他者に成りすまして犯罪予告をインターネット
各々同一話題として収集できなくなる問題である.こ
掲示板に投稿する,という事件が発生している.しか
れは,1 つの話題について大量にメッセージを書くユ
し ,事 件 の 捜 査 に お い て ,IP ア ド レ ス に よ る 犯 人 の 特
ーザが少ないことに由来する.著者推定で用いる候補
定 が で き ず ,誤 認 逮 捕 が 発 生 し て い る [3].そ こ で ,今
者の文章が同一話題でなく相違話題となる時,著者推
後 は IP ア ド レ ス や 通 信 ロ グ な ど ,偽 装 さ れ う る 情 報 の
定 精 度 は 低 下 す る .こ れ は ,我 々 の 先 行 研 究 [9]で 示 さ
みならず,犯人の文体をはじめとする,偽装が難 しい
れている.
情報を併用して犯人を特定していく捜査が必要となる.
2 つ目は,推定対象として用いる文章が短いため,
このような背景のもと,犯人特定の補助手段として,
文章から特徴量を十分に取得できないという問題であ
Web 上 の テ キ ス ト コ ン テ ン ツ を 対 象 と し て , コ ン テ ン
る.既存の著者推定手法においては,ブログや掲示板
ツの著者を推定する著者推定研究が増えてきている
といったユーザによる一定量の書き込みを期待できる
[4][5][6][7].
コ ン テ ン ツ を 対 象 に し て い る .し か し ,Twitter に 投 稿
著者らは,これまでに,代表的なマイクロブログで
さ れ る メ ッ セ ー ジ は 最 大 で も 140 字 で あ り , か つ 140
字で完結する内容のメッセージがほとんどであること
1
2
Twitter, https://twitter.com/
Tumblr, https://www.tumblr.com/
に由来する.
3 つ目は,推定対象文章の著者を推定するとき,処
由 と し て , IBA に よ る 著 者 推 定 タ ス ク で 用 い る 学 習 デ
理しなくてはならない計算量が増加する問題である.
ータが不均衡データであることが挙げられる.不均衡
これは,推定対象文章ごとにすべての候補者に対して
データとは,正例と負例の数に極端な差がある学習デ
著者推定の処理をしなくてはならないことに由来する.
ー タ を 指 す . IBA に よ る 著 者 推 定 タ ス ク で は , 学 習 デ
本 稿 で は 以 上 の 問 題 点 を 解 決 す る た め ,1) 推 定 対 象
ータ中の文章群を,特定の 1 人の候補者の文章である
文章と類似する話題を含む学習データセットの選定に
正例,それ以外の複数候補者の文章である負例の 2 つ
よ る 「 相 違 話 題 に 起 因 す る 推 定 精 度 低 下 の 回 避 」, 2)
に分類する.しかし,一般に負例を集めることは容易
特 徴 量 と し て 使 用 す る 文 字 n-gram の n に 比 例 し た 重 み
であるが,正例を多く集めることは困難である.この
付けによる「より文体を表す特徴量取得」の 2 つの手
た め , IBA に よ る 著 者 推 定 で は ,正 例 と 負 例 の 数 に 差
法 を 用 い る . 1)の 手 法 に よ り , 推 定 の 前 段 階 に 各 ユ ー
が生まれ,学習データは不均衡データとなる.
ザの学習データセットを選定することで,学習データ
不均衡データに対処するため,正例の数に合わせて
セットと推定対象文章に含まれる話題が一致する可能
負例の数を減らす,負例の数に合わせて正例の数を多
性を上昇させ,推定精度を向上する.同時に,推定の
くするといった対策が考えられる.しかし,前者の方
際に用いるデータセット数を減らすことで,計算量を
法では学習が十分にできない問題が生じる.一方,後
削 減 で き る . ま た , 2)の 手 法 を 用 い る こ と で , 1 文 が
者の方法を講じることも難しい.これは,候補者ごと
短いマイクロブログのメッセージから,より多くの特
に集められる文章は数万文字の大量文章でなくてはな
徴量を取得しつつ,より著者の文体を表す特徴量を抽
らないが,マイクロブログを対象とした大規模候補者
出することが可能となる.
群においてこのような文章を1人の候補者に対し多く
本稿では以下の構成をとる.まず 2 節では,著者推
集めることは困難であるためである. そこで,本研究
定研究で取り扱われてきた著者推定タスクについて述
に お い て は PBA に よ る 著 者 推 定 タ ス ク に 基 づ く ア プ
べる.次の 3 節では,既存の著者推定手法について述
ローチを行う.
べる.続く 4 節では,本稿で提案する著者推定手法に
2.2. PBA に よ る 著 者 推 定 タ ス ク
ついて述べる.そして,5 節にて既存手法と提案手法
PBA に よ る 著 者 推 定 タ ス ク で は ,事 前 に 用 意 さ れ て
とに対する評価実験の方法と結果について述べる.最
い る 候 補 者 の 文 章 群 と ,推 定 対 象 文 章 を 順 に 比 較 す る .
後に 6 節で本稿をまとめる.
比較された候補者群の中から,推定対象文章の著者と
文体が最も類似する候補者を得ることで,各著者推定
2. 関 連 研 究
手 法 は 著 者 推 定 を 行 う .PBA に 分 類 さ れ る 著 者 推 定 タ
一般に著者推定手法は,機械学習を用いて著者推定
ス ク は , Regal ら [6]や , 我 々 の 既 存 研 究 [8]に て 取 り 扱
を 行 う Instance-Based Approach(IBA) と ,類 似 度 計 算 を
っ て い る .一 般 的 な PBA に よ る 著 者 推 定 タ ス ク の 流 れ
用 い て 著 者 推 定 を 行 う Profiled-Based Approach(PBA)
は以下の手順になる.
の 2 つに分類される.以下では上記2つの観点から著
2.2.1. PBA に よ る 著 者 推 定 タ ス ク の 流 れ
者推定タスクを説明する.
手 順 1) 学 習 デ ー タ と テ ス ト デ ー タ の 収 集
2.1. IBA に よ る 著 者 推 定 タ ス ク
学習データとは,著者が既知である文章群のことを
IBA に よ る 著 者 推 定 タ ス ク で は , 機 械 学 習 に よ り 各
指す.テストデータとは複数の推定対象文章を指す.
候補者の文章群を学習し,推定対象文章を各候補者の
ただし,著者推定タスクでは,推定したテストデータ
いずれかに分類する.推定対象文章の分類先となる候
中の文章の著者と実際の著者が同じであることを確か
補 者 を 得 る こ と で ,各 著 者 推 定 手 法 は 著 者 推 定 を 行 う .
めるため,テストデータ中の文章の著者が既知である
IBA に 分 類 さ れ る 著 者 推 定 タ ス ク は , ブ ロ グ ユ ー ザ に
も の を 用 い る .ま た ,テ ス ト デ ー タ 中 の 文 章 の 著 者 は ,
対 し て は Narayana ら [4]が 100,000 人 に 対 し て の 著 者 推
学習データにおけるいずれかの文章の著者と同一であ
定 タ ス ク を P@1 に し て 約 20%で の 推 定 を 行 っ て い る .
るとする.このような条件の下,著者推定の候補者群
ま た Schwartz ら [5]が 50 人 の Twitter ユ ー ザ に 対 し て
となる著者を決定した後,候補者ごとに学習データと
の 著 者 推 定 タ ス ク を ,P@1 に し て 70%超 の 推 定 精 度 で
テストデータの 2 種類の文章を取集する.
行 っ て い る . 他 に も Silva ら [7]が , Twitter ユ ー ザ 3 人
手 順 2) 各 文 章 の 文 体 定 量 化
に 対 し て の 著 者 推 定 タ ス ク を ,F 値 に し て 0.54 の 推 定
手順 1 で収集された学習データ及びテストデータ中
精度で取り扱っている.しかし,これらの研究におい
のすべての文章に対して文体定量化を行う.文章の文
て,我々の知る限りでは推定精度が十分なものは存在
体定量化とは,その文章の著者が持つ文体を,当該文
しない.
章を用いて数値ベクトルに定量化することである.文
IBA に よ る 著 者 推 定 タ ス ク の 精 度 が 不 十 分 に な る 理
体の定量化方法は,各著者推定手法によって異なる.
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, 𝑞)
手 順 3) 各 文 章 間 の 文 体 相 違 度 計 算
2
テストデータ中の文章ごとに,学習データ中の各文
章との間の文体相違度をすべて計算する.2 つの文章
間の文体相違度とは,各文章の著者の文体がどれほど
異なるかを定量化したものである.2 つの文章間の文
体相違度は,手順 2 で得られる定量化された文体を用
いて算出される.文体相違度をどのように算出するか
は,各著者推定手法によって異なる.
手 順 4) 文 体 類 似 度 順 位 の 算 出
テストデータ中の文章ごとに文体類似度順位を算
出する.文体類似度順位とは,文体相違度の低い順に
候補者群を並び替えたとき,推定対象文章の著者が何
=
√∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅
𝑓𝑝𝑞 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 − ̅̅̅̅
𝑓𝑞𝑝 )
2
(1)
∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅
𝑓𝑝𝑞 )(𝑓𝑞𝑖 − ̅̅̅̅
𝑓𝑞𝑝 )
∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖
̅̅̅̅
𝑓𝑝𝑞 =
(2)
|𝐶𝑝𝑞 |
′
0.4 (𝑓𝑝𝑖 > 0.4)
(3)
𝑓𝑝𝑖 = { ′
𝑓𝑝𝑖 (𝑓𝑝𝑖′ ≤ 0.4)
𝑑𝑝𝑖
𝑓𝑝𝑖′ =
(4)
𝑎𝑝
文 体 相 違 度 Dissimpos は , そ の 値 が 小 さ い ほ ど 2 つ の 文
章 p, q の 文 体 が 似 て い る こ と を 表 す .
さ ら に , 我 々 は 浅 井 ら [10]が 提 案 し た , マ イ ク ロ ブ
位に順位付けされたかを表す.
ログ上で投稿される突発的な感情を表わす「叫喚フレ
手 順 5) 著 者 推 定 手 法 の 評 価
ーズ」と呼ばれる表現に着目し,それらの表現を除去
手順 4 で得られたテストデータ中の各文章に対する
することによる推定精度向上を試みた.
文体類似度順位に基づいて,手順 2 及び手順 3 で用い
叫喚フレーズは以下のように定義される .
た著者推定手法の評価を行う.得られた文体類似度順

語尾の母音が 3 回以上繰り返して付加される
位からどのように著者推定手法を評価するかは,著者

母音は大文字,小文字を区別しない
推定手法評価方法によって異なる.

母音はひらがな,カタカナの大小文字すべて
2.2.2. PBA に よ る 従 来 の 著 者 推 定 手 法
この定義から,我々は以下の正規表現に基づいて,
我 々 は 以 前 ,マ イ ク ロ ブ ロ グ の 文 章 を 用 い た 10,000
叫喚フレーズの含まれるメッセージの正規化を行った.
人 レ ベ ル の 候 補 者 群 に 対 す る 著 者 推 定 手 法 [8] を 提 案
[あ |ぁ |ア |ァ ]{3,}|[い |ぃ |イ |ィ ]{3,}|[う |ぅ
した.その際の文体定量化手法として,井上らが提案
| ウ | ゥ ]{3,}|[ え | ぇ | エ | ェ ]{3,}|[ お | ぉ | オ |
し た ,品 詞 タ グ・文 字 混 合 n-gram 頻 度 分 布 を 用 い て い
ォ ]{3,}
る .こ こ で ,品 詞 タ グ・文 字 混 合 n-gram と は ,文 章 を
具体的には,以下の手順のようになる.
文字または品詞タグの羅列に変換したときに,当該羅
1.
た正規表現を用いて抽出する.
列中に存在する n 個の連続した要素順列を指す.
例) うわあぁあどうしようぅうぅう
我々の手法で用いる文章中の文体定量化は,文章 p
中 に お け る 品 詞 タ グ・文 字 混 合 n-gram x の 生 起 回 数 dpx
2.
繰り返される母音を大文字化する.
3.
すべての繰り返される母音部分に対して,母音
例) うわあああどうしよううううう
の 集 合 Dp を 得 る こ と で 行 う . 文 章 を 文 字 ま た は 品 詞 タ
グの羅列に変換するために以下の手順をとる.まず,
形 態 素 解 析 器 を 用 い て 文 章 を 形 態 素 に 分 割 す る .な お ,
形 態 素 解 析 器 は lucene-gosen 3 を 用 い て い る .次 に ,
「動
叫喚フレーズの含まれる文章を,本項で説明し
一文字とそれ以前の文字列を削除する.
例) うわあどうしよう
詞 」「 接 続 詞 」「 記 号 」「 副 詞 」「 形 容 詞 」「 感 動 詞 」「 未
さらに,我々はマイクロブログユーザが主とする話
知 語 」の 形 態 素 に つ い て は ,文 字 列 を そ の ま ま 採 用 し ,
題が時間経過によって変化した場合も精度よく著者推
これら 6 種類の品詞以外について品詞タグを用いる.
定 を 行 う た め の 手 法 を 提 案 し た [11]. 具 体 的 に は , 時
井上らが提案する著者推定タスクにおける文体相
間経過によって文体が変化することを考慮し ,各ユー
違 度 計 算 で は , 文 章 p お よ び q に つ い て の Dp , Dq だ け
ザの学習データセットについて,投稿期間を変え たも
で は な く , 𝐶𝑝𝑞 お よ び 𝑎𝑝 を 用 い る . Cpq は , 文 章 p と 文
のを 3 個用意し,テストデータセットとの間で各々文
章 q の各々に存在するすべての品詞タグ・文字混合
体相違度の算出をする.そして,テストデータセット
n-gram の 和 集 合 で あ る . ap は , 文 章 p を 構 成 す る 記 事
と最も文体が似ている学習データセットとの文体相違
の数である.記事とは,マイクロブログにおける 1 件
度( 最 も 小 さ い 文 体 相 違 度 )を 用 い て 著 者 推 定 を 行 う .
のメッセージのように,一度に投稿する文のまとまり
具 体 的 に は 図 1 の よ う に な る . こ こ で , t last は テ ス ト
を 指 す . 井 上 ら は 𝐶𝑝𝑞 , 𝐷𝑝 お よ び 𝐷𝑝 を 用 い る こ と で , 2
データセットを作成する際に用いたツイートのうち,
つ の 文 章 p, q に お け る 文 体 相 違 度 Dissimpos を 以 下 の よ
投稿時間が最も古いものを指す.
うに定義している.
3 lucene-gosen,
https://code.google.com/p/lucene-gosen/
そ こ で ,n の 数 に 応 じ て 各 n-gram に 重 み 付 け を 行 う こ
とで,よりデータセット内に含まれる,著者の文体を
表 す n-gram を 強 く す る .
2.4.
評価手法
多 く の 著 者 推 定 手 法 の 評 価 は ,2.2.1 で 述 べ た 著 者 推
定タスクの手順 5 において,テストデータ中の文章群
図 1 従 来 手 法 [8]で の 学 習 デ ー タ セ ッ ト 作 成
の中で文体類似度順位が 1 位となる文章の割合である,
p
仮 に 推 定 対 象 ユ ー ザ p の テ ス ト デ ー タ Ttest に 対 し ,
ui
ui
ui
ユ ー ザ ui の 学 習 デ ー タ セ ッ ト Ttrain,1 ,Ttrain,2 お よ び Ttrain,3
PRECISION@1 を 指 標 と し て 評 価 を 行 っ て き た . こ れ
を 作 成 し た 場 合 , 算 出 さ れ る 文 体 相 違 度 DissimTop は 以
とき,著者推定タスクの手順 4 で並び替えられる候補
下 の 式 (5)の よ う に な る .
ui
DissimTop = max(𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1
),
ui
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1 ),
ui
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1
))
者群において 1 位となる候補者を推定対象文章の著者
2.3.
は,テストデータ中の各文章に対して著者推定を行う
であると推定するためである.
(5)
既存手法からの発展
井 上 ら [9] は 大 規 模 候 補 者 群 に 対 す る 著 者 推 定 手 法
評価方法として,文体類似度順位の累積相対度数分布
を 定 量 的 に 評 価 す る MRR 及 び , 正 解 が 上 位 k 件 以 内
2.2.2 で 説 明 し た ,我 々 が こ れ ま で に 発 表 し た マ イ ク
に入っていれば 1 と,そうでなければ 0 としてその平
ロブログのデータを用いた大規模候補者群に対する著
均 を と る mean top-k call を 評 価 方 法 と し て 用 い た . 具
者 推 定 [8]で は ,推 定 に 用 い る メ ッ セ ー ジ の 投 稿 時 間 に
体 的 に は ,MRR に つ い て は 式 (6)に よ っ て 算 出 さ れ る .
ついての選択基準を十分に考察 してこなかった.つま
こ こ で ,Q は テ ス ト デ ー タ 中 の 文 章 の 著 者 の 集 合 ,𝑁𝑞 は
り,各ユーザについて作成する学習データセットに用
い る メ ッ セ ー ジ の 選 択 の 際 , t last の 直 後 か ら k 個 の
出力される候補者群順列中における候補者の順位であ
る.
tweet, t last の 一 週 間 前 か ら k 個 の tweet, t last の 一 ヶ 月
M𝑅𝑅 =
前 か ら k 個 の tweet を 用 い る と い っ た よ う に , 画 一 的
1
1
∑
|𝑄|
𝑁𝑞
(6)
𝑞 ∈𝑄
なツイート選択手法を取っていた.そのため ,従来手
井 上 ら が MRR 及 び mean top-k call に よ る 評 価 方 法
法のままでは各学習データセットで主とする話題が全
を用いたのは,著者推定タスクにおける候補者群の並
て統一されてしまう可能性が存在する. つまり,推定
び替えにおいて,実際の著者が 1 位に順位付けされて
対象文章と学習データセットが相違話題となる可能性
いるかだけでなく,上位に順位付けされているかを評
が高くなり,推定精度の低下が懸念される.そこで,
価するためである.これは,誤った推定をしない著者
本 稿 で は k-means 法 を 用 い て よ り 話 題 分 布 を 考 慮 し た
推定手法が存在しない以上,推定結果を実用するため
学習データセット作成を行うことで,推定対象文章と
には複数の候補から人手によって選択することが要求
同一話題となる学習データセットの作成を行えるよう
されるためである.特に,推定精度低下が顕著となる
にする.
大規模候補者群に対する著者推定では,人手による確
ま た ,従 来 手 法 [8]で は 文 章 を 特 徴 量 に 変 換 す る 際 に
認が要求される.人手による推定を行う際は,複数の
品 詞 タ グ ・ 文 字 混 合 2-gram を 用 い て き た . し か し ,
推定結果から著者を精査することで,正しい著者推定
精度向上の観点から,特徴量は多く取得できる方が良
を行うことができる.しかし,そのためには 2 位以降
い .そ も そ も ,従 来 手 法 [9]で は 相 違 話 題 で あ る デ ー タ
の 上 位 に 正 解 が 含 ま れ て い な け れ ば な ら な い .よ っ て ,
セット間での計算を行うため,品詞タグ・文字混合
大 規 模 候 補 者 群 に 対 す る 著 者 推 定 の 評 価 に は ,MRR に
2-gram を 用 い て き た .し か し ,本 研 究 で は 推 定 対 象 文
よる評価方法が適しているといえる.
章と同一話題となる学習データセットの作成を目指す
ため,推定対象文章と学習データセット間で話題が異
なることによる精度低下については気にしなくても良
3. 提 案 手 法
3.1. 概 要
いと考えられる.そこで,メッセージからより多くの
推定対象文章が含む話題に類似した話題分布を持
特徴量を取得することで,より精度を高めるため,文
つ学習データセットを適切に作成することで,より推
字 1-gram, 2-gram, 3-gram の 併 用 を 行 う .
定精度を向上する手法について述べる.
ま た ,各 文 字 n-gram に つ い て ,n の 数 が 大 き く な る
具体的には,候補者となるユーザの投稿したツイー
ほ ど メ ッ セ ー ジ 中 で の 出 現 頻 度 は 小 さ く な る .し か し ,
ト全てを用いて k 個の学習データセットを作成し,
我々は n の数が大きくなるほど,それぞれの文字
k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行 う こ と で , 含
n-gram は よ り 著 者 の 文 体 を 表 す も の と な る と 考 え た .
有する特徴量分布の異なるデータセットを選択する.
また学習データセット作成の際,メッセージから取得
者推定を行う.これにより,各ユーザの持つ学習デー
す る n-gram の n に 応 じ た 重 み 付 け を 行 う こ と に よ り ,
タセット全てが互いに異なる話題分布をもち,推定対
より著者の文体を表す特徴量を取得する.
象文章に含まれる話題と類似する学習データセットを
作成した学習データセットとテストデータセット
の 間 で 文 体 相 違 度 DissimTop を 計 算 す る こ と に よ り , 著
作成できる可能性が高くなるため,精度向上が実現で
きると考えられる.
図 2 提案手法の概要図
図 3
文体定量化手法のイメージ図
メッセージからの特徴量取得
3.2.
メッセージから特徴量を取得する際の手順につい
ては以下の通りである.
step 1.
ユ ー ザ un が 投 稿 し た メ ッ セ ー ジ t に 対 し ,
2.2.2 で 述 べ た 叫 喚 フ レ ー ズ の 正 規 化 を 行 う .
step 2.
メ ッ セ ー ジ t か ら 文 字 1-gram,2-gram,3-gram
を 取 得 し , ⃗⃗⃗⃗⃗⃗
xu n を 作 成 す る .
step 3.
xu n に 含 ま れ る 各 要 素 に 対 し , n-gram の n に
⃗⃗⃗⃗⃗⃗
応 じ て 3n 倍 を 行 う .
step 4.
2.2.2 の 式 (3)お よ び 式 (4)に 基 づ き . 各 特 徴 量
の正規化を行う.
3.3.
学習データとテストデータの作成
学習データ及びテストデータを作成する手順は以
下 に 示 す 通 り で あ る .収 集 し た 全 て の メ ッ セ ー ジ を 𝐷𝑎𝑙𝑙
step 2.
𝐷𝑎𝑙𝑙 か ら ,ラ ン ダ ム に 1 つ の ユ ー ザ ID 𝑢𝑖 を 抽
出 し , step3 か ら step 10 を 適 用 し た 後 , ユ ー ザ ID
集 合 で あ る UID に 追 加 す る .こ れ を | UID| =n に
なるまで繰り返す.
step 3.
𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ を , 投 稿 時 刻 を 用 い
て降順に並び替える.
step 4.
𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ の う ち , 図 1 に 示 す
ように投稿時刻が最新のものから k 件を選択し,
u
i
Ttest
と す る .な お ,k 件 選 択 で き な い 場 合 は ,step2
に戻る.
step 5.
step 4 で 選 択 し た メ ッ セ ー ジ の う ち , 最 も 投
稿 時 刻 が 古 い メ ッ セ ー ジ が 投 稿 さ れ た 時 刻 を t last
とおく.
step 6.
𝑢𝑖 が 投 稿 し た メ ッ セ ー ジ の う ち ,t last と 比 較 し
u
とする.また,各ユーザについてのテストデータ及び
i
投 稿 時 刻 が 古 い も の か ら 順 に k 件 を 選 択 し ,Ttrain,1
学習データセットを作成する際に用いるメッセージ数
i
と す る .Ttrain,1
に 含 ま れ る メ ッ セ ー ジ の う ち ,最 も
を k とする.さらに,ここでは n 名に対する著者推定
投稿時刻が古いメッセージが投稿された時刻を
タスクを行うものとする.
t last に す る .
step 1.
ユ ー ザ ID 集 合 を UID と し , UID=∅と す る .
u
step 7.
step 6 に つ い て , メ ッ セ ー ジ を k 件 選 択 で き
なくなるまで繰り返す.
u
i
𝑢𝑖 に つ い て 作 成 し た メ ッ セ ー ジ 集 合 Ttrain,1
step 8.
u
u
u
i
i
i
か ら Ttrain,e
に つ い て , e<6 で あ れ ば Ttrain,1
か ら Ttrain,e
u
i
ま で の 全 て , お よ び Ttest
を廃棄する.
評価実験では,既存手法としては我々がこれまでに
用 い て き た 著 者 推 定 手 法 [8]を 用 い ,提 案 手 法 と の 比 較
ui
ui
ui
Ttest
, お よ び Ttrain,1
か ら Ttrain,e
の各データセッ
step 9.
評価実験
4.
トごとに,データセット内に含まれる全てのメッ
セ ー ジ に つ い て 3.2 で 示 し た 手 順 を 適 用 し 特 徴 量
とする.このときの流れを図 4 に示す.
を行う.
4.1.
実験環境
Twitter か ら 収 集 し た tweet を デ ー タ セ ッ ト と し て 用
いた.データセットの概要は以下の通りである.
ui
ui
の 場 合 , Ttrain,4
か ら Ttrain,e
の各データセッ

デ ー タ 収 集 期 間 : 2013 年 1 月 ~ 12 月
ト に 対 し ,k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行

総 収 集 tweet 数 : 7,955,714 名 ×最 大 2,000 件
step 10.
e>6
う .こ の と き ,k-means 法 に よ り 分 割 す る ク ラ ス タ
本実験で使用するデータセットに含まれるすべて
数は使用する学習データセット数の半数である 3
のメッセージには,そのメッセージを投稿したユーザ
とする.また各データセット間の距離計算につい
に 固 有 の 情 報 で あ る「 ユ ー ザ ID」が 付 随 す る .こ こ で ,
て は コ サ イ ン 類 似 度 を 用 い て , 式 (7)の よ う に 行 う .
Twitter を 代 表 と す る マ イ ク ロ ブ ロ グ に お い て は ,引 用
ui
ui
𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(Ttrain,a
, Ttrain,b
)
=1−
ui
ui
𝐶𝑜𝑠(Ttrain,a
, Ttrain,b
)
(7)
こ こ で ,step 10 で 設 定 し た ク ラ ス タ 数 は ,経 験 的 に
やアプリによる投稿など,アカウントを所持するユー
ザ以外によるメッセージの投稿が頻繁に行われる.
設定したものである.
我々の手法では,メッセージを記述した人物の文体を
ui
以 上 に よ り 生 成 さ れ る Ttest
は , ユ ー ザ ID 𝑢𝑖 を 持 つ ユ
ui
ui
ー ザ に つ い て の テ ス ト デ ー タ と な り ,Ttrain,1
, Ttrain,2
及び
ui
Ttrain,3 は そ れ ぞ れ ユ ー ザ ID 𝑢𝑖 を 持 つ ユ ー ザ に つ い て の
特徴量として用いるため,当該ユーザ以外によって投
学習データとなる.つまり,各ユーザは k 件のメッセ
メ ン シ ョ ン ( @username ), ハ ッ シ ュ タ グ (#hashtag) ,
ー ジ か ら 文 字 n-gram を 取 得 し た デ ー タ セ ッ ト で あ る
他 人 の 文 章 で あ る リ ツ イ ー ト (RT)を デ ー タ セ ッ ト か ら
ui
Ttest
を
稿 さ れ た メ ッ セ ー ジ は 全 て 除 く 必 要 が あ る .そ の た め ,
前処理としてデータセット内のメッセージに含まれる
1 つ と , k 件 の メ ッ セ ー ジ か ら 文 字 n-gram を 取
除 去 し た . ま た ,各 メ ッ セ ー ジ に つ い て ,メ ッ セ ー ジ
得したデータセットのうち,投稿時刻がテストデータ
に付随するクライアントアプリについての情報から,
セットに最も近いメッセージから構成されたデータセ
bot に よ る 投 稿 な ど , ユ ー ザ 以 外 の 文 章 で あ る と 判 断
u
u
u
i
i
i
ッ ト Ttrain,1
, Ttrain,2
,Ttrain,3
お よ び k-means 法 に よ り 選 択 さ
れた 3 つのデータセットからなる 6 つの学習データセ
したものについては除外を行った.
ま た ,評 価 実 験 で は 形 態 素 解 析 器 と し て lucene-gosen
4
を 利 用 す る . 辞 書 に つ い て は , IPAdic の ラ イ セ ン ス 問
題 を 解 決 し た NAIST-Japanese Dictionary 5 を 形 態 素 解 析
ットの組を 1 つ持つこととなる.
に 用 い る 基 本 の 辞 書 と す る .
NAIST-Japanese
Dictionary は IPA 品 詞 体 系 に 基 づ く 辞 書 で あ る た め ,
本 実 験 で の 品 詞 体 系 は IPA 品 詞 体 系 に 依 存 し た も の と
なる.
4.2.
評価実験全体の流れ
3.3 で 作 成 し た 学 習 デ ー タ と テ ス ト デ ー タ の 組 に つ
いて,著者推定タスクにおける手順 2 と手順 3 の方法
で文体相違度を算出する.文体相違度算出には,項で
図 4 メッセージからの特徴量取得
3.4.
文体相違度の決定手法
説明した手法を用いる.次に,テストデータ中のすべ
文 体 相 違 度 の 計 算 は ,こ れ ま で の 我 々 の 手 法 [8]と ほ
u
i
ぼ 同 様 に 以 下 の 方 法 に よ り 行 う .す な わ ち ,Ttrain,1
から
ての文章に対して,著者推定タスクにおける手順 4 よ
り , 3.4 で 示 し た 手 順 を 用 い て 文 体 類 似 度 順 位 を 算 出
ui
ui
Ttrain,6
に 対 し ,テ ス ト デ ー タ セ ッ ト Ttest
に対する文体相
し , MRR を 算 出 す る .
違度を計算する.各学習データセットから得られた文
4.3.
予備実験
体 相 違 度 の う ち , 最 も 数 値 が 小 さ な も の を Dissimtop と
本 研 究 は , 100,000 ユ ー ザ レ ベ ル で の 大 規 模 著 者 推
す る . た だ し , 2.2.2 項 の 式 (1)の み , コ サ イ ン 類 似 度
定手法の提案ということになっているが, 各種パラメ
を 用 い た 以 下 の 式 (8)に 置 き 換 え て 計 算 を 行 う .
ータ決定,及び,提案手法の有効性確認のため,候補
2
𝐷𝑖𝑠𝑠𝑖𝑚𝑐𝑜𝑠 (𝑝, 𝑞) =
√∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 )
∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖 ∙ 𝑓𝑞𝑖
2
(8)
4
IPADic legacy, http://sourceforge.jp/projects/ipadic/
NAIST-Japanese Dictionary,
http://sourceforge.jp/projects/naist -jdic/
5
者 数 n=1,000,お よ び k=30 と し て ,予 備 実 験 を 行 っ た .
用いて学習データセットの選択を行う比較手法 b より
な お , 評 価 手 法 に は MRR を 用 い た .
提 案 手 法 が 高 い MRR を 持 っ て い る .こ れ に つ い て は ,
4.3.1. 学 習 デ ー タ セ ッ ト 数 の 決 定
提案手法では推定対象文章から投稿時刻が近い学習デ
本節では,1 ユーザごとに作成する学習データセッ
ー タ セ ッ ト を 用 い て い る た め ,従 来 研 究 [8]で 調 査 を 行
ト数についての前実験を行う.具体的には,1 ユーザ
った,時刻経過によるユーザの文体の変化にも対応が
あ た り の 学 習 デ ー タ セ ッ ト 数 を 1 個 か ら 63 個 ま で 変 化
できるものと考えられる.
させ,それぞれの精度についての比較を行う.結果と
4.3.3. n に 応 じ た 重 み 付 け に つ い て の 前 実 験
しては,図 5 のようになった.
次 に ,文 字 n-gram 取 得 の 際 に n に 応 じ た 重 み 付 け を
行 う 提 案 手 法 の 評 価 実 験 を 行 う .結 果 ,表 2 の よ う に
な っ た . こ こ で , 従 来 手 法 a は 文 字 {1,2,3}-gram を 用
い て ,か つ n に 応 じ た 重 み 付 け を 行 わ な い 手 法 を 示 す .
ま た , 従 来 手 法 b は 品 詞 タ グ ・ 文 字 混 合 {1,2,3}-gram
を 用 い る 既 存 手 法 [8]を 示 す . そ れ 以 外 に つ い て は 3.3
項で説明した手順に順ずるものとする.
表 2
n に応じた重み付け
図 5 データセット数による精度変化
MRR
提案手法
0.849
図 5 か ら わ か る よ う に ,学 習 デ ー タ セ ッ ト 数 が 6 付
従来手法 a
0.773
近 で MRR が 収 束 し て お り ,17 個 前 後 を ピ ー ク に MRR
従来手法 b
0.825
が低下していることがわかる.そこで,提案手法では
学習データセット数を 6 個とすることにした.
表 2 から,提案手法は従来手法 a および従来手法 b
と 比 べ ,高 い MRR を 示 し て い る .こ れ は ,2.3 項 で 述
4.3.2. 話 題 分 布 を 考 慮 し た 学 習 デ ー タ セ ッ ト
生成の有効性確認
べ た よ う に ,提 案 手 法 に よ り 著 者 の 文 体 を 表 す n-gram
を強調することができているためである.
k-means 法 を 用 い た 「 話 題 分 布 を 考 慮 し た 学 習 デ ー
タセット生成手法」の有効性について確認する. ここ
4.4.
評価実験
で ,比 較 手 法 a,b に つ い て は ,学 習 デ ー タ セ ッ ト の 作
本 節 で は , 提 案 手 法 を 用 い て 100,000 人 レ ベ ル の 著
成 時 に 3.3 項 で 示 し た step 10 を ,そ れ ぞ れ 以 下 の よ う
者推定を行った際の結果を示す. 本実験においては,
に置き換えた際の結果である.
テ ス ト デ ー タ と し て 1,000 ユ ー ザ を 候 補 者 中 か ら ラ ン
step 10-a.
u
u
i
i
e>6 の 場 合 , Ttrain,1
か ら Ttrain,6
の 6 個のデー
タ セ ッ ト を 選 択 し , ui の 学 習 デ ー タ セ ッ ト と す る .
step 10-b.
u
u
i
i
e>6 の 場 合 , Ttrain,1
か ら Ttrain,e
の各データセ
ダムに選出し,推定を行うこととする. 当該実験を 5
回 行 っ た 結 果 と し て ,MRR は 平 均 0.646,P@1 は 平 均
0.596 と な っ た . そ の 他 の 結 果 を 表 3 に 記 す .
ッ ト に 対 し ,k-means 法 を 用 い て ク ラ ス タ リ ン グ を 行
表 3
う .こ の と き ,k-means 法 に よ り 分 割 す る ク ラ ス タ 数
は 6 とし,また各データセット間の距離計算につい
て は コ サ イ ン 類 似 度 を 用 い て , 式 (7)の よ う に 行 う .
表 1
k-means 法 に つ い て の 評 価
実験回数
MRR
提案手法
0.867
比較手法 a
0.864
比較手法 b
0.827
1
2
3
4
5
Average
5.
100,000 ユ ー ザ に よ る 推 定 実 験
MRR
0.668
0.622
0.637
0.644
0.657
0.646
P@1
0.623
0.573
0.585
0.593
0.608
0.596
P@10
0.752
0.719
0.728
0.733
0.746
0.736
P@100
0.856
0.859
0.858
0.866
0.846
0.857
おわりに
表 1 の 結 果 か ら , k-means 法 を 用 い て 学 習 デ ー タ セ
本稿では,マイクロブログデータに対する著者推定
ットの選択を行う提案手法は,推定対象文章と投稿時
手法について,推定に使用するメッセージの投稿時間
刻のより近い学習データセットのみを選択する 比較手
を考慮した手法の提案を行った.本稿で提案した著者
法 a よ り , 高 い MRR を 持 っ て い る . そ の た め , 推 定
推定手法を用いることで,マイクロブログのデータを
対象文章に近い話題をもつデータセットの選択が でき
用いた大規模候補者群に対する著者推定において,よ
て い る こ と が わ か っ た . ま た , た だ 単 に k-means 法 を
り高精度の推定が行えることがわかった.
参
考
文
献
[1] mail
online,
http://www.dailymail.co.uk/news/article-2579345/Tw
itter-crimes-double-three-years-police-forces-reportsharp-rise-social-media-crimes.html,
accessed
2014-12-09
[2] CNET
Japan,
http://japan.cnet.com/news/society/35014782/ ,
accessed 2014-12-09.
[3] 時
事
ド
ッ
ト
コ
ム
,
http://www.jiji.com/jc/graphics?p=ve_soc_network2
0121021j-02-w550pcvirus, accessed 2014-12-30
[4] Narayanan A., Paskpv, H., et al. "On the Feasibility
of Internet-Scale Author Identification." Proc. of
IEEE Symp. on Security & Privacy, pp.300 -314,
2012.
[5] R. Schwartz, O. Tsur, A. Rappoport and M.
Koppel:
”Authorship
Attribution
of
Micro-Messages”, EMNLP-13, pp. 1880-1891, 2013.
[6] Ragel, R., Herath, P., and Senanayake, U.
"Authorship Detection of SMS Messages Using
Unigrams." Proc. of IEEE Industrial and Information
Systems, pp.387-392, 2013.
[7] Silva, R. S., Laboreiro, G., et al. "‘twazn me!!!;(’
Automatic Authorship Analysis of Micro -blogging
Messages." Natural Language Processing and
Information Systems, LNCS, vol.6716, pp.161 -168,
2011.
[8] 奥 野 峻 弥 , 浅 井 洋 樹 , 山 名 早 人 ”マ イ ク ロ ブ ロ
グ を 対 象 と し た 著 者 推 定 手 法 の 提 案 - 10 , 000 人
レ ベ ル で の 著 者 推 定 - ”, 情 処 研 報 (DBS-159-12),
Vol.2014, pp.1-6, 2014.
[9] 井 上 雅 翔 , 山 名 早 人 : “品 詞 n-gram を 用 い た 著 者
推 定 手 法 : 話 題 に 対 す る 頑 健 性 の 評 価 ”, 日 本 デ
ー タ ベ ー ス 学 会 論 文 誌 , Vol.10, No.3, pp.7-12,
2012.
[10] 浅 井 洋 樹 , 秋 岡 明 香 , 山 名 早 人 : “き た あ あ あ あ あ
あ あ あ あ あ あ あ あ あ あ あ ! ! ! ! ! 1 1:マ イ ク
ロ ブ ロ グ を 用 い た 教 師 な し 叫 喚 フ レ ー ズ 抽 出 ”,
DEIM2013, A4-1, 2013.
[11] Syunya Okuno, Hiroki Asai, Hayato Yamana: ”A
Challenge
of
Authorship
Identification
for
Ten-thousand-scale Microblog Users”, IEEE BigData
2014, 2014.
Fly UP