電子情報通信学会ワードテンプレート (タイトル)

by user

on 28 марта 2017

Category: Documents

>> Downloads: 0

views

Report

Comments

Description

Download 電子情報通信学会ワードテンプレート (タイトル)

Transcript

電子情報通信学会ワードテンプレート (タイトル)

DEIM Forum 2015 D8-1
マイクロブログを対象とした
100,000 人レベルでの著者推定手法の提案
奥野峻弥†1
浅井洋樹†1†2
山名早人†3†4
†1 早稲田大学基幹理工学研究科〒169-8555 東京都新宿大久保 3-4-1
†2 早稲田大学グローバルエデュケーションセンター〒169-8050 東京都新宿区戸塚町 1-104
†3 早稲田大学理工学術院〒169-8555 東京都新宿大久保 3-4-1
†4 国立情報学研究所〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: {o_syunya,asai,yamana}@yama.info.waseda.ac.jp
あらまし近年，インターネットを利用した犯罪の捜査などを行うため，web 上の文章に対する著者推定手法の研
究が盛んに行われている．しかし，近年人気の web コンテンツとなっているマイクロブログへ投稿された文章に対
し著者推定技術を用いる場合，ブログなどと比べて一文が 140 字と非常に短く，話題に一貫性がないため，推定精
度が低下するという問題がある．さらに，マイクロブログの利用者は刻々と増加しているため，著者推定技術を使
用する際の候補者となる利用者は日本ユーザのみでも 1,000 万人を越えている．そのため，大規模な候補者群から
著者を推定することを前提として，より高速に計算を行うアルゴリズムが必要とされている．そこで本稿では，1) 文
章中から取得した n-gram に対し n の大きさに応じた重みをかける．2) 推定対象と類似する話題分布となる訓練デ
ータの選択を行い，推定精度を保ちつつ使用する文章量を削減する．これらの手法を用いて，より文章中から著者
の特徴を抽出することにより，より精度が高く，かつ高速な著者推定手法を提案する．100,000 ユーザによる評価実
験の結果，MRR にして 0.646 で推定ができた．
キーワード著者推定, Authorship Identification, マイクロブログ, Twitter
1. はじめに
ある Twitter に投稿されたメッセージを対象とする著
近年，インターネットバンキングにおける不正送金
者推定手法について研究を続けている [8][11]． Web 上
や，遠隔操作によるインターネット掲示板上での犯罪
のテキストコンテンツを対象とした著者推定手法はこ
予告などのサイバー犯罪が増加している．これは
れまでにも存在するが，マイクロブログに投稿された
Twitter 1 や
メッセージを対象に著者推定手法を応用するためには，
Tumblr 2 をはじめとするマイクロブログにお
いても例外ではない．事実， 2011 年から 2013 年まで
以下の 3 つの問題が存在する．
の Twitter に関する犯罪報告件数は 677 件から 1,291 件
1.
多種多様な話題に起因する精度低下
と 2 倍近くに急増している [1][2]．
2.
推定対象となる文章の短文化による特徴量
サイバー犯罪における捜査上の問題点として，イン
ターネットは匿名性が高い媒体であるために，犯人の
選択の失敗
3.
膨大な候補者群による計算時間の増大
特定が難しいことが挙げられる．事実，遠隔操作を利
1 つ目は，著者推定で用いる候補者ごとの文章を，
用し，他者に成りすまして犯罪予告をインターネット
各々同一話題として収集できなくなる問題である．こ
掲示板に投稿する，という事件が発生している．しか
れは，1 つの話題について大量にメッセージを書くユ
し，事件の捜査において，IP アドレスによる犯人の特
ーザが少ないことに由来する．著者推定で用いる候補
定ができず，誤認逮捕が発生している [3]．そこで，今
者の文章が同一話題でなく相違話題となる時，著者推
後は IP アドレスや通信ログなど，偽装されうる情報の
定精度は低下する．これは，我々の先行研究 [9]で示さ
みならず，犯人の文体をはじめとする，偽装が難しい
れている．
情報を併用して犯人を特定していく捜査が必要となる．
2 つ目は，推定対象として用いる文章が短いため，
このような背景のもと，犯人特定の補助手段として，
文章から特徴量を十分に取得できないという問題であ
Web 上のテキストコンテンツを対象として，コンテン
る．既存の著者推定手法においては，ブログや掲示板
ツの著者を推定する著者推定研究が増えてきている
といったユーザによる一定量の書き込みを期待できる
[4][5][6][7]．
コンテンツを対象にしている．しかし，Twitter に投稿
著者らは，これまでに，代表的なマイクロブログで
されるメッセージは最大でも 140 字であり，かつ 140
字で完結する内容のメッセージがほとんどであること
1
2
Twitter, https://twitter.com/
Tumblr, https://www.tumblr.com/
に由来する．
3 つ目は，推定対象文章の著者を推定するとき，処
由として， IBA による著者推定タスクで用いる学習デ
理しなくてはならない計算量が増加する問題である．
ータが不均衡データであることが挙げられる．不均衡
これは，推定対象文章ごとにすべての候補者に対して
データとは，正例と負例の数に極端な差がある学習デ
著者推定の処理をしなくてはならないことに由来する．
ータを指す． IBA による著者推定タスクでは，学習デ
本稿では以上の問題点を解決するため，1) 推定対象
ータ中の文章群を，特定の 1 人の候補者の文章である
文章と類似する話題を含む学習データセットの選定に
正例，それ以外の複数候補者の文章である負例の 2 つ
よる「相違話題に起因する推定精度低下の回避」， 2)
に分類する．しかし，一般に負例を集めることは容易
特徴量として使用する文字 n-gram の n に比例した重み
であるが，正例を多く集めることは困難である．この
付けによる「より文体を表す特徴量取得」の 2 つの手
ため， IBA による著者推定では，正例と負例の数に差
法を用いる． 1)の手法により，推定の前段階に各ユー
が生まれ，学習データは不均衡データとなる．
ザの学習データセットを選定することで，学習データ
不均衡データに対処するため，正例の数に合わせて
セットと推定対象文章に含まれる話題が一致する可能
負例の数を減らす，負例の数に合わせて正例の数を多
性を上昇させ，推定精度を向上する．同時に，推定の
くするといった対策が考えられる．しかし，前者の方
際に用いるデータセット数を減らすことで，計算量を
法では学習が十分にできない問題が生じる．一方，後
削減できる．また， 2)の手法を用いることで， 1 文が
者の方法を講じることも難しい．これは，候補者ごと
短いマイクロブログのメッセージから，より多くの特
に集められる文章は数万文字の大量文章でなくてはな
徴量を取得しつつ，より著者の文体を表す特徴量を抽
らないが，マイクロブログを対象とした大規模候補者
出することが可能となる．
群においてこのような文章を１人の候補者に対し多く
本稿では以下の構成をとる．まず 2 節では，著者推
集めることは困難であるためである．そこで，本研究
定研究で取り扱われてきた著者推定タスクについて述
においては PBA による著者推定タスクに基づくアプ
べる．次の 3 節では，既存の著者推定手法について述
ローチを行う．
べる．続く 4 節では，本稿で提案する著者推定手法に
2.2. PBA による著者推定タスク
ついて述べる．そして，5 節にて既存手法と提案手法
PBA による著者推定タスクでは，事前に用意されて
とに対する評価実験の方法と結果について述べる．最
いる候補者の文章群と，推定対象文章を順に比較する．
後に 6 節で本稿をまとめる．
比較された候補者群の中から，推定対象文章の著者と
文体が最も類似する候補者を得ることで，各著者推定
2. 関連研究
手法は著者推定を行う．PBA に分類される著者推定タ
一般に著者推定手法は，機械学習を用いて著者推定
スクは， Regal ら [6]や，我々の既存研究 [8]にて取り扱
を行う Instance-Based Approach(IBA) と，類似度計算を
っている．一般的な PBA による著者推定タスクの流れ
用いて著者推定を行う Profiled-Based Approach(PBA)
は以下の手順になる．
の 2 つに分類される．以下では上記２つの観点から著
2.2.1. PBA による著者推定タスクの流れ
者推定タスクを説明する．
手順 1）学習データとテストデータの収集
2.1. IBA による著者推定タスク
学習データとは，著者が既知である文章群のことを
IBA による著者推定タスクでは，機械学習により各
指す．テストデータとは複数の推定対象文章を指す．
候補者の文章群を学習し，推定対象文章を各候補者の
ただし，著者推定タスクでは，推定したテストデータ
いずれかに分類する．推定対象文章の分類先となる候
中の文章の著者と実際の著者が同じであることを確か
補者を得ることで，各著者推定手法は著者推定を行う．
めるため，テストデータ中の文章の著者が既知である
IBA に分類される著者推定タスクは，ブログユーザに
ものを用いる．また，テストデータ中の文章の著者は，
対しては Narayana ら [4]が 100,000 人に対しての著者推
学習データにおけるいずれかの文章の著者と同一であ
定タスクを P@1 にして約 20%での推定を行っている．
るとする．このような条件の下，著者推定の候補者群
また Schwartz ら [5]が 50 人の Twitter ユーザに対して
となる著者を決定した後，候補者ごとに学習データと
の著者推定タスクを，P@1 にして 70%超の推定精度で
テストデータの 2 種類の文章を取集する．
行っている．他にも Silva ら [7]が， Twitter ユーザ 3 人
手順 2) 各文章の文体定量化
に対しての著者推定タスクを，F 値にして 0.54 の推定
手順 1 で収集された学習データ及びテストデータ中
精度で取り扱っている．しかし，これらの研究におい
のすべての文章に対して文体定量化を行う．文章の文
て，我々の知る限りでは推定精度が十分なものは存在
体定量化とは，その文章の著者が持つ文体を，当該文
しない．
章を用いて数値ベクトルに定量化することである．文
IBA による著者推定タスクの精度が不十分になる理
体の定量化方法は，各著者推定手法によって異なる．
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, 𝑞)
手順 3）各文章間の文体相違度計算
2
テストデータ中の文章ごとに，学習データ中の各文
章との間の文体相違度をすべて計算する．2 つの文章
間の文体相違度とは，各文章の著者の文体がどれほど
異なるかを定量化したものである．2 つの文章間の文
体相違度は，手順 2 で得られる定量化された文体を用
いて算出される．文体相違度をどのように算出するか
は，各著者推定手法によって異なる．
手順 4）文体類似度順位の算出
テストデータ中の文章ごとに文体類似度順位を算
出する．文体類似度順位とは，文体相違度の低い順に
候補者群を並び替えたとき，推定対象文章の著者が何
=
√∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅
𝑓𝑝𝑞 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 − ̅̅̅̅
𝑓𝑞𝑝 )
2
(1)
∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 − ̅̅̅̅
𝑓𝑝𝑞 )(𝑓𝑞𝑖 − ̅̅̅̅
𝑓𝑞𝑝 )
∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖
̅̅̅̅
𝑓𝑝𝑞 =
(2)
|𝐶𝑝𝑞 |
′
0.4 (𝑓𝑝𝑖 > 0.4)
(3)
𝑓𝑝𝑖 = { ′
𝑓𝑝𝑖 (𝑓𝑝𝑖′ ≤ 0.4)
𝑑𝑝𝑖
𝑓𝑝𝑖′ =
(4)
𝑎𝑝
文体相違度 Dissimpos は，その値が小さいほど 2 つの文
章 p, q の文体が似ていることを表す．
さらに，我々は浅井ら [10]が提案した，マイクロブ
位に順位付けされたかを表す．
ログ上で投稿される突発的な感情を表わす「叫喚フレ
手順 5）著者推定手法の評価
ーズ」と呼ばれる表現に着目し，それらの表現を除去
手順 4 で得られたテストデータ中の各文章に対する
することによる推定精度向上を試みた．
文体類似度順位に基づいて，手順 2 及び手順 3 で用い
叫喚フレーズは以下のように定義される．
た著者推定手法の評価を行う．得られた文体類似度順

語尾の母音が 3 回以上繰り返して付加される
位からどのように著者推定手法を評価するかは，著者

母音は大文字，小文字を区別しない
推定手法評価方法によって異なる．

母音はひらがな，カタカナの大小文字すべて
2.2.2. PBA による従来の著者推定手法
この定義から，我々は以下の正規表現に基づいて，
我々は以前，マイクロブログの文章を用いた 10,000
叫喚フレーズの含まれるメッセージの正規化を行った．
人レベルの候補者群に対する著者推定手法 [8] を提案
[あ |ぁ |ア |ァ ]{3,}|[い |ぃ |イ |ィ ]{3,}|[う |ぅ
した．その際の文体定量化手法として，井上らが提案
| ウ | ゥ ]{3,}|[ え | ぇ | エ | ェ ]{3,}|[ お | ぉ | オ |
した，品詞タグ・文字混合 n-gram 頻度分布を用いてい
ォ ]{3,}
る．ここで，品詞タグ・文字混合 n-gram とは，文章を
具体的には，以下の手順のようになる．
文字または品詞タグの羅列に変換したときに，当該羅
1.
た正規表現を用いて抽出する．
列中に存在する n 個の連続した要素順列を指す．
例) うわあぁあどうしようぅうぅう
我々の手法で用いる文章中の文体定量化は，文章 p
中における品詞タグ・文字混合 n-gram x の生起回数 dpx
2.
繰り返される母音を大文字化する．
3.
すべての繰り返される母音部分に対して，母音
例) うわあああどうしよううううう
の集合 Dp を得ることで行う．文章を文字または品詞タ
グの羅列に変換するために以下の手順をとる．まず，
形態素解析器を用いて文章を形態素に分割する．なお，
形態素解析器は lucene-gosen 3 を用いている．次に，
「動
叫喚フレーズの含まれる文章を，本項で説明し
一文字とそれ以前の文字列を削除する．
例) うわあどうしよう
詞」「接続詞」「記号」「副詞」「形容詞」「感動詞」「未
さらに，我々はマイクロブログユーザが主とする話
知語」の形態素については，文字列をそのまま採用し，
題が時間経過によって変化した場合も精度よく著者推
これら 6 種類の品詞以外について品詞タグを用いる．
定を行うための手法を提案した [11]．具体的には，時
井上らが提案する著者推定タスクにおける文体相
間経過によって文体が変化することを考慮し，各ユー
違度計算では，文章 p および q についての Dp , Dq だけ
ザの学習データセットについて，投稿期間を変えたも
ではなく， 𝐶𝑝𝑞 および 𝑎𝑝 を用いる． Cpq は，文章 p と文
のを 3 個用意し，テストデータセットとの間で各々文
章 q の各々に存在するすべての品詞タグ・文字混合
体相違度の算出をする．そして，テストデータセット
n-gram の和集合である． ap は，文章 p を構成する記事
と最も文体が似ている学習データセットとの文体相違
の数である．記事とは，マイクロブログにおける 1 件
度（最も小さい文体相違度）を用いて著者推定を行う．
のメッセージのように，一度に投稿する文のまとまり
具体的には図 1 のようになる．ここで， t last はテスト
を指す．井上らは 𝐶𝑝𝑞 , 𝐷𝑝 および 𝐷𝑝 を用いることで， 2
データセットを作成する際に用いたツイートのうち，
つの文章 p, q における文体相違度 Dissimpos を以下のよ
投稿時間が最も古いものを指す．
うに定義している．
3 lucene-gosen,
https://code.google.com/p/lucene-gosen/
そこで，n の数に応じて各 n-gram に重み付けを行うこ
とで，よりデータセット内に含まれる，著者の文体を
表す n-gram を強くする．
2.4.
評価手法
多くの著者推定手法の評価は，2.2.1 で述べた著者推
定タスクの手順 5 において，テストデータ中の文章群
図 1 従来手法 [8]での学習データセット作成
の中で文体類似度順位が 1 位となる文章の割合である，
p
仮に推定対象ユーザ p のテストデータ Ttest に対し，
ui
ui
ui
ユーザ ui の学習データセット Ttrain,1 ，Ttrain,2 および Ttrain,3
PRECISION@1 を指標として評価を行ってきた．これ
を作成した場合，算出される文体相違度 DissimTop は以
とき，著者推定タスクの手順 4 で並び替えられる候補
下の式 (5)のようになる．
ui
DissimTop = max(𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1
),
ui
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1 ),
ui
𝐷𝑖𝑠𝑠𝑖𝑚𝑝𝑜𝑠 (𝑝, Ttrain,1
))
者群において 1 位となる候補者を推定対象文章の著者
2.3.
は，テストデータ中の各文章に対して著者推定を行う
であると推定するためである．
(5)
既存手法からの発展
井上ら [9] は大規模候補者群に対する著者推定手法
評価方法として，文体類似度順位の累積相対度数分布
を定量的に評価する MRR 及び，正解が上位 k 件以内
2.2.2 で説明した，我々がこれまでに発表したマイク
に入っていれば 1 と，そうでなければ 0 としてその平
ロブログのデータを用いた大規模候補者群に対する著
均をとる mean top-k call を評価方法として用いた．具
者推定 [8]では，推定に用いるメッセージの投稿時間に
体的には，MRR については式 (6)によって算出される．
ついての選択基準を十分に考察してこなかった．つま
ここで，Q はテストデータ中の文章の著者の集合，𝑁𝑞 は
り，各ユーザについて作成する学習データセットに用
いるメッセージの選択の際， t last の直後から k 個の
出力される候補者群順列中における候補者の順位であ
る．
tweet， t last の一週間前から k 個の tweet， t last の一ヶ月
M𝑅𝑅 =
前から k 個の tweet を用いるといったように，画一的
1
1
∑
|𝑄|
𝑁𝑞
(6)
𝑞 ∈𝑄
なツイート選択手法を取っていた．そのため，従来手
井上らが MRR 及び mean top-k call による評価方法
法のままでは各学習データセットで主とする話題が全
を用いたのは，著者推定タスクにおける候補者群の並
て統一されてしまう可能性が存在する．つまり，推定
び替えにおいて，実際の著者が 1 位に順位付けされて
対象文章と学習データセットが相違話題となる可能性
いるかだけでなく，上位に順位付けされているかを評
が高くなり，推定精度の低下が懸念される．そこで，
価するためである．これは，誤った推定をしない著者
本稿では k-means 法を用いてより話題分布を考慮した
推定手法が存在しない以上，推定結果を実用するため
学習データセット作成を行うことで，推定対象文章と
には複数の候補から人手によって選択することが要求
同一話題となる学習データセットの作成を行えるよう
されるためである．特に，推定精度低下が顕著となる
にする．
大規模候補者群に対する著者推定では，人手による確
また，従来手法 [8]では文章を特徴量に変換する際に
認が要求される．人手による推定を行う際は，複数の
品詞タグ・文字混合 2-gram を用いてきた．しかし，
推定結果から著者を精査することで，正しい著者推定
精度向上の観点から，特徴量は多く取得できる方が良
を行うことができる．しかし，そのためには 2 位以降
い．そもそも，従来手法 [9]では相違話題であるデータ
の上位に正解が含まれていなければならない．よって，
セット間での計算を行うため，品詞タグ・文字混合
大規模候補者群に対する著者推定の評価には，MRR に
2-gram を用いてきた．しかし，本研究では推定対象文
よる評価方法が適しているといえる．
章と同一話題となる学習データセットの作成を目指す
ため，推定対象文章と学習データセット間で話題が異
なることによる精度低下については気にしなくても良
3. 提案手法
3.1. 概要
いと考えられる．そこで，メッセージからより多くの
推定対象文章が含む話題に類似した話題分布を持
特徴量を取得することで，より精度を高めるため，文
つ学習データセットを適切に作成することで，より推
字 1-gram， 2-gram， 3-gram の併用を行う．
定精度を向上する手法について述べる．
また，各文字 n-gram について，n の数が大きくなる
具体的には，候補者となるユーザの投稿したツイー
ほどメッセージ中での出現頻度は小さくなる．しかし，
ト全てを用いて k 個の学習データセットを作成し，
我々は n の数が大きくなるほど，それぞれの文字
k-means 法を用いてクラスタリングを行うことで，含
n-gram はより著者の文体を表すものとなると考えた．
有する特徴量分布の異なるデータセットを選択する．
また学習データセット作成の際，メッセージから取得
者推定を行う．これにより，各ユーザの持つ学習デー
する n-gram の n に応じた重み付けを行うことにより，
タセット全てが互いに異なる話題分布をもち，推定対
より著者の文体を表す特徴量を取得する．
象文章に含まれる話題と類似する学習データセットを
作成した学習データセットとテストデータセット
の間で文体相違度 DissimTop を計算することにより，著
作成できる可能性が高くなるため，精度向上が実現で
きると考えられる．
図 2 提案手法の概要図
図 3
文体定量化手法のイメージ図
メッセージからの特徴量取得
3.2.
メッセージから特徴量を取得する際の手順につい
ては以下の通りである．
step 1.
ユーザ un が投稿したメッセージ t に対し，
2.2.2 で述べた叫喚フレーズの正規化を行う．
step 2.
メッセージ t から文字 1-gram，2-gram，3-gram
を取得し， ⃗⃗⃗⃗⃗⃗
xu n を作成する．
step 3.
xu n に含まれる各要素に対し， n-gram の n に
⃗⃗⃗⃗⃗⃗
応じて 3n 倍を行う．
step 4.
2.2.2 の式 (3)および式 (4)に基づき．各特徴量
の正規化を行う．
3.3.
学習データとテストデータの作成
学習データ及びテストデータを作成する手順は以
下に示す通りである．収集した全てのメッセージを 𝐷𝑎𝑙𝑙
step 2.
𝐷𝑎𝑙𝑙 から，ランダムに１つのユーザ ID 𝑢𝑖 を抽
出し， step3 から step 10 を適用した後，ユーザ ID
集合である UID に追加する．これを｜ UID｜ =n に
なるまで繰り返す．
step 3.
𝑢𝑖 が投稿したメッセージを，投稿時刻を用い
て降順に並び替える．
step 4.
𝑢𝑖 が投稿したメッセージのうち，図 1 に示す
ように投稿時刻が最新のものから k 件を選択し，
u
i
Ttest
とする．なお，k 件選択できない場合は，step2
に戻る．
step 5.
step 4 で選択したメッセージのうち，最も投
稿時刻が古いメッセージが投稿された時刻を t last
とおく．
step 6.
𝑢𝑖 が投稿したメッセージのうち，t last と比較し
u
とする．また，各ユーザについてのテストデータ及び
i
投稿時刻が古いものから順に k 件を選択し，Ttrain,1
学習データセットを作成する際に用いるメッセージ数
i
とする．Ttrain,1
に含まれるメッセージのうち，最も
を k とする．さらに，ここでは n 名に対する著者推定
投稿時刻が古いメッセージが投稿された時刻を
タスクを行うものとする．
t last にする．
step 1.
ユーザ ID 集合を UID とし， UID=∅とする．
u
step 7.
step 6 について，メッセージを k 件選択でき
なくなるまで繰り返す．
u
i
𝑢𝑖 について作成したメッセージ集合 Ttrain,1
step 8.
u
u
u
i
i
i
から Ttrain,e
について， e<6 であれば Ttrain,1
から Ttrain,e
u
i
までの全て，および Ttest
を廃棄する．
評価実験では，既存手法としては我々がこれまでに
用いてきた著者推定手法 [8]を用い，提案手法との比較
ui
ui
ui
Ttest
，および Ttrain,1
から Ttrain,e
の各データセッ
step 9.
評価実験
4.
トごとに，データセット内に含まれる全てのメッ
セージについて 3.2 で示した手順を適用し特徴量
とする．このときの流れを図 4 に示す．
を行う．
4.1.
実験環境
Twitter から収集した tweet をデータセットとして用
いた．データセットの概要は以下の通りである．
ui
ui
の場合， Ttrain,4
から Ttrain,e
の各データセッ

データ収集期間 : 2013 年 1 月～ 12 月
トに対し，k-means 法を用いてクラスタリングを行

総収集 tweet 数 : 7,955,714 名 ×最大 2,000 件
step 10.
e>6
う．このとき，k-means 法により分割するクラスタ
本実験で使用するデータセットに含まれるすべて
数は使用する学習データセット数の半数である 3
のメッセージには，そのメッセージを投稿したユーザ
とする．また各データセット間の距離計算につい
に固有の情報である「ユーザ ID」が付随する．ここで，
てはコサイン類似度を用いて，式 (7)のように行う．
Twitter を代表とするマイクロブログにおいては，引用
ui
ui
𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(Ttrain,a
, Ttrain,b
)
=1−
ui
ui
𝐶𝑜𝑠(Ttrain,a
, Ttrain,b
)
(7)
ここで，step 10 で設定したクラスタ数は，経験的に
やアプリによる投稿など，アカウントを所持するユー
ザ以外によるメッセージの投稿が頻繁に行われる．
設定したものである．
我々の手法では，メッセージを記述した人物の文体を
ui
以上により生成される Ttest
は，ユーザ ID 𝑢𝑖 を持つユ
ui
ui
ーザについてのテストデータとなり，Ttrain,1
, Ttrain,2
及び
ui
Ttrain,3 はそれぞれユーザ ID 𝑢𝑖 を持つユーザについての
特徴量として用いるため，当該ユーザ以外によって投
学習データとなる．つまり，各ユーザは k 件のメッセ
メンション（ @username ），ハッシュタグ (#hashtag) ，
ージから文字 n-gram を取得したデータセットである
他人の文章であるリツイート (RT)をデータセットから
ui
Ttest
を
稿されたメッセージは全て除く必要がある．そのため，
前処理としてデータセット内のメッセージに含まれる
1 つと， k 件のメッセージから文字 n-gram を取
除去した．また，各メッセージについて，メッセージ
得したデータセットのうち，投稿時刻がテストデータ
に付随するクライアントアプリについての情報から，
セットに最も近いメッセージから構成されたデータセ
bot による投稿など，ユーザ以外の文章であると判断
u
u
u
i
i
i
ット Ttrain,1
, Ttrain,2
,Ttrain,3
および k-means 法により選択さ
れた 3 つのデータセットからなる 6 つの学習データセ
したものについては除外を行った．
また，評価実験では形態素解析器として lucene-gosen
4
を利用する．辞書については， IPAdic のライセンス問
題を解決した NAIST-Japanese Dictionary 5 を形態素解析
ットの組を 1 つ持つこととなる．
に用いる基本の辞書とする．
NAIST-Japanese
Dictionary は IPA 品詞体系に基づく辞書であるため，
本実験での品詞体系は IPA 品詞体系に依存したものと
なる．
4.2.
評価実験全体の流れ
3.3 で作成した学習データとテストデータの組につ
いて，著者推定タスクにおける手順 2 と手順 3 の方法
で文体相違度を算出する．文体相違度算出には，項で
図 4 メッセージからの特徴量取得
3.4.
文体相違度の決定手法
説明した手法を用いる．次に，テストデータ中のすべ
文体相違度の計算は，これまでの我々の手法 [8]とほ
u
i
ぼ同様に以下の方法により行う．すなわち，Ttrain,1
から
ての文章に対して，著者推定タスクにおける手順 4 よ
り， 3.4 で示した手順を用いて文体類似度順位を算出
ui
ui
Ttrain,6
に対し，テストデータセット Ttest
に対する文体相
し， MRR を算出する．
違度を計算する．各学習データセットから得られた文
4.3.
予備実験
体相違度のうち，最も数値が小さなものを Dissimtop と
本研究は， 100,000 ユーザレベルでの大規模著者推
する．ただし， 2.2.2 項の式 (1)のみ，コサイン類似度
定手法の提案ということになっているが，各種パラメ
を用いた以下の式 (8)に置き換えて計算を行う．
ータ決定，及び，提案手法の有効性確認のため，候補
2
𝐷𝑖𝑠𝑠𝑖𝑚𝑐𝑜𝑠 (𝑝, 𝑞) =
√∑𝑖∈𝐶𝑝𝑞(𝑓𝑝𝑖 ) √∑𝑖∈𝐶𝑝𝑞(𝑓𝑞𝑖 )
∑𝑖∈𝐶𝑝𝑞 𝑓𝑝𝑖 ∙ 𝑓𝑞𝑖
2
(8)
4
IPADic legacy, http://sourceforge.jp/projects/ipadic/
NAIST-Japanese Dictionary,
http://sourceforge.jp/projects/naist -jdic/
5
者数 n=1,000，および k=30 として，予備実験を行った．
用いて学習データセットの選択を行う比較手法 b より
なお，評価手法には MRR を用いた．
提案手法が高い MRR を持っている．これについては，
4.3.1. 学習データセット数の決定
提案手法では推定対象文章から投稿時刻が近い学習デ
本節では，1 ユーザごとに作成する学習データセッ
ータセットを用いているため，従来研究 [8]で調査を行
ト数についての前実験を行う．具体的には，1 ユーザ
った，時刻経過によるユーザの文体の変化にも対応が
あたりの学習データセット数を 1 個から 63 個まで変化
できるものと考えられる．
させ，それぞれの精度についての比較を行う．結果と
4.3.3. n に応じた重み付けについての前実験
しては，図 5 のようになった．
次に，文字 n-gram 取得の際に n に応じた重み付けを
行う提案手法の評価実験を行う．結果，表 2 のように
なった．ここで，従来手法 a は文字 {1,2,3}-gram を用
いて，かつ n に応じた重み付けを行わない手法を示す．
また，従来手法 b は品詞タグ・文字混合 {1,2,3}-gram
を用いる既存手法 [8]を示す．それ以外については 3.3
項で説明した手順に順ずるものとする．
表 2
n に応じた重み付け
図 5 データセット数による精度変化
MRR
提案手法
0.849
図 5 からわかるように，学習データセット数が 6 付
従来手法 a
0.773
近で MRR が収束しており，17 個前後をピークに MRR
従来手法 b
0.825
が低下していることがわかる．そこで，提案手法では
学習データセット数を 6 個とすることにした．
表 2 から，提案手法は従来手法 a および従来手法 b
と比べ，高い MRR を示している．これは，2.3 項で述
4.3.2. 話題分布を考慮した学習データセット
生成の有効性確認
べたように，提案手法により著者の文体を表す n-gram
を強調することができているためである．
k-means 法を用いた「話題分布を考慮した学習デー
タセット生成手法」の有効性について確認する．ここ
4.4.
評価実験
で，比較手法 a，b については，学習データセットの作
本節では，提案手法を用いて 100,000 人レベルの著
成時に 3.3 項で示した step 10 を，それぞれ以下のよう
者推定を行った際の結果を示す．本実験においては，
に置き換えた際の結果である．
テストデータとして 1,000 ユーザを候補者中からラン
step 10-a.
u
u
i
i
e>6 の場合， Ttrain,1
から Ttrain,6
の 6 個のデー
タセットを選択し， ui の学習データセットとする．
step 10-b.
u
u
i
i
e>6 の場合， Ttrain,1
から Ttrain,e
の各データセ
ダムに選出し，推定を行うこととする．当該実験を 5
回行った結果として，MRR は平均 0.646，P@1 は平均
0.596 となった．その他の結果を表 3 に記す．
ットに対し，k-means 法を用いてクラスタリングを行
表 3
う．このとき，k-means 法により分割するクラスタ数
は 6 とし，また各データセット間の距離計算につい
てはコサイン類似度を用いて，式 (7)のように行う．
表 1
k-means 法についての評価
実験回数
MRR
提案手法
0.867
比較手法 a
0.864
比較手法 b
0.827
1
2
3
4
5
Average
5.
100,000 ユーザによる推定実験
MRR
0.668
0.622
0.637
0.644
0.657
0.646
P@1
0.623
0.573
0.585
0.593
0.608
0.596
P@10
0.752
0.719
0.728
0.733
0.746
0.736
P@100
0.856
0.859
0.858
0.866
0.846
0.857
おわりに
表 1 の結果から， k-means 法を用いて学習データセ
本稿では，マイクロブログデータに対する著者推定
ットの選択を行う提案手法は，推定対象文章と投稿時
手法について，推定に使用するメッセージの投稿時間
刻のより近い学習データセットのみを選択する比較手
を考慮した手法の提案を行った．本稿で提案した著者
法 a より，高い MRR を持っている．そのため，推定
推定手法を用いることで，マイクロブログのデータを
対象文章に近い話題をもつデータセットの選択ができ
用いた大規模候補者群に対する著者推定において，よ
ていることがわかった．また，ただ単に k-means 法を
り高精度の推定が行えることがわかった．
参
考
文
献
[1] mail
online,
http://www.dailymail.co.uk/news/article-2579345/Tw
itter-crimes-double-three-years-police-forces-reportsharp-rise-social-media-crimes.html,
accessed
2014-12-09
[2] CNET
Japan,
http://japan.cnet.com/news/society/35014782/ ,
accessed 2014-12-09.
[3] 時
事
ド
ッ
ト
コ
ム
,
http://www.jiji.com/jc/graphics?p=ve_soc_network2
0121021j-02-w550pcvirus, accessed 2014-12-30
[4] Narayanan A., Paskpv, H., et al. "On the Feasibility
of Internet-Scale Author Identification." Proc. of
IEEE Symp. on Security & Privacy, pp.300 -314,
2012.
[5] R. Schwartz, O. Tsur, A. Rappoport and M.
Koppel:
”Authorship
Attribution
of
Micro-Messages”, EMNLP-13, pp. 1880-1891, 2013.
[6] Ragel, R., Herath, P., and Senanayake, U.
"Authorship Detection of SMS Messages Using
Unigrams." Proc. of IEEE Industrial and Information
Systems, pp.387-392, 2013.
[7] Silva, R. S., Laboreiro, G., et al. "‘twazn me!!!;(’
Automatic Authorship Analysis of Micro -blogging
Messages." Natural Language Processing and
Information Systems, LNCS, vol.6716, pp.161 -168,
2011.
[8] 奥野峻弥，浅井洋樹 , 山名早人 ”マイクロブロ
グを対象とした著者推定手法の提案－ 10 ， 000 人
レベルでの著者推定－ ”, 情処研報 (DBS-159-12),
Vol.2014, pp.1-6, 2014.
[9] 井上雅翔 , 山名早人 : “品詞 n-gram を用いた著者
推定手法 : 話題に対する頑健性の評価 ”, 日本デ
ータベース学会論文誌 , Vol.10, No.3, pp.7-12,
2012.
[10] 浅井洋樹 , 秋岡明香 , 山名早人 : “きたあああああ
あああああああああああ！！！！！１１：マイク
ロブログを用いた教師なし叫喚フレーズ抽出 ”,
DEIM2013, A4-1, 2013.
[11] Syunya Okuno, Hiroki Asai, Hayato Yamana: ”A
Challenge
of
Authorship
Identification
for
Ten-thousand-scale Microblog Users”, IEEE BigData
2014, 2014.