Comments
Transcript
Twitter の投稿文章による人物像の推定 Estimation of personal
Twitter の投稿文章による人物像の推定 Estimation of personal features by analysis of Tweet set 長浜 祐貴*1, 遠藤 聡志*1, 當間 愛晃*1, 赤嶺 有平*1, 山田 考治*1 Yuuki NAGAHAMA, Satoshi ENDO, Naruaki TOMA, Yuhei AKAMINE, Koji YAMADA 琉球大学工学部情報工学科*1 University of the Ryukyus, Faculty of technology, The department of information engineering Email: [email protected] あらまし:Twitter に代表される SNS では日常的に個人の発信が繰り返されている.発信された tweet を統合し分析することで個々の性格や特徴などの人物像を明らかにし ,follower のためのパーソナリテ ィ公開や情報公開のリスク喚起に結びつけることが出来る.また得られた個人属性は,最適な学習スタ イルの提示など個人向けサービスの基礎データと成りうる.本研究では ,Twitter マイニングによる人物 像推定の最も基礎である性別推定を扱う. キーワード:Twitter,SVM,χ 二乗検定 1. はじめに Twitter は最大 140 文字の短文を投稿できる SNS であり,日本では約 900 万人が利用している. 140 文字という制限は,投稿の気軽さと読みやす さを両立させ,文章量の少なさが携帯電話やスマー トフォンで利用しやすいという特徴をもたらしてい る.スマートフォンを主な情報端末として利用する ことが多い学生には非常に相性が良い SNS である. リクルート進学総研が 1239 人を対象に行った「高校 生 の WEB 利用状況の実態把握調査」(1) に よ る と, SNS の利用率は 77.0%,Twitter を利用している学生 は 50.2%という結果になった.一般利用者を対象と した場合最も利用率が高い Facebook が,高校生限 定のこの調査では 22.6%であることからも学生への Twitter の普及率の高さがうかがえる. Twitter に投稿される文章は,感じたことや周囲 の出来事などを口語体で投稿することが多い.その 言い回しや使用する単語は人によって様々である. そこで,投稿された文章を解析し得られる情報から ユーザの人物像を推定できるのではないかと考えた. 口語文章を解析することで個人属性を発見し,個人 向けサービスの基礎データとして用いることで,ユ ーザの特性に合致したサービスを行うことが出来る. 本研究では人物像推定の第一歩として,Twitter に投稿された文章のみから性別を推定する方法を提 案する. 2. 先行研究 口語文章での性別推定研究として,池田ら (2) は blog の 投 稿 記 事 で 著 者 の 性 別 を 男 性 , 女 性 , 性別不明 の 3 クラスに分類する手法を提 案した. まず,著者の性別が明記されている blog を元に, 「俺」や「あたし」などの一人称代名詞,語尾の「 ね」 等の機能語,全形態素について χ 二乗値を求め,そ の上位一定数の形態素を素性とした.次に,SVM(3) を用いて分類器を作成,精度を判定した.その結果, 男性クラスに対し再現率 0.79 に対し精度 0.91 を, 女性クラスでは再現率 0.81 に対し 0.95 の精度を得 た. 池田らの手法は長文記事が多い blog を元にした 学習であり,短文が多い Twitter では精度に悪くな る可能性が考えられる.blog は整った形式の長文と いう学習データが多いが,Twitter は 140 字という制 約のため長文を投稿することが出来ない. そこで,池田らの手法が Twitter にも有効かどう かを含め,異なった素性を用いた性別推定アルゴリ ズムについて提案し実験を行う. 3. 提案手法 単語の χ 二乗値を用いる単語ベース,品詞の出現 割合を用いる品詞割合ベース,品詞並びの出現割合 を用いる品詞並びベースの3つの性別推定アルゴリ ズムについて提案する. 3.1 共通処理 3 つのアルゴリズムに共通する 2 つの処理につい て説明する. 【処理 1】性別が判明しているアカウントのリスト を用意し,男女のツイート郡をアカウント毎に得る 処理である.この処理で得たツイート群から得られ れた情報を元に性別推定を行う. 【処理 2】ツイート群から得られた情報を元にアカ ウントをベクトル化し,SVM を利用して学習させ る処理である.これを分類器として用い,性別を推 定したいアカウントもベクトル化,性別推定を行う. ツイート群からどのような情報を得てベクトル化 に用いるかは,3 つのアルゴリズムで異なる. 3.2 単語ベース性別推定アルゴリズム 得られた全ツイートに形態素解析を行い,全出現 単語リストを得る.それらの単語全てにおいて χ 二 乗値を計算し,その単語の素性値とする. このアルゴリズムでは,全形態素を素性として用 い た 場 合 と , 有 意 水 準 0.05 を 満 た す ,χ 二 乗 値 3.841 以上の単語のみを素性として用いる場合の2 つを想定する. 3.3 品詞割合ベース性別推定アルゴリズム 男性と女性では使用する品詞に違いが表れると仮 定して,品詞割合を素性とするアルゴリズムを考え た. 各アカウント毎に,出現した単語の品詞と出現頻 度から,品詞の出現割合を計算し,品詞を素性,各 品詞の割合を素性値とした.使用した品詞は以下の 12 個である. 名詞,動詞,形容詞,副詞,連体詞,助詞, 接頭詞,助動詞,接続詞,感動詞,記号, フィラー 3.4 品詞並びベース性別推定アルゴリズム 男性と女性では品詞の並び順に違いが表れると仮 定し,連続に並んだ3つの品詞の出現割合を素性と するアルゴリズムである. 例文「今日は良いお天気ですね」の品詞並び出現割 合を得る場合,まずは例文を形態素解析し品詞を算 出する. 今日(名詞)-は(助詞)-良い(形容詞)-お(接頭詞)天気(名詞)-です(助動詞)-ね(助詞) その文章の先頭から品詞を 3 つずつ取り出すと, 以下の 5 つの品詞並びが得られる. 今日(名詞) – は(助詞) - 良い(形容詞) は(助詞) - 良い(形容詞) - お(接頭詞) 良い(形容詞) – お(接頭詞) - 天気(名詞) お(接頭詞) – 天気(名詞) - です(助動詞) 天気(名詞) – です(助動詞) - ね(助詞) アカウント毎に全ての品詞並び数を算出し,その 割合を素性値とした. 4. 実験 実験では,性別が判明しているアカウントを男女 50 人ずつ用意し,各々のツイートを 50 件取得して, 3つのアルゴリズムについて実験を行った. 評価に用いるアカウントは,教師データとは別の 男女 50 人のアカウント,50 件のツイートである. 日々のツイート内容や使われる単語の変化を考慮 し,異なる日時の三回分のデータを取った. 4.1 実験結果 単語ベース性別推定アルゴリズムは,70%以上の 精度を安定して得ることが出来た(表 1).χ 二乗検定 を用いて使用する単語を 1/20 にまで減らしても, 大幅に精度が下がることは無かった. 表 2 に,χ 二乗値の大きかった上位 5 単語を男女 それぞれ示すと男性は名詞,女性は記号の χ 二乗値 が高いことがわかる. 表 1 単語ベース性別推定アルゴリズム 平均 実験 1 実験 2 実験 3 76.00% 73.00% 73.66% 使用単語数 11441 11342 11483 11422 Χ 二乗値 3.841 以上 71.00% 72.00% 71.33% 530 491 522.67 全形態素 72.00% 71.00% 使用単語数 547 男性 表 2 男女の χ 二乗値上位 5 単語 品詞 χ 二乗値 女性 品詞 χ 二乗値 僕 名詞 36.97 *) 記号 28.27 俺 名詞 19.05 (* 記号 28.27 多 形容詞 19.05 ω 記号 27.75 欲 名詞 14.04 ` 記号 27.75 員 名詞 14.04 `) 記号 21.01 品詞情報を利用した品詞割合ベース性別推定アル ゴリズム,品詞並びベース性別推定アルゴリズムに 関しては,60%前後の精度に留まった(表 3)(表 4). これは,全ツイートから算出した品詞割合や品詞の 並びには大きな違いが表れなかったからだと考えら れる. 表 5 に男性と女性の品詞割合が高かった単語を示 す. 表 3 品詞割合ベース性別推定アルゴリズム 平均 実験 1 実験 2 実験 3 品詞割合 64.00% 63.00% 63.00% 63.33% 表 4 品詞並びベース性別推定アルゴリズム 平均 実験 1 実験 2 実験 3 品詞並び 59.00% 55.00% 59.00% 57.66% 品詞 表 5 男女の品詞割合上位 割合 品詞 割合 名詞 0.74 名詞 0.61 動詞 0.13 記号 0.16 記号 0.04 動詞 0.13 副詞 0.03 形容詞 0.04 形容詞 0.02 副詞 0.03 実験の結果から,最も精度が良かったのは単語か ら χ 二乗値を計算して素性として用いる単語ベース 手法,次いで品詞割合ベース手法,品詞並びベース 手法となった.χ 二乗値の高い単語のみを見ると品 詞に偏りが表れたが,男女全体では品詞に大きな偏 りが表れなかったためだと考えられる. 5. まとめ 実験結果では単語ベース手法が最も精度が高かっ たが,品詞情報を利用したアルゴリズムでも 6 割前 後の精度を得ている.男女全体の品詞割合ではなく, 特定の品詞の着目や,χ 二乗値を用いた品詞情報の 算出といった新たな情報算出法を考案することで, より有用に品詞情報を利用できると考えられる. どのアルゴリズムでも日によって精度が変化した. これは,ツイート内容が変化し,推定に用いる素性 が常に変化するからである.アルゴリズムの精度を 常に安定させるためには,定期的にデータを取得し, 性別推定へ常に応用出来る素性や素性値を発見する 必要がある. 今後は,全体割合や品詞並び以外での品詞情報の 新たな利用を考案,性別推定アルゴリズムを出身地 の推定等へと応用し,より広い個人属性を推定を行 う. 参考文献 (1) 高校生のWEB利用状況の実態把握調査 : 調査報告 : リクルート進学総研 http://souken.shingakunet.com/research/2011/08/postdf21.html (2) 池田大介,南野朋之,奥村学: blog の著者の性別 推定 ,言語処理学会第 12 回年次大会(2006). (3) 高村大也,松本裕治: SVM を用いた文書分類と構 成 的 帰 納 学 習 法 , 情 報 処 理 学 会 論 文 誌,Vol44 No.Sig3,p1-p10.