Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル)
DEWS2008 B10-4 Blog 著者年代推定のためのエントロピによる特徴語抽出 泉 雅貴† 三浦 孝夫† 塩谷 勇‡ †法政大学大学院 工学研究科 電気工学専攻 〒184-8584 東京都小金井市梶野町 3-7-2 ‡産能大学 経営情報学部 〒259-1197 神奈川県伊勢原市粕屋 1573 E-mail: あらまし †{[email protected],[email protected]}, ‡[email protected] 本稿では、Blog 記事著者の年代推定を行うため、特徴語抽出と年代の判定方法を提案する。Blog 記事は特異な表 現を含むことが多く、通常の文書のために提案された手法の適用が難しい。本研究では、記事に出現する特徴語の年代偏りを抽 出するため、エントロピ概念を用い、単純ベイズ手法による年代推定する方式を提案する。最後に、実験によりその有償性を検 証する。 キーワード データマイニング, テキストマイニング, 情報抽出 Entropy based Age Estimation of BLOG Authors Masataka IZUMI† Takao MIURA† and Isamu SHIOYA‡ †Dept.of Elect.& Elect. Engr., HOSEI University 3-7-2, KajinoCho, Koganei, Tokyo, 184-8584 Japan ‡Department of Management and Information Science SANNO University 1573, Kamikasuya, Isehara city, Kanagawa 259-1197 Japan E-mail: Abstract †{[email protected],[email protected]}, ‡[email protected] In this investigation, we propose a probabilistic approach for estimating the ages of Blog authors by means of Naive Bayesian Classifier. We can learn context of characteristic words appeared in training data in terms of Entropy. The key idea is that we extract feature words specific to authors' ages, and we estimate ages of the BLOG authors. We show the effectiveness of our approach by experimental results. Keyword Data Mining,Text Mining,Information Extraction を設け、これを参照することによってその著者の性別や 1. は じ め に 血液型、趣味などを知ることができる。しかし、大半が 近 年 、 WebLog( Blog) の 利 用 者 は 爆 発 的 に 増 大 し 、 現 在 日 本 で は 2000万 人 以 上 の 利 用 者 が い る と 言 わ れ て い る 1 。 匿名であり、分類基準とはならないため、本研究の有効 Blog に は 、そ の Blog 著 者 の 日 記 、行 動 記 録 以 外 に も 、映 性が期待できる。 画やファッション、ゲームなど、世の中のさまざまなも 現 在 、 Blogに 対 し て い く つ か の 関 連 研 究 が あ る 。 こ こでは、著者の属性ごとに特徴語をどのように抽出し 同定を行うかを議論しており、それらは予め分類され て い る 訓 練 デ ー タ を 用 い る 。Tanabe[9]は 、言 語 学 的 観 点 (形 態 素 ・ 意 味 解 析 を 含 む )か ら 、 日 本 の 女 性 に お け る 文 章 の 書 き 方 に つ い て 研 究 を 行 っ て い る 。こ こ で は 、 日本においてその書き方の特徴は単語、もしくはその 単語の繋がりにあるという。しかしそれらには時々英 語 の 音 節 も 含 ま れ る 。 [10]で は 、 Blog記 事 か ら 著 者 性 別の判定方法においての研究を行っている。彼らの主 な 手 法 と し て バ イ ナ リ 分 類 器 で あ る Support Vector Machine (SVM)を 用 い て お り 、判 定 精 度 は 90%以 上 を 得 ているが、本研究ではマルチ分類を行うため手法が異 な る 。 Blog著 者 の 年 代 推 定 に 関 し て は 、 英 語 を 対 象 と し た 研 究 が あ る [5]。 こ こ で は 、 著 者 の 年 代 を 10代 (13 歳 -17歳 ),20代 (23歳 -27歳 ),30代 (33歳 -42歳 ),そ の 他 の 4 ク ラ ス に 分 け 、各 Blog記 事 を こ の 4ク ラ ス の い ず れ か に 分 類 す る 。 分 類 器 と し て 、 Multi-Class Real Winnow (MCRW)を 使 用 し 、 素 性 と し て 、 出 現 頻 度 に 基 づ い た のに対する主観的な意見や考えなどが多く記述されてい る 。さ ら に 、Blog 記 事 は 日 々 更 新 さ れ 、そ の 情 報 は リ ア ル タ イ ム 性 に 優 れ て い る 特 徴 を 持 つ 。現 在 こ の Blog 記 事 を マ ー ケ テ ィ ン グ な ど の 情 報 源 と 捉 え 、Blog 記 事 よ り 現 在流行しているものや、商品に対する意見や評判情報な ど を 獲 得 す る 研 究 が 盛 ん に 行 わ れ て い る [1][2][3]。し か し、このような情報は、著者の年齢や年代、性別、職業 などの属性に大きく異なる場合が多く、性別や年齢層に 絞 っ た 情 報 が 必 要 に な る [4]。 こ れ ら の 著 者 の 属 性 素 性 に は 年 齢 、年 代 、性 別 、職 業 の 他 に も 、出 身 地 、家 族 構 成 な ど が あ る 。本 論 文 で は 、「 著 者 の 年 代 」に 注 目 し 、Blog 記 事 の 年 代 分 類 手 法 を 提 案 す る 。現 在 、Blog で は そ の ペ ー ジ 上 に 著 者 の プ ロ フ ィ ー ル 1 Wikipedia http://ja.wikipedia.org/wiki/Weblog 書 き 方 に よ る 素 性 (品 詞 、 機 能 語 、 特 殊 語 等 ),内 容 に よ る 素 性 (内 容 語 )を 用 い 、正 解 率 76.2%を 得 て い る 。し か し英語と日本語では文章構造が異なり、特に日本語で は、形態素解析が必要となるため、分類器よる分類結 果はこれに影響し、英語を基にしたアプローチとは大 き く 異 な る 。 私 た ち は 、 す で に 日 本 語 の Blog記 事 に 対 し 、 確 率 過 程 を 用 い た Conditional Random Fields(CRF) に よ る Blog著 者 年 代 推 定 を 行 っ て い る 。 し か し 、 こ こ で は 分 類 精 度 は 個 々 の 著 者 に 大 き く 依 存 し 、 Blog記 事 には大量の引用文を含むため、過学習を起こしやすい 結 果 を 得 て い る [6]。 本 論 文 で は 、 日 本 語 の Blog記 事 に お い て 、 Blog著 者 の年代を特定するため、エントロピに基づく特徴語抽 出 を 提 案 す る 。こ の と き Blog記 事 の 特 性 を 考 慮 し 、Blog 記 事 中 の 各 単 語 に 対 し 2グ ラ ム ア プ ロ ー チ を 用 い る 。分 類を行う方法としては、単純ベイズ法を用いた分類手 法を提案する。 本論文では、まず第2章で本研究の具体的な提案手 法を示し、第3章でその実験を行い、第4章ではその 有用性を示す。最後に第5章で結論を述べる。 ができる。 特 徴 語 は こ の 分 類 に 対 し て 重 要 な 役 割 を 持 つ 。実 際 に、各特徴語 w1 ,..., wN に 対 す る 値 v1 ,..., v N が 与 え ら れ る 時 、そ の Blog 記 事 に 対 し 最 適 な ク ラ ス を 推 定 す る 。 このような特徴語を抽出する方法として、自然言語処 理 で は 一 般 的 に TF(出 現 頻 度 )や IDF(文 章 出 現 頻 度 逆 数 )を 用 い る こ と が 多 い 。本 研 究 の よ う に 、各 ク ラ ス に お け る 特 徴 語 を 抽 出 す る よ う な 場 合 、TF は 、ク ラ ス に属する全文章中に出現する単語 し 、こ の 値 は 単 語 IDF は 全 ク ラ ス 中 に お い て 、単 語 2. 提 案 手 法 ための特徴語抽出方法について述べ、それらを用いた Blog 著 者 年 代 推 定 方 法 を 示 す 。 C wi を 含 む ク ラ ス 数 を で表され、実際の単語 DF (i ) の 重 み と し て 、TF*IDF( tf ( k ) * log i 10 C )を 与 え る 。IDF DF (i ) はそのクラスに特出して現れる語ほど重みが大きくな る た め 、TF と の 積 に よ り 、そ の ク ラ ス に お い て 高 出 現 2.1. 形 態 素 解 析 Blog記 事 に お い て 各 年 代 ご と の 特 徴 語 を 捉 え る た め には、格情報の取得が重要であると考える。格とは、 名 詞 、名 詞 句 、あ る い は そ れ ら に 相 当 す る 句 が 、文 の 中でどのような関係を持つかを示すものである。日本 語においては、名詞の後に助詞(機能語)を付け加え る こ と に よ り 格 情 報 が 得 ら れ る 。 た と え ば 、 ”私 ”と い う 名 詞 の 後 ろ に 助 詞 を 付 け 加 え る こ と に よ り ”私 が ”: 主 格 、 ”私 を ”: 対 格 と い う よ う に 格 が 変 化 す る 。 し か し 、 Blog記 事 に お い て は 、 付 け 加 え る 助 詞 が 一 般 記 事 (ニュース記事等)とは異なり特殊な語が用いられる こ と が あ る 。た と え ば 、若 者 の 間 で は 、“ 私 ゎ ”と い うように、文法的には正しくないが、発音において同 じ音である“ゎ”を用いることにより主格を表してい る 。す な わ ち 、“ 私 ”や“ ゎ ”と い っ た 単 語 に お い て は 特 徴 語 と し て 捉 え る こ と が で き ず 、“ 私 wi の 頻 度 f i (k ) を 表 wi の 重 み と し て 考 え る こ と が で き る 。 DF(i)と す る と IDF は log 10 本 節 で は 、日 本 語 Blog 記 事 に お け る 著 者 年 代 推 定 の ck ゎ ”の よ う に 語のつながりによって特徴語として見なすことができ る。自然言語処理では、特徴語抽出において2グラム アプローチが有用な手法であることが知られている。 よって本研究では、単語に対し 2 グラムアプローチを 用いた特徴語抽出方法を提案する。 2.2. 徴 語 抽 出 本研究では、主に確率に基づいた年代推定を提案す る 。特 に 、Blog 記 事 の 各 語 に お い て 所 属 す る ク ラ ス を 考えることによって記事全体の分類問題を考える。こ の時、私たちは単純ベイズ法を用いた分類を行うこと 頻 度 か つ 、そ の ク ラ ス に 特 出 し て 現 れ る 語 ほ ど TF*IDF 値が大きくなる。 し か し 、 Blog 記 事 表 現 は 自 由 度 が 高 く 、 Blog 解 析 に おいてこのような特徴語抽出は有効に働かない。たと えば、各年代において出現頻度に偏りのある単語の出 現 頻 度 分 布 が 10 代 : 45 回 、 20 代 : 7 回 、 30 代 : 2 回 で あ っ た 場 合 、TF*IDF 法 を 用 い る と 全 ク ラ ス に お い て こ の 単 語 が 出 現 し て い る た め 、 IDF に よ る 重 み が 0 に な り 、こ の 単 語 が 10 代 の 特 徴 語 で あ る と 捉 え る こ と が 不可能である。 そこで、エントロピを用いた抽出方法を提案する。 エントロピは熱力学や情報理論などさまざまな分野で 利用されており、特に自然言語処理においては、単語 の 出 現 頻 度 な ど の 偏 り を 表 す た め に 使 用 さ れ る [7]。ク ラス C = {c1 , K , cm } に 対 し て 、 単 語 w に お け る エ ン トロピは以下で定義される。 ⎛ f ( wi ) f ( wi ) ⎞ ⎟ E ( w) = ∑ ⎜⎜ − log 2 T ( w) T ( w) ⎟⎠ i ⎝ T ( w) = ∑ f ( w j ) こ こ で 、 f ( wi ) は ク ラ ス i 中 に お け る 単 語 出 現 頻 度 、 T (w) は 単 語 w の相対 w の各クラス中の相対出現頻 度 の 総 和 を 表 す 。定 義 よ り 、単 語 w に お い て 、各 年 代 の出現分布に偏りがあればエントロピ値が低くなる。 本研究では、各単語に対し上述のエントロピ値が小 立 性 を 仮 定 し て い る た め 、 P ( D | ci ) に お け る 計 算 で は 、 各 単 語 の 相 対 出 現 頻 度 の 積 に よ り 単 純 化 で き る 。な お 、 さい順に各年代ごと一定数を取得し、それを特徴語と 各単語においてのゼロ確率問題を回避するため、本研 する。しかし、エントロピ値が小さく、かつクラス中 究 で は ラ プ ラ ス 法 を 用 い る [8]。本 手 法 で は テ ス ト 文 章 における相対出現頻度が低い単語は、そのクラスの特 徴語ではなく、むしろ各著者の特徴を表す語である可 能性が高い。 本実験では閾値を設け、相対出現頻度が低い単語に 対しては特徴語抽出を行わない手法をとる。前述のよ うに、単語間の繋がりを考慮するため、単語に対して を特徴語のみの単語ベクトル x = {w1 , K , wm } に 変 換 し 、 P( x | ci ) を P( wk | ci ) と 単 純 ベ イ ズ 仮 定 か ら 求 め 、最 大 の 確 率 を 得 る ク ラ ス ci を 所 属 の ク ラ ス と す る 。 一 般 は 2 グラムアプローチを用いる。 にベイズ学習法では、訓練事例が増加するほど特徴語 2.3. 著 者 の年 代 推 定 数が増え、分類器による精度向上が期待できる。 本手法では単純ベイズ法を用いた分類を行う。単純 さらに本研究においては、確信度に基づく一般的な ベイズ法は事前確率を用いて事後確率を求める手法で 単純ベイズ分類とは異なる分類手法を提案する。単純 あり、ベイズの定理に基づく。特に、自然言語処理に ベイズ法による分類では、上記に示したように最大確 おいてはクラスタリング等によく用いられる手法であ 率 を 取 る ク ラ ス を 決 定 し 、Blog 記 事 に そ の 属 性 を 割 り る。事前確率は、予め用意した訓練データより最尤推 当 て る 。し か し こ の 場 合 、ク ラ ス に 属 す る 確 信 度 (単 純 定によって求めることができる。単純ベイズ法では各 ベ イ ズ 法 に よ り 求 め ら れ る 条 件 付 確 率 )が 無 視 さ れ る 。 クラスの属性値に対し条件独立を仮定することにより、 そこで本研究ではこの確信度に基づいた分類を行うた 事前確率の計算を単純化している。 め 、確 信 度 に 対 す る 閾 値 を 用 い た 分 類 を 提 案 す る 。Blog 本 手 法 で は 単 純 ベ イ ズ 法 に お い て 、語 成るコーパス w1 ,K, wn か ら D = {w1 ,K, wn } に 対 す る ク ラ ス 集 合 C = {c1 ,K, cm } の 各 自 に お け る 条 件 付 確 率 p ( ci | D ) p ( ci ) * p( D | ci ) p ( ci | D ) = p( D ) これより、各クラスに対して求めることのできる事 後確率に対して、最大確率を取るクラスを選ぶことに より、コーパスにおけるクラスを推定することができ る。また、各クラスにおける事後確率を比較する際、 分 母 の 項 P(D) は 共 通 し て 用 い ら れ る た め 、 実 際 の ク ラ ス分類では分子の項のみで計算される。 各項の事前確率は最尤推定により予め用意した訓 練データにより、以下の式で求められる。 ∑ f (w ) p(c ) = ∑∑ f ( w ) i j i i j i j p( D | ci ) = ∏k =1 p( wk | ci ) = ∏k =1 n のクラスを決定付け、閾値以下の場合は“その他”の クラスを割り当てるものとする。これにより、確信性 が 高 い Blog 記 事 に 対 し て の み 分 類 を 行 う こ と で 、そ の 精度向上が期待できる。 3. 実 験 を以下により定義する。 j 記事に対し、最大値をとる確率が閾値以上の場合はそ n f ( wki ) + 1 ∑ j f ( wij ) + V (i ) こ こ で 、 V (i ) は ク ラ ス i 中 の 異 な り 語 数 を 表 す 。単 純 ベイズ法では、各クラスにおける単語間において、独 本提案の有用性を示すため、特徴語抽出、単純ベイ ズ法で用いる特徴語数、閾値による分類の各ステップ に 対 し て 検 証 を 行 う 。特 に 本 研 究 で は 関 連 研 究 [5]と の 比 較 を 可 能 に す る た め 、著 者 の 年 代 ク ラ ス を {10 代 (13 歳 -17 歳 ),20 代 (23 歳 -27 歳 ),30 代 (33 歳 -42 歳 ),そ の 他 } の4クラスに分類を行う。 実 際 に 使 用 す る 文 章 は 、Yahoo!Blog よ り 年 齢 が 予 め 分 か っ て い る Blog 記 事 を ラ ン ダ ム に 選 ん だ 20000 件 を 用 い る 。取 得 し た Blog 記 事 は 表 1 の 通 り で あ る 。ま た 取 得 し た 記 事 の 一 部 を 図 1 に 示 す 。こ れ よ り 、10 代 の 記 事 は 文 法 的 に 正 し く な い 文 章 が 多 く 、 ”w”や ”(笑 ”な ど の 特 殊 文 字 の 使 用 頻 度 が 高 い 。し か し 、30 代 に な る につれ、特殊文字の使用頻度が減り、特に文末では、 “ ま し た 。” の よ う な 用 法 が 多 く な る 。 年代 記事数 4645 10 代 2922 20 代 3364 30 代 9069 その他 表 1 取 得 し た 20000 件 の Blog 記 事 ここから、特徴語抽出、単純ベイズ法において各単 語の出現頻度を計算するために用いる訓練データとし て 、各 年 代 ご と 1000 記 事 、実 際 に 分 類 す る た め の テ ス ト デ ー タ 用 と し て 各 年 代 1000 記 事 、 計 6000 記 事 を ラ ンダムに抽出する。なお、本実験では形態素解析時に おいて、顔文字等の特殊文字を1語として出力させる た め 、顔 文 字 辞 書 を 用 い る 。ま ず 、Blog 記 事 に 対 し 顔 文字辞書を用いて、記事内に含まれる特殊文字に対し てエスケープ処理を行う。その後、形態素解析を行っ た後、リストア処理をすることによりこれら特殊文字 を 1 語として出力することができる。使用する顔文字 辞 書 は Yahoo!検 索 よ り ヒ ッ ト し た 順 に 15 個 ダ ウ ン ロ ー ド し 、 今 回 取 得 し た 特 殊 文 字 は 合 計 44765 単 語 で あ る 。 本 実 験 で は 形 態 素 解 析 と し て JUMAN を 用 い る 。 本実験で用いる評価指標は、判定率および分類に対 する分類精度指標として再現率、適合率、F 値を用い る。判定率はシステムが正解・不正解を問わずいずれ かの答えを出力した割合を示す。再現率は、実際の正 しい記事に対する正解の比率を示し、適合率は、シス テムが出力した答えに対する正解の比率を示す。再現 率、適合率の統合指標として F 値を用い、本論文では F 値を提案手法に対する分類精度として示す。 10 代 Blog 記 事 【 16 歳 】 さて。 さきほど暇だったのでポップンキャラ書いてみました。 ロキじゃぁー。 かわぃぃよ。 っ ほ 。 (笑 ・・・ 【 17 歳 】 3.1. 特 徴 語 抽 出 本節では、分類で用いる特徴語として、エントロピ に基づく抽出方法の有用性を示す為、比較実験により この有用性を検証する。 ここでは、低出現頻度の語を取り除くため、相対出 現 頻 度 閾 値 を 設 け 、本 実 験 で は そ の 値 を 2.8E-5 と 設 定 す る (お よ そ 出 現 頻 度 4 程 度 )。 本 実 験 で は 、 ト レ ー ニ ン グ デ ー タ を 用 い て 3000 件 の 記 事 を 解 析 し 、各 年 代 ご と に 特 徴 語 数 1000 件 取 得 す る 。 表 2 に2グラムにより形態素解析を行った結果を示 す。 年代 Blog 数 文章数 異なり語数 総語数 10 代 1000 13182 82489 138025 20 代 1000 16130 103675 180496 30 代 1000 13854 98873 167625 合計 3000 43166 233146 486146 表 2 2 グラムによる単語集計結果 表 2 よ り 特 徴 語 を 抽 出 し た 結 果 の 上 位 10 件 を 表 3 に示す。カッコ内はその語のエントロピ値を示す。さ ら に 本 実 験 で は 比 較 対 象 と し て 出 現 頻 度 上 位 10 の 語 を年代ごとに表 4 に示す。 表 4 より、各年代における出現頻度の高い語は、助 詞や助動詞、接尾語が多く含まれ、各年代間において 今 日 、 5 級 ☆ 首 飾 り +3 と 、 5 級 ☆ 鎧 頭 +1 を 手 に 入 れ ま し た w 首飾りは猫さんから借りましたが、頭は買いました^^ 最 近 1M も な く し た の に 、 900K の 出 費 ・ ・ ・ ・ イタイ・ ・ ・ ・ で も 、 こ の と ー り w 武 器 と 指 輪 ×?、 耳 飾 以 外 す べ ー て 印 に な り ま したw ほぼ同じような語が抽出できる。すなわち、各年代に ・・・ 適切でない。 20 代 Blog 記 事 【 25 歳 】 本日は中学時代の同窓会でした。 前回は4年くらい前だったかな? そ れ に し て も 変 わ る 子 は 変 わ る ん で す ね ?! ! 昔はそうでもなかった子がいきなり可愛くなってたりするし^^ びっくりですw ・・・ 【 27 歳 】 今日は私だけ布の裁断の仕事に行った。 は じ め は 2 人 で 行 く 予 定 だ っ た け ど 、ま だ ス ペ ー ス が な い と の こ と で 、 1 人 で 向 か っ た 。 4 ヶ 月 半 ぶ り の 出 勤 ! ! ドキドキし た 。 場 所 は シ ャ ド ウ ェ ル と い う と こ ろ で 、ア ケ ミ さ ん と い う 方 の フ ラ ッ トだった。 ・・・ 30 代 Blog 記 事 【 34 歳 】 今日は下の妹の妹の子の姪が泊まりにきています。 わかりにくいので相関図にしてみました。 3美ちゃんです。3年生の時くらいから、 春休み、夏休み、冬休みなどに泊まりにきます。 ただこの子!好き嫌いが多いんですよ! ・・・ 【 38 歳 】 毎 日 暑 い で す ね ぇ 。 (^_^); 異常気象ですね、やっぱり地球温暖化のせいでしょうか? 全国民がエアコン止めて、 自 動 車 に 乗 ら な け れ ば 外 気 温 5 度 は 下 が る よ な と 真 剣 に 考 え て( も 誰 も や ら な い っ て 俺 を 含 め て )る 今 日 こ の 頃 皆 さ ん い か が お 過 ご し でしょうか。 ・・・ 図 1 取得した記事 おいて出現頻度の高い語は、他の年代においても高い 傾向にあり、分類器の素性として用いることはあまり 表 3 で示す特徴語は、年代間の異なる語が多く取 得 さ れ て い る 。 た と え ば 、 10 代 で 取 得 し た 語 は 10 代 特有の語が多く出現しており、エントロピ値が小さい ことから他の年代ではほとんど使われない。それに対 し 20 代 で 取 得 し た 語 は 仕 事 関 係 な ど の 内 容 語 を 含 む 語 が 多 く 出 現 し て い る 。し か し 、10 代 の 語 と は 異 な り エントロピ値が比較的高いことから、他の年代でも見 ら れ る 語 を 用 い て い る 傾 向 に あ る 。30 代 で 取 得 し た 語 は 、 10 代 や 20 代 と は 異 な り 、 助 詞 や 助 動 詞 を 含 む 語 が多い。他の年代と比べて、比較的文法に沿った書き 方 を し て い る こ と が 分 か る 。反 面 、20 代 同 様 エ ン ト ロ ピが高く、際立った用語ではない。 10 代 な ぃ ↑ ぢ 今日 だ ゃ ぁ ゎ す ぃ (0.44) ぃ (0.35) ↑ (0.49) ゃ (0.54) ゎ (0.0) ょ (0.29) っ (0.47) ん (0.39) 、 (0.0) ょ (0.32) 表 3 20 代 30 代 一 日 (1.44) か な ぁ (1.44) 仕 事 を (1.20) 人 も (1.42) お 客 (1.38) 屋 さ ん (1.38) 仕 事 が (1.15) 仕 事 の (1.13) ま し た ☆ (1.28) お 休 み (1.31) の よ う な (1.30) の だ が (1.25) と な り (1.28) で あ る 。 (1.18) な っ て い る (1.20) よ う で す (1.31) 為 に (1.22) 思 っ て い (1.29) が (1.31) れ て い た (0.97) エントロピによる特徴語抽出 10 代 20 代 30 代 ・ ・ ! ! と か ました 。 ます 。 は 、 です 。 ませ ん ね 。 で す ・ ・ ました 。 ! ! は 、 ます 。 です 。 と いう ね 。 が 、 に は ました 。 ・ ・ は 、 ます 。 が 、 です 。 に は で 、 と いう ませ ん 表4 を得る。判定率に関して、ベースラインでは、高出現 頻度の語を用いているため、特徴語数が少ないときで も高い値を得る。一方、エントロピによる分類では、 低出現頻度の語も特徴語に含むため、一定以上の数を 考察する必要がある。 表 5~ 7 に お い て 各 年 代 を 比 較 す る と 、 ベ ー ス ラ イ ン お よ び エ ン ト ロ ピ に よ る 分 類 共 に 、10 代 に お け る 分 類 精 度 は 比 較 的 よ く 、特 徴 語 数 2000 に お い て 、ベ ー ス ラ イ ン で は F 値 0.68、エ ン ト ロ ピ に よ る 分 類 で は 0.70 を 得 る 。 し か し 、 20 代 、 30 代 で は 10 代 と 比 較 す る と 精 度 が 悪 く 、エ ン ト ロ ピ に よ る 分 類 で は F 値 が 20 代 で 0.50、 30 代 で 0.59 と な る 。 出現頻度による特徴語抽出 3.2. 特 徴 語 数 の違 いによる分 類 本節では、単純ベイズ法で用いる特徴語として、エ ントロピによる特徴語選択及び、特徴語数の依存性を 確 か め る 。tf 値 に 基 づ い た 特 徴 語 選 択 方 法 を ベ ー ス ラ イ ン と し 、 各 年 代 の 特 徴 語 を 50~ 2000 ま で 変 化 さ せ 、 各クラスに対して得られた条件付確率が最大のものを その記事のクラスとする。これによる全体の結果を表 8 に 示 し 、 各 年 代 ご と の 結 果 を 表 5~ 7 に 示 す 。 特徴 語数 エン トロピ tf 50 100 500 1000 1500 2000 0.69 0.14 0.46 0.68 0.70 0.24 0.50 0.71 0.71 0.63 0.59 0.82 0.69 0.76 0.65 0.85 0.70 0.83 0.66 0.86 0.70 0.86 0.68 0.87 (各 項 目 に お い て 上 :F 値 下 :判 定 率 ) 表 5 特徴 語数 エン トロピ tf 特 徴 語 数 と F 値 ・ 判 定 率 の 関 連 (10 代 ) 特徴 語数 エン トロピ tf 100 500 1000 1500 2000 0.53 0.18 0.36 0.93 0.54 0.34 0.43 0.95 0.52 0.80 0.46 0.96 0.54 0.92 0.49 0.97 0.53 0.95 0.49 0.97 0.50 0.96 0.51 0.97 特徴 語数 エン トロピ tf を検証する。単純ベイズによる分類結果のうち、判定 閾値σを用いて確信度が高いものに対してのみ最終的 な 出 力 を 行 う こ と で 、正 確 性 を 保 証 す る こ と が で き る 。 Blog 記 事 に 対 す る 10 代 、20 代 、30 代 の そ れ ぞ れ の ク ラスに属する条件付確率値を p10 , p20 , p30 と す る と (単 純 ベ イ ズ 法 に よ り 算 出 さ れ る )、 ま ず そ れ ぞ れ の 値 に対し正規化を行う。 pi′ = pi (i = 10,20,30) p10 + p 20 + p 30 pi′ と 判 定 閾 値 を 比 較 し 、判 定 閾 値 以 上 を と る も の は Blog 記 事 に そ の ク ラ ス を 割 り 特 徴 語 数 と F 値 ・ 判 定 率 の 関 連 (20 代 ) 50 0.53 0.19 0.54 0.91 100 0.48 0.33 0.53 0.92 500 0.49 0.79 0.54 0.95 1000 0.52 0.88 0.54 0.95 1500 0.52 0.93 0.54 0.96 当て、それ以外の場合は“その他”のラベルを割り当 て る 。本 研 究 で は 判 定 閾 値 と し て 、σ =0.1,… ,0.99 ま で を 用 い 、 各 年 代 に お け る 特 徴 語 数 を 100,500,1000,2000 語 と 変 化 さ せ て 実 験 を 行 う 。 そ の 結果を表 9 に示す。 2000 0.59 0.96 0.55 0.96 (各 項 目 に お い て 上 :F 値 下 :判 定 率 ) 表 7 本節では確信度に基づいた分類を行い、その有用性 こ の 時 、最 大 値 を と る 50 (各 項 目 に お い て 上 :F 値 下 :判 定 率 ) 表 6 3.3. 確 信 度 に基 づく分 類 特 徴 語 数 と F 値 ・ 判 定 率 の 関 連 (30 代 ) 50 100 500 1000 1500 2000 0.59 0.17 0.46 0.84 0.57 0.30 0.49 0.86 0.58 0.75 0.52 0.91 0.58 0.85 0.56 0.93 0.59 0.91 0.56 0.93 0.60 0.93 0.58 0.93 (各 項 目 に お い て 上 :F 値 下 :判 定 率 ) 表 8 特 徴 語 数 と F 値 ・ 判 定 率 の 関 連 (全 体 ) 表 8 よ り 全 体 の 結 果 を 比 較 す る と 、tf を 特 徴 語 選 択 に用いたベースライン結果は、分類精度が特徴語数に 大 き く 依 存 し 、 特 徴 語 数 50 件 を 用 い た と き の F 値 は 0.46、 特 徴 語 数 2000 件 で 0.58 の 精 度 を 得 る 。 こ れ に 対して、エントロピを用いた特徴語選択では、分類精 度 は 特 徴 語 数 に 大 き く は 依 存 せ ず 、特 徴 語 数 50 件 で F 値 は 0.59、特 徴 語 数 2000 件 で 0.60 と 、安 定 し た 結 果 閾値 特徴 語数 100 特徴 語数 500 特徴 語数 1000 特徴 語数 2000 0.1 0.3 0.5 0.7 0.9 0.99 0.57 0.30 0.57 0.30 0.57 0.30 0.59 0.18 0.69 0.05 0.74 0.01 0.58 0.75 0.58 0.75 0.59 0.71 0.63 0.47 0.67 0.25 0.73 0.11 0.58 0.85 0.58 0.85 0.60 0.81 0.62 0.60 0.68 0.38 0.72 0.19 0.60 0.93 0.60 0.93 0.61 0.87 0.64 0.71 0.69 0.52 0.71 0.33 (各 項 目 に お い て 上 :F 値 下 :判 定 率 ) 表 9 閾値と F 値・判定率の関連 閾値を増加させると分類精度が上がり、特徴語数 2000 語 、 閾 値 σ =0.99 に お け る F 値 は 0.71 で あ り 、 閾 値 を 用 い な い 場 合 に 比 べ て 、0.13 の 精 度 向 上 に 繋 が る 。ま た 、判 定 率 は 、閾 値 の 増 加 に 伴 い 大 幅 に 減 少 し 、 上 記 の 場 合 で は 判 定 率 が 0.33 に な り 閾 値 を 用 い な い 場 合 と 比 較 し 、0.60 の 低 下 と な る 。し か し 、判 定 率 0.33 は、その著者の過去の 3 記事分を解析することによっ て判定可能であることを示す。特徴語数の変化による 分類精度は変化が見られず、安定した結果を得る。特 徴数が増えるにつれ、判定率のみが上昇する。 こ れ ら の 結 果 と 関 連 研 究 [5]に お け る 分 類 精 度 と を 比 較 す る 。各 手 法 に お け る 大 ま か な 違 い を 表 10 に 示 す 。 関 連 研 究 [5] 37478 1405209 英語 1 グラム単語 書き方による素性 内容による素性 WCRW 使 用 Blog 数 使用記事数 コーパス言語 素性 分類器 本手法 6000 6000 日本語 2 グラム単語 エントロピによる抽出 グラムアプローチによってエントロピを用いた特徴語 抽 出 に よ り 、 F 値 0.71 の 分 類 精 度 を 得 る こ と が で き た 。 特 に 、 10 代 に お け る 分 類 精 度 は 0.86 と な り 、 シ ス テ ム の 実 用 化 と し て は 大 い に 期 待 で き る 。20 代 、30 代においては、文章の書き方が類似しており、英語、 日 本 語 両 方 に お い て 、Blog 記 事 の 著 者 分 類 が 難 し い こ とが分かる。しかし、提案手法では十分な精度で分類 できていることから有効性が示せたと言える。 単純ベイズ 表 10 本 手 法 と 関 連 研 究 [5]と の 違 い 表 10 よ り 、 提 案 手 法 で は 訓 練 デ ー タ 数 が 少 な い 。 本 手 法 に お け る 比 較 対 象 デ ー タ を 特 徴 語 数 2000 語 、閾 値 σ =0.99 の 分 類 結 果 と し 、関 連 研 究 [5]の 分 類 結 果 に 対 し F 値 に よ る 評 価 指 標 に 統 一 し た 結 果 を 表 11 に 示 す。 本 手 法 で は 研 究 [5]と 比 較 し 、 10 代 ,30 代 に お い て 分 類 精 度 が よ い 。 実 際 、 10 代 で は F 値 が 0.86、 30 代 で は 0.69 と な っ て い る 。 さ ら に 、 20 代 に 関 し て は 研 究 [5]が 精 度 0.65,本 実 験 の 0.57 と 比 べ て 良 好 で あ る 。 全 体 的 に は 共 に お よ そ 0.71 と 同 等 の 分 類 結 果 を 得 る 。 26 歳 の Blog 記 事 (10 代 と 誤 判 定 ) ★お国自慢バトン★ ★内容★ 自分の、住んでるお国(県)を紹介するバトン 1 .あ な た の 住 ん で る 県 は ? 高知県です 場 所 ・ ・ 解 る ? 四 国 の 一 番 ?よ ? 解らない人 意外と多いから、凹むわぁ 2 .ど ん な と こ が 有 名 ? 桂浜♪ な ん た っ て 坂 本 龍 馬 像 が あ る か ら (゚∇ ^d) ネッ! あとは はりまや橋♪ 日本がっかり名所の一つです・・ ・・・ 提案手法 関 連 研 究 [5] 10 代 20 代 30 代 全体 27 歳 の Blog 記 事 (30 代 と 誤 判 定 ) 0.86 0.84 0.57 0.65 0.69 0.57 0.71 0.71 最 近 唐 辛 子 で は 飽 き 足 ら ず 、更 に そ の 上 か ら 激 辛 ソ ー ス を か け て ご 飯を食べてます。 周りの視線が気になりますが・・・きっときのせいでしょう。 よ く「 味 覚 音 痴 な の ? 」っ て 聞 か れ ま す が 、そ ん な こ と は あ り ま せ ん。 た ま た ま 辛 い も の が 好 き な だ け で す 。。。 多 分 。 ・・・ 表 11 本 手 法 と 関 連 研 究 [5]と の F 値 比 較 4. 考 察 特徴語抽出においてエントロピによる抽出結果を 見 る と 、 各 年 代 に お い て 10 代 は 若 者 特 有 の 語 、 20 代 は 仕 事 な ど の 内 容 語 、30 代 は 助 詞 や 助 動 詞 な ど 文 法 に 沿 っ た 文 章 の 書 き 方 と い っ た 特 徴 を 得 た 。 20 代 と 30 代における特徴語では、比較的エントロピが高く、他 の 年 代 に も あ る 程 度 使 用 さ れ て い る こ と か ら 、20 代 と 30 代 に お け る 分 類 が 10 代 に 比 べ て 困 難 で あ る 要 因 と な る 。こ れ は 表 5~ 表 7 お よ び 表 11 に お け る 各 年 代 の 分 類 精 度 に お い て も 理 解 で き る 。 20 代 と 30 代 に お い て、分類に失敗した記事を図 2 に示す。図 2 を見ると 各記事は書き方やその内容においてあまり差がなく、 人手による分類を行おうとしても困難である。また、 Blog 記 事 に は 引 用 文 が 多 く 用 い ら れ て お り 、そ れ が 分 類精度の低下に繋がる。しかし、ニュース記事とは異 なり、それが引用文であると示すタグやハイパーリン ク な ど が な く 、Blog 記 事 か ら 引 用 文 を 取 り 去 る こ と が できない現状となっている。 エントロピによる分類結果では、特徴語数に関係な く安定した分類精度を得る。さらに特徴語数を増やす につれ判定率が上昇する。これは、各年代に関して出 現頻度に非常に偏りのある語を特徴語として使用して いるためであり、その後に高出現頻度の語を追加する ことにより、分類精度を保ったまま、判定率を上げる ことができる。これより、エントロピによる素性選択 が Blog 記 事 に 対 し て 有 効 で あ る こ と が 分 か る 。 5. 結 論 本 論 文 で は 、 Blog 記 事 本 文 を 用 い て 、 Blog 記 事 の 著 者 年 代 推 定 を 行 っ た 。Blog 記 事 は 一 般 記 事 と は 異 な りさまざまな書き方をしているため、本研究は非常に 困 難 で あ る 。 し か し 、 こ れ ら Blog の 特 徴 を 考 慮 し 、 2 33 歳 の Blog 記 事 (20 代 と 誤 判 定 ) 一昨日、テレビをみててね、 面白い言葉があったのです。 「遊び欲」 ・・・聞いて ハッ! って。 幼い頃を思い出してください。 幼い子供って、 一日中、あきひんのか!って思うぐらいたくさん遊ぶ。 泥んこになったり、走り回ったり、 高いトコロから飛び降りたり、障子に穴を開けたり(笑) そのうち、自分達で独自の遊びを発明したり。 ・・・ 33 歳 の Blog 記 事 (10 代 と 誤 判 定 ) ステージ結果 1 位 パオロ・ベッティーニ(イタリア、クイックステップ) 4h19'31 2 位 トル・ハスホフト(ノルウェー、クレディアグリコル) 3 位 ルーカ・パオリーニ(イタリア、リクイガス) 4 位 ロ ビ ー・マ キ ュ ア ン( オ ー ス ト ラ リ ア 、ダ ヴ ィ タ モ ン ロ ッ ト ) 5 位 ウロス・ムルン(スロベニア、フォナック) 6 位 フランシスコホセ・ベントソ(スペイン、サウニエルデュバ ル) 7 位 イニャキ・イサーシ(スペイン、エウスカルテル) 8 位 ベルンハルト・アイゼル(オーストリア、フランセーズデジ ュー) 9 位 ジャンパトリック・ナゾン(フランス、アージェードゥーゼ ル) 10 位 エ リ ッ ク ・ ツ ァ ベ ル ( ド イ ツ 、 ミ ル ラ ム ) ・・・ 図 2 システムが誤判定した記事 文 献 [1] 鈴 木 泰 裕 , 高 村 大 也 , 奥 村 学 – “ Weblog を 対 象とした評価表現抽出,”人工知能学会, セマンティ ックウェブとオントロジー研究会 SIG-SW&ONT-A401-02,2004 [2]古 林 紀 哉 , 平 野 耕 一 , 高 橋 淳 一 -ブ ロ グ 記 事 の 自 動 分 類 に よ り 消 費 者 意 識 の 側 面 を 捉 え る 試 み , NRI技 術 創 発 , 2006 [3] 森 本 和 伸 , 林 貴 宏 , 尾 内 理 紀 夫 -興 味 発 見 を 支 援 す る Blog記 事 推 薦 シ ス テ ム 情 報 処 理 学 会 論 文 誌 , 2006 [4] 池 田 大 介 , 南 野 朋 之 , 奥 村 学 , blogの 著 者 の 性 別 推 定 , 言 語 処 理 学 会 第 12回 年 次 大 会 , 2006 [5] Schler, J. et al. : Effects of Age and Gender on Blogging , AAAI05, 2005 [6] Masataka Izumi , Takao Miura : “Estimating The Age of Blog Authors” IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM), 2007 [7]堀 部 安一 会社, 1989 [8] 北 : “情 報 エ ン ト ロ ピ 論 ”, 森 北 出 版 株 式 研 二 :” 確 率 的 言 語 モ デ ル ”, 東 京 大 学 出 版 会 , 2004 [9]Tanabe,K.: Speech Patterns of Japanese Girls or Gals –Symbol of Identity and Opposition to Power, OPAL 3,Queen Mary, Univ. of London ,2005 [10]Berger, A.L., Della Pietra, S.A. Della Pietra, V.J. : A maximum entropy approach to natural processing, Computational Linguistics, 1996 language