Comments
Description
Transcript
Weblog 上の評判情報における形容詞の出現位置を考慮した賛否分類
情報処理学会第67回全国大会 5R-3 Weblog 上の評判情報における形容詞の出現位置を考慮した賛否分類 江崎 晃司† 東京理科大学大学院 東京理科大学 1 藤五郎‡ 松井 大和田 理工学研究科 理工学部 はじめに 2 近年の急速なインターネット環境の発達によ り,個人による情報発信が盛んになってきた. ここ最近においては,Weblog の登場によって即 時性を持った情報発信が可能となり,自分が使 用した商品やサービスなどの評判を掲載したサ イトが増えてきている. このような評判情報は,肯定的なものと否定 的なものに大きく分類できると考えられる.し かし Weblog においては,その評判情報が肯定的 であるか否定的であるかを示すラベルがつけら れていることはほとんどない.そのため,内容 を確認しなければ肯定的な評判と否定的な評判 のどちらが多いのかですら判断できない. Weblog は即時性を特徴としており,書き込ま れる評判情報は短く要約されたものが多い.こ のような要約された文章においては,文章の始 めまたは終わりにトピック・センテンスが含ま れているのが普通である.したがって,Weblog に書き込まれた評判が肯定的か否定的かを判断 するには,文章の始めと終わりに着目すればい いと考えられる. そこで,本論文では評価表現として使われる 形容詞の出現位置に着目し,評判情報を肯定的 か否定的かに分類する方法を提案する.本手法 を用いて Weblog に書き込まれた評判を分類する ことによって,内容を確認することなく肯定的 な評判と否定的な評判のどちらが多いのかを判 断できるようになる.また,本論文では Weblog 検索エンジンを用いて検索された評判を分類し た結果を示す. Reputation classification based on appearance position of adjectives on the Weblog † Koji ESAKI ([email protected]) ‡ Tohgoroh MATSUI ([email protected]) ‡ Hayato OHWADA ([email protected]) Department of Industrial Administration, Graduate School of Science and Technology, Tokyo University of Science (†) Department of Industrial Administration, Faculty of Science and Technology, Tokyo University of Science (‡) 勇人‡ 経営工学専攻† 経営工学科‡ 関連研究 賛否分類の手法は,文書を分類する手法と文 を分類する手法に分けることができる.本提案 手法は,文書を分類する手法である.文書単位 で評価を行う研究として,Turney ら[1]の研究が あげられる.彼らは映画等のレビューがそれを お薦めしているのかを,教師なし学習で判断す ることを提案している.彼らのアルゴリズムは, 与えられたフレーズと“excellent”という単語と の相互情報量,“poor”という単語との相互情報 量を計算することである.難しい統計的な手法 などは使わずに,相互情報量のみを利用して肯 定的か否定的かを分類するアルゴリズムを提案 している.約 74%の精度を達成することが出来 たと論文では報告している. また文レベルにおいては鈴木ら[2]の研究があ る.彼らは評価表現を文章中のどの対象につい ての,どの部分が,どうなのかという三要素か らなるものとして捉えている.これらの要素を 抽出し,評価表現を用いてこの文が肯定的なの か否定的なのか,非評価なのかを判断している. 彼 ら は ナ イ ー ブ ベ イ ズ 分 類 器 を 用 い た semisupervised な手法を適用している.正答率は約 70%にまでのぼる結果を得ることが報告されて いる. 3 重み付けによる出現位置の考慮 前述した関連研究は,どちらも評価表現の出 現して(使われて)いる「位置」には注目を置 いていない.文書要約などの研究では文書内で 最も大切だと思われる文章の「位置」に注目を するものが多い.本論文では評価表現の出現位 置を考慮することで,賛否分類をより効率的に する. 通常は,評価表現の出現回数をそのまま肯定 的な意味量・否定的な意味量として扱う.しか し本論文では,この意味量を算出する際に重み 付けを行うことで,評価表現の位置を考慮する. まず,肯定的な意味を持つ形容詞の集合を P , 否定的な意味を持つ形容詞の集合を N とする. エントリ e における形容詞 a の意味量 C (a, e) を次 2−393 のように定義する. C (a, e) = αβ p ( a ,e ) 表1: SVMによる分類結果 + (1 − α )β {l ( e ) − p ( a ,e )} ここで, α は出現位置パラメータ, β は重み パ ラ メ ー タ , l (e) は e に 含 ま れ る 単 語 の 数 , p(a, e) は e における a の出現位置を表す. α は 0 ~1 の間の値を取り,1 に近いほどエントリ内に おいて前方に出現する評価表現をより重視する ことになり,0 に近いほど後方に出現する評価表 現をより重視することになる. 次に,それぞれのエントリ e に対する肯定的な 意味量 S P (e) と否定的な意味量 S N (e) を求める. それぞれを次のように定義する. S P (e) = ∑ C ( a , e) 重み付け無し ←前方重視 α=1 α=2/3 α=1/3 後方重視→ α=0 Accuracy (精度) 59.0% 76.7% 73.7% 68.7% 62.3% Precision (適合率) 42.3% 67.1% 60.5% 54.4% 45.6% Recall (再現度) 53.1% 71.2% 63.7% 59.6% 55.0% 的・否定的それぞれの意味量をあわせた 963 個の 指標を用いて,Support Vector Machine (SVM)に 与 え て 分 類 を 行 っ た . 今 回 は 5-fold cross validation で実験を行った.表 1 にその実験結果 を示す. 5 考察及びまとめ 表 1 より,重み付けを考慮した場合の四種類全 a∈e ∩ P てにおける結果は,重み付けをしなかった場合 S N (e) = ∑ C ( a , e) における結果よりも精度が向上していることが a∈e ∩ N 明らかである.特に,重み付けを考慮しなかっ た場合における Precision とα=1 とした場合にお 以上の方法で求めた肯定的な意味量・否定的 ける Precision に関しては約 25%もの精度の向上 な意味量それぞれを用いることで,評価表現の が見られている.よって,本論文のように文章 出現位置を考慮することが可能となる. 中における評価表現の出現位置を考慮すること が,賛否分類問題において十分に必要性がある 4 実験 ことが実証されたといえよう. 実験対象とするデータは「ブッシュ大統領」 また,全ての場合において精度が向上してお に関するエントリ 300 件である.またその肯定否 り,四種類の重み付けパターンの中ではα=1 と 定の内訳は肯定的意見が 104 件,否定的意見が した場合がもっとも精度が高かった.次に精度 196 件である. が高かったものはα=2/3 とした場合である.こ まず,収集したエントリ 300 件を形態素解析器 れらの結果より,文章中において重要な意味を である CaboCha[3]を利用して形態素に分割する. 持つ単語は文頭に多く表れているということが 分割された結果から属性が「記号」となるもの わかる. を省き,形態素の総数を求める.これをエント リに含まれる総単語数とした.また,分割され 参考文献 た結果で,属性が「形容詞」となるものを見つ [1] Peter D. Turney. “Thumbs up of thumbs down? け出し,前述した式を用いて意味量をそれぞれ Semantic orientation applied to unsupervised 求める.ここでは,事前に作成した形容詞辞書 classification of reviews” In Proceedings 40th を参照して肯定的・否定的とエントリ内の形容 Annual Meeting of Association for 詞を分類していく.形容詞辞書は CaboCha で判 Computational Linguistics (ACL’02), pp.417断可能な形容詞 1600 語を三回に分けて「肯定 424, 2002. 的・否定的・どちらともいえる」の三つに人手 [2] 鈴木泰裕 高村大地 奥村学, “Weblog を対象 を用いて分類を行った.三回に分けて分類を行 とした評価表現抽出” 人工知能学会セマン い,二回以上「肯定的」と分類したものを最終 ティックウェブとオントロジー研究会 (SIGSWO-A401-02), 2004. 的な肯定的な意味を持つ形容詞として辞書を作 [3] 工藤拓, 松本裕治, “チャンキングの段階適用 成した.否定的な意味を持つ形容詞も同様にし による係り受け解析” 情報処理学会, 2002. て作成を行っている.最終的に肯定的な形容詞 が 442 語,否定的な形容詞が 519 語の合計 961 語 を形容詞辞書として用いた. エントリ内で使われている評価表現それぞれ の出現回数と出現位置を考慮して求めた肯定 2−394