Comments
Description
Transcript
顔文字に着目した映画に対する tweet の感情抽出
顔文字に着目した映画に対する tweet の感情抽出 10971077 田中 美羽(灘本研究室) あらまし:本研究では,テレビ放送されている映画に対してリアルタイムにつぶやいているツ イートから感情を抽出し,時間軸に沿った感情の変化を分析する.その際に「楽しい」「面白 い」といったテキストベースの感情語だけでなく顔文字にも着目して感情を抽出する手法を提 案する. 1.はじめに 現在,Twitter などのマイクロブログが普及し ている.Twitter とは,140 字以内で自分の思っ たことを自由につぶやく事が出来るツールであ り,ユーザは気楽にリアルタイムにツイートする ことができる.その為,テレビを見ながらツイー トし,その番組に対するコメントを述べるといっ た,実況をしている人が増えている.実際にテレ ビ番組が盛り上がっている時間帯のツイートを 見てみると感情語や顔文字が多く見受けられ,そ れらツイートの中には視聴者の感情が多数含ま れている事がわかる.そこで本研究では,様々な テレビ番組の中からテレビ放送されている映画 に対象を絞り,その映画に対してリアルタイムに 投稿されたツイートから感情を抽出する.その際 にテキストベースの感情語だけでなく顔文字に も着目して感情を抽出する. 具体的には,まずテレビ放送されている時間帯 の映画に関するツイートを収集し,1 ツイート毎 に形態素解析をすることにより単語を抽出し,感 情辞書を用いて 1 ツイート全体の感情値を算出す る.顔文字が含まれている場合,本来ならば顔文 字の感情値を算出するのだが,同じ顔文字でも文 章との関係によって使われ方が違う為,本研究で はツイート文の感情語と顔文字の感情語との関 係によって分類する.この関係を「役割」と呼ぶ. そして,それぞれの役割ごとにツイート文の感情 値に対して重み付けをした値を 1 ツイート全体の 感情値とする. 2.感情抽出について 2.1 感情軸 本研究では,熊本ら[1]が提案している 3 本の感 情軸「楽しい⇔悲しい」「嬉しい⇔怒り」「のど か⇔緊迫」を使う.また本研究で扱う感情語とは, 「楽しい」「悲しい」「嬉しい」「怒り」「のど か」「緊迫」のことであり,印象語とは,感情語 「楽しい」に対して「わくわく」のような,その 感情語を指し示す語とする. 2.2 感情辞書拡張 熊本らが提案している感情抽出手法では,3 本 の感情軸それぞれに対し,新聞記事データベース に現れる任意の単語と印象語との共起を調べ,そ の結果に基づいて感情辞書を構築している.そこ で本研究ではこの熊本らの感情辞書を映画のツ イート用に拡張する必要がある.そのために 5 人 の被験者によるユーザ実験を行った.映画に関す る無作為に抽出した文章のみで構成された 300 ツ イートからそれぞれのツイートに対して,6 個の 感情語に対して当てはまるものを選んでもらっ た.その結果得られた形容詞と出現頻度の高い動 詞・名詞を印象語として映画のツイート用に感情 辞書を拡張した. 2.3 顔文字の感情語辞書生成 顔文字の感情語辞書生成のため,被験者 5 名に 顔文字のみを見てもらい 6 つの感情語のどれに当 てはまるか選んでもらった.実験の結果,174 個 の顔文字感情語辞書を作成した. 2.4 顔文字の役割について 顔文字について分析した結果,顔文字にはそれ ぞれ役割が存在し,文章に何らかの影響を与えて いることが分かった.村上ら[2]は顔文字の役割は 「強調」と「配慮(弛緩)」に分類できると述べ ている.本研究ではさらに「自嘲」が必要と考え, 顔文字の 3 つの役割を以下に定義する. ・強調:顔文字が文の意味(良い意味,悪い意味 含めて)をより強めている. ・自嘲:顔文字があることで,自分に呆れて笑う さま,さげすんであざ笑うこと,といったニュア ンスを感じさせる . ・弛緩:ネガティブな文面に対して,顔文字が文 の意味を少しでも弱めている,和らげている. また,上記の役割の特徴を発見するために予備 実験を行った.被験者 5 名に顔文字を含んだ 270 ツイートを見てもらい,「強調」「自嘲」「弛緩」 「その他」から選んでもらった.また感情語に対 しても同様にして選んでもらう.実験の結果,3 つの役割に分類された上位のツイートを見てみ ると,表 1 に示すような特徴があることが分かっ た. 表1.顔文字の役割 また,それぞれの感情語で 3 つの役割の頻度を 図 1 に示す.図 1 より,感情語が「楽しい」「嬉 しい」の場合,「自嘲」「弛緩」がほとんど見ら れず,「強調」が多いことが分かる.よって,本 研究では文章の感情語が「楽しい」「嬉しい」に 振れていれば,ツイートに含まれる顔文字の役割 は「強調」とみなすこととする.また,ツイート 文の感情語と顔文字の感情語が対の関係となっ ていれば「弛緩」と判断し,ツイート文が「~な い」と否定形であり,且つ顔文字の感情語が「楽 しい」「嬉しい」「のどか」であれば「自嘲」と 判断することとする. 図1.感情語ごとの顔文字の役割の頻度 2.5 顔文字の役割の重み付けについて 本研究では顔文字とツイート文の感情語との 関係が以下のようになる場合,役割毎に感情の重 みを付与することを行う.ここで i はある1ツイ ートを示し,TIMi は i における文と顔文字を含め た感情値を,DIMi は i における文のみの感情値を 示す. ・強調:文の感情語が「楽しい」「嬉しい」の場 合,また文の感情語と顔文字の感情語が同じ場合 TIMi = DIMi ×2 ・自嘲:文中に否定形が含まれおり且つ顔文字の 感情語が「楽しい」「嬉しい」「のどか」の場合 TIMi = DIMi×0.2 ・弛緩:文の感情語と顔文字の感情語が反対の関 係となる場合 TIMi = DIMi×0.3 3.評価実験 提案手法の有用性を測るために,2.4 の予備実 験の結果の上位 3 位を正解データとして,顔文字 を考慮しないで感情値を算出したシステムと,顔 文字を考慮して感情値を算出したシステムの, 各々に対する適合率,再現率,F 値を求めた.その 結果を表 2 に示す. 表 2.感情語算出システムの精度 顔文字を考慮した方が適合率,再現率,F 値共 に数値が上がり,良い結果となった.しかし感情 語によっては F 値が下がっているものがあった. 特に,「怒り」は顔文字を考慮しない方が F 値が 高くなっている.考えられる原因として, 「弛緩」 の重み付けが文の感情値を大きく下げてしまっ たため,適合率,再現率が共に下がった為と考え られ得る.これにより「怒り」の場合には「弛緩」 の文の感情値に対する重み付けの影響の大きさ を他の感情語に比べて弱めた方が良いことがわ かった. 顔文字を考慮して感情値を算出したシステム を使って,映画「サマーウォーズ」のテレビ放送 されていた時間帯の顔文字を含んだ tweet のみの 感情値を時間軸に沿って表示したものを図 2 に示 す. 22 時付近のところを見ると「悲しい」が突出 しており,顔文字を考慮しないで感情値を算出し たシステムでは同じ時間帯には「悲しい」は突出 していない.実際のこの時の映画のシーンでは登 場人物のおばあちゃんが死んでしまうシーンで あり,「あかんもう泣く(ノД`)」や「何度見て もここは辛いです…(´;ω;`)」といった文と顔 文字が共に「悲しい」を表すツイートが多く見ら れ,顔文字を考慮することによって,よりシーン にあった感情を取ることが出来た. 図 2.サマーウォーズ(顔文字考慮あり) 4.おわりに 本研究では,感情語辞書の拡張を行い,顔文字 感情辞書の生成を行った.また,文章と顔文字と の感情語の関係から映画に対するツイートの感 情値を抽出し,分析を行った.その際に,顔文字 の役割をそれぞれ定義し,重み付けを行った. 今後の課題は,顔文字の感情語辞書に登録して いる印象語と顔文字の数が少ない為さらに増や す必要がある.さらに役割を定義し,それぞれの 場合について重み付けを行ったが,重み付けの値 をより最適な値にする必要がある. 参考文献 [1] 熊本 忠彦,河合由起子,田中 克己,“新聞 記事を対象とするテキスト印象マイニング手法 の 設 計 と評 価 ”, 電 子情 報 通 信学 会 論文 誌 , pp540-548,2011 [2] 村上浩司,山田薫,萩原正人,“顔文字情報 と文の評価表現の関連性についての一考察”,第 17 回言語処理学会発表論文集,pp1155-1158,2012