Comments
Description
Transcript
感情推定アルゴリズムによるブログ著者の性格推定
所属: 電気情報工学科 研究タイトル: 感情推定アルゴリズムによるブログ著者の性格推定 氏名: 職名: 奥村紀之/Noriyuki OKUMURA 講師 E-mail: [email protected] 学位: 博士(工学) 所属学会・協会: 言語処理学会,人工知能学会,ACL,IEEE キーワード: 知識工学,自然言語処理,感性情報処理,テキストマイニング 技術相談 提供可能技術: ・知識構築,学習,応用 ・自然言語処理技術 ・大規模テキストデータの解析法 研究内容: 現在の研究内容としては,感情推定アルゴリズムを応用したブログ著者の性格推定に関するテーマを扱っている. 200 名程度の被験者から収集した被験者自身の性格モデル(Big Five)の回答結果と,被験者が公開しているブログや Twitter の内容から推定される擬似的な正確モデルの差分を明らかにする事で、オンラインコミュニケーションの活性化 を目指している.感情推定アルゴリズムは固有名詞や新語などの情報に弱く,対応できる語彙数が少ないという大きな 問題があるため,その補足情報として顔文字の利用を検討している. 顔文字に関する研究としては,現在インターネットで確認されているおよそ 70000 種類の顔文字に対するタグ付けを 進めており,40000 種程度の顔文字に対して種々のタグ情報を付与している.顔文字を構成する要素は,ありとあらゆ る記号列が考えられ,正規表現を用いた画一的な処理などが非常に難しい問題となっている.そのため,大規模な顔 文字の辞書を構築することにより,顔文字の構成要素になりやすい記号,複合的に利用されやすい記号などを統計的 に分析することによって,顔文字と感情の関係をパーツレベルで分析している. 感情推定アルゴリズムが対応できる語彙数そのものを拡張するための大規模知識の構築も同時に進めている.近年 では,Word2Vec などの分散意味表現が広く利用されるようになっているが,人間の感性を扱う上で重要となる連想とい う観点からの評価においては,未だ効率的なデータベース構築手法が提案されておらず,連想性能は極めて低いのが 現状である.そこで,Wikipedia などの大規模辞書を利用した,属性連鎖表現による概念空間の構築を進めている. これらの要素を複合的に利用し,ブログや Twitter での投稿内容からユーザの擬似的な正確モデルを構築する手法 に関する研究を進めている. 図 1 はあるユーザの性格モデル(黒線)と,そのユーザが Twitter に投稿した記事から推定した性格モデル(赤線), 及びブログに投稿した記事から推定した性格モデル(青線) を示している. 図に示すとおり,著者本来の性格モデルと,オンライン資源 から推定した性格モデルにはずれが生じていることが分かる. このずれの部分を自動抽出するための手法について研究を 進めている段階である. 提供可能な設備・機器: 名称・型番(メーカー) 大規模テキスト解析用サーバ 感情推定アルゴリズム 大規模顔文字辞書(タグ付き)