Comments
Description
Transcript
携帯メールの絵文字解析による趣味・嗜好推定法
平成 21 年度電子情報通信学会東京支部学生会研究発表会 講演番号:79 携帯メールの絵文字解析による趣味・嗜好推定法 A User’s Hobby and Preference Estimation Method by the Pictographic Analysis in Cellular-phone E-mail B-15 山口 沙奈恵† 山下 諒†† 高見 一正† Sanae YAMAGUCHI Ryou YAMASHITA Kazumasa TAKAMI † 創価大学工学部 †† 創価大学大学院 工学研究科 † Faculty of Engineering, Soka University †† Graduate School of Engineering Soka, University 1 はじめに Step3:各絵文字が属する趣味情報を抽出する。 Step4:同じ趣味情報を持つ絵文字の数は加算する。 また、趣味情報の詳細情報から細目を特定する。 ユビキタス社会の進展に伴い、個人の嗜好に柔軟に対応でき るサービスへの期待が高まっている。注目したいのは日本にお ける携帯ユーザのEメール使用率は 94.5%、絵文字の使用率は 69.6%ときわめて高い。 本研究ではこの携帯絵文字に着目し、ユーザに合ったサービ スを提供するための、メールで使用している絵文字から個人の 趣味・嗜好を分析する方法を検討する。 2 5 絵文字分析による情報提供サービス メールに使われた絵文字から、その人の趣味や嗜好を推定す ることによって、その人の関心が何処にあるのかを特定する。 例えば、メールの内容を分析した結果、その人がサッカーの試 合観戦に興味がある人であると結論付けられた場合、その人に は最新の試合情報やチケットの販売情報を送信する、といった ようなサービスが考えられる。 3 6 研究課題 (1) 絵文字の分類、嗜好要素の明確化 ユーザの趣味・嗜好などを分析する為に用いることができる 絵文字を抽出し、使用用途や関心度の高さなどを判定する嗜好 要素を抽出する。 (2) 趣味・嗜好を分析するアルゴリズムの作成 絵文字からその人の趣味・嗜好を分析するアルゴリズムを作 成する。その上で、使用された絵文字とユーザの趣味・嗜好が マッチングしているかどうか判定し、評価とする。 4 評価システムの試作 システムは全て Windows 上で作成し、メールはテキストファ イルで作成し、解析を行なった。文章内に対象となる絵文字が あれば MySQL データベースに照らして分析し、その結果を出力 する。ここまでの過程を全て Perl のプログラムで実装した。 評価方法は、複数の絵文字を含む趣味・嗜好を意識したメー ルを解析させ、出力結果とユーザの主観とを比較して行う。 提案方式 (1) 趣味・嗜好要素の抽出と確信度の明確化 絵文字はドコモの i 絵文字を使用し、252個ある i 絵文字 の中から趣味・嗜好に関連性がある絵文字を97個抽出した。 その絵文字を「食物・飲物」 、 「スポーツ」 、 「行動」 、 「場所」 、 「乗 り物」 、 「物」 、の6グループに分類し、それぞれのグループ毎で 特徴のある意味要素として「趣味分類グループ(party) 」 「意味 分類グループ (meaning) 」 「詳細 (detail) 」 「確信度 (probabilty) 」 を付加した。更に確信度以外の各要素は一つの絵文字が複数の グループに属するものも可とする。 評価 31名(男性:22名、女性:9名)の被験者に試作システ ムを利用してもらい、一人一件のサンプルメールを収集した。 本評価では最大値を取った絵文字の主観値と評価値との差分を 取り、この差分が少ないほど評価としては良い結果であること にした。その結果を図1に示す。 その結果、男性の方に著しく評価が低いサンプルが幾つかあ ることが分かった。差分が大きくなった主な原因は「趣味要素 と感情要素の両方を併せ持つ絵文字の存在」 、 「似た意味を持つ 絵文字を併用したことによる数値の分散」 、 「被験者の設定した 絵文字の主観値と実際に使用したその絵文字の個数の不一致」 の3点が挙げられる。 全体的な結果としては、主観値と評価値の適合度が8割以上 (差分が0.2以下)の割合が、男性は59.1%、女性は7 7.8%、全体では64.5%という比較的高い数値を得るこ とが出来た。 表1.趣味・嗜好データベース no icon party meaning 103 乗り物 乗り物 104 行動 行動 105 乗り物 乗り物 男 女 男 女 男 女 detail 車(軽) 車で行く・ドライブ ドライブ 車 ―― タクシー probabilty 0.89 0.58 0.11 0.33 ― 0.08 (2)趣味・嗜好推定アルゴリズム 趣味を示す絵文字と嗜好を表す絵文字を抽出し、判定する具 体的なアルゴリズムをメール文章群Mとして以下に示す。 Step1:メール文章群Mから絵文字を抽出する。 Step2:各絵文字の個数を数える。 -79- 図1:男性・女性評価結果 7 まとめと今後の課題 本研究では文中に含まれる複数の携帯絵文字の検索・分析ア ルゴリズムを明確化し、実際に31名に試作システムを利用し てもらうことでそのアルゴリズムの有効性を評価した。また、 そのアルゴリズムを具現化するプログラムを作成した。 今後の課題としては、下記の項目が残っている。 ・プログラムとDBの改良 ・複数メール文章の解析 ・コンテンツ配信サービスの実施 Copyright © 2010 IEICE