Comments
Description
Transcript
ブランド名に基づくの化粧品レビュー文書のカテゴリ分類 への取り組み
情報処理学会第 76 回全国大会 4P-6 ブランド名に基づくの化粧品レビュー文書のカテゴリ分類 への取り組み 安部小百合 Ý Ý Þ 小林一郎 Þ お茶の水女子大学理学部情報科学科 お茶の水女子大学大学院人間文化創成科学研究科理学専攻情報科学コース ¯ 同時に多くの化粧品を使用する はじめに 近年,インターネットにおける口コミサイト, ,ブ ¯ 組み合わせに相性がある ログに例えられる の発展により,ユーザの意見が多数発信されるように なった. は消費者の声を多数有しており,特に商 品に関する意見や評判の文書データは他の消費者の商 品選択の際に有益な情報となりうる.しかし,これら 文書量は膨大であり,全てに目を通して判断すること は時間や労力の面から不可能であるため,効率的に情 報収集を自動化をできる解決法が求められている.こ の問題へのアプローチとして,レビュー文書の分類や 情報抽出,要約の手法等が活発に研究されている. 本研究では化粧品レビュー文書からの情報抽出に着 目する.化粧品における商品のレビュー文には,商品 これらの特徴を加味して化粧品に特化した分析をする ことにより,一般的な商品と違った化粧品独自の評価 基準に関する情報を得られる可能性がある.本研究で は,特に他のブランド名が出現するレビュー文におけ る対象ブランドと他のブランドの関係に着目する.大 量のデータからブランド間の関係性を抽出し,ユーザ に提示することは商品選択の際に非常に有用であると 考えられる. 他のブランド名が出現するレビュー文における関係 は大きく以下の つに分けることができると仮定する. 間の比較や併用,ブランドの転向等が,様々な状況下で 評価が現れている.これらの化粧品のブランド間の関 比較: 購入を検討する際に比較した物や使用した 係を特定の条件の下で判断することができれば,ユー ことがあり品質や色み,香り等を比べているもの ザに対し,特定の条件下で適切な化粧品を推薦できる 例: 「今まではヘレナルビンスタインのマスカラを 知識の抽出へとつながる.そのことを目指し,まずは, 使っていました. 」 実際の化粧品レビュー文書を用いて化粧品の特徴に基 「私にはランコムのほうが合っていました. 」 づいたブランド間の関係を分類し,分類に対する基礎 「シャネルのものと迷いましたが,こちらにしま 的な検討を行う. した. 」 併用: 下地のように重ねて使ったもの,メイク落 化粧品使用における特徴 としとメイク用品のように併用して使われる関係 にあるもの 商品としての化粧品には以下の特徴がある. 例: 「 の下地を塗ってからこれを使っていま ¯ 数ヶ月単位で購入し続けるもの す. 」 ¯ 消耗品であり,安価である 「クレンジングはクリニークを使うとよく落ちま ¯ 他の化粧品に乗り換えるハードルが低い す. 」 上記, つの関係性を持つ文書にはそれぞれ違った Ý ! Ý "#$ % &%'$& #&# ()$ % #&# &* '+ ,&-#$** $ & * . */0 Þ 1- #&# 21$# ) % '&$# &1 * #&# &'+ ,&-#$** $ & * . */0 Þ 特徴があると考えられるため,それぞれのカテゴリの 文書から商品推薦に有益な情報を抽出するアプローチ は異なると考えられる.本研究では,個々のカテゴリ からの情報抽出の前に,まずこれら つのカテゴリ分 類に取り組む. 2-153 Copyright 2014 Information Processing Society of Japan. All Rights Reserved. 情報処理学会第 76 回全国大会 レビュー文書の分類手法 表 ( 実験結果 分類手法 品詞 正解率 本研究ではサポートベクターマシン を使用し 全て て文書を分類する. は近年の機械学習を用いた研 名詞 究において多く使用されている手法である. のラ 形容詞 イブラリとして を用いた. 動詞 &%'' &'! &!%" &%# &' 名詞+動詞+形容詞 素性 ここでは素性として, のアプローチと同じ 考察 実験の結果,形容詞以外では '& %以上の結果となり、 く単語の頻度ベクトルを用いる.また,分類の際一般 的に精度に寄与しないとされる副詞や助詞を除き,さ 動詞と名詞に関して特徴があることがわかった。今回 らに品詞ごとの特徴を把握するために名詞,動詞,形 データが少ないこと,レビュー文は略語や表記のゆれ 容詞それぞれを素性にした場合の実験を行う.形態素 が多く,データ自体にノイズが多いことから、さらに 解析には形態素解析器 ! を用いる.文章は区 精度の向上は見込まれる. 切り文字によって区切られ,他のブランドが出現する 文のみを使用した.上記の素性により分類器を構築し, それらの精度を検証するために評価実験を行った. おわりに 他のブランド名が出現する化粧品レビュー文におい て,レビュー文の対象ブランドと文章に出現するブラ ンドとの関係を比較)併用の カテゴリとし,単語頻度 実験 をもとにして により分類を行った.現在は,文 実験仕様 中に含まれる単語を品詞ごとに分けた素性のみに基づ 今回使用したデータは,化粧品レビューサイトアッ トコスメ " のレビュー文 "#$% 件である.含まれて いて分類を行っているため,分類結果の精度は向上の 余地がある。 今後の取り組みとして,*比べる+,*一緒に+ などの いるデータには,アイテム名,ブランド名,商品名,レ ビュー文章,おすすめ度,投稿ユーザの属性等がある. 手掛かり表現,ブランド名の前後に現れる単語や係り この中で,ブランド名とレビュー文章を使用した. 受けの情報などを素性として用いることにより分類精 初めに項目ブランド名により,# 件のブランド名が 含まれる辞書を作成した.これを用いてレビュー文章 全体から他のブランド名が含まれる文章を抽出したと ころ,%#&% 件のデータが得られた.この中からランダ 度を上げる取り組みを行うつもりである. 謝辞 本研究では,株式会社アイスタイル様よりデータを ムに抜き出した && 件をあらかじめ人手で つのブラ 提供していただきました.ここに感謝の意を表します. ンド間の関係を「比較」または「併用」でラベル付け 参考文献 した.比較と分類されたものは %" 件,併用と分類さ れたものは ' 件であった.この カテゴリに該当し なかったものとしては,購入した店舗の名前がブラン ド名と同一だったものや,商品名の一部に他のブラン ド名が含まれているものであった. データの数に偏りがあるため、比較ラベルのデータ を ' 件に減らし、計 " 件のデータで学習と評価を 行った。評価は 分割交差検定を用いて行った. 実験結果 表 に実験結果を示す.それぞれの項目は,形態素 解析した単語の中から素性として使われた単語の品詞 である. 中山 祐輝,藤井 敦,レビューテキストを対象と した評価条件の抽出手法,言語処理学会第 # 回年 次大会,,-,& 大塚 裕子,乾 孝司,奥村学,意見分析エンジン-計 算言語学と社会学の接点-,コロナ社,&&%. $ $ * ./0. . 1 .2 ( 3 $ /4 1 5.$ 6 / 1 /4 . /3+ 7.4 1 6 &6 / 1. 8 / 4 . 9-&&$ && 68()):::. :) .;/)/ 5) ! 68()).44/.)8). ) " 68()):::.) 2-154 Copyright 2014 Information Processing Society of Japan. All Rights Reserved.