...

クチコミ情報分析と行政への適用

by user

on
Category: Documents
7

views

Report

Comments

Transcript

クチコミ情報分析と行政への適用
クチコミ情報分析と行政への適用
Information Analysis for Administrations
あらまし
近年,インターネットの普及により一般の人達が簡単に情報を公開することが可能と
なってきている。これらの情報を使うことにより,企業と消費者,または行政と市民の間の
情報の伝達をより活発にすることができると考えられる。しかし,これらのデータの多くは
文書で書かれているため,それらを機械的に扱うのは難しく,それらの情報を利用するため
には人が一つずつ読まなければならないのが現状である。
この課題に対して著者らは,テキストから評判を表わす表現とその評判の対象となる特
定の対象物の対を抽出する技術を開発し,マーケティングの分野に適用している。
本稿ではこの技術のマーケティングにおける適用例を紹介し,またこの技術が行政と市
民との間でどのように適用が可能かを論じる。
Abstract
The Internet allows us to publish and share information, and it seems to enable good
communication between municipalities and their citizens. However, to extract the meaning
of text, it needs to be read by humans, which makes meaning-extraction a labor-intensive
task. To reduce the amount of required labor, we have developed a sentiment analysis
technology that extracts sentiment pairs consisting of a sentiment expression and a target
word such as the name of a product, brand, or company. In this paper, we discuss how this
technology can be applied in marketing and public administration.
高橋哲朗
(たかはし てつろう)
ナレッジ研究センター
所属
現在,Webからの情報抽
出に関する研究に従事。
558
内野寛治
(うちの かんじ)
Fujitsu Laboratories of
America 所属
現在,Web2.0 beyondプ
ロジェクトに従事。
松井くにお
(まつい くにお)
岡本青史
(おかもと せいし)
ナレッジ研究センター
所属
現在,Webを用いた知識
処理の研究に従事。
Fujitsu Laboratories of
America 所属
現在,Web2.0 beyondプ
ロジェクトに従事。
FUJITSU.58, 6, p.558-562 (11,2007)
クチコミ情報分析と行政への適用
ま え が き
ように適用可能かについて論じる。
評判情報抽出システム
近年,インターネットの普及により一般の人達が
簡単に情報を公開することが可能となってきている。
本システムの概要を図-1に示す。ここに示すよう
情報公開の場としては,掲示板やブログなどが挙げ
に,本システムではブログのテキストから評価の対
られる。ブログは,インターネット上に公開する日
(以下,評価対)を抽出する。抽出した評価対の集
記形式の記事を書くためのサービスであり,ユーザ
合に対してマイニング技術を適用することにより,
が手軽に自分のページを持つことができ,またその
様々な可視化を可能としている。
編集も容易にできるため特に広く普及してきている。
本システムは以下の要素技術によって構成される。
現在,その利用者は800万人に上り,国内だけでも
・記事収集・本文抽出
(1) このような
1日に約50万もの記事が書かれている。
・自然言語解析
環境のもと,ネットワーク上でのコミュニケーショ
・評価対抽出
ンが可能になってはきているが,そこで生み出され
・テキストマイニング
る情報が十分に活用されていないという現状がある。
・可視化
その理由の一つとして大規模な情報の扱いの難しさ
が挙げられる。ネットワーク上には非常に多くの情
以降それぞれの処理について説明する。
● 記事収集・本文抽出
報があるが,それらの情報はほとんどの場合,整理
システムはまず情報源となるHTML文書を収集
されていないために,必要な情報だけを引き出す,
する。Web上のHTML文書には書き手が書いた記
ふかん
あるいは全体を俯瞰するといったことが困難となっ
事そのもの以外にも多くの情報が含まれているため,
ている。この課題に対して著者らは,評判情報が
HTML文書から記事のみを抽出しなければなら
人々の意見や関心を整理するための基本的な情報と
ない。
して役立つと考え,大量の文書から特定の製品や企
評判情報抽出においてはこの処理が重要となる。
業,ブランドなどに対する評判情報を自動的に抽出
例えば一般のブログ記事においては,両サイドのフ
し可視化する技術を開発した。
レームに,アフィリエイトをはじめとする様々な情
本稿では,まず著者らの開発したブログからの評
報が書かれている。ここにはブログ著者の書いた評
判情報抽出システムについて説明する。そして次に
判情報以外の情報が含まれるためここからの評判情
その適用事例の一つとしてマーケティングでの事例
報の抽出は適切ではない。
を紹介し,続いてこの技術が行政分野に対してどの
本システムではHTML文書の中からブログ著者
図-1 評判情報抽出処理の流れ
Fig.1-Processing flow of sentiment analysis.
FUJITSU.58, 6, (11,2007)
559
クチコミ情報分析と行政への適用
の書いた部分を推定し,その部分のみを抽出する技
どの誤った評価まで抽出してしまう。つまりこの手
術を用いている。
法は,カバー率は高いが精度は低いと言える。予備
● 自然言語解析
調査の結果,この手法を使った場合の精度(正解数/
自然言語で記述されたテキストを計算機で処理す
システム出力数)は約3%であるという結果を得た。
るために,テキストを解析し構造化する必要がある。
もう一つの手法として,単語間の文法的な係り受
本システムでは入力されたテキストに対して以下の
け情報を用いて評判情報の抽出を行うものがある。
処理を行う。
この手法は,精度は高いがカバー率は低いと言える。
(1) 形態素解析
テキストを形態素と呼ばれる単位に分割し,それ
ぞれの単語に品詞を付与する。
(2) 固有表現抽出・名詞句同定
例えば図-1の文章では,
“NX”と“重い”の間には
係り受けの関係があり,その関係を解析することに
よりこれらを評価対として抽出可能であるが,
“NX”と“NG”,また“LOOX ”と“気に入っ
組織名,製品名,人名など,評価の対象となり得
て”の表現は直接の係り受け関係にないので,これ
る語句を特定する。辞書情報や文脈情報を考慮し上
らを評価対として抽出できない。とくに日本語の文
記の語句の特定を行う。辞書にのみ依存してはいな
書においては,一度出現した単語は区別の必要があ
いので,新語も抽出可能である。抽出精度は未知の
る場合を除いて省略される傾向にあるのでこの問題
単語に対して約90%,また抽出のためにあらかじ
が顕著になる。係り受けのみを用いた場合に抽出で
め辞書に登録しておくことにより,より正確に対象
きない情報の割合を予備調査した結果,約80%を
物を抽出することもできる。
抽出できないということが分かった。
(3) 評価表現抽出
品詞に依存しない多様な評価表現パターンを用い
て,評価表現の抽出を行う。一般に評価を表す表現
の多くは形容詞であるが,ここで用いているパター
ンでは形容詞以外の品詞も抽出対象として評価表現
パターンを使っているため,より大規模に評価表現
を抽出可能である。形容詞以外の表現には,「愛す
る(動詞)」,「満足している(サ変名詞+動詞)」,
「努力家(名詞)
」などがある。
● 評価対抽出
上記の問題を解決するために著者らは,
(1) 機械学習に基づく手法を用いて評価対となり
得る候補を選択し,
(2) そこから頻度に基づくテキストマイニング
を行う。
という手法を提案し実装した。
評価対抽出では,まず評価を受ける対象物と評価
表現の組合せ対を“LOOX→良い”のような形で列
挙し,これらを評価対の候補とする。つぎに機械学
習という技術を用いて,この候補の中から正しい関
抽出した評価表現がどの対象物を評価しているか
係にある評価対を分類し,選択された評価対から頻
を見付ける必要がある。このタスクをここでは評価
度に基づく評価対のマイニングを行う。機械学習で
対抽出と呼ぶ。評価対抽出は情報抽出という技術の
は,数千記事に対して人手で評価対の情報を付与し,
一つととらえられており,近年多くの研究者によっ
それを基にどのような文脈のときに評価対の候補が
(2) 評価対抽出の方法にはいく
て研究が行われている。
評価対となるかを学習させた。この手法を用いるこ
つかの手法が考えられるが,ここでは基本的な手法
とにより,カバー率を高く保ったまま精度を上げる
を二つ紹介する。
ことを実現している。
まず,一つ目は共起による抽出である。この手法
● テキストマイニング
では,対象とする商品やサービスの書かれている記
評価対の出現頻度によるマイニングを行うことに
事内に評価表現が出現していた場合にそれらを評価
より,精度を高めることができる。概念的には,よ
対として抽出する。この手法では正しい評価も抽出
り多数のブログで語られている意見は,より確から
できるが,正しくない評価まで大量に抽出する点が
しいという仮定に基づき信頼度を設定し,その信頼
問題点として挙げられる。例えば図-1では,
“NX→
度の高い評価だけを用いる。評判をユーザに提示す
重い”
,
“LOOX→気に入って”という正しい評価だ
る場合を考えると,ユーザが見られる記事数は限ら
けでなく,
“LOOX→重い”
,
“NX→気に入って”な
れているので,上位N 位(例えばN =10)だけを
560
FUJITSU.58, 6, (11,2007)
クチコミ情報分析と行政への適用
用いることができ,出力における精度を上げること
キャンペーンをどの媒体によりどのように行うべき
ができる。
か」といった分析が可能になる。従来,テレビにお
また,ブログの持つ特徴の一つに,情報の発信者
ける視聴率やインターネット上の閲覧数などの数値
を擬似的に特定できるという点が挙げられる。個人
を測定することは可能だったが,その結果,人々が
を特定することはできないが,記事のURLを個人
どのような影響を受けどのような感想を持ったかま
のIDと見なすことにより,ある評価を書いた人が
では測定できなかった。本稿で紹介した技術はそれ
過去にどのような評価を書いていたか,またほかの
を可能にするものである。
製品についてはどのような評価を書いているか,な
また単純な評判の数だけでなく評判の内容も考慮
どを知ることができる。このデータを表-1のような
することにより,より多くの知見を得ることができ
形で整理することにより,POS(Point of Sales:
る。例えば新製品についての評判の内容を見たとき
店舗における販売実績)に対する集計と同じような
に機能面に関する評判が多く書かれているがそれと
集計が可能となる。
同時にデザインについての評判が少なかった,とい
うことが分かったとすると,その製品はデザインに
技 術 適 用
ついてより改善する必要があるといった新製品開発
前章で説明してきたように,本システムは特定の
製品・企業・ブランドなどについての評判(好き,
に有用な知見をそこから得ることが可能となる。
ブログはそれぞれ固有のURLを持っているため,
欲しい,かわいいなど)を抽出することができる。
このURLによりブログ著者を区別することができ
この技術はすでにニフティ株式会社の提供する
る。そして評価対を用いることにより,車好きなブ
BuzzPulse(3)というサービスにおいて使われている。
ログ著者やお菓子好きなブログ著者をあらかじめ識
本章では,はじめにBuzzPulseで行っているマーケ
別できる。単純に評判の量を得るだけではなくこの
ティングへの適用について述べ,続いて行政におけ
ブログ著者の種類も使うことにより,例えば「今回
る適用について述べる。
の新製品は車好きには受けたが,音楽好きの人には
● マーケティングへの適用
評判が良くないようだ」といった,よりターゲット
本稿で紹介した技術を用いることにより特定の製
品や企業,ブランドについての評判情報を得ること
ができる。そしてこの評判情報は,広告やキャン
ペーンの効果測定や新製品開発などに用いることが
を絞ったマーケティングや分析が可能となる。
● 行政分野への適用
ここから評判分析技術の行政分野への適用につい
て論じる。
自治体の行う行政サービスについて
できる。
例えばある企業が新製品の発売に際し新しいテレ
ビコマーシャルを始めたとする。そのとき,イン
(1) そのサービスが住民にはどのように見えてい
るのか
ターネット上の評判の量がどのように変化したかを
(2) サービスは十分か
見ることにより,訴求した内容がどれくらい消費者
(3) 不満はないか
に届いているかを知ることができる。つまり評判量
などの情報を住民から得ることができれば,より的
が増加すればそのキャンペーンは消費者に影響を与
確なサービスを提供することができることは明白で
えたと言うことができ,変化がなければ影響はな
ある。しかし,現状では住民からの声を的確に得る
かったと言える。このようにして得られた事例を集
ことは簡単ではないと言える。その理由は情報量の
めることにより,「どのような製品にはどのような
大きさである。自治体が住民の声を収集する場とし
ては,ホームページに設けている「ご意見箱」のよ
うなフォームや掲示板が挙げられる。または,自治
表-1 評価対データベース
体のホームページ以外でも,特定の団体や企業が
使いやすい
軽い
小さい
作っている地域コミュニティサイトのタウンコム
FUJITSU.58, 6, (11,2007)
…
評価表現
FM-V
LOOX
LOOX
…
対象物
…
URL
http://AAA.xxx.html
http://BBB.xxx.html
http://CCC.xxx.html
ニット(4)やオールタマ(5)においても,住民の声が活
発に書かれている。また情報源としては,そのよう
561
クチコミ情報分析と行政への適用
な共通の場ではなく,個人がそれぞれ独立に書いて
と対立するものではない。個別の住民の意見や行政
いるブログがある。
機関の意見を地域コミュニティでつなぐことにより,
これらの情報は非常に量が多いため,その内容を
それぞれをより活性化させることができる。
自治体が一つずつチェックすることは現実的ではな
む
いし,いくつかの情報のみを選択した場合,住民が
発言した重要な声を見逃す可能性が出てくる。
そこで住民の声の集約に本稿で紹介するような技
術を適用することが考えられる。前章で紹介した事
す
び
本稿では評判分析技術を紹介し,その適用分野と
して,マーケティングと行政の二つを挙げそれぞれ
の分野でどのような利用が可能かを論じた。
例において,製品を政策や行政サービスに置き換え
インターネットの発達により,情報の通信そのも
て考えると,本技術を用いることで,行政機関はそ
のの技術は飛躍的に進歩し多くの情報が行き交うよ
の政策や行政サービスに対する評判を様々な視点で
うになったが,その量の多さのために必要な情報を
閲覧することが可能になる。例えば新しい設備の建
的確に得ることが難しくなってきており,情報を生
設について住民はどのように思っているのか。賛成
かせないでいる。そのような中で,本稿で紹介した
しているのか反対しているのか,といった情報を得
技術を用いることで的確な情報にアクセスする枠組
ることにより,より住民の声を反映させた政策を取
を用意できれば,より効率的・効果的な情報の伝達
ることが可能になる。
を可能にすることができるようになる。
この情報の集約は,行政機関のためだけに役立つ
ものではない。政策や行政サービスに対するある住
民の意見をほかの住民が見ることにより,住民間の
意見の交換や議論を活発にすることが可能となる。
また住民の間での情報交換という意味においては,
参 考 文 献
(1) 財団法人インターネット協会監修:インターネッ
ト白書2006.インプレスR&D,2006.
(2) 乾
孝司ほか:テキストを対象とした評価情報の
その対象は政策や行政サービスだけにはとどまらず,
分析に関する研究動向.自然言語処理,Vol.13,No.3,
例えば新しい店のオープン情報やその店の評判など
p.201-241(2006)
.
その地域に関する情報をブログや地域コミュニティ
(3) ニフティ:BuzzPulse.
などから収集して,それらを可視化し効率良く住民
http://www.nifty.com/buzz/
の間で共有できればその地域における魅力的なサー
(4) ラソナ:タウンコムニット.
ビスとなり,地域の活性化を促すことができる。
本システムを用いたこのような情報の集約は,自
治体の持つホームページや既存の地域コミュニティ
562
http://town.comnit.jp/
(5) オール多摩:オールタマ.
http://www.all-tama.co.jp/
FUJITSU.58, 6, (11,2007)
Fly UP