Comments
Description
Transcript
社会の課題分析に向けたテキストマイニング
第8号 特集 DEC. 2007 社会の課題分析に向けたテキストマイニング ― 俯瞰的な分析手法の開発を目指して ― 統合研究院イノベーション システム研究センター 膨大な新聞記事から宝探し 「ソリューション研究」にとって、社会の主要な動向 をうかがい、将来予測や社会ニーズを効果的に掬い上げ 特任准教授 橋本 泰一 研究参事 内海 和夫 をコンピュータに処理させる一連の技術をさす。分析者 と研究者という、お互いに異分野の仲間が日々切磋琢磨 できることも、このグループの特徴といえる。 ることは最も難しい作業である。複雑で多様化し、先の 新聞記事の分析には、通常、キーワードを打ち込んで 見えにくい時代だけに、コンピュータを駆使しても、こ 関連した記事を検索する。だが、どんなキーワードを入 うした分析は容易にできるものではない。 力するかによって、欲しい情報へのアクセスが制約され そこで私たちは、試みに過去の新聞記事を蓄積した膨 てしまい、課題の多様性を把握することが難しくなる。 大な電子テキストデータに着目し、その情報の“鉱山” キーワードの制約がなく、関連する情報を多面的、立体 から時代の課題をうまく採掘できるような、賢い道具と 的に掬い取り、複雑に変動する社会の課題を的確に発見 しての技術やソフトウェアの開発を行った。 できるような俯瞰的な分析手法の確立が望まれている。 まず二つの情報に注目し、分析を試みた。一つは「社 そこで、「文書クラスタリング」や「情報抽出」とい 会が抱える課題や問題」に関する情報であり、その収集 う自然言語処理技術を用いて、大量の新聞記事の中から に新聞記事データベースを利用した。もう一つは「課題 互いに類似した話題を持つ記事を自動的に整理、分類、 や問題を解決する」ための技術情報であり、こちらは特 構造化し、要約することを試みた。さらに記事の重要度 許や論文を分析に使っている。 を測るために、「密度」と「中心度」という二つの指標 新聞記事は、社会の様々な出来事の発生から始まって、 を独自に導入した。密度とは、整理された記事群が同じ 関連する情報を日々提供してくれる。集積された記事デ ような内容でまとまっているかどうかを見るものであり、 ータベースには、その出来事とともに時間経過を経て社 中心度は記事に記載されている内容が他の記事に強い影 会に与えた影響などの関連情報が豊富に詰まっている。 響力を持つ話題であるかどうかを測定するものである。 今後は新聞検索に加えて、企業の技術開発の特許や、大 このようにして大量の新聞記事の中から特に重要な記 学や研究機関の論文の検索にも力を入れ、幅広い基礎技 事を自動的に選別することで、分析者はすべての記事を 術情報を探ることにしている。 熟読しなくとも、新聞記事の内容を把握し、俯瞰的で客 私たちは、1975年から2006年までの日経新聞や読売新 聞など幾つかの新聞社の記事データベース(約800万件) をはじめ、過去10年間の日本特許(約380万件)や米国 特許(約300万件)、欧州特許(約130万件)のほか、大 学評価・学位授与機構との共同研究で提供してもらった 1980年から2006年までの論文の書誌情報(約1000万件) 観的な分析ができるようになった。 一つの具体例として、医療に関する新聞記事の分析結 果を紹介する。 王監督入院で「がん」の注目度高まる まず日経新聞記事データベースを使い、医療分野のキ を保有し、利用している。計2600万件以上もの膨大なテ ーワード316語から検索し、分析の対象となる記事のデー キストデータを対象にした研究は前例がなく、私たちの タセット(2000∼2006年、1年間で約1万件相当)を作成 グループの特徴の一つでもある。 した。ここから、ある共通した話題を持つ記事の集合であ 最先端の自然言語処理技術を駆使する これだけ情報量が膨大になると、市販のソフトではと ても役に立たない。そのために二人の経験豊富な分析者 と、自然言語処理技術が専門の三人の若手研究者が、最 先端のコンピュータ利用技術である「自然言語処理技術」 を使って、新たなテキストマイニングを開発している。 自然言語処理技術とは、人間が日常的に使っている言語 るクラスタを作り、中心度と密度を算出するとともに、各 クラスタを特徴付ける重要キーワードを抽出した。表1は 2006年のデータセットで、中心度が最大のクラスタを含 む類似クラスタ群(グループ)の出力データ例である。 この結果から、年次ごとに中心度の値がトップのクラ スタを特定し、その中で重要度が最も高いキーワード (記事の冒頭部に近いところでの出現頻度が高い複合名 詞)を抽出した。 第8号 DEC. 2007 表1 グループ クラスタ 記事数 番号 番号 クラスタリングにより抽出されたクラスタ群の出力データ例 密度 中心度 重要キーワード 障害者、障害者雇用、ユニバーサルデザイン、高齢者、障害者雇用率、法定雇用率 21 93 156 0.3617 0.376884 21 156 37 0.2544 0.376645 リハビリテーション、高齢化、 リハビリ、条例案、梗塞、障害者 21 126 38 0.2078 0.376167 21 33 66 0.3035 0.375688 特定非営利活動法人、NPO法人、知的障害者、電話相談、高齢者、相談 21 20 80 0.2673 0.374492 グループホーム、認知症、認知症高齢者グループホーム、認知症高齢者、こころ編集室、高齢者 21 140 33 0.2508 0.374492 高齢者向け、介護保険、高齢者、筋力トレーニング、介護保険制度、介護予防 21 80 50 0.2970 0.373534 神戸医療産業都市、ポートアイランド二期地区、スカイマークスタジアム、バイオベンチャー企 業、神戸医療産業都市内、医療産業都市 21 24 29 0.2362 0.373534 建設、延べ床面積、新工場、本社敷地内、製造、ホルモン剤 社会福祉法人、マニュアル、老人保健施設、検査、社会資本整備、障害者 2000 ワードの注目度の大きさを相対的に比較し、俯瞰的なト 遺伝子 がん 世界保健機構(SARS) インターネット・ホームページ 障害者 医療事故 薬害エイズ・訴訟 1800 1600 1400 記 1200 事 数 1000 レンド分析を行えることが大きな特徴である。 ソリューション研究の有力な“武器”に また、各キーワードで特徴付けられるクラスタ群の内 800 容を見ることにより、さらに詳細な分析が可能である。 600 例えば、図中の2006年の「がん」の記事数は10のクラス 400 タ群の記事数の合計であるが、それぞれのクラスタを特 200 0 徴付ける「がん」関連キーワードは、 「抗がん剤」 「細胞 2000 図1 2001 2002 2003 2004 2005 2006 重要キーワードを含むクラスタ群の記事数推移 (2000年∼2006年) 2000年が「インターネット・ホームページ」 、2001年が 「遺伝子(遺伝子治療、遺伝子組み換え等を含む) 」 、2002年 が「薬害エイズ・訴訟」 、2003年が「世界保健機構(SARS) 」 、 に関するがん(がん細胞を攻撃する免疫療法、がん幹細 胞等)」「がん保険」「大腸がんリスク(疫学調査等によ る) 」 「有名人のがん(王監督、三笠宮殿下等) 」 「アスベ スト(中皮腫) 」 「乳がん」 「がん対策基本法」 「静岡がん センター」 「公立病院のがんセンター」であった。 このうち「がん保険を組み込んだ住宅ローンの発売」 2004年が「がん(各種がん、がん細胞等) 」 、2005年が「医 「がん対策基本法案の策定」 「王監督の入院」が、2006年 療事故(医療過誤、医療ミスなど) 」 、2006年が「障害者 の「がん」の記事数を増加させた主原因であることが把 (視覚・聴覚・知覚・身体障害者など) 」となった。 握できた。 これらは、各年次を特徴付ける社会トレンドを表現する 一般的な情報検索では不可能な大規模テキスト情報の 重要キーワードと見ることができる。次に、これらの重要 データセットから、自然言語処理技術によって分類・抽 キーワードを多く含むクラスタ群を抽出し、各クラスタ群の 出された「クラスタ」あるいは「重要キーワード等」を 記事数の合計を年次ごとにプロットしたのが図1である。 分析して、社会課題の俯瞰的トレンドを効率的に把握す この図から次のようなトレンドが読み取れる。 ・「世界保健機構(SARS) 」は2003年に最も話題となり ることができたのである。 医療・福祉ばかりか、防災問題などの安全安心、地球 記事数も特異的に多いが、それ以外はほとんどなく、 環境問題、エネルギーの創造的な利用法、高度情報社会 単発的に注目された社会課題である。 の新たな仕組み作りなど、未来社会が解決すべき課題に ・「がん」に対する注目度は増加傾向にある。 ・「遺伝子」に対する注目度は減少傾向にあったが、 2005年以降、再び増加の兆しがある。 ついても同様にして調査・分析ができると考えている。 ここまでで、私たちが目指している技術開発の目標の おおよそ6合目まで到達できた。今後は、さらに分析例 ・「インターネット・ホームページ」や「医療事故」に を増やし、有効性の検証を行い、中心度や密度を活用し 対する注目度は、2003年をピークに減少傾向にある。 たトレンド分析、あるいは社会課題に対する技術的対策 ・「障害者」に対する注目度は、毎年一定のレベルを保 等を抽出できるソフトウェアの開発を目指していきたい。 っている。 将来の社会課題を見つけ、その解決を図るという統合 以上のように、社会トレンドについての予備知識がな 研究院のチャレンジングなソリューション研究にとっ くても、このツールを用いることで特徴的なキーワード て、私たちのテキストマイニング研究は、調査・分析の が自動的に抽出できる。その時系列的な傾向や、各キー 有力な“武器”になるものと信じている。