Comments
Description
Transcript
シーケンシャルパターンマイニングを 利用した中国語感情表現抽出手法
2007 年度修士論文 シーケンシャルパターンマイニングを 利用した中国語感情表現抽出手法 提出日: 2008 年 2 月 4 日 指導: 山名 早人 教授 早稲田大学理工学研究科 情報・ネットワーク専攻 学籍番号:3606u063-1 丁 暁天 概要 近年,ブログや掲示板,SNS(ソーシャルネットワーキングサービス) など,ユーザーが発 信するメディアである CGM(Consumer Generated Media)は急速に普及しており,膨大 なテキストデータが Web や企業に蓄積されるようになってきた.CNNIC(China Internet Network Information Center)の中国インターネット発展状況統計報告では,2007 年 6 月 現在,CN ドメインは 918 万,中国のインターネット人口は 1 億 6,200 万人であり,遠く ない将来,中国は世界一のネットユーザーを擁する国となると予想される.したがって, 今後更に増え続ける中国語テキストデータから有益な情報を抽出する研究が注目を集めて いる. テキストデータから有益な情報を抽出する代表的な手法に,感情表現抽出が挙げられ る.感情表現とは,テキスト中での書き手の主観的な表現である.掲示板やブログなどに 中国語で記述された各種製品,映画,書籍,音楽などに関する様々な情報は,中国企業や, 中国進出しているあるいは進出を計画している外資系企業などには,新しい商品開発など の重要な手がかりとなる.このようなテキスト情報は,人手では網羅的に目に通せないほ ど膨大な量に達しており,それを十分に活用することが困難になっている.そこで,中国 語テキストに対して,感情表現抽出手法を適用し,感情表現を抽出する技術の必要性が高 まっている.膨大なテキストの中から感情表現を抽出するためには,データマイニング技 術が必須である. 本論文では,データマイニングの1つの技術であるシーケンシャルパターンマイニング を用いて,感情表現を抽出するアプローチをとる.従来のシーケンシャルパターンマイニ ング手法を,そのまま中国語テキストデータに適用させると,次のような問題点が発生す る.1つ目は,(i) アイテム (単語) 間の距離 (アイテム数) が離れすぎていて,アイテム間 に関連性のないパターンが抽出される問題である.2つ目は,(ii) 記号や助詞など,単独 では意味をなさない要素のみで構成されるパターンが大量に抽出される問題である.そこ で本論文では,上記の2つの問題を解決するために,シーケンシャルパターンマイニング に対し,アイテム間の距離とアイテム属性の制約を加えることで,中国語テキストデータ から感情表現パターンを効率よく抽出する手法を提案する.また,本提案手法を,Alibaba レビューページから収集した 10,000 文章に適用し,感情表現パターンの抽出を試みた.そ の結果,同一最小サポート値を設定した場合,従来手法に比べ 1,000 分の 1 の時間で,抽 出した感情表現パターンの正確率が 85%を超えた. ii 目次 第 1 章 はじめに 1 第 2 章 関連研究 3 2.1 2.2 2.3 2.4 形態素解析器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1 形態素解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.2 中国語の特徴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.3 中国語解析器 ICTCLAS[19] . . . . . . . . . . . . . . . . . . . . . . 4 感情表現抽出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.1 感情表現抽出の概要 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.2 感情表現抽出の関連研究 . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.3 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 シーケンシャルパターンマイニング . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1 シーケンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.2 シーケンスデータベース . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.3 Prefix projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.4 アルゴリズムの流れ . . . . . . . . . . . . . . . . . . . . . . . . . . 11 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 第 3 章 解析手法 14 3.1 アルゴリズムの概要 3.2 用語説明 [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 射影 Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 i 3.3 3.2.2 sid-pos 連想配列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.3 k-頻出パターンデータベース . . . . . . . . . . . . . . . . . . . . . . 16 3.2.4 射影アイテムデータベース . . . . . . . . . . . . . . . . . . . . . . . 16 3.2.5 アイテムの属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 アルゴリズムの流れ [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 第 4 章 中国語テキストデータにおける感情表現抽出実験 18 4.1 解析環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 使用データ 4.3 解析結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.3.1 抽出する例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3.2 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 第 5 章 おわりに 29 参考文献 30 ii 第 1 章 はじめに 近年,ブログや掲示板,SNS(ソーシャルネットワーキングサービス) など,ユーザが発 信するメディアである CGM(Consumer Generated Media)は急速に普及しており,膨大 なテキストデータが Web や企業に蓄積されるようになってきた.CNNIC(China Internet Network Information Center)の中国インターネット発展状況統計報告では,2007 年 6 月 現在,CN ドメインに属するホスト数は 918 万,中国のインターネット人口は 1 億 6,200 万人であり,遠くない将来,中国は世界一のネットユーザーを擁する国となると予想され る [1].したがって,Web 上に存在する中国語のページは,今後も増大し続けると考えら れ,その中には,一般ユーザから発信されるテキスト量も増加し続けると考えられる.そ こで,今後更に増え続ける中国語テキストデータから有益な情報を抽出する研究が注目を 集めている. テキストデータから有益な情報を抽出する代表的な手法に,感情表現抽出が挙げられる. 感情表現とは,テキスト中での書き手の主観的な表現である.掲示板や Blog などに中国語 で記述された各種製品,映画,書籍,音楽などに関する様々な情報は,中国企業や,中国 進出しているあるいは進出を計画している外資系企業などには,新しい商品開発などの重 要な手がかりとなる.このようなテキスト情報は,人手では網羅的に目に通せないほど膨 大な量に達しており,それを十分に活用することが困難になっている.そこで,中国語テ キストに対して,感情表現抽出手法を適用し,感情表現を抽出する技術の必要性が高まっ ている.膨大なテキストの中から感情表現を抽出するためには,データマイニング技術が 必須である. テキストを対象として感情表現抽出に応用できるデータマイニング手法に,シーケン シャルパターンマイニングがある [2].シーケンシャルパターンマイニング手法とは,デー タベース中に頻出するアイテムの組合せを,順序を考慮して効率よく抽出する手法である 1 [2].シーケンシャルパターンマイニングが提案された当初は,データベースにおけるパ ターンの出現頻度が,最小サポート値と呼ばれる任意の整数よりも大きいパターンを抽出 するという単純なものであった [2][3]. しかし,シーケンシャルパターンマイニング手法は,出現頻度の制約のみでパターンを 抽出するため,実際のデータに適用させる際,以下の 2 つの問題点が生じる可能性がある. 1. アイテム (単語) 間の距離 (アイテム数) が離れすぎていて,アイテム間に関連性のな いパターンが抽出される問題. 2. 記号や助詞など,単独では意味をなさない要素のみで構成されるパターンが大量に 抽出される問題. この問題を解決するために,様々な手法が提案されている.(1) のアイテム間隔に関す る問題を解決するため,アイテム間のアイテム数を制約とする手法 [4][5][10],アイテム間 の時間間隔を制約とする手法 [6][7][8][9][11][12],アイテム間のアイテム数と時間間隔を統 一的に扱う手法 [13],そしてアイテムの集合やパターン中のアイテムの個数を制約とする 手法 [7] などがある.また,(2) の問題を解決するために,出現頻度の制約に加え,アイテ ムの属性等の制約を満たしたパターンのみを抽出する制約付きシーケンシャルパターンマ イニング手法 [14] が提案されている.これらのアルゴリズムによって,抽出に必要な時間 コストを下げるだけではなく,抽出されるパターンにアイテム間隔の情報が付加され,人 間が解釈しやすくパターン形式となっている. 本論文では,上述の様々なシーケンシャルパターンマイニングの改良手法をベースとし, アイテム間の距離とアイテム属性の制約を加えることで,中国語テキストデータから感情 表現パターンを効率よく抽出する手法を提案する.そして,提案手法の有効性の検証とし て, Alibaba レビューページ [15] から抽出したテキストデータに提案手法を適用し,感情 表現パターンの抽出を試みた. 本論文では,以下の構成をとる.第 2 章では,関連研究として,中国語形態素解析器 ICTCLAS,感情表現抽出の関連研究とシーケンシャルパターンマイニングについて説明 する.第 3 章では,中国語テキストデータから感情表現パターンを効率よく抽出する手法 を提案する.第 4 章では,提案手法の評価を行う.最後に,第 5 章でまとめを行う. 2 第 2 章 関連研究 本章では,まず,中国語形態素解析器 ICTCLAS[19] について紹介する.次に,感情表 現抽出の関連研究について述べる.最後に,シーケンシャルパターンマイニングについて 説明する. 2.1 2.1.1 形態素解析器 形態素解析 日本語,中国語,韓国語などアジアの言語で書かれた文章では,単語が空白で区切られ ていない。そのため、そのままでは文章から単語を切り出すことが難しく、単語単位のイ ンデックスを作成することはできない.これを可能にする技術が形態素解析 [16] である. つまり,形態素解析とは,意味を持つ最小の言語単位(形態素)の範囲を抽出し,品詞や 読みなど形態素の属性を同定する技術である. 2.1.2 中国語の特徴 日本語同様、中国語は単語単位で区切れていないため、文節の区切りを自動的に見つけ ることが難しい。中国語では,未知語が多くなるにつれ単語の区切りを明らかにする解析 が非常に困難となる.また,中国語の文章では単語の活用形がなく、ほぼ全て漢字で構成 されているため,自由に文字を組み合わせて新たな単語を作る事ができ、略語・新語・造 語などが多く存在する。そのため、全ての未知語を辞書に登録するのはむずかしい.そこ で,文節の区切りができ,かつ未知語に対応できる中国語解析器が求められる. 3 2.1.3 中国語解析器 ICTCLAS[19] 「形態素解析」は中国語では「詞素解析」と言い,中国国内での研究では,個人が開発 した中国語形態素解析ツール捜捜捜中文分詞 [17] や,海量信息技術有限会社が開発した 中国語形態素解析ツール中文智能分詞 [18] や,中科院の張華平氏が開発した中国語形態 素解析ツール ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System) などがある [19].その中で,もっとも中国国内に認められている形態素解析ツー ルは ICTCLAS である.ICTCLAS は中国国内メディアや,海外メディアなどに広く報道 され,2007 年 9 月までに,中国,日本,シンガポール,韓国,アメリカと他国・地域から の 30000 人を超える研究員に利用されている.また,ICTCLAS はダイナミックリンクラ イブラリ ICTCLAS.dll,COM コンポーネントと対応する中国語辞書を提供されている, 開発者は自分のシステムの中に ICTCLAS を呼び出すことができる.ICTCLAS は以下の 機能がある. • 中国語の単語分割 • 品詞の特定 • 固有表現の抽出 • 未登録語の識別 ここで,固有表現とは,組織名,人名,地名,製品名などである.固有表現の抽出とは, 対象とする言語データ中のどの部分が固有表現に対応しているかを解析することを指す. 本研究では,評価実験で ICTCLAS ツールを利用し,中国語文章を分割し,単語をデー タベースに格納する. 2.2 感情表現抽出 本節では,感情表現抽出について説明する.まず,感情表現抽出の概要について説明す る.次に感情表現抽出の関連研究について述べる. 4 2.2.1 感情表現抽出の概要 感情表現 感情表現とは,テキスト中での書き手の主観的な表現である.感情表現は, 「良い」「悪 い」といった形容詞に限らず, 「満足する」「落胆させる」といった動詞や, 「絶品」「欠陥」 といった名詞も含まれる.また, 「バッテリーの寿命が長い」「充電時間が長い」といった 複合語による表現も感情表現に含まれる.感情表現は,研究によっては,意見や評判,評 価表現などとも呼ばれている. 感情極性 感情極性とは,感情表現のもつプラスイメージやマイナスイメージ,肯定的イメージや 否定的イメージなどを言う.一般的には上記のような 2 値分類だが,分類の数に規定はな い.感情表現抽出の研究の多くは,単語に含まれる感情極性を抽出することを一つの目的 としている. 2.2.2 感情表現抽出の関連研究 ここでは,感情表現抽出の関連研究について述べる.以下,順に紹介する. 1. WordNet[22] を利用した手法 [20][21] 2. 統計的スコアリングによる手法 [23] 3. Web ニュースからの喜怒哀楽抽出 [26] 4. 文の構造を考慮した評判抽出手法 [28] WordNet[22] を利用した感情表現辞書構築の手法 WordNet は,princeton 大学の認知科学研究所が開発したオンラインの英語語彙データ ベースである [22].従来の類語辞典(thesaurus)は狭義の類義関係(synonym)を対象と しているが,WordNet は,単語同士の関係が品詞別に階層構造の形で格納され,単語は 5 品詞ごとに複数の同義語集合と関連する.また,同義語集合も品詞ごとに複数の語彙と関 連する.WordNet には,ある同義語集合と他の同義語集合の関係は以下の 5 つの関係の どれかに当てはまると記述されている. 1. 上位関係 (hypernym) 2. 下位関係 (hyponym) 3. 全体関係 (holonym) 4. 部分関係 (meronym) 5. 反意関係 (antonym) これによって,WordNet が定義している単語クラスの階層構造を辿って意味を把握で き,従来のシソーラスではカバーできなかった上位語,下位語などを調べることができる. WordNet を利用した感情表現辞書構築の手法は,WordNet の語彙知識の情報を利用し て,感情表現の感情極性を求める.ここでは,WordNet ネットワークを利用した Kamps ら [20] と Hu and Liu ら [21] の研究を紹介する. WordNet における類似関係を利用した感情極性を判定する手法 [20] kamps らは,2004 年に,WordNet の同義語ネットワーク上の隣接情報を利用し,形容詞の感情極性を判定 する手法を提案している.Kamps らは類義関係にある語の評価極性は一致しやすいと考 え,肯定極性を代表する語と否定極性を代表する語を選定する.評価実験では, 「good」と 「bad」をそれぞれ選び,感情極性を判定したい形容詞がネットワーク内において「good」 と「bad」の近さに注目する. 「good」に近ければ当該形容詞を肯定極性とみなし,逆に 「bad」に近ければ当該形容詞を否定極性とみなす.感情極性値は次の式で求められる. d(word, bad) − d(word, good) d(good, bad) ここで,d は2つの形容詞間の最短経路長を示す.Kamps らは,この式により, 「good」と 「bad」への最短距離を用いて,感情極性を判定した. 6 WordNet における類似関係および反義関係を利用した感情極性を判定する手法 [21] Hu らは, 2004 年にも Kamps らが注目していた類義関係の情報に加え,反義関係(antonymy) の情報も利用した手法を提案している.Hu らの WordNet を使用して形容詞の感情極性を 判定する手法は,Kamps らの最短距離に基づいた手法に類似している.まず,種となる 感情極性が既知である初期単語集合が与えられる.次に,その初期単語集合と隣接する単 語を同極性として取り込んでいく.類義関係を辿った場合は類義関係の辿り元にある形容 詞と同じ感情極性を割り当て,反義関係を辿った場合は反義関係の辿り元にある形容詞と 逆の感情極性を割り当てる.これにより,WordNet 内の形容詞の感情極性を求めた.Hu らは,Kamps らの反義語の情報を取り入れることが不可能である欠点を改善した. 以上の2つの研究は,共に形容詞に注目している. 統計的スコアリングによる手法 [23] 藤村らは,2004 年に,統計的なスコアリングにより,評価表現とその極性を抽出する 手法を提案した [23].感情表現辞書を作成するためのコーパスとして,価格.com の掲示板 から収集した文を人手で分類した肯定的な評判文と否定的な評判文をコーパスとし,以下 のような式で感情表現のスコアリングを行っている.なお,感情表現の素性 (属性) を,名 詞,形容詞,形容動詞,未知語とする. score(wi ) = Pp (wi ) − Pn (wi ) (−1 ≤ score(wi ) ≤ 1) Pp (wi ) + Pn (wi ) + k ここで,wi は感情表現の素性 (属性) を表す.Pp (wi ) は,肯定的な評判で wi が出現する 確率である.Pn (wi ) は,否定的な評判で wi が出現する確率である.k は,任意の実数で ある. これは,例えば,Pn (wi ) が 0 のとき,Pp (wi ) がどのような値でも score(wi ) = 1 となっ てしまう.このような,いわゆる 1/1 問題を解決するために k を分母に付加する.score は,1 に近いほど肯定的評価の可能性が強くなり,− 1 に近いほど否定的評価の可能性が 強くなる. 7 Web ニュースからの喜怒哀楽抽出 [26] 熊本らは,2005 年に,Web 上のニュース記事から喜怒哀楽を抽出する手法を提案した [26].熊本らの手法では,まず Yahoo ニュース [27] から記事 100 件を収集し,人間がニュー ス記事を読んだときに生じる感情を「怒る」「喜ぶ」「悲しい」「嬉しい」という四つに分 類する.そして,それらの単語と他の共起度を元に,各記事を読んだユーザがどのような 感情(「悲しい-嬉しい」, 「怒る-喜ぶ」)を抱くかの尺度化を行う. 具体的には,以下のような式で表される.N (e, w) を e と w が共起した記事の数,N (e) を e が 出現した記事の数,e1, e2 を対応する感情語 (悲しい − 嬉しい,または,怒る − 喜ぶ) と する. P (e, w) = R(e1, e2, w) = N (e, w) N (e) P (e1, w) P (e1, w) + P (e2, w) 例えば, R(怒る, 喜ぶ, w) = P (怒る, w) P (怒る, w) + P (喜ぶ, w) の場合,R(怒る, 喜ぶ,w) が 1 に近い場合は, 「怒る」に分類される可能性が高い.R(怒る, 喜ぶ,w) が 0 に近い場合は, 「喜ぶ」に分類される可能性が高い. このような手法を,1990 年から 2001 年の日経新聞全文記事を対象とし,4値分類され た感情表現抽出の有効性について述べている. 文の構造を考慮した評判抽出手法 [28] 藤村らは,2005 年に,文を構成する上で主要な単語のみを用い,文節の n-gram による 素性を提案している.また,提案する素性を用いて,評判の肯定・否定分類法を提案して いる [28].文節の n-gram とは,1 文の係り受け解析から,主要な語 (名詞,未知語,動詞, 形容詞,助動詞「ない」) だけを取り出した. 藤村らでは,形容詞,形容動詞,名詞,未知語といった単語レベルの素性を用いたが, 単語の極性を判定できない問題があった.例えば,形容詞「大きい」の場合, 「画面が大き 8 い(肯定的)」, 「騒音が大きい(否定的)」といった前後の語により,単語の肯定・否定が 変化する場合に対応できない問題.この問題を解決するため,藤村らは,文節の n-gram を素性とすることで,複合語による感情表現の抽出手法を提案している.スコアリング手 法は,2.2.2 で示した手法と同じであるが,素性が単語単体ではなく,文節の n-gram であ る点が異なる。具体的には,文を構成する主要な単語のみを用いた文節 n-gram を素性と して採用した.文節 n-gram では語順が保持された状態で,共起性の高い連続した句が素 性として採用される.この共起性の考慮により,周囲の語によって肯定的か否定的かが変 わる語への対応を図ることが期待される.また,語の連なりが長くなるほど評判の分析も 容易になると考えられる. 2.2.3 まとめ 近年,感情表現を抽出する手法は多く提案されている.人手による感情辞書の作成や, n-gram 統計を用いた感情表現の収集方法が多くとられている.しかし,人手による辞書 の作成や,n-gram 統計により感情表現の収集方法には,時間コストと計算コストが増大 するという欠点がある.そのため,より効率的な複合語の感情表現収集手法が必要である と考えられる. 本論文では,< 名詞,形容詞 > のような感情表現となりうるパターンを,テキストデー タから効率的に収集する手法を提案している. 表 2.1 に,関連研究で紹介した感情表現の関連研究についてまとめる. 9 表 2.1: 感情表現抽出の関連研究のまとめ 関連研究 感情表現の単位 感情極性の推定方法 Kamps ら [20] 単語 (形容詞) WordNet[22] の情報を利用する Hu and Liu ら [21] 単語 (形容詞) WordNet[22] の情報を利用する 単語 (名詞,形容詞,形 統計的なスコアリングを行う 藤村ら [23] 容動詞,未知語) 熊本ら [26] 単語 (普通名詞,サ変名 感情語 (悲しい,嬉しい,怒る, 詞,動詞,形容詞,カ 喜ぶ) との文中での共起度によ タカナ) り感情尺度と呼ばれる指標を計 算する 藤村ら [28] 複合語 (名詞,未知語, 統計的なスコアリングを行う 動詞,形容詞) 2.3 シーケンシャルパターンマイニング 本節では,シーケンシャルパターンマイニングの代表的なアルゴリズム PrefixSpan[3] について説明する.シーケンシャルパターンマイニングは,1995 年に Agrawal と Srikant によって提案されたデータマイニングの 1 つの分野であり [2],アイテムの順序を考慮して 頻出パターンを抽出する手法である. PrefixSpan は,2001 年に Pei らによって提案されたシーケンシャルパターンマイニン グのアルゴリズムである [3].PrefixSpan は,Prefix projection という射影方法とその射 影によって生成される射影データベースを用いて深さ優先的にマイニングを行うアルゴリ ズムである. 以下では,PrefixSpan に関する主要な用語について説明し,アルゴリズムについて説明 する. 10 2.3.1 シーケンス シーケンスとは,順序を持つアイテムの列である.シーケンス s を s =< i1 , i2 , · · · , il > と表記する.ik (k = 1, 2, · · · , l) は任意のアイテムである.また,シーケンス中のアイテム の個数をシーケンスの長さとする. 2.3.2 シーケンスデータベース シーケンスデータベース D とは,シーケンス ID(sid) とシーケンス d のタプル < sid, d > の集合である. D = {< sid1 , d1 >, < sid2 , d2 >, · · · , < sidn , dn >} 2.3.3 Prefix projection Prefix Projection とは、射影元のシーケンスから射影対象のシーケンスより後ろに存在 するアイテムからなるシーケンスのみを抽出する射影である. 例えば,あるシーケンスデータベース D に対し,アイテム a によって射影するとは,シー ケンスデータベース D 中の各 sid 毎に,シーケンス d に対する a の後ろに存在するアイテ ムからなるシーケンスを作成し,そのシーケンスを改めてシーケンスデータベースとする 操作である.また,このようにして作成されたシーケンスデータベースを射影データベー ス (Prefix projection) と呼ぶ. 射影と射影データベースの例を 図 2.1 に示す.図 2.1 中のシーケンスデータベース D を a で射影すると,各 sid の Postfix は,sid = 10 では < c, d > ,sid = 20 では < b, c > ,sid = 30 では無し,sid = 40 では < a, b > となる.よって,これらが射影データベース となる. 2.3.4 アルゴリズムの流れ 図 2.1 のシーケンスデータベース D,サポート値 mins up = 2 が与えられたとする.シー ケンスデータベース中のアイテムとそのアイテムのサポート値を“ アイテム:サポート ” 11 図 2.1: 射影の動作例 として表記する. 以下,PrefixSpan アルゴリズムの流れについて説明する. 1. シーケンスデータベース D から,各アイテムのサポート値をカウントする.mins up 以上となるアイテムを抽出する.a : 4,b : 3,c : 3.これらのアイテムは,長さ 1 の 頻出シーケンスである. 2. 前のステップ 1 で抽出したアイテム a により作成する長さ 1 の頻出シーケンス < a > について考える.D に対し,< a > に関する < a >-射影データベース D<a> を作成 する(図 2.1). 3. D<a> 中の各シーケンスに対し,各アイテムのサポートをカウントする.mins up 以 上となるアイテムを抽出する.b : 2,c : 2.これらのアイテムを < a > の後ろに付 けたシーケンスは,長さ 2 の頻出シーケンスである. 4. D<a> に対し,アイテム b で射影をする.頻出アイテムはないので,射影データベー ス D<a> に対する,アイテム b での射影は終了する. 5. D<a> に対し,アイテム c で射影をする.頻出アイテムはないので,射影データベー ス D<a> に対する,アイテム c での射影は終了する. 12 6. 射影データベース D<a> に対し,アイテム b,c での射影が終了した段階で,シーケ ンスデータベース D に対するアイテム a での射影は終了する. 7. アイテム b によってシーケンスデータベース D を射影し射影データベース D<b> を 作成する.アイテム b で射影した射影データベースに頻出アイテムはないので,シー ケンスデータベース D に対する,アイテム b での射影は終了する. 8. アイテム c によってシーケンスデータベース D を射影し射影データベース D<c> を 作成する.アイテム c で射影した射影データベースに頻出アイテムはないので,シー ケンスデータベース D に対する,アイテム c での射影は終了する. 以上のように深さ優先的に射影を繰り返す.各射影は,射影データベースから最小サ ポート値以上の出現頻度のアイテムが抽出されなかった場合に終了する. このアルゴリズムを実装する際,射影データベースは,系列の集合として作成するので はなく,各シーケンスへの sid と,データベース中の各シーケンスに対して走査を開始す る位置を記憶することで,高速化をはかることができる. 2.4 まとめ 本章では,中国語形態素解析器 ICTCLAS[19],感情表現抽出の関連研究,シーケンシャ ルパターンマイニング [3] について述べた.シーケンシャルパターンマイニングの研究で は,ユーザにとって有益なパターンを抽出することが1つの目的となっている.本論文は, シーケンシャルパターンマイニングを拡張した手法を適用し,中国語テキストデータから, 感情表現パターンを効率よく抽出する. 13 第 3 章 解析手法 2 章では,中国語形態素解析器 ICTCLAS[19],感情表現抽出に関する従来研究と,シー ケンシャルパターンマイニングについて述べた.本章では,佐藤一誠らが提案したアイテ ム間の距離と属性を制約するシーケンシャルパターンマイニング手法 [14] を適用すること により,中国語テキストデータから感情表現パターンを効率よく抽出する. 佐藤一誠らは,2006 年に,シーケンシャルパターンマイニングの代表的な手法の一つで ある PrefixSpan[3] を拡張し,アイテムの距離と属性を制約としたシーケンシャルパター ンマイニング手法を提案した [14].以下では,まず,アルゴリズムの概要について説明す る.次に,アルゴリズムを説明するための各用語について説明し,最後に,アルゴリズム の流れを説明する. 3.1 アルゴリズムの概要 シーケンシャルパターンマイニングは,与えられた文章に対して,頻度の高い特徴的な パターンを抽出する手法である.単純に,各アイテム (単語) の出現回数を計算するのでは なく,同じ順序で出現する特定の単語列をパターンと呼び.出現回数の多いパターンを抽 出することを特徴とする.単語列は必ずしも連続している必要は無く,ある程度距離を置 いて出現するパターンも考慮する。これによって,文章の係り受けなども抽出することが できる.シーケンシャルパターンマイニングが提案されてから,様々なアルゴリズムの改 良が行われたが [4][5][10][6][7][8][9][11][12][13],本論文では,佐藤一誠らが提案したアイテ ム間の距離と属性を制約するシーケンシャルパターンマイニング手法 [14] を採用する. シーケンシャルパターンマイニング手法は,出現頻度の制約のみでパターンを抽出する ため,実際のデータに適用させる際,以下の 2 つの問題点が生じる可能性がある. 1. アイテム (単語) 間の距離 (アイテム数) が離れすぎていて,アイテム間に関連性のな 14 いパターンが抽出される問題. 2. 記号や助詞など,単独では意味をなさない要素のみで構成されるパターンが大量に 抽出される問題. これらの関連性のないアイテムが大量に出現することは,その中に埋もれた興味深いパ ターンの発見を阻害してしまう.佐藤一誠らは,この問題を以下の手法で解決した.その 手法とは,出現回数だけでパターンを絞り込むのではなく,アイテム間の距離とアイテム の品詞にも着目し,距離の一定以上離れたアイテムと特定の品詞パターン以外のパターン を除外するものである. これによって,有用なパターンの抽出を行うことが可能になる. 3.2 用語説明 [14] ここでは,アルゴリズムを説明するために,用語について説明する.以下の用語説明で は,論文 [14] から引用した. 3.2.1 射影 Level 射影 Level k とは,k-頻出シーケンシャルパターンによるシーケンスデータベースの射 影である.まだ射影されていない初期のデータベース (シーケンスデータベース) を射影 Level 0 で射影されたデータベースとみなす. 3.2.2 sid-pos 連想配列 sid-pos 連想配列とは,アイテムを含むシーケンスの sid と対象とするシーケンス中での 最初の出現位置 (pos) を,キー=sid,値= pos とした連想配列であり,sid → pos と表記 する.なお,出現位置 (pos) の値は,シーケンスの先頭を 1 とする.また,あるアイテム に対する sid-pos 連想配列の集合を sid-pos 集合とし,{sid → pos} と表記する. 15 3.2.3 k-頻出パターンデータベース k-頻出パターンデータベース F DBk とは,シーケンスデータベース中での最小サポー ト値以上の頻出アイテム item とその item の sid-pos 集合のタプル < item, {sid → pos} > の集合である. 3.2.4 射影アイテムデータベース 射影アイテムデータベース ProjDB とは,射影したアイテム proj-item とその proj-item の sid-pos 集合のタプル < proj − item, {sid → pos} > の集合である. 3.2.5 アイテムの属性 テストデータを対象としたアイテムの属性は「品詞」である. 3.3 アルゴリズムの流れ [14] アルゴリズムは以下の手続きで行われる. 1. シーケンスを,(アイテム名, アイテムの属性 (品詞)) を一対とした列とする. 2. k=1 とする.射影 Level(k-1) で射影されたデータベースから,頻出アイテムを抽出す る.その後,制約条件 A を満たすアイテムを k-頻出パターンデータベースに入れる. 3. アイテムを k-頻出パターンデータベースから射影する. 4. 射影したアイテムを射影アイテムデータベースに入れる. 5. 距離の制約は,射影アイテムデータベースをもとに出力する. 6. 属性の制約は,アイテムで射影されたデータベースを射影 Level(k) で射影されたデー タベースとし,(k+1)-頻出パターンデータベースを作成する. 7. 以下,深さ優先的に k=2,3,4· · · と繰り返す. 16 ここで,制約条件 A とは,以下の 2 つの条件のことである. 1. 指定されたアイテムの属性が,許可属性リスト k のいずれかの属性に合致すること. 2. k > 1 のとき、指定されたアイテムと,アイテム列 (k-1) の一番最後のアイテムの出 現位置との距離が最大サポート距離以下であること. 最小サポート値,最大サポート距離は,あらかじめ定義しておいた一定の値とし,許可 属性リスト k(k=1,2,3· · · ) は,あらかじめ定義しておいた属性のリストとする. 17 第 4 章 中国語テキストデータにおける感情表 現抽出実験 本章では,3 章で説明したアイテム間の距離と属性を制約するシーケンシャルパターン マイニング手法を適用し,Alibaba サイトのレビューページに対し,中国語テキストにお ける感情表現パターンを抽出する実験について述べる. 本章は,以下の構成をとる.まず,解析環境を説明する.次に,データセットについて 説明する.最後に,解析結果を説明する. 4.1 解析環境 表 4.1 に評価環境を示す. 表 4.1: 評価環境 CPU Intel(R) Pentium(R) 4 3.20GHz L2 キャッシュサイズ 512 KB 物理メモリサイズ 1GB OS Microsoft Windows XP Professional コンパイラ javac 1.6.0 03 プログラム言語 Java 18 4.2 使用データ 本研究では,Alibaba サイト [15] のレビューページを利用し,レビューページに掲載さ れている感情表現を抽出することでデータセットを作成した.Alibaba は世界的に有名な B2B 電子商取引のブランドである.Alibaba 会社は,2005 年 8 月,全世界の最大のポー タルサイト Yahoo!と協力し,Yahoo!中国の所有する資産を併合して,中国の最大のイン ターネット会社になった.世界中に多くの拠点を構えることで,世界中の多くの地域をカ バーしている.Alibaba は以下の三つのウェブサイトを運営している. 1. 中国ウェブサイト(china.alibaba.com),主に中国市場に向けるサービスを提供し ている. 2. 国際ウェブサイト (alibaba.com),全世界を対象としたサービスを提供している. 3. 日本ウェブサイト(japan.alibaba.com),主に日本市場に向けるサービスを提供し ている. 本評価では Alibaba 中国ウェブサイト(china.alibaba.com)のレビューページに掲載さ れている評価文章から抽出された 11,133 個のレビュー文章を利用した.Alibaba 中国ウェ ブサイトでは,書籍,服,電子製品など複数のカテゴリーに分かれているため,カテゴ リーに特有の表現が抽出できる.また,レビューを書く際には,レビュアーは中国語のレ ビューセンテンスを入力するとともに,3 段階の評価を選択しなければならない.これによ り,各々のレビューセンテンスが意味する評価の良しあしを,人手により分類しなくよい. 以下では,データセットを作成する手順を示す. 1. 中国ウェブサイト(china.alibaba.com)の工業カテゴリーのレビューにおいて,2008 年 1 月に書かれたレビューを対象とし,評価値が「好評」であったレビューセンテ ンスを収集した. 2. 2008 年 1 月現在,工業カテゴリーにおいての製品のページは 50 万 1147 ページで あった.ただし,これらのページには,レビューを含まない製品に関するページも 含まれていた. 19 表 4.2: シーケンシャルデータベースの例 3. 収集された 11,133 個の文章は, 「。」, 「. 」の文の区切りを表す読点によって区切り,1 文ごとに分割し,18,286 の文章を得た.その中で,人手により,レビュー文章とし て不適切な文章を除くことで,ランダムに 10,000 個の文をランダムに選択した.こ こで,不適切な文章とは,単語数は 2 単語以下の文章,好評として意味のない文章 である. 4. 中国語形態素解析ツール ICTCLAS[19] を用いて,すべての文に対して形態素解析 を行い,単語に品詞をつけた.ここで,シーケンシャルパターンマイニングにおけ るアイテムを単語,アイテムの属性を単語の品詞として定義する. 5. 1 文を 1 シーケンスとみなす.単語,および単語の品詞をペアとし,当該文に含ま れる単語順にペアを並べることで,1 シーケンスを生成する.アイテム数は 222,405 であり,1 シーケンスあたりの平均アイテム数は 22 である. 以上の手順を踏まえて,生成したシーケンシャルデータセットは 10,000 個とした.ま た,データセットのアイテム数は 222,405 個,1 シーケンスあたりの平均アイテム数は約 22 である. 表 4.2 では,生成したシーケンシャルデータベースの一部の例を示す.表 4.3 は,表 4.2 の日本語訳である.また,表 4.2 で示したアイテム属性のところで, 「n」, 「a」, 「u」は形態 素解析ツール ICTCLAS による定義した品詞属性の英語の略称である.ここでは, 「n」は 名詞, 「a」は形容詞, 「u」は助詞を表す. 20 表 4.3: 表 4.2 の日本語訳 4.3 解析結果 本評価実験では,中国語における感情表現のパターンとして,最も一般的な<名詞,形 容詞>というパターンに着目した.本節では,まず,Alibaba レビューページから実際に 抽出された例をいくつか挙げる,次に,距離と属性を制約とする手法の評価をする. 4.3.1 抽出する例 前節で示した方法で生成したシーケンシャルデータセットに対して,以下に示すような 条件を設定し,感情表現の抽出を行った.なお,生成したデータセットは, 「好評」にカテ ゴライズされているレビューセンテンスから生成したものとした. • 最小サポート値制約:10 回以上の出現を満たすこと • 単語間の距離制約:シーケンス中に含まれる任意の 2 単語間の単語数は 5 単語以下 であること • アイテム属性の制約:名詞 − > 形容詞の順序で構成されていること 以下,抽出結果を表 4.4 から表 4.11 までにまとめて説明する. 表 4.4 に示した感情表現は,提案手法によって抽出されたパターンのうち,もっとも頻 度が高かった 10 パターンである.表 4.5 は,表 4.4 に示されている感情表現を日本語に訳 したものである. 表 4.6 に示した感情表現は,形容詞“ 良好 ”を含む抽出シーケンスの中で,頻度が最も 高かった 10 パターンである.表 4.7 に示した感情表現は,表 4.6 に示した感情表現を日本 語で訳したものである. 21 表 4.4: 頻度上位のパターン 表 4.5: 表 4.4 の日本語訳 22 表 4.6: 形容詞“ 良好 ”として頻度上位のパターン 表 4.7: 表 4.6 の日本語訳 23 表 4.8: 形容詞“ 熱情 ”として頻度上位のパターンである 表 4.8 に示した感情表現は,形容詞“ 熱情 ”を含む抽出シーケンスの中で,頻度が最も 高かった 10 パターンである.表 4.9 に示した感情表現は,表 4.8 に示した感情表現を日本 語で訳したものである. 表 4.10 は,本手法で抽出された,感情表現に適さないパターンの例である.表 4.11 は, 表 4.10 に示した感情表現を日本語で訳したもの示す. 表 4.11 では,頻度が 15,名詞が“ デザイン ”,形容詞が“ タイムリー ”であるパター ンは,日本語としては意味が通じるが,中国語においては,不適切な感情表現である.表 4.11 で示すように,意味の無いパターンが抽出された.この原因は,中国語形態素解析器 ICTCLAS が間違って品詞を付けることと,距離の制約が緩い制約であったことが考えら れる. 24 表 4.9: 表 4.8 の日本語訳 表 4.10: 悪い例のパターン 25 表 4.11: 表 4.10 の日本語訳 4.3.2 評価 抽出時間の評価 最小サポート値を 30 と設定し,属性と距離の制約を追加した PrefixSpan 手法と従来の PrefixSpan に比べ,抽出する時間を計測した.図 4.1 は,属性と距離の制約を追加した手 法の,距離制約の設定の違いによる速度変化を評価したグラフである.図 4.1 で示す通り, 距離の最大値を高く設定すると時間がかかることがわかった.また,図 4.2 は,属性と距 離の制約を追加した手法の距離制約の設定の違いによる速度変化と従来の PrefixSpan の 速度を比較したグラフである. 図 4.2 で示す通り,従来の PrefixSpan より高速である. 抽出したパターン数の評価 最小サポート値を 10 と設定し,属性と距離の制約を追加した PrefixSpan 手法と従来の PrefixSpan によって抽出するパターン数を計測し,抽出パターン数を比較した.表 4.12 では,属性と距離を制約した PrefixSpan 手法での距離制約は, 「5 以下」とし,属性の制約 は「名詞+形容詞」とした. 表 4.12 で示す通り,従来の PrefixSpan に比べ,パターン数は 1,000 分の 1 ほどに減少 させることができた. 26 図 4.1: 距離と属性を制約した PrefixSpan の速度評価 図 4.2: 本手法と従来 PrefixSpan の速度比較 27 表 4.12: パターン数評価 抽出したパターンの正確率 最小サポート値を 10,アイテム間の距離制約を「5 以下」,属性の制約は「名詞+形容 詞」としたうえで,属性と距離の制約を付加した PrefixSpan 手法により抽出したパター ンの精度を計測した.計測にあたっては,母国語が中国語である二人により算出した.抽 出したパターン数は,308 である.その中,<名詞+形容詞>のパターン,もしくは肯定 な形容詞が不適切である場合の数は,44 である.よって,抽出したパターンの正確率は 308 − 44 = 85.71% 308 また,従来の PrefixSpan 手法により抽出した 298148 パターンに対して,もっとも頻度が 高かった 100 パターンを取り出し,精度を計測した.計測にあたっては,100 パターンの 形容詞に着目し,母国語が中国語である二人により算出した.肯定な形容詞である数は 6 である.よって,抽出したパターンの正確率は 6 = 6% 100 また,表 4.12 で示す通り,無駄なパターンの抽出を抑え,効率的にパターンを抽出する ことができる. 28 第 5 章 おわりに 本論文は,シーケンシャルパターンマイニングに対し,アイテム間の距離とアイテム属 性の制約を加えることで,中国語テキストデータから感情表現パターンを効率よく抽出す る手法を提案した.また,本提案手法を,Alibaba レビューページから収集した 10,000 文 章に適用し,<名詞,形容詞>の感情パターンの抽出を試みた.その結果,従来手法で抽 出したパターンの精度の 6%に比べ,抽出パターンの精度が 85%を超え,不適切な感情表 現の抽出を抑えられることを確認した.また,従来の PrefixSpan アルゴリズムに比べて, 短時間,かつ有益な情報を抽出することができた.今後の課題を以下に挙げる. 1. 今回の距離の制約が緩い制約であるため,距離の制約の最適値を求める手法 2. 中国語テキストにおける抽出するパターンの正確率を挙げる手法 29 謝辞 本研究を行うにあたり数々の助言,指導をしていただいた山名早人教授に感謝いたしま す.また数々の助言を頂いた山名研究室平手勇宇氏,そして私を助けてくれた山名研究室 のみなさんにお礼を申し上げます. 30 参考文献 [1] CNNIC : http://www.cnnic.net.cn [2] R.Agrawal and R.Srikant, “ Mining Sequential Patterns, ”In Proc. of ICDE1995, IEEE Press , pp.3-14, 1995. [3] J.Pei, J.Han, B.Mortazavi-Asl, H.Pnto,Q.Chen, U.Dayal, and M.Hsu, “ PrefixSpan:Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth, ” In Proc. of ICDE2001, IEEE Press , pp.215-224, 2001. [4] Hajime Kitakami, Tomoki Kanbara, Yasuma Mori, Susumu Kuroki, and Yukiko Yamazaki,“Modified PrefixSpan Method for Motif Discovery in Sequence Databases,” In Proc. of PRICAI2002, pp.482-491, Springer Verlag, 2002. [5] 塔野薫隆, 北上始, 田村慶一, 森康真, 黒木進, “ Modified PrefixSpan 法を用いた頻出 正規パターンの抽出を目指して, ”DBSJ Letters, Vol3. no.1, pp.61-64, 2004. [6] R.Srikant and R.Agrawal,“ Mining Sequential Patterns : Generalizations and Performance improvments, ”In Proc. of EDBT1996, pp.3-17,1996. [7] J.pei, J.Han, and W.Wang, “ Mining sequential patterns with constraints in large databases, ”In Proc. of CIKM2002, pp.18-25, 2002. [8] 櫻井 茂明, 植野 研, 酢山 明弘, 折原 良平, “ 時系列イベントパターンマイニングにお ける時間制約の導入, ”In Proc. of DEWS2005, 6C-o1, 2005. [9] 平手 勇宇, 小松 俊介, 山名 早人, “ イベント発生間隔を考慮したシーケンシャルパ ターンマイニング, ”情報研報 (DBS),Vol.2005, No.137, pp.321-328, 2005. 31 [10] Zaki, M., “ Sequence Mining in Categorical Domains: Incorporating Constraints, ” in Proc. of CIKM ’00, pp. 422-429, 2000. [11] Chen, Y.L., Chiang, M.C. and Ko, M.T. “ Discovering timeinterval sequential patterns in sequence databases, ” Expert Syst. Appl., Vol. 25, No. 3, pp. 343-354, 2003. [12] Chen, Y.L., Huang, T.C., “ Discovering fuzzy time-interval sequential patterns in sequence databases, ” in IEEE Trans. on Systems, Man, and Cybernetics, Vol. 35, No. 5, pp. 959?972, 2005. [13] Y. Hirate and H. Yamana, “ Generalized Sequential Pattern Mining with Item Intervals ”, Journal of Computers(JCP), Academy Publisher, Vol. 1, Issue 3, pp. 51-60, 2006. [14] Issei SATO, Yu HIRATE and Hayato YAMANA, ”Text Mining using PrefixSpan constrainted by Item Interval and Item Attribute,” Proc. of IEEE ICDE’06 Workshop on SWOD2006, Apri., 2006. [15] Alibaba : http://china.alibaba.com/ [16] 朴 哲済,李 鐘赫,李 根培, “ 統計モデルによる日本語の形態素解析手法,” 情報 処理学会研究報告 自然言語処理研究会報告,Vol.95, pp. 19-26,1995. [17] 捜捜捜中文分詞ツール : http://down.chinaz.com/soft/21496.htm [18] 中文智能分詞ツール : http://www.hylanda.com/product/fenci/ [19] ICTCLAS : http://www.nlp.org.cn/project/project.php [20] Kamps, J., Marx, M., Mokken, R. J., and de Rijke, M. (2004). “ Using WordNet to Measure Semantic Orientations of Adjectives. ”In Proceedings of the 4th International Conference on Language Resources and Evaluation.,2004 32 [21] Hu, M. and Liu, B.“ Mining and Summarizing Customer Reviews. ”In Proceedings of the 2004 ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 168-177,2004 [22] Fellbaum, WordNet: An Electronic Lexical Database. The MIT Press,1998 [23] 藤村滋, 豊田正史, 喜連川優,“ Web からの評判および評価表現. 抽出に関する一考察, ” 信学技報 ,Vol.104, No.177, pp.141-146, 2004. [24] D. Gluhl, L. Chavet, D. Gibson, J. Meyer, P. Pattanayak, A. Tomkins and J. Zien, “ How to build a WebFountain: an architecture for very large-scale text analysis, ” IBM sytems Journal 43(1), pp.64-77,2004 [25] Jeonghee Yi and Wayne Niblack, “ Sentiment Mining in WebFountain, ”In Proc. of ICDE2005, pp.1073-1083, 2005. [26] 熊本忠彦, 田中克己, “ Web ニュース記事からの喜怒哀楽抽出, ” 情報研報 (NL), Vol.2005, No.1, pp..15-20, 2005. [27] yahoo : http://headlines.yahoo.co.jp/hl [28] 藤村滋, 豊田正史, 喜連川優, “ 文の構造を考慮した評判抽出手法, ”電子情報通信学 会 第 16 回データ工学ワークショップ (DEWS2005). 33