Comments
Description
Transcript
コメントを用いた映画の分類 - 中川研究室
社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE コメントを用いた映画の分類 阿部 倫子 1 1 中川 裕志 3 東京大学大学院学際情報学府 〒113-0033 東京都文京区本郷 7-3-1 2 東京大学大学院情報学環 〒113-8656 東京都文京区弥生 2-11-16 3 E-mail: 田中 久美子 2 東京大学情報基盤センター 〒113-0033 東京都文京区本郷 7-3-1 1 [email protected], [email protected] [email protected] あらまし 映画情報サイトに集められたユーザからの映画に対するコメントを用いて,ナイーブ・ベイズ分類により個々の 映画を分類し,既存のジャンル分けと比較評価した.分類精度の客観的評価には平均適合率を用い,10 回の実験において 平均で約 0.7 程度の分類精度を示した.実験における個々の映画の分類を詳細に観察すると,既存の分類と機械による分 類が異なっている場合にも,機械による分類情報が有用な情報をもっている場合があることに気づく.今後の課題としてこれ らの情報をいかに映画の探索システムの中にいかしていくかがある.このための予備データとしてナイーブ・ベイズ分類が既 存の分類とは異なるジャンルになった場合の例についても、その内容を分析した結果を報告する。 キーワード 自動分類,ナイーブ・ベイズ分類,映画探索システム Classification of Films using Comments Michiko ABE1 Kumiko TANAKA2 and Hiroshi NAKAGAWA3 1 Interfaculty Initiative in Information Studies Graduate School of the University of Tokyo 7-3-1 Hongo, Bunkyo-ku, Tokyo, 113-0033 Japan 2 Interfaculty Initiative in Information Studies Graduate School of the University of Tokyo 2-11-6 Yayoi, Bunkyo-ku, Tokyo, 113-8656 Japan 3 Information Technology Center, the University of Tokyo 7-3-1 Hongo, Bunkyo-ku, Tokyo, 113-0033 Japan E-mail: 1 [email protected], [email protected] [email protected] Abstract Using users' comments from a movie information site, we develop a movie classification system based on Naive Bayes method. We evaluate the classification results with the genre for each movie classified by IMDb. For the objective evaluation of the classification precision, we employed the average precision. The average precision is about 0.7 in 1—fold cross-validation. When we look into the movie classification from this experiment, we notice that even in the case in which the existing genre classification and machine classification differ, the machine classifications are valuable or even more persuasive. Keyword Naive Bayes classifier, Automatic classification, Movie search system 1. は じ め に 現 在 ,インターネットでは様 々なデータベースが利 用 でき ータベースの探 索 を可 能 にするには,ユーザから得 られた 情 報 を自 動 的 に処 理 できる機 能 が望 まれる. る.また,ユーザからの 情 報 発 信 ,つまり 評 価 や 採 点 など を 本 研 究 では映 画 情 報 サイト CinemaScape[4]に集 められ 利 用 して,より充 実 した情 報 提 供 を行 うサイトが数 多 くあり, た,ユーザの映 画 に対 するコメント情 報 を用 いて,映 画 の分 情 報 発 信 ・情 報 収 集 の場 として多 くのユーザを集 めている. 類 を行 った.映 画 そのものはテキストデータではないが,この 映 画 ,本 ,レストラン,電 気 製 品 などその分 野 は多 岐 にわた ようにユーザの映 画 に対 するコメントに着 目 することで,映 画 る[1][2][3]. の 分 類 につ いても 自 然 言 語 処 理 技 術 で 扱 い う るもの とな る 現 状 ではこれらのサイトは人 手 による管 理 に依 存 する部 [5] . ま た , コ メ ン ト の 類 似 性 を 映 画 の 類 似 性 と と ら え れ ば , 分 が大 きく,データ量 も膨 大 である.より柔 軟 で多 角 的 なデ 新 たな側 面 からの情 報 をユーザに提 供 することができると考 える. 社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 実 験 では分 類 手 法 としてナイーブ・ベイズ分 類 を用 い,得 信学技報 TECHNICAL REPORT OF IEICE の単 語 数 を平 均 すると約 10 語 程 度 であり(最 頻 も 10 語 , られた結 果 を評 価 ・考 察 した.ナイーブ・ ベイズ分 類 は確 率 最 大 は 3797 語 ),通 常 の文 書 分 類 にくらべ比 較 的 短 いテ モデルに基 づく分 類 法 である[6].また,分 類 結 果 を詳 細 に キストをもとにしているので,分 類 が難 しい場 合 もある.コメン 考 察 す る こ とで , 人 手 で 与 え ら れ た 分 類 と ナ イ ー ブ・ ベ イ ズ トデータの概 要 を(表 1)に示 す. 分 類 による 自 動 分 類 で 相 違 がある 映 画 に 関 して, 必 ず し も 自 動 的 な分 類 が間 違 っているとはいえない映 画 が多 々ある (表 1) コメントデータの概 要 映画数 コメント数 Total 7004 111301 1109877 55175 Action Adventure Animation Comedy Crime Documentary Drama Family Fantasy Horror Musical Mystery Romance SciFi Short Thriller War Western 1443 439 297 1774 572 108 3442 136 206 440 188 393 902 561 79 860 271 148 28742 9929 5652 28018 10120 750 53751 1471 4076 7560 2483 6503 16078 14483 552 21072 5764 1410 293145 101459 57277 280043 102454 7982 565513 15282 42912 76203 26513 66604 165460 146445 4885 212217 61723 14229 27827 15487 10739 27690 15847 3272 39683 4719 9168 13053 6928 12602 20390 18987 2312 23013 11594 4655 ことに気 づく. 本 研 究 では,ナイーブ・ベイズ分 類 によりコメントから映 画 をある程 度 分 類 することができることを実 験 により検 証 した上 で,「分 類 」を 単 なる 参 考 情 報 としてユーザに 提 示 す るだ け ではなく,映 画 をより多 角 的 に探 索 できるシステムを考 案 す ることを目 指 している. 2. CinemaScape インターネットで利 用 できる 映 画 データベースにも様 々な も の が あ る . 中 で も 最 も 知 ら れ て い る の は The Internet Movie Database (IMDb)[7]である.IMDb には 25 万 件 に及 ぶ 世 界 中 の 映 画 が 収 録 さ れ てい る. 日 本 語 で 利 用 可 能 な データベースには,allcinema ONLINE[8] ,ぴあシネマクラ ブ[9]などがある.allcinema ONLINE は,サイトを訪 れたユ ーザ が 映 画 に 対 す る コ メ ン ト を 書 き 込 む こと がで き る の が 特 徴 である.ぴあシネマクラブでは,収 録 している 17000 件 の 映 画 すべてについて,あらすじを得 ることができる. 本 研 究 で利 用 したコメント情 報 は,すべて CinemaScape で 単語総数 異 なり数 (図 1) コメントの一 例 収 集 さ れ て い る も の で あ る . allcinema ONLINE 同 様 , CinemaScape においても,コメント情 報 が収 集 されているの ★5 親 父 は この 映 画 の 大 フ ァ ン .なの で ,ワ ケ もわ から なかっ だが,allcinema ONLINE をはるかに上 回 るコメント情 報 が た子 どもの頃 から ,無 心 の切 り 出 し口 上 は「ゴッドファーザー, CinemaScape には蓄 積 されている.また CinemaScape では お願 いがあるのですが…」だった. コメントと同 時 に映 画 に対 する 5 段 階 の採 点 情 報 を収 集 し ★5 「ファミリー」に二 重 の含 みがあるように,「血 」という言 葉 に ており,これを用 いて,協 調 フィルタリングによる映 画 推 薦 シ も大 切 な意 味 二 つ.そして,そのうちの「ありきたりではない方 」 ステムが実 現 されている[10]. の 血 が ない こ と に は 成 立 し ない , こ の 家 族 の 歴 史 の 悲 哀 . 激 CinemaScape に収 録 されている映 画 に関 する基 本 情 報 は前 述 の IMDb が使 用 されている.映 画 は 18 のジャンルに 分 類 されており,この分 類 も IMDb による人 手 の分 類 に準 拠 したものである.(複 数 の分 類 が付 与 されている映 画 もあ る.) 登 録 されている映 画 数 は 9413 件 (2002 年 1 月 現 在 )で あるが,このうちどのジャンルも付 与 されていない映 画 と,ユ ーザ から コ メン トが ひと つも 得 られて い な い 映 画 は, 本 研 究 情 .虚 しさ.寂 しさ.そしてイヤになるほど鮮 烈 な,美 . ★5 マイケルになりたかった大 学 生 の頃 ・・・ ※(「ゴッドファーザー(1972/米 /Action・Crime・Drama)」より一 部抜粋) 3. ナ イ ー ブ ・ ベ イ ズ 分 類 3.1. ナイーブ・ベイズ分 類 の適 用 では処 理 の対 象 からはずした.これにより,実 際 に本 研 究 で ナイーブ・ベイズ分 類 は文 書 の分 類 法 として,広 く知 られ 使 用 した映 画 の総 数 は 7003 件 となっている.コメントは,映 た 方 法 で あ る . 文 書 分 類 に つ い て は ほ か に も Support 画 ごとに形 態 素 解 析 をし,名 詞 ,動 詞 ,形 容 詞 ,形 容 動 詞 , Vector Machine[11]によるもの,決 定 木 による分 類 [12]など, 未 定 義 語 ,副 詞 ,連 体 詞 ,感 動 詞 をとりだした.また,半 角 様 々な 方 法 が 提 案 されてい る.しか し, 本 稿 の 目 的 は 分 類 文 字 はすべて 全 角 に,アルファベット 大 文 字 はすべて 小 文 精 度 をみ ることよりも,コメント を用 いて 映 画 や 商 品 を 扱 い う 字 に変 換 した. るのか どうか,そ の 可 能 性 を 探 求 す ることを 第 一 の 目 的 と し 各 映 画 において,コメントから得 られる単 語 の数 にはばら ている.したがって,分 類 結 果 が分 類 方 法 になるべく依 存 せ つきがある.有 名 な作 品 には多 くのコメントが寄 せられるが, ず,また,分 類 後 の解 析 が簡 単 に行 える単 純 なモデルを用 あまり知 られていない映 画 はコメントも少 ない.1 映 画 あたり いたい.このため,ナイーブ・ベイズ分 類 を選 んだ. 社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE 実 験 では,1 件 の映 画 を 1 件 の文 書 ととらえ,映 画 に対 す るコメント中 に含 まれる単 語 を,その映 画 ( 文 書 ) に含 まれる 単 語 として扱 った. {ci ; c1 ,K , c18 } , 各 映 画 を {m j ; m1 , K , m7004 } とおき, m j に与 えられているコメントに あ ら わ れ る 単 語 を {wk ; w1 , L , wn } と お く と , m j に 対 し て のジャンルは,事 後 確 率 P ( c j | mi ) を最 大 化 するようなカテ ゴリ ĉ 以 下 の式 で求 めることができる. 各 ジ ャ ン ル を ci ci = arg max P ( w1 , L , wn |c i ) P (c i ) たとえば「Horror」というジャンルの中 に,単 語 {A,B,C,D, E} が 出 現 す る と す る . こ れ ら の 単 語 の 「 Horror 」 に おけ る 出 現確率 P ( wk |c horror ) をそれぞれ{a , b , c , d , e}とする.さ らに「God Father」という映 画 の中 に,単 語 {A,B,D,F}が 1 回 ず つ 出 現 す る と す れ ば , ジ ャ ン ル 「 Horror 」 の 「 God Father」に対 するベイズ事 後 確 率 は以 下 の式 で求 められる. ・・・(7) ・・・(1) ci さらに,各 ジャンルのもとで単 語 は独 立 に生 起 すると仮 定 4. 実 験 と 評 価 まず,7004 件 の映 画 を,ランダムに 10 等 分 し,9:1 の訓 練 集 合 とテス ト 集 合 の ペ ア を つ くっ た( test1 ~10 ) .さ ら に , n P ( w1 , L , wn |c i ) = ∏ P ( wk | c i ) 訓 練 集 合 に 含 まれ る 映 画 で 分 類 の 学 習 を おこ な い,テス ト k =1 とする.これにより,映 画 の分 類 は次 式 により行 うことができ 集 合 に含 まれる映 画 (それぞれ約 70 件 )を分 類 する実 験 を それぞれのペアで行 う 10-fold 交 差 検 定 を行 った. る. n cˆ = arg max P (c i )∏ P ( wk | ci ) ここでは, ci 評 価 の尺 度 には平 均 適 合 率 (Average precision)を用 い ・・・(2) た[14] . 平 均 適 合 率 を 用 い る こと で, 順 位 付 き 分 類 結 果 を k =1 考 慮 し,また,再 現 率 と適 合 率 を総 合 的 な観 点 から 1 つの P (c i ) = ci に含 まれる映 画 数 / 全 映 画 数 ・・・(3) と し , ま た , ci に 出 現 す る 単 語 総 数 を N i , ci に お い て wk が出 現 する回 数 を Fik とおくと, P ( wk |c i ) = Fik / N i ・・・(4) と定 義 する. 上 記 のように,個 々の映 画 においてすべてのジャンルに 対 し,その事 後 確 率 をもとめることで,各 映 画 に対 する適 切 なジャンルを順 位 付 けることができる. 3.2. ゼロ頻 度 問 題 ところで,式 (4)において,単 語 によっては,ジャンル ci に おいて として得 られる. a * b * d * {0.5 /( N horror + 0.5 * Vall )} = arg max P (c i | w1 , L , wn ) 場合, ・・・(6) P (c horror | God Father ) = cˆ = arg max P (c i | m j ) し, P ( wk | ci ) = 0.5 /( N i + 0.5Vall ) wk が出 現 する回 数 Fik が 0 となる場 合 がある.この P ( wk |c i ) = 0 となり,出 現 回 数 0 の単 語 がひとつで もあれば,そのジャンルの事 後 確 率 は 0 という結 果 になって しまう.これを避 けるためには,単 語 の出 現 回 数 の補 正 (ディ スカウンティング)を行 う必 要 がある. デ ィスカ ウンテ ィン グ には 予 期 尤 度 推 定 法 ( ジ ェ フリ ース ・ パークス法 ) [13] を採 用 した. 予 期 尤 度 推 定 法 は単 語 の 頻 度 に 0.5 をあらかじめ足 しておく方 法 で,すべての映 画 に ついての単 語 の異 なり総 数 を V all とおくと, 値 で評 価 することができる. (表 4) ナイーブ・ベイズ分 類 による各 ジャンルの順 位 (例 :シックス・センス) シックス・センス(1999/米 ) IMDb による分 類 Thriller/Drama/Horror ナイーブ・ベイズ分 類 に 1 Drama よる順 位 2 Thriller 3 Comedy 4 SciFi 5 Action 6 Romance 7 Crime 8 Mystery 9 Horror 10 Adventure 11 War 12 Fantasy 13 Animation 14 Musical 15 : P ( wk |c i ) は以 下 の式 で表 される. P ( wk | ci ) = ( Fik + 0.5) /( N i + 0.5Vall ) 具 体 的 には,各 映 画 におけるナイーブ・ベイズ分 類 による ・・・(5) ここで V all は,単 語 の出 現 確 率 の合 計 が 1 になるように導 入 された定 数 である.各 ジャンルにおいて一 度 も出 現 しない単 語 (0 頻 度 )の出 現 確 率 は ジャンルの順 位 に対 し,IMDb で付 与 されているジャンルが 出 現 したそれぞれの時 点 での精 度 を計 算 し,それらの精 度 を平 均 したものが平 均 適 合 率 になる. (表 4)にあらわした,映 画 「シックス・センス」の分 類 結 果 の場 合 ,精 度 は 1 位 Drama の時 点 で 1/1,2 位 Thriller の 社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE 時 点 で 2/2,9 位 Horror の時 点 で 3/9,となり平 均 適 合 率 は 1/2 + 2/2 + 3/9 ≒ 0.778 となる. とにはできない. 本 研 究 が,映 画 の「 あらすじ」 や「 せりふ」ではなく,「ユー 10 回 の実 験 それぞれにおける平 均 適 合 率 を(表 5)にし めす. ザからの コメント」 を 処 理 の 対 象 として 用 いたのは,“ コメント を用 いることで,より多 くのユーザからの意 見 を反 映 した「再 分 類 」が行 えるのでは”,という仮 定 による.計 算 機 は人 々の (表 5) 10 回 の実 験 における平 均 適 合 率 test1 test2 test3 test4 test5 test6 test7 test8 test9 test10 平均 0.706 0.710 0.698 0.697 0.709 0.721 0.696 0.694 0.690 0.692 0.701 コメントから素 直 にジャンルを予 想 したにすぎない.人 手 によ る分 類 と機 械 による分 類 が異 なる結 果 を示 していても,それ は単 に,IMDb における分 類 基 準 とユーザの意 見 が異 なっ ているからであるともいえる.よって,多 くのユーザによって, 「 主 観 的 な評 価 ・ 感 想 」 として集 められたコメントに基 づいて 分 類 を 行 え ば ,ユ ー ザに と っ てはよ り 有 意 義 な 情 報 を 提 供 できる場 合 もあると考 える.人 手 による分 類 と,機 械 による分 類 の差 にこそ意 義 があるといえよう. そこで,IMDb による分 類 と,ナイーブ・ベイズ分 類 の結 果 が 異 な って い る 映 画 に 関 し て , 具 体 的 に 観 察 ・ 分 析 を 行 っ た.ナイーブ・ベイズ分 類 により,1 位 に順 位 付 けられたジャ ンルにもかかわらず,IMDb ではそのジャンルに分 類 されて 5. 考 察 IMDb により付 与 されているジャンルを正 解 集 合 とし,平 いなかった映 画 の例 が(表 6)である.ここでは極 端 な例 を示 均 適 合 率 を用 いて分 類 精 度 の評 価 を行 った.これにより,コ すため,「訓 練 集 合 (7004 件 の映 画 を含 む)=テスト集 合 」と メントを利 用 して映 画 をある程 度 自 動 的 に分 類 できることが して分 類 を行 った場 合 の結 果 を示 す. わかった.しかし,本 研 究 が 最 終 的 に 目 指 してい るのは,こ (表 6)にあげた映 画 の中 でも,ナイーブ・ベイズ分 類 が 1 (表 6) IMDb とベイズ分 類 で結 果 が異 なる映 画 の例 タイトル タワーリング・インフェルノ ダーティハリー4 ガメラ対 宇 宙 怪 獣 バイラス 空軍大戦略 うる星 やつら いつだってマイ・ダーリン 超 音 ジェット機 サーキットの狼 ルパン三 世 念 力 珍 作 戦 プラン9・フロム・アウタースペース 現 金 に手 を出 すな ハバナ 山口組三代目 ブエナ・ビスタ・ソシアル・クラブ あの夏 ,いちばん静 かな海 . 仕 立 て屋 の恋 ときめきメモリアル 小 人 の饗 宴 シャーロックホームズの冒 険 イン・ベッド・ウィズ・マドンナ 小 さな兵 隊 パリの恋 人 ネバーエンディング・ストーリー3 ドラえもん のび太 の創 世 日 記 アルカトラズからの脱 出 戦略空軍命令 ジャンヌ・ダーク IMDb による分 類 Drama Crime/Drama Drama War Animation Drama Action Comedy SciFi/Horror Thriller Drama Action/Drama Documentary Romance Thriller/Crime Drama/Romance Drama Drama Documentary War Comedy/Musical Fantasy Animation Drama Drama Drama ベイズ分 類 1 位 Action Action Action Action Action Adventure Animation Animation Comedy Crime Crime Crime Drama Drama Drama Horror Musical Mystery Romance Romance Romance SciFi SciFi Thriller War War 2位 Drama Crime SciFi War Comedy Drama Action Action SciFi Thriller Thriller Action Romance Romance Romance Animation Drama Adventure Drama Drama Comedy Comedy Drama Drama Drama Drama 3位 Thriller Drama Drama Drama Animation War Adventure Comedy Drama Romance Drama Drama Comedy Crime Crime Thriller Animation Action Comedy Comedy Musical Action Animation Action Action Romance のような 評 価 尺 度 に 基 づ いた 映 画 の 分 類 精 度 を あげること 位 にあげているジャンルが,あながち間 違 ってはいない印 象 ではない.人 手 による分 類 は,あくまで「どこかでだれかが」と をうける映 画 がある.たとえば,IMDb によれば「タワーリング・ りきめた分 類 基 準 に 基 づいており,そこに主 観 性 が入 ること イン フ ェ ル ノ」 と い う 映 画 の ジ ャン ルは「 Drama 」 と な って い る は否 めない.その 分 類 を 唯 一 無 二 の 正 解 とし, 評 価 を 行 っ が,こ の 映 画 は , 高 層 ビ ルで の 火 災 を も とに し た パ ニッ ク 映 たところで,ユーザにとって本 当 に有 意 なものなのかを測 るこ 画 であり,ナイーブ・ベイズ分 類 による 1 位 「Action」,3 位 社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 「Thriller」はこの映 画 のジャンルとしてもっともらしい.ほかに 信学技報 TECHNICAL REPORT OF IEICE 順 位 に影 響 しているのではと仮 定 される. も,「仕 立 て屋 の恋 」はその名 のとおり,仕 立 て屋 が,ある女 性 に恋 をしてしまい,悲 劇 に いたる映 画 である.この映 画 は ナ イ ー ブ ・ ベ イ ズ 分 類 に よ る と , 「 Drama 」 , 「 Romance 」 で あ る. これら の 映 画 の , コメン ト に 出 現 す る 単 語 に 注 目 す るこ と で,ナイーブ・ベイズ分 類 がなぜ IMDb で付 与 されているジ ャンルと異 なる答 えを出 しているのかがわかる. 例 として,「タワーリング・インフェルノ」によせられているユ ーザのコメントの一 部 を(図 2)に示 す. (図 2) 「タワーリング・インフェルノ(1974/米 /Drama)」の コメントの一 部 ★ 4 パニ ッ ク も の は ど ん なに 役 者 を 出 し た って , 災 害 現 場 が 主 役 なんだ よ ・ ・ ・ と んで も ない ! 豪 華 競 演 が 面 白 い んで す よ,この映 画 は. ★5 まったくもってその通 りです. ★ 4 7 0 年 代 に ブ ー ム と なった オ ー ル ス タ ー に よ る パ ニ ッ ク 映 画 の 中 でも ,群 を抜 い て面 白 い 作 品 .ポ ール・ニュ ーマン と ス ティ ー ブ・ マ ッ ク イ ー ン が 同 じ 画 面 の 中 に 収 ま ってる だ け で 興 奮 してしまう ★5 結 構 今 見 る と 安 っぽい 部 分 も ある し 大 味 な作 りなんだ け ど,それでも十 分 楽 しめます.往 年 の大 スター競 演 もいい感 じ です.初 見 時 にTVに釘 付 けになった記 憶 がありますね. ★5 25 年 も前 の作 品 だと思 うとすごい.よくできてる.いい男 2 (表 7) 「タワーリング・インフェルノ(1974/米 /Drama)」 コメント中 に出 現 する単 語 (数 字 は出 現 回 数 ) 映画 見る 作品 する パニック映 画 ある 頃 思う ない の ビル マックイーン 観る いい いう できる やる 人 大作 面白い いる なる もの パニック 今 良い こと よい わかる 15 12 12 11 9 8 7 7 6 6 6 6 6 5 5 5 5 5 5 5 4 4 4 4 4 4 3 3 3 ニューマン マックィーン 何 火 汗 高層 作る 子供 初 めて 大 スター 知る 怖い おもしろい これ すごい とき はしご ほど まする もう もる アステア アドベンチャー インフェルノ オールスター スター スティーブ テレビ ドラマ 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 フレッド ポセイドン リメイク 印象的だ 演技 於 価値 階 感 記憶 技術 詰込む 競演 恐怖 激突 見 せ場 減 らす 言う 娯楽 後 豪華 最近 最高だ 災害 時代 車 手 出来る 上 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 人 も良 い.「お父 さんは心 配 症 」でこの映 画 のネタあったな ぁ・・・ ★3 「コストを減 らしたければ階 数 を減 らせ」 (表 8)「パニック映 画 」「汗 」「災 害 」「高 層 」が各 ジャンルに出 現 する回 数 ★5 この映 画 のせいで,随 分 長 いこと「フレッド・アステア=上 手 い脇 役 」と思 ってました.すんません. ★4 初 め てみた パニ ック 映 画 っ てこれだ ったよ うな・・ ・だいぶ 記 憶 が飛 んでるけど ★4 パニック映 画 として,ひさしぶりに考 えさせられる良 作 ★4 あの状 態 で,イスで窓 を破 っちゃいけない…初 めて知 りま した.ありえるからホラーより怖 い. ★5 パニ ック 映 画 の 代 表 作 こ れと『 ポセ イ ドン・ ア ドベン チャ ー』が双 璧 .でもね... ★5 子 どもの 頃 見 て, 火 災 と 高 さに 恐 怖 した .高 層 ビ ル はは しご車 が届 かないとこの映 画 で納 得 .以 後 ,はしご車 の届 く階 にしか上 らない・・つもりだったが,無 理 . ★4 夏 休 みの工 作 に「動 くタワーリングインフェルノ」の巨 大 模 型 をつくって,デカすぎて持 ってけなかったのは,私 です. コメントを単 語 ごとに切 り出 すと(表 7)のようになる.「タワ ーリング・インフェルノ」では,ナイーブ・ベイズ分 類 によると 1 位 に「Action」,2 位 に「Drama」,3 位 に「Thriller」である.こ の映 画 に 対 する コメントをみ て,直 感 的 に,「 パニック 映 画 」 「汗 」「災 害 」「 高 層 ( ビル)」という単 語 がそれらのジャンルの Drama Action Thriller Comedy SciFi Adventure Crime War Mystery Romance Animation Horror Documentary Fantasy Musical Western Family Short パニック映 画 26 37 17 1 8 13 0 0 1 8 0 15 0 0 0 0 0 0 汗 79 69 58 35 22 20 19 16 13 9 3 3 2 2 2 2 0 0 災害 11 21 19 0 5 5 2 0 1 0 0 1 0 0 0 0 0 0 高層 3 3 2 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 そこでこれらの単 語 が各 ジャンルに含 まれる映 画 にどの程 度 出 現 しているかを確 認 した ( 表 8).これにより,すべての 単 語 について,「 Action」,「Drama」 ,「 Thriller」 がほかのジ ャンルと比 較 して出 現 回 数 が多 いことがわかった. 社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS こういった単 語 が,「Action」的 ,「Thriller」的 であるとされ 信学技報 TECHNICAL REPORT OF IEICE らい,それに基 づき各 映 画 でジャンルの順 位 付 けをおこなう. るならば,「タワーリング・インフェルノ」は「Drama」のみならず, このアンケートによる順 位 とナイーブ・ベイズ分 類 による順 位 「 Action」,「Thriller」というジャンルに属 する映 画 として,ユ を比 較 し,評 価 する. ーザに提 示 されることは有 意 義 なことだといえる. さら に ,ナ イ ーブ ・ ベ イズ 分 類 によ る ジ ャンル の 順 位 情 報 次 に「ときめきメモリアル」をとりあげる.これはアイドル女 優 をユーザに提 示 するシステムを開 発 する.IMDb による分 類 たちが出 演 する,いわゆる学 園 ものの映 画 である.IMDb に とナイーブ・ ベイズ分 類 による 上 位 ジャンルに大 きな相 違 が よる と,「 Drama 」,「 Romance 」となって い るが,ナ イー ブ・ ベ あれば,影 響 している単 語 を抽 出 し,その単 語 を含 むコメン イズ分 類 は 1 位 に「Horror」,2 位 に「Thriller」とまったく趣 き トをユーザに提 示 する.こうすることで,ユーザは映 画 につい の異 なるジャンルに分 類 している. てより多 角 的 な情 報 を得 ることができると考 える. 実 際 の コ メン トを 見 る と, なぜ このよ うなジ ャンル に 分 類 さ れるのかをうかがい知 ることができる.「ときめきメモリアル」に よせられたコメントを(図 3)にしめす. (図 3) 「ときめきメモリアル(1997/日 /Drama・ Romance)」のコメント ★4 このカメラワークと作 品 の爽 やかさは『ダンサー・イン・ザ・ ダーク』と対 局 を成 す. ★3 ヤング ジャンプ見 てる と 思 え ばそれほど気 に なら ない .ゲ ームと全 然 別 物 だった. みてみると, ★3 これに3点 (笑 )!アイドル映 画 の醍 醐 味 はあまりの寒 気 『ある意 味 ホラーよりたちが悪 い.』 に背 筋 がゾクゾクっとする所 .これはけっこう来 ます. 『アイドル映 の醍 醐しいものじゃなかった. 味 はあまりの寒 気 に背 筋 がゾクゾク ★2 やっぱり女画 が見 て楽 .』 ★2っとする所 アイドル好 きの自 分 でも,目 を覆 いたくなるようなシーンが という記 述 がある. 続 出 .ある意 味 ホラーよりたちが悪 い. この映 画 は,ストーリーから考 えれば,正 しいジャンルとして 「 Horror 」 や 「 Thriller 」 で あ る と は い え そ う に も な い . し か し (図 3)にも掲 げた,『寒 気 に背 筋 がゾクゾク』,『ある意 味 ホラ ー』など,これらのコメントが「 Horror」,「Thriller」という分 類 に影 響 を与 えていることはあきらかである.したがって,一 般 的 に は 「 Horror 」 , 「 Thriller 」 に は 属 さ な い 映 画 で も , 「Horror」 的 ,「 Thriller」 的 と の 印 象 を う け たユ ー ザが い る と いう情 報 を他 のユーザに提 供 することができる.また,この例 は,コメントを 基 に したナイ ー ブ・ ベイズ 分 類 が, 客 観 的 ・ 一 般 的 な分 類 を行 っているのではなく,よりユーザの主 観 性 に 近 い分 類 を行 っているということを示 唆 している. 6. ま と め ナイーブ・ベイズ分 類 により, ユーザからのコメントに 基 づ いた映 画 の分 類 が可 能 であることがわかった.さらに,IMDb による分 類 とナイーブ・ベイズ分 類 との間 で結 果 が異 なる映 画 に関 しても,ユーザにとって有 意 義 な情 報 を提 示 できる可 能 性 を見 出 した. し か し , ナ イ ー ブ・ ベ イ ズ 分 類 に よ る 各 ジ ャ ン ル の 順 位 が 「あながち間 違 ってはいな い」と言 い切 るにはそ の 裏 づけが 必 要 である.そのために,今 後 ,映 画 を分 類 するユーザアン ケートを実 施 する.多 くのユーザに実 際 に映 画 を分 類 しても 文 献 [1] Amazon.co.jp http://www.amazon.co.jp [2] アスクユー・レストランガイド http://www.asku.com/rgj/ [3] PTP -Power to The Peoplehttp://www.ptp.co.jp/ [4] CinemaScape http://cinema.media.iis.u-tokyo.ac.jp/ [5] 木 本 晴 夫 , 特 集 : 情 報 検 索 の新 潮 流 マルチメディア 検 索 技 術 , 情 報 の 科 学 と 技 術 , Vol.50, No.1, pp.14-21, 2000. [6] A. McCallum, K. Nigam, A comparison of event models for naive bayes text classification, Proc. of the AAAI-98 Workshop on Learning for Text Categolization, pp.41-48, 1998. [7] The Internet Movie Database (IMDb) http://www.imdb.com/ [8] allcinema ONLINE http://www.stingray-jp.com/allcinema/ [9] ぴあシネマクラブ http://www.pia.co.jp/cinemaclub/main.jsp [10] 舘 村 純 一 ,“ 協 調 型 情 報 探 索 を 支 援 する 仮 想 評 者 と その視 覚 化 ”,インタラクティブシステムとソフトウェアⅦ, 日 本 ソフトウェア科 学 会 , pp. 147-152,近 代 科 学 社 , 東 京 ,1999. [11] T. Joachims, Text categorization [12] R. L. Rivest, Learning decision lists, Machine Learning, Vol.2, No.3, pp.229-246, 1987. [13] I. J. Good, The Estimation of Probabilities, MIT Press Cambridge, MA, 1965 [14] H. Schuetze, C. Manning, "Foundations of Statistical Natural Language Processing". MIT Press, Cambridge MA, p.534-536, 1999.