Comments
Description
Transcript
自然言語処理を用いた 小説の挿絵のためのキーワード
平成 26 年度 公立はこだて未来大学卒業論文 自然言語処理を用いた 小説の挿絵のためのキーワード抽出システムの検討 越後谷 萌子 情報アーキテクチャ学科 指導教員 b1011107 迎山 和司 提出日 2015 年 1 月 30 日 Study of a Support System which Picked Keywords Up with Natural Language Processing for Book Illustrations by Moeko ECHIGOYA BA Thesis at Future University Hakodate, 2015 Advisor: Kazushi MUKAIYAMA Department of Media Architecture Future University Hakodate January 30, 2015 Abstract– Book illustrations are helpful when you want to understand story. In this research, we think a Support System which Picked Keywords Up with Natural Language Processing for Book Illustrations. Three informations needed to draw Book illustrations are ”Features of character” ”Gesture of character” ”Scenery of story”, and we defines the range of story when extracting the keywords. And actually we compared keywords extracted with ”KH Coder” and ”CaboCha” to keywords extracted by human power. The next, we will review the conditions for extracting keywords in order to increase the matching rate of the extraction results. Keywords: natural language processing, book illustration, novel 概 要: 本研究ではコンピュータが小説の挿絵を描くという大目標に向けて,自然言語処理を用 いた小説の挿絵を描くために必要なキーワードを抽出するシステムの検討を目的とする.挿絵と は小説の一場面を描いた図であり,文章に記述された登場人物や場所などの情報が含まれている. 本研究では挿絵に必要な情報を定義し,コンピュータによる挿絵に必要な情報の抽出を試みた.す なわち,人間が挿絵を描く際の「物語を読み理解する」「挿絵に必要な情報を取捨選択する」過程 に相当する部分である.挿絵に必要な情報の定義は調査と検証の結果から, 「登場人物の特徴」「登 場人物が行っている動作」「登場人物がいる場所」の3つの分類が妥当であるとわかった.検討し たシステムは KH Coder と CaboCha の解析結果を人力により組み合わせることで,挿絵に必要な 情報をキーワードとして抽出した.しかし,評価を行った結果,抽出結果について雑情報が混じっ ていることがわかり,小説の場面毎での分類が必要であると推察された.今後の課題として,キー ワードを抽出するときの条件を雑情報を取り除くために精査すること,検討したシステムの抽出結 果についてコンピュータで自動化し出力できるシステムの開発を行う必要がある. キーワード: 自然言語処理,挿絵,小説 Support System which Picked Keywords Up for Book Illustrations 目次 第 1 章 序論 1.1 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 第2章 2.1 2.2 2.3 関連研究 シナリオの内容を反映した挿絵の生成手法 . . . . . . . . . . . . . . . . . . 物語からの絵の自動生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 物語テキストを基にした漫画のコマの生成手法の提案 . . . . . . . . . . . . 2 2 2 3 第3章 3.1 3.2 3.3 挿絵が含む情報の調査 挿絵が指している情報の分布調査 . . . . . . . . . . . . . . . . . . . . . . . 登場人物に関するキーワードの抜き出し調査 . . . . . . . . . . . . . . . . . 挿絵に必要な情報の定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 6 7 第 4 章 挿絵に必要な情報の検証 4.1 コンピュータの処理を模倣した挿絵の生成実験 4.1.1 実験方法 . . . . . . . . . . . . . . . . . 4.1.2 結果 . . . . . . . . . . . . . . . . . . . 4.2 挿絵に必要な情報の再定義 . . . . . . . . . . . 第 5 章 挿絵に必要な情報の再検証 5.1 コンピュータの処理を模倣した挿絵の生成実験 5.1.1 実験方法 . . . . . . . . . . . . . . . . . 5.1.2 結果 . . . . . . . . . . . . . . . . . . . 5.2 考察 . . . . . . . . . . . . . . . . . . . . . . . 第 6 章 検討したシステム 6.1 概要 . . . . . . . . . . . . . . . . . . 6.2 使用した解析エンジン . . . . . . . . 6.2.1 KH Coder . . . . . . . . . . . 6.2.2 CaboCha . . . . . . . . . . . 6.3 KH Coder によるキーワード抽出 . . 6.3.1 登場人物の特徴 . . . . . . . . 6.3.2 登場人物が行っている動作 . . 6.3.3 登場人物がいる場所 . . . . . 6.4 CaboCha を使ったキーワードの補完 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 8 8 10 . . . . 11 11 11 11 13 . . . . . . . . . 14 14 15 15 16 17 17 18 18 19 i BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第 7 章 検討したシステムの評価 7.1 キーワードの一致率 . . . 7.1.1 目的 . . . . . . . . 7.1.2 評価方法 . . . . . . 7.1.3 結果 . . . . . . . . 7.2 小説と挿絵の内容の対応 . 7.2.1 目的 . . . . . . . . 7.2.2 被験者 . . . . . . . 7.2.3 手続き . . . . . . . 7.2.4 結果 . . . . . . . . 第8章 8.1 8.2 8.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 20 20 20 21 21 21 21 22 考察 24 抽出したキーワードの一致率 . . . . . . . . . . . . . . . . . . . . . . . . . . 24 小説と挿絵の内容の対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 キーワードの定義の妥当性 . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 第 9 章 結論と今後の課題 27 9.1 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 9.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 付 録A 30 付 録B 31 付 録C 32 ii BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第1章 序論 本研究の目的と,それに至った背景を以下に述べる. 1.1 目的 本研究の目的は,自然言語処理を用いた小説の挿絵を描くために必要なキーワードを抽 出するシステムの検討である.対象とする小説は限定しないものとするが,本研究では文 章を解析するにあたって主にショートショートを使用する.ショートショートとは短い小 説作品のことで,長さに厳密な定義はないが,一般的には 8000 字以内の小説を指す. 1.2 背景 本研究は「きまぐれ人工知能プロジェクト 作家ですのよ [1]」の関連研究である.このプ ロジェクトでは参考にすべき作家として星新一を挙げ,人工知能に星新一のようなショー トショートを創作させる研究を行っている.本研究が目指すコンピュータによる小説から の挿絵の自動生成は,このプロジェクトの目的から見ると二次的なものである.しかし, 物語を挿絵の観点から見ることにより,現状難しいとされるコンピュータによる創作活動 について有益な知見が得られないかと考えている. 挿絵とは文章の一場面を描いた図であり,読者が文章を理解する際の手助けとなってい る [2].例えば,読者の対象年齢が低い児童書や,キャラクターの説明に重点を置くライト ノベルには,読者の理解を促す目的で挿絵がついている.これらの挿絵には,文章に記述 された登場人物や場所などの情報が含まれている.ただし,文章には記述されていない, 人間が挿絵を描く際に行間を読み補完した情報も含まれる場合がある.以上のことから逆 説的に,物語の行間を読むことができないコンピュータに挿絵を自動生成させた場合,そ の挿絵は読者が文章を理解する際の手助けと成り得るのかという問いが得られる. 以上のことから本研究では,挿絵に含まれる情報を調査・分析し挿絵を描くために必要 なキーワードを抽出するシステムを,自然言語処理を用いて実装できるか検討する.すな わち,人間が挿絵を描く際の「物語を読み理解する」 「挿絵に必要な情報を取捨選択する」 過程に相当する部分を,コンピュータで自動化することである. 1 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第2章 関連研究 本研究は,挿絵の創作に必要な情報をコンピュータで抽出することに重点を置いている が,先行研究としてコンピュータに絵や文章を創作させるものが多数存在する.以下に関 連する先行研究を紹介する. 2.1 シナリオの内容を反映した挿絵の生成手法 シナリオの内容を反映した挿絵の生成手法 [3] では,シナリオ内の難解な文章を検出し その部分に相当する挿絵画像を自動的に生成するシステムの提案を行っている. この研究では,挿絵の生成の際,5W1H における「Where(場所)」「When(いつ)」 「Who(誰が)」「What(なにをした)」という4つの情報に着目している.また,評価実 験の結果から Where の情報を提示する背景画像が挿絵には必須であると述べている.し かし,必須であるとした Where の情報は,文章からの正確な抽出が難しいと述べている. What の情報についても,期待した画像の検索結果が得られず今後の課題となっている. 実際に生成された挿絵の一例を図 2.1 に示す. 図 2.1: 実際に生成された挿絵 [3] 2.2 物語からの絵の自動生成 物語からの絵の自動生成 [4] では絵本に注目し,物語に「場面分割」の処理をした上で 分割した場面それぞれに「主要人物抽出」を行い絵を自動生成する. 2 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 絵生成では物語の文章の行間について,明記されていない情報を絵に盛り込むために以 下のアプローチを行っている.はじめに,場面の中で注目する文を決めそれを行う人物を 選択し,予め 23 の型に分けられた動詞に対応するポーズを 3D モデルで配置する.つぎ に,動作主や動作受け手の多角的な視点から,カメラで写真を撮るように絵を生成する. 今後の課題として生成された絵の評価や,物語の文脈を考慮した文章解析の実現が挙げ られる. 2.3 物語テキストを基にした漫画のコマの生成手法の提案 物語からの絵の自動生成 [5] では,物語テキストから漫画を自動生成するという大目標 のために,漫画の設計図にあたるコマ割の決定手法について基礎研究を行っている. このシステムではユーザが物語テキストを入力すると,内部で「登場人物の推定」「動 詞と場面が変わる点の抽出」「コマの大きさを決める重要度の決定」を行いコマ割りを出 力する. システムの評価では,アンケートによる比較実験および被験者実験を行っている.その 結果から,動詞抽出において必要な情報が網羅されていることや,コマの大きさを決める 重要度は妥当であることがわかっている.一方で,被験者の意にそぐわないコマ割りも見 られたことから,今後の課題としてユーザが任意でコマを削除できるようなアルゴリズム の確立などを挙げている. 3 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第3章 挿絵が含む情報の調査 挿絵に関する2つの調査を行い,挿絵を描くために必要な情報を検討した. 3.1 挿絵が指している情報の分布調査 挿絵を描く際に小説の中で参照された文が,文章のどの位置に分布しているか調査を 行った.調査方法は 36 編の小説 [6][7] から,小説を構成する文の総数を数えた上で,挿絵 を描く際に参照された文が何文目からであるか開始位置と終了位置を調べた.このとき, 文は句点で区切られたものを1文とした.例外として,台詞のかっこ (「」や〈〉) 内でと じかっこにより句点が省略された文については1文としてカウントした.挿絵は登場人物 の動作を描いたものや風景を描いたものなど様々で,和田誠のものが 16 枚,片山若子の ものが 20 枚であった.また,調査した 36 編の小説は全て星新一のショートショートで, 2名の挿絵が重複しないよう全て違うタイトルを使用した.その結果を以下の表 3.1 に示 す.参照された文の平均は約 17 文であった. 表 3.1: 小説の総文数と挿絵を描く際に参照された文の開始位置(和田誠) [6] 小説タイトル 調整 ねむりウサギ 商品 国家機密 宿命 思わぬ効果 ガラスの花 服を着たゾウ さまよう犬 女神 鍵 繁栄への原理 遭難 金の力 黄金の惑星 敏感な動物 総文数(文) 参照開始 終了 116 250 128 149 74 115 107 131 24 195 209 116 168 220 227 238 12 31 1 0 0 0 0 29 0 0 8 32 47 44 3 5 28 43 2 4 6 9 8 40 7 8 13 53 79 61 12 8 参照開始 2 終了 2 16 9 25 24 33 13 35 34 18 23 57 62 77 17 105 36 4 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations この結果について文章の始まりを0,終わりを 100 とした場合の分布図 (図 3.1) を作成 した. 図 3.1: 挿絵を描く際に参照された文の分布図(和田誠) [6] また,違う挿絵作家が挿絵を描いている小説 [7] について,同様の調査を行った結果が 以下の図 3.2 である. 図 3.2: 挿絵を描く際に参照された文の分布図(片山若子) [7] 以上の2つの図から,挿絵を描く際に小説の中で参照された文は,文章の前半に分布す る傾向があるとわかった.すなわち,挿絵は物語への導入として用いられていると考えら れる.また,参照された文の内容は,挿絵に描かれた登場人物を中心としたその場面にお ける動作や場所であった. 5 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 3.2 登場人物に関するキーワードの抜き出し調査 小説の登場人物を挿絵に描く際に参照されているキーワードを抜き出しまとめた上で, 関連・パターンなどがないか調査した.キーワードは,登場人物の性別,年齢,性格,容 姿,職業などを断言している部分とする.調査を行った小説は,SF 作品が 19 編(星新一 の悪魔が出てくるショートショート),歴史創作小説2冊,ファンタジー小説3冊,ライ トノベル5冊,純文学5編の計 34 作品であった.以下に作品一覧を表 3.2 として示す. 表 3.2: 調査した作品一覧 ジャンル 小説タイトル SF 悪魔/鏡/よごれている本/悪魔のささやき/窓/敬服すべき一生 魔法の大金/華やかな三つの願い 1-5 /とりひき/悪魔の椅子/条件 はじめての例/親しげな悪魔/お願い/ゲーム 歴史創作 燃えよ剣/花神 ファンタジー ハリー・ポッターと賢者の石/指輪物語/十二国記 月の影 影の海(上) ライトノベル キノの旅 1 /涼宮ハルヒの憂鬱/デュラララ! !/テイルズオブジアビス 1 クビキリサイクル 純文学 浮雲/舞姫/こゝろ/羅生門/銀河鉄道の夜 結果は,登場人物に関する情報は小説の決まった位置に分布しておらず,品詞などのパ ターンが見られなかった.一方で,これらの小説はキーワードが7以上か4以下のものに 分別でき,比較することで登場人物を構成するキーワードの分類を絞り込むことができた. キーワード7以上の小説をキーワードが多かった小説,キーワード4以下の小説をキー ワードが少なかった小説とし,比較した結果を図 3.3 として示す. 図 3.3: 登場人物に関するキーワードの比較 6 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations キーワードが多かった小説は,イラストを全面に押し出したライトノベルや伝記に近い 歴史創作小説,非日常を描くファンタジー小説であった.これらの小説は登場人物につい て平均8キーワードがあり,性別・年齢・職業などの他に体格や髪色,服装などをキーワー ドとして抜き出すことができた. キーワードが少なかった小説は,日本文学や日常を基板とした SF 作品であった.これ らの小説は登場人物について 4 キーワード以下のものが多く,性別や年齢,職業のいずれ か,または名前のみがキーワードとして抜き出せる場合のどちらかに分類された. これらの結果を比較した際,どちらの小説にも見られる登場人物のキーワードは「性別」 「年齢」「職業」の3つであることがわかった. 3.3 挿絵に必要な情報の定義 2つの調査結果から挿絵に必要な情報について仮説を立て,キーワードを抽出する際の 条件について定義する.本研究では,登場人物の「性別」 「年齢」 「職業」を物語の前半か ら参照すると,挿絵を描けるのではないかという仮説を立てた.すなわち,挿絵に必要な 情報は,文章の前半にある登場人物の「性別」「年齢」「職業」である. 登場人物を軸とした理由は,文章中に複数回単語として出てくるためである.したがっ て,コンピュータを用いてキーワードを抽出する際に結果が得やすいと考えられる.また, 登場人物に関する3つの要素は,登場人物に関するキーワードの比較の結果に基づいてい る.参照する範囲については,挿絵が指している情報の分布調査の結果を参考とした. 以上の条件を仮説1とし,概念図を以下の図 3.4 に示す. 図 3.4: 仮説1の概念図 7 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第4章 挿絵に必要な情報の検証 第3章で定義した挿絵を描くために必要な情報(仮説1)が妥当であるか検証を行った. 4.1 コンピュータの処理を模倣した挿絵の生成実験 本実験では,コンピュータの処理を模倣し挿絵を描く実験を行った.ここで述べるコン ピュータの処理とは,文章から取り出したキーワードのみから挿絵を生成することである. 4.1.1 実験方法 実験方法は,被験者に読んだことがない小説について,2種類の挿絵を描いてもらい比 較を行うものであった. 実験の前準備として小説の前半から,登場人物の特徴を人力で抽出した.抽出したキー ワードは第 3 章の調査から得られた登場人物の「性別」 「年齢」 「職業」と,その他の情報 に分類した.また,挿絵を描きやすそうな場面を「シーン」として,いくつか候補を挙げ た.このシーンの中には,登場人物が行っている動作や,いる場所の情報が含まれていた. はじめに,被験者には物語の前半にある登場人物の「性別」 「年齢」 「職業」のみを提示 し,挿絵を描くように教示した.つぎに,その他の情報とシーンを提示し,挿絵を描くよ うに教示した.全ての挿絵を描き終わったあとで被験者に小説本文を読んでもらい,挿絵 を描くにあたって必要だと感じた情報はどれであったか,インタビュー形式による聞き取 りをインターネット上で行った. 4.1.2 結果 本実験の結果の一例を示す.実験に使用した小説は星新一の「親しげな悪魔」で, 「あま りぱっとしない青年が,病院帰りに老人に化けた悪魔に話しかけられる」シーンであった. 実際に被験者に提示した情報を表 4.1 に示す. 8 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 4.1: 被験者に提示した情報 登場人物 提示した情報(左図) 提示した情報(右図) 青年 性別:男 年齢:青年 職業:独身というだけで分からず あまりパッとしない外見 体が弱い 悪魔 性別:男 年齢:老人に化けている 職業:悪魔 ニヤニヤ笑ってる シーン 病院からの帰り道 青年が悪魔に話しかけられる 表 4.1 にある情報を元に,被験者が描いた挿絵が以下の図 4.1 であった.左側の挿絵が 登場人物の「性別」 「年齢」 「職業」のみ,右側の挿絵がその他の情報とシーンを提示した あとの挿絵である. 図 4.1: 親しげな悪魔の実験結果 聞き取りにおいて被験者は, 「左図は悪魔という登場人物からファンタジーな世界観を想 像した」と述べた.右図で実際の内容に近い挿絵となったのは, 「病院帰りという情報から 世界観が現代になった」と述べた.本文を読んだ上で,左図で提示された情報に足りない ものはあるかという質問には, 「登場人物の表情,風貌,状況などの様子について詳細な情 報が欲しかった」と述べた.他の被験者についても同様の聞き取りを行ったところ,左図 で提示された情報に足りないものは,登場人物の詳細な特徴と,シーンの中でも特に登場 9 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 人物が行っている動作について情報であると結果が得られた.以上の結果から,第3章で 立てた仮説1の定義は不十分であったと考えられる.また,不足していた情報は,登場人 物の詳細な特徴と,シーンの中でも特に登場人物が行っている動作であるとわかった. 4.2 挿絵に必要な情報の再定義 以上の実験結果から,仮説1は挿絵に必要な情報として不十分であるとわかったため, 再度キーワードを抽出する際の条件について見直し再定義した.仮説1に対して以下の条 件を仮説2とする. はじめに,挿絵に必要な情報を「登場人物の特徴」 「登場人物が行っている動作」 「登場 人物がいる場所」の 3 つに分類する.登場人物を軸としたのは仮説1と同じく,コンピュー タを用いてキーワードを抽出する際に結果が得やすいと考えられるためである. 「登場人物の特徴」は,仮説1における登場人物の「性別」 「年齢」 「職業」も含む,特 徴であると考えられる情報全てとする. 「登場人物が行っている動作」と「登場人物がいる 場所」は,仮説1の検証実験の中で「シーン」としていたものを参考に分類した. つぎに,定義した 3 つの情報それぞれに,キーワードを抽出する際の範囲について定義 する. 「登場人物の特徴」については,登場人物に関するキーワードの抜き出し調査の結果 に基づき小説の全文から抽出する. 「登場人物が行っている動作」と「登場人物がいる場所」 については,挿絵が指している情報の分布調査の結果に基づき小説の前半から抽出する. 以下に仮説2についての概念図 (図 4.2) を示す. 図 4.2: 仮説2の概念図 10 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第5章 挿絵に必要な情報の再検証 第4章で再定義した挿絵を描くために必要な情報(仮説2)が,妥当であるか検証を 行った. 5.1 コンピュータの処理を模倣した挿絵の生成実験 本実験は仮説2に基づき,第4章で行った検証実験と同様の実験を,1編の小説に対し て3名の被験者で行った. 5.1.1 実験方法 実験方法は第4章と同様に,読んだことがない小説について被験者に2種類の挿絵を描 いてもらい,比較を行うものであった.ただし,被験者に提示する情報は,抽出したキー ワードと小説に変更した. 実験の前準備として,仮説2に基づきキーワードを人力で抽出した.この際,抽出した キーワードの客観性を担保するため,5名が同様の抽出を行い4名以上が抽出した部分を キーワードとした.すなわち,一致率が 80 %以上の部分を,キーワードとした.抽出し たキーワードは, 「登場人物の特徴」「登場人物が行っている動作」「登場人物がいる場所」 に分類した.この際,3つの分類のうちキーワードがなかった登場人物に関しては,仮説 2の検証という目的のため除外する. はじめに,被験者には人力で抽出したキーワードのみを提示し,挿絵を描くように教示 した.つぎに,小説の本文を提示し,全部読んだ上で前半部分から挿絵を描くように教示 した.全ての挿絵を描き終わったあとで,被験者に対して以下の2点の質問を行った. • 質問1:一枚目の情報は足りていましたか. • 質問2:二枚目を描いた上で,一枚目にほしいと思った情報はありますか. 5.1.2 結果 本実験の結果の一例を示す.実験に使用した小説は星新一の「悪魔」で,登場人物は語 り部である「エス氏」と「悪魔」であった.ただし, 「エス氏」という登場人物について, 「登場人物の特徴」に関するキーワードが得られなかった.この結果から本実験では,全 ての情報が得られた「悪魔」についてのみ,抽出したキーワードを使用した.実際に被験 者に提示した情報を,以下の表 5.1 に示す. 11 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 5.1: 被験者に提示したキーワード 登場人物 登場人物の特徴 登場人物の動作 登場人物のいる場所 悪魔 色の黒い小さな男 耳がとがっていて しっぽがあった 立っている にやにや笑ったような顔で答えた ツボにはいり,湖の底で眠っていたのだ 湖 北の国 表 5.1 にある情報を元に,被験者が描いた挿絵が以下の図 5.1 であった.左側の挿絵が 抽出したキーワードのみ,右側の挿絵が小説本文を読んだあとで描いた挿絵である. 図 5.1: 悪魔の実験結果 実験後に行った質問について,結果を以下に述べる. 質問1については,2名が足りていたと述べた.足りなかったと述べた1名は, 「登場人 物の特徴」 「登場人物が行っている動作」 「登場人物がいる場所」という3つの分類はわか りやすかったが,それぞれについて更に詳細な情報が欲しかったと述べた.質問2につい ては,3名とも別の回答が得られた.回答の内容は, 「特になし」 「季節について知りたかっ た」「語り手(エス氏)の情報が欲しかった」であった. 12 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 5.2 考察 以上の検証結果から考察を行った. 質問1の結果から,仮説2における「登場人物の特徴」 「登場人物が行っている動作」 「登 場人物がいる場所」という3つの分類は,挿絵に必要な情報の定義として妥当であると考 えられる.ただし,質問1で足りなかったと述べた被験者がいたことや,質問2の回答か らそれぞれについて詳細な情報が求められていることがわかった. また,2種類の挿絵を比較した結果から, 「エス氏」のような語り部となる登場人物の情 報を除外しても,挿絵は成り立つことがわかった.ただし,被験者が小説を読んだ上で描 いた挿絵には,登場人物が全て描かれる傾向があった. 13 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第6章 検討したシステム 本研究はコンピュータによる挿絵の自動生成を目標としているため,キーワードを抽出 するシステムを実装する必要がある.本章では本研究で検討したシステムについて述べる. 6.1 概要 本研究で検討したシステムは KH Coder と CaboCha の解析結果を組み合わせている. 挿絵に必要な情報は「登場人物の特徴」 「登場人物が行っている動作」 「登場人物がいる場 所」の3つである.はじめに,抽出対象となる登場人物を一人決め,KH Coder で挿絵に 必要な情報それぞれについてキーワードを単語で抽出した.つぎに,CaboCha で「登場 人物の行っている動作」のキーワードについて,動作の態と目的語の補完を行った. 以下に検討したシステムのフロー図 (図 6.1) を示す.コンピュータが自動で処理を行っ た要素は実線で示した.また,人間が手動で処理を行った要素は破線で表している. 図 6.1: 検討したシステムのフロー図 14 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 6.2 6.2.1 使用した解析エンジン KH Coder 本研究では KH Coder[8] を用いて,小説から「登場人物の特徴」「登場人物が行ってい る動作」「登場人物がいる場所」の抽出を試みた. はじめに,前処理として登場人物の名前をタグ付けし強制抽出の対象とした.つぎに, 関連語検索から強制抽出した登場人物を指定し,共起ネットワークを出力した.共起ネッ トワークは選択した単語を中心として,分析するテキストからリストアップされた関連の ある単語を線で結び図を描く機能である.ただし,関連語検索でリストアップされた単語 が5つ未満の場合,KH Coder の仕様により共起ネットワークを出力することはできない. 以下に結果の一例を図 6.2 に示す. 図 6.2: 共起ネットワークの結果例 15 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations この図は「悪魔」という登場人物を中心としてネットワークを形成している.周りの単 語がネットワークの中でどの程度中心的な役割を果たしているかは色分けによって示され ており,水色・白・ピンクの順に中心性 [9] が高くなる.色分けのパターンは機能として6 種類あり,中心性だけでも「媒介中心性」「次数中心性」「固有ベクトル中心性 (ボナチッ チ中心性)」の3種類に対応している.本研究では,共起ネットワークの結果を「固有ベク トル中心性 (ボナチッチ中心性)」で色分けし,中心性が高いと判断された単語をキーワー ドとしている. 6.2.2 CaboCha 上述の KH Coder の他に係り受け解析に特化したエンジンとして CaboCha[10] を用い て, 「登場人物が行っている動作」について削除された情報を補完できないか試みた.ここ で述べる削除された情報とは,主に動作の態(受動・能動)と目的語のことを指す.本研 究では CaboCha をターミナル上から使用し,主に簡易 Tree 表示(図 6.3)と XML 表示 (図 6.4)で結果の出力を行った. 図 6.3: 簡易 Tree 表示における出力結果 図 6.4: XML 表示における出力結果 16 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 6.3 KH Coder によるキーワード抽出 KH Coder によるキーワードの抽出方法について,例として星新一の「悪魔」という ショートショートを挙げ,KH Coder で抽出したキーワードと人力で抽出したキーワード を比較しながら3つの項目に分け説明する. キーワードを抽出した際の条件として KHCoder の設定を,以下の表 6.1 に示す. 表 6.1: キーワード抽出時の KHCoder の設定 抽出する情報 抽出する範囲 フィルタ設定 登場人物の特徴 全文 名詞・サ変名詞・形容動詞・固有名詞・組織名・ 人名・地名・ナイ形容・未知語・タグ・形容詞・ 名詞 C 登場人物が行っている 動作 前半のみ 名詞・サ変名詞・固有名詞・組織名・人名・地名・ 副詞可能・未知語・タグ・動詞・副詞・名詞 C・ 否定助動詞 登場人物がいる場所 前半のみ 名詞・固有名詞・組織名・地名・未知語・名詞 C 6.3.1 登場人物の特徴 人力で抽出した「登場人物の特徴」は, 「悪魔」という登場人物について「色の黒い小さ な男・耳がとがっていて・しっぽがあった」というキーワードであった.KH Coder で抽 出したキーワードは以下の図 6.5 に示す.この際「金貨」というキーワードは,中心性が 低いので除外する. 図 6.5: 「登場人物の特徴」についてのキーワード 17 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 6.3.2 登場人物が行っている動作 人力で抽出した「登場人物が行っている動作」は, 「エス氏」という登場人物について 「やってきた・丸い穴をあけた・糸をたらして,魚を釣ろう」という場面であった.KH Coder で抽出したキーワードは以下の図 6.6 に示す. 図 6.6: 「登場人物が行っている動作」についてのキーワード 6.3.3 登場人物がいる場所 人力で抽出した「登場人物がいる場所」は, 「エス氏」という登場人物について「湖・北 の国」であった.KH Coder で抽出したキーワードは以下の図 6.7 に示す. 図 6.7: 「登場人物がいる場所」についてのキーワード 18 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 6.4 CaboCha を使ったキーワードの補完 KH Coder で抽出したキーワードを含む文を CaboCha で係り受け解析することで,キー ワードに関する動作の態(受動・能動)と目的語の情報を補完した.この際,係り受け解 析をするキーワードの品詞は動詞とする. ここでは「登場人物が行っている動作」における,KH Coder からの抽出結果を例に説 明する.図 6.5 に示したとおり「登場人物が行っている動作」についてのキーワードは, 「釣 る」「氷」「楽しむ」「糸」「休日」「魚」「穴」「湖」の8つで,品詞が動詞であるのは「釣 る」「楽しむ」の2つである.ただし,ここでは「釣る」というキーワードに絞って手順 を説明する. はじめに, 「釣る」というキーワードが含まれる文を本文中から検索する.この際,検索 の範囲は表 6.1 に示した抽出する際の範囲に従うものとする.文の検索は KH Coder の関 連語抽出における検索機能を使用した. 「悪魔」の前半部分には,該当するキーワードを含 む文が1文あった. つぎに,検索した文について係り受け解析を行い XML 表示で出力する.出力結果から キーワードが含まれる文節を参照する.この文節が文中で何番目にあるかは,chunk id の 値に格納されている. 最後に,キーワードが含まれる文節に係っている文節を「目的語」,キーワードが含ま れる文節を受けている文節を「動作の態」として補完する.係り受け先については,link という値で指定されている. 以上の方法で「釣る」というキーワードに補完された情報は, 「目的語」は「たらして, 魚を」であった.動作の態については,文末であったため見られなかった.以下の図 6.8 に実際に行った係り受け解析の結果を簡易 Tree 表示で示す. 図 6.8: 「釣る」というキーワードを含む文の係り受け解析結果(簡易 Tree 表示) 19 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第7章 検討したシステムの評価 本研究で検討したシステムについて,2つの側面から評価を行った. 7.1 キーワードの一致率 検討したシステムで抽出したキーワード(以下,コンピュータで抽出したキーワード) と,人間が小説を読み抽出したキーワード(以下,人力で抽出したキーワード)がどの程 度一致しているのか評価を行った. 7.1.1 目的 コンピュータはどの程度正確なキーワードを抽出できるのか,コンピュータで抽出した キーワードと人力で抽出したキーワードを比較し,評価することを目的とした. 7.1.2 評価方法 コンピュータで抽出したキーワードと人力で抽出したキーワードが,どの程度一致して いるのかを百分率で評価した.今回対象としたのは,星新一の登場人物として悪魔が出て くる5編の小説であった. はじめに,コンピュータでのキーワードの抽出を,本研究で検討したシステムの通りに 行った.つぎに,人力でのキーワードの抽出を仮説2に基づき行った.この際,抽出の対 象となる登場人物は比較という目的のため,コンピュータで抽出した際のものと統一した. 評価は「コンピュータで抽出したキーワード」の集合を A, 「人力で抽出したキーワー ド」の集合を B としたとき,以下の式で計算した. キーワードの一致率 = 7.1.3 P (A ∩ B) × 100 P (A ∪ B) 結果 結果について以下の表 7.1 に示す.特徴は「登場人物の特徴」,動作は「登場人物が行っ ている動作」,場所は「登場人物がいる場所」の略である.また,詳細な結果は付録 A の 表 A.1 に添付する. 20 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 7.1: キーワードの一致率の評価結果 小説タイトル 契約者 よごれている本 鏡 悪魔のささやき とりひき 平均値 特徴 動作 場所 0.00 0.00 0.00 33.33 0.00 0.00 14.29 17.39 18.18 16.67 28.57 40.00 9.09 0.00 33.33 6.67 13.31 22.20 全体の結果として一致率の最小は 0.00 %,一致率の最大は「よごれている本」の 40.00 %であった.また,挿絵に必要な情報ごとの平均値では「登場人物のいる場所」について の値が一番高く, 「登場人物の特徴」についての値が一番低い結果となった. 「登場人物の特徴」については,一致率が 0.00 %のものが5編中4編という結果であっ た. 「登場人物の行っている動作」については,CaboCha による補完を行ったが平均約 13 %であった. 「登場人物がいる場所」については,上述の2つの情報より一致率が高いもの もあったが,平均すると2割程度となった. 7.2 小説と挿絵の内容の対応 検討したシステムの抽出結果のみから描いた挿絵と,小説を読んだ上で描いた挿絵につ いて,それぞれ挿絵が本文の内容と合っているか評価を行った. 7.2.1 目的 検討したシステムで抽出したキーワードから挿絵を描いた場合,小説の挿絵として成り 立っているのか,読者の観点から検証を行うことを目的とした. 7.2.2 被験者 被験者は,公立はこだて未来大学の学生 15 名であった. 7.2.3 手続き はじめに,被験者に評価用のアンケート用紙を渡し,以下の2種類の挿絵があることを 明示した. • A:検討したシステムの抽出結果から小説を読まずに描いた挿絵 • B:小説の本文を読んだ上で描いた挿絵 21 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations この際,被験者には挿絵の絵柄を見せないでおく.その後,挿絵の評価については絵の 上手下手ではなく,小説の内容と対応しているかという観点で行うと教示した. つぎに,2種類の挿絵からランダムに選んだ1枚を,小説の本文に添えて被験者に提示 した.提示していない方の挿絵は被験者に見えないようにした.また,被験者に小説を読 み終えて一枚目の挿絵について評価できるようであれば,次の挿絵を提示すると教示した. 小説と2種類の挿絵を見たあと,それぞれの挿絵について 100 点満点で評価しアンケー ト用紙に記入するよう被験者に教示した.この際,被験者には評価軸や採点基準などを明 示せず,はじめに教示した評価観点から主観的に評価を行ってもらった. 最後に,被験者に対して点数をつけた理由について,インタビュー形式で聞き取りを 行った. 以上の評価を5編の小説に対して,それぞれ3名ずつ計 15 名に行った.実際に使用し たアンケート用紙は付録 B に示す.同様に使用した挿絵も付録 C として添付する. 7.2.4 結果 結果は B よりも A がふさわしいと評価した被験者は1名もいなかった.詳細を以下の 表 7.2 に示す. 表 7.2: 小説と挿絵の内容の対応についての評価結果 小説タイトル 契約者 よごれている本 鏡 悪魔のささやき とりひき 平均 A 20 60 20 10 0 5 40 50 0 30 30 20 60 13 10 B 30 80 100 90 100 90 90 80 70 100 80 90 95 100 80 24.53 85 点数をつけた理由について,被験者に行った聞き取りの結果を述べる. A については,過半数以上の被験者が挿絵に描かれている要素はあっているが,状況や 場面が違っていたと述べた.B については,13 名の被験者が読んだ小説の内容と合ってい 22 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations たと述べた.一方で,B について平均よりも低い 30 点をつけた被験者は,挿絵は小説全 体の要約であると考えていると述べた. 23 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第8章 考察 第7章で行った2つの評価から,検討したシステムについて考察を述べる. 8.1 抽出したキーワードの一致率 抽出したキーワードの一致率が全体的に低い理由は,コンピュータでキーワードを抽出 する際に必要のない情報(以下,雑情報とする)が混じったためと考えられる. 例えば, 「登場人物の特徴」について「契約者」や「よごれている本」では,人力で抽出 したキーワードの数がそもそも0であった.この際,一致率が 100 %となるためには,コ ンピュータで抽出したキーワードの数も0でなければならない.しかし,キーワードが0 となる結果は共起からキーワードを抽出するというシステムの仕様上,本研究で行った範 囲の解析では見られなかった. この他に考えられる原因は,他の登場人物に関する特徴が混じっていたことや,動詞に 係っている目的語の名詞が特徴として抽出されたことが挙げられる. また, 「登場人物のいる場所」については,KH Coder のフィルタ設定(表 6.1)で指定 した抽出する範囲と品詞が,他の2つの情報より狭かったことから一致したキーワードが あったと考えられる.一方で,最大4割程度の一致率であったのは,登場人物に関する名 詞も抜き出していることから,雑情報の割合が増えたためと考えられる. その他の評価においても一致したキーワードに対して,雑情報の数が少なくなった結果 はなかった. 以上のことから,抽出したキーワードの一致率が低い一因は雑情報が混じったためであ ると考えられる. 「登場人物が行っている動作」については,CaboCha での情報の補完により「登場人物 の特徴」よりは一致したキーワードの数が多かったと考えられる.例えば「手に入れる」 というキーワードは,KH Coder のみの場合では「手に」 「入れる」と分割されて出力され た.しかし,CaboCha による係り受け解析により「入れる」というキーワードから,そ れに係っている「手に」という部分を補完することができた. ただし,一致率は全て2割未満という結果であるため,雑情報によって精度が下がってい る場合でも,人力で抽出したキーワードのうち二割程度しかコンピュータで抽出できてい ない問題が挙げられる.理由は検討したシステムでは登場人物と強く関連する単語をキー ワードとするためであり,共起ネットワークにおける色分けの時点でそれ以外の単語は, 抽出するとした動詞であっても省いてしまうことが挙げられる.また,同じ動詞であって も漢字表記と平仮名表記では別の単語と判別されることや,前後の単語と区別できずに埋 もれてしまうことも一因であると考えられる. 24 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 8.2 小説と挿絵の内容の対応 2枚の挿絵の評価と聞き取りの結果から,検討したシステムで抽出したキーワードから 挿絵を描いた場合,小説の内容と対応した挿絵は成り立たないと考えられる. 理由の一つとして,キーワードの一致率の評価から抽出結果に雑情報が多く,正確な情 報が得られなかったことが挙げられる. また,検討したシステムでは,抽出するとした範囲で該当するキーワードを抜き出しす べて提示する.したがって,キーワードの組み合わせ方によっては,小説の内容とは違う 場面が成立すると考えられる. 小説の本文を読んだ上で描いた挿絵については,小説の内容と対応しており挿絵として 成立していると考えられる.また,聞き取りの結果から挿絵を挿入する位置,すなわち挿 絵となる場面の選定や枚数などといった,挿絵の内容以外の要素も評価の基準であったと 考えられる. 以上のことから,キーワードを抽出する際,表 6.1 における「抽出する範囲」の他に小 説の場面毎での分類が必要であると推察される. 8.3 キーワードの定義の妥当性 以上の考察から,そもそも本研究におけるキーワードの定義が妥当であったか考える必 要がある.ここでは「キーワードの分類」と「システムの仕様」という2つの観点から考 察を行う. キーワードの分類 キーワードの分類として定義した「挿絵に必要な情報」は,第5章での仮説2の検証か ら挿絵を描くという観点では妥当であると考えられる.すなわち,コンピュータが挿絵を 描く際にも有用な分類であると推察される. 読者の観点からは評価を行っていないが,第7章の「小説と挿絵の内容の対応」と同様 に評価を行うことで結果が得られるのではないかと考えられる.具体的には, 「人力で抽 出したキーワードから小説を読まずに描いた挿絵」と「小説の本文を読んだ上で描いた挿 絵」の評価を読者の観点から行うことである. システムの仕様 システムによるキーワードの抽出の定義は共起ネットワークによるキーワード抽出と, KH Coder のフィルタ設定の2点において妥当ではなかったと考えられる. 登場人物と共起する単語をキーワードの候補として抽出することは,自然言語処理のシ ステムとして妥当であったと考えられる.しかし,本研究で検討したシステムの仕様では, 登場人物と共起するキーワードの中で中心性が高いもののみが抽出される.すなわち, 「挿 絵に必要な情報」を抽出し結果として出力する段階で,情報の削除が行われていると考え られる. 25 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 以上のことから,抽出したキーワードを中心性の高いもののみ結果として出力するシス テムではなく,抽出したキーワードを小説の場面ごとに分けて結果を出力するシステムが 必要と推察される. KH Coder のフィルタ設定は, 「登場人物の特徴」と「登場人物が行っている動作」につ いて,抽出する品詞の絞り込みが十分でなかったと考えられる.主な原因は汎用性をもた せる目的で,どちらも名詞を抽出する設定にしたからである. 以上のことから「登場人物の特徴」は名詞, 「登場人物が行っている動作」は動詞という ように明確に絞り込み,係り受け解析を併用した方が精度自体は向上すると推察される. 26 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 第9章 結論と今後の課題 本研究の結論と,今後の課題について述べる. 9.1 まとめ 本研究では,自然言語処理を用いて小説の挿絵を描くために必要なキーワードを抽出す るシステムの検討を目的として,挿絵に必要な情報の定義と,KH Coder と CaboCha に よるキーワードの抽出を行った. 挿絵に必要な情報の定義は,2回の検証実験から「登場人物の特徴」「登場人物が行っ ている動作」「登場人物がいる場所」の3つの分類が妥当であるとわかった. KH Coder と CaboCha によるキーワードの抽出は,2つの評価から,雑情報が混じっ ていることがわかり,小説の場面ごとでの分類が必要であると推察された. 最後に,本研究におけるキーワードの定義の妥当性について考察を行った.キーワード の分類については,挿絵を描くという観点において妥当であると考えられる.システムの 仕様については,登場人物と共起する単語をキーワードの候補として抽出することは妥当 であった.一方で,抽出するキーワードに関する品詞の設定や,キーワードを出力するま での過程に問題があると推察された. 9.2 今後の課題 今後の課題は,キーワードを抽出するときの条件を,抽出結果の一致率を高めるために 精査することが挙げられる.具体的には,共起ネットワークにおける中心性の色分けでは ない,独自のフィルタ設定が必要であると考えられる.また,小説の場面ごとに,抽出し たキーワードを分ける必要もあると考えられる. もう一つの課題として,KH Coder と CaboCha の結果について同様のものを,人力で はなくコンピュータで自動化した上で出力できるシステムが必要であると考えられる. 27 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 謝辞 本研究の機会を与えてくださり,数々の貴重なご指導をいただいた迎山和司准教授 (公 立はこだて未来大学) に深く感謝いたします.また,本論文に関して自然言語処理の観点 から貴重なご意見,ご指導をいただいた「きまぐれ人工知能プロジェクト 作家ですのよ」 のメンバーの皆様に深く感謝いたします.そして,本研究に多くの助言を頂いた迎山研究 室の小林真幸さん,八城朋仁さん,Alfred Matthieu Lefebvre さん,Gaetan Guerrero さ ん,Nicolas Bertrand さん,三田村梨花さん,森貴之さん,上田進太郎さん,沼田健一さ んに感謝します.最後になりましたが,本研究で分析を行う際,挿絵を描いていただいた 方々に深く感謝いたします. 28 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 参考文献 [1] 松原 仁, 佐藤 理史, 赤石 美奈, 角 薫, 迎山 和司, 中島 秀之, 瀬名 秀明, 村井 源, 大塚 裕子. コンピュータに星新一のようなショートショートを創作させる試み. 人工知能 学会全国大会. p1-2, 2013. [2] 島田 英昭, 北島 宗雄. 挿絵がマニュアルの理解を促進する認知プロセス. 教育心理学 研究. Vol. 56, No. 4, p474, 2008. [3] 五十嵐 晃, 上岡 英史. シナリオの内容を反映した挿絵の生成手法. 情報処理学会研究 報告. マルチメディア通信と分散処理研究会報告. 2014-DPS-159(5), p1-6, 2014. [4] 木島 紗弥子, 曳野 京子, 平川 正人. 物語からの絵の自動生成. 言語・音声理解と対話 処理研究会. 人工知能学会. Vol.49, p51-56, 2007. [5] 嶋 航大, 鬼沢 武久. 物語テキストを基にした漫画のコマの生成手法の提案. 情報処理学 会研究報告. EC, エンタテインメントコンピューティング. 情報処理学会. No.6, p1-7, 2009. [6] 星新一. ねむりウサギ (星新一ショートショートセレクション 3). 理論社, 2002. [7] 星新一. きまぐれロボット. 角川文庫, 2006. [8] 樋口耕一. テキスト型データの計量的分析 ―2 つのアプローチの峻別と統合―. 理論 と方法. 数理社会学会. 19(1), p101-115, 2004. [9] 安田雪.『実践ネットワーク分析』――関係を解く理論と技法. 新曜社, 2001. [10] 工藤 拓, 松本 裕治. チャンキングの段階適用による日本語係り受け解析. 情報処理学 会論文誌. Vol. 43, No.6, p1834-1842, 2002. 29 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 付 録A 第7章で行ったキーワードの一致率の評価について,詳細を以下の表 A.1 に示す.表中 の A は「コンピュータで抽出したキーワード,B は「人力で抽出したキーワード」の省略 である.雑情報は,抽出数 (A) から一致したキーワード数を引いた数を示す. 表 A.1: キーワードの一致率の評価結果 詳細 小説タイトル 情報 抽出数(A) 抽出数 (B) 一致したキーワード数 雑情報 一致率 契約者 特徴 動作 場所 5 1 5 11 0 10 4 14 0 0 2 2 5 1 3 9 0.00 0.00 28.57 8.70 14 8 5 27 0 24 2 26 0 4 2 6 14 4 3 21 0.00 14.29 40.00 12.77 7 13 8 28 11 14 4 29 0 4 1 5 7 9 7 23 0.00 17.39 9.09 9.62 2 9 6 17 2 4 2 8 1 2 0 3 1 7 6 14 33.33 18.18 0.00 13.64 7 7 12 26 2 14 4 20 0 3 4 7 7 4 8 19 0.00 16.67 33.33 17.95 合計 よごれている本 特徴 動作 場所 合計 鏡 特徴 動作 場所 合計 悪魔のささやき 特徴 動作 場所 合計 とりひき 特徴 動作 場所 合計 30 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 付 録B 第7章で行った小説と挿絵の内容の対応の評価について,使用したアンケート用紙を以 下の図 B.1 に示す. 図 B.1: 挿絵評価のためのアンケート用紙 31 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 付 録C 第7章で行った小説と挿絵の内容の対応の評価について,使用したデータと挿絵を以下 に示す.挿絵は左図が「検討したシステムの抽出結果から小説を読まずに描いた挿絵」, 右図が「小説の本文を読んだ上で描いた挿絵」である. 契約者 「契約者」は「悪魔がこっそりバーベキューをしようとしたら魔王に見つかり,地上か ら人間を連れてこいと言われる」というあらすじから始まる.以下に挿絵を図 C.1,コン ピュータで抽出したキーワードを表 C.1 として示す. 図 C.1: 「契約者」の挿絵 32 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 C.1: 「契約者」からコンピュータが抽出したキーワード 登場人物 情報 与えたキーワード 悪魔 特徴 動作 場所 地獄・火・バーベキュー・道具・魔王 もえさかる地獄の火の 地獄・火・バーベキュー・道具・魔王 よごれている本 「よごれている本」は「エヌ氏は魔法の本を手に入れた.部屋に眼がひとつ浮かび出た ことから,本物だったのだなとつぶやいた」というあらすじから始まる.以下に挿絵を図 C.2,コンピュータで抽出したキーワードを表 C.2 として示す. 図 C.2: 「よごれている本」の挿絵 33 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 C.2: 「よごれている本」からコンピュータが抽出したキーワード 登場人物 情報 与えたキーワード エヌ氏 特徴 色・印象・角・大きい・銀色・頭・皮膚・目じり・指・紫 鋭い・鼻・口・歯 アパート・帰ってからも・手に入れた・本物とは思っていなかった 本物・晩は机の上にほうり出しておいたのだった・晩・部屋 手・部屋・本物・机・アパート 動作 場所 鏡 「鏡」は「高層マンションの一室で夫は,向かい合わせに置いた鏡の中から悪魔のしっ ぽを本で挟んでつかまえた」というあらすじから始まる.以下に挿絵を図 C.3,コンピュー タで抽出したキーワードを表 C.3 として示す. 図 C.3: 「鏡」の挿絵 34 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 C.3: 「鏡」からコンピュータが抽出したキーワード 登場人物 情報 与えたキーワード 悪魔 特徴 動作 弱々しい・振り・衝動・キューッ・残虐・床・壁 なったら,帰るのは土曜日よ・向い・彼は叫んだ ぱっと閉じてはさんだのだ・鏡から出て鏡に・宙・声を出して 鏡台・一歩・逃げ込めないように・キュッ・飛び込む一歩・向き 声・悲鳴・床・壁・頭・キューッ・身・振り 場所 悪魔のささやき 「悪魔のささやき」は「青年は便箋に犯罪の予告を書き始めた.地方から出てきて都会 の会社につとめる青年にとって,都会という悪魔は恐るべき影響を及ぼしてくる」という あらすじから始まる.以下に挿絵を図 C.4,コンピュータで抽出したキーワードを表 C.4 として示す. 図 C.4: 「悪魔のささやき」の挿絵 35 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 C.4: 「悪魔のささやき」からコンピュータが抽出したキーワード 登場人物 情報 与えたキーワード 悪魔 特徴 動作 都会・心 地方から出てきてつとめ・地方・会社・仕事・影響を及ぼしてくる 下宿・下宿に戻る・影響を及ぼしてくる・書き終わり封をする 目・心・手・都会人・文句・便箋 場所 とりひき 「とりひき」は「音もなく出現した悪魔は,人びとのあいだに悪いことをひろめるのが 仕事で,静かな夜に小さな家のなかにいた男を尋ねた」というあらすじから始まる.以下 に挿絵を図 C.5,コンピュータで抽出したキーワードを表 C.5 として示す. 図 C.5: 「とりひき」の挿絵 36 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表 C.5: 「とりひき」からコンピュータが抽出したキーワード 登場人物 情報 与えたキーワード 悪魔 特徴 動作 仕事・音・煙・出現・世の中・人々・悪い 煙が立ちのぼったかと思うと・人々・世の中・出現・ひろめるのが仕事 時々あらわれ・立ち上ったかと思うと出現した 口・胸・文句・相手・戸・家・玄関・男・人々・音・世の中・煙 場所 37 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 図目次 2.1 実際に生成された挿絵 [3] 3.1 3.2 3.3 3.4 挿絵を描く際に参照された文の分布図(和田誠) [6] . . 挿絵を描く際に参照された文の分布図(片山若子) [7] 登場人物に関するキーワードの比較 . . . . . . . . . . . 仮説1の概念図 . . . . . . . . . . . . . . . . . . . . . . 4.1 4.2 親しげな悪魔の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 仮説2の概念図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.1 悪魔の実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 検討したシステムのフロー図 . . . . . . . . . . . . . . . . . . . . . . . . . . 共起ネットワークの結果例 . . . . . . . . . . . . . . . . . . . . . . . . . . . 簡易 Tree 表示における出力結果 . . . . . . . . . . . . . . . . . . . . . . . . XML 表示における出力結果 . . . . . . . . . . . . . . . . . . . . . . . . . . 「登場人物の特徴」についてのキーワード . . . . . . . . . . . . . . . . . . 「登場人物が行っている動作」についてのキーワード . . . . . . . . . . . . 「登場人物がいる場所」についてのキーワード . . . . . . . . . . . . . . . . 「釣る」というキーワードを含む文の係り受け解析結果(簡易 Tree 表示) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 5 5 6 7 14 15 16 16 17 18 18 19 B.1 挿絵評価のためのアンケート用紙 . . . . . . . . . . . . . . . . . . . . . . . 31 C.1 C.2 C.3 C.4 C.5 「契約者」の挿絵 . . . . . 「よごれている本」の挿絵 「鏡」の挿絵 . . . . . . . 「悪魔のささやき」の挿絵 「とりひき」の挿絵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 33 34 35 36 38 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA Support System which Picked Keywords Up for Book Illustrations 表目次 3.1 3.2 小説の総文数と挿絵を描く際に参照された文の開始位置(和田誠) [6] . . . 調査した作品一覧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 4.1 被験者に提示した情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 5.1 被験者に提示したキーワード . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.1 キーワード抽出時の KHCoder の設定 . . . . . . . . . . . . . . . . . . . . . 17 7.1 7.2 キーワードの一致率の評価結果 . . . . . . . . . . . . . . . . . . . . . . . . 21 小説と挿絵の内容の対応についての評価結果 . . . . . . . . . . . . . . . . . 22 A.1 キーワードの一致率の評価結果 詳細 . . . . . . . . . . . . . . . . . . . . . 30 C.1 C.2 C.3 C.4 C.5 「契約者」からコンピュータが抽出したキーワード . . . . . 「よごれている本」からコンピュータが抽出したキーワード 「鏡」からコンピュータが抽出したキーワード . . . . . . . . 「悪魔のささやき」からコンピュータが抽出したキーワード 「とりひき」からコンピュータが抽出したキーワード . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 35 36 37 39 BA Thesis at Future University Hakodate, 2015 Moeko ECHIGOYA