Comments
Description
Transcript
プロジェクト提案のための文書情報管理システムの開発 3D1-R-13-2
The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012 プロジェクト提案のための文書情報管理システムの開発 3D1-R-13-2 Development of Document and Information Management System for Project Proposal 稗方 和夫*1 大和 裕幸*1 笈田 佳彰*1 岡田 伊策*2 齋藤 稔*2 Kazuo HIEKATA, Hiroyuki YAMATO, Yoshiaki OIDA, Isaac OKADA, Minoru SAITO *1 *2 東京大学大学院新領域創成科学研究科 *1 Graduate School of Frontier Sciences, THE UNIVERSITY OF TOKYO *2 富士通株式会社共通技術本部ナレッジ推進統括部 System Engineering Knowledge Improvement div., SYSTEM ENGINEERING TECHNOLOGY UNIT, FUJITSU LIMITED. Presentation creation support system was developed. Presentations are managed as a slide unit using URI. Diverse information is attached to each slide by RDF to improve search efficiency. Especially, connecting similar slides based on the slide image and the text in the slide is effective to search enough candidate slides for reuse. Case study illustrates that the time required for presentation creation is reduced by around 20% using the system and the created presentation includes the more various slides which are included in different existing presentation files. 提案書 ~~~~~~~~~~~~~ 提案書 ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ 提案書 ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ 提案書 ~~~~~ ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ ~~~~~ Presentation ~~~~~~~~~~~~~ ~~~~~~~~~~~~~ ~~~~~ ~~~~~~~~~~~~~ ~~~~~~~~~ ~~~~~ 1. 緒言 企業内において、プレゼンテーションは最も重要な業務の一 つである。プロジェクトの提案やシステムの説明を行う上で必須 な文書である。プレゼンテーション作成業務の中で、既存プレ ゼンテーションの再利用は欠かせないプロセスであるが、多くの スライドを含む PowerPoint ファイルであるため、目的のスライド を検索し、再利用する際に、プレゼンテーションファイルの開閉 や、ファイル内における無関係なスライドの閲覧といった無駄な 作業が伴うため、限られた選択肢から再利用するスライドを決定 せざるを得ない。多様な課題・要望に応じて柔軟にプレゼンテ ーションを作成するには困難が伴う。 そこで本研究では、プレゼンテーションファイルをスライド単 位に分割し管理の一元化を図り、メタデータを用いて各スライド を有効に結びつけることで既存プレゼンテーションの再利用効 率の向上を目指した作成支援システムを開発する。特に、再利 用する候補スライドを網羅的に収集し、多様なプレゼンテーショ ンの作成を支援するため、メタデータによる類似スライドを関連 づけに主眼を置く。また、実務経験者による利用を通じて開発し たシステムの有効性を評価する。 2. プレゼンテーション作成システム 2.1 システム概要 クライアントサーバ型で構築した提案システムの概要図を図 1 に示す。クライアント側からサーバの機能を利用するための各イ ンタフェースについて説明する。 2.2 知識蓄積インタフェース プレゼンテーションを再利用しやすい形式に変換し、本シス テムに蓄積するためのインタフェースである。 (1) 文書情報蓄積粒度 本システムではスライド単位とプレゼンテーション単位の 2 つ の粒度でプレゼンテーション文書情報を管理する。蓄積粒度の 管理には、プレゼンテーションをアップロードする段階で、プレ ゼンテーションとプレゼンテーションが含むスライド全てに固有 の識別子である URI を割り当てる。 upload ①Knowledge Accumulation IF Presentation ~~~~~~~~~~ ~~~~~~~~~~ ~~~~~~~ Presentation ~~~~~~~~~~ ~~~~~~~~~~ ~~~~~~~ update SLIDE1 SLIDE1 SLIDE1 SLIDE1 SLIDE1 SLIDE1 .PNG SLIDE1 SLIDE1 SLIDE1 SLIDE1 .TXT select ②TOC Generation IF ~~~~~~~~~ ~~~~~~~~~ Presentation Repository (ppt/pptx) Metadata Repository SLIDE1 SLIDE1 SLIDE1 SLIDE1 SLIDE1 SLIDE1 .PNG SLIDE1 SLIDE1 SLIDE1 SLIDE1 .TXT Slide Information (PNG, TXT) ③Proposal Editing IF update SLIDE Workspace TOC Proposal New Presentation ~~~~~~~~~~~ ~~~~~~~~~~~ ~~~~~~~~~~~ System Overview Presentation Components Schema(RDFS) link Range Schedule download Query Concept Problem Results Cost Constraint Approximate ・ ・ ・ ④Download IF Metadata (RDF) 図1 システム概要図 (2) メタデータ付与の概要 URI を割り当てられた文書情報に対して、RDF を用いてメタ データを付与することで属性の記述や、文書情報間の関連付 けを行う[神崎 2005] 。以下でメタデータの種類別に説明を行う。 基本情報に関するメタデータはアップロード時に付与され、 類似スライドに関するメタデータは、負荷の大きさから定期的な バッチ処理により付与される。 (3) 基本情報に関するメタデータ アップロード時刻や、ファイルサイズといった基本属性情報に 加え、プレゼンテーションにおけるスライドの前後のつながりを 表すメタデータを付与する。 (4) 類似スライドの関連付け 対象とする文書情報がスライドであり、スライド自体は画像と 見なすことができ、文字列も多分に含む。そのため、類似度を 計算する特徴量として、スライド画像由来の形状[Sivic 2003] 、 色情報[Swain 1991]に加え、テキスト情報[Eishbein 2008]も用い て類似度を計算し、閾値を超える類似度を持つスライドを RDF により紐付ける。 2.3 目次生成インタフェース 本インタフェースはプレゼンテーション作成において、新規プ レゼンテーションの基本構成を決定するために一度だけ使用さ れる。事前にベテラン作成者がプレゼンテーション目次項目ス -1- The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012 キーマから目的別に必要な項目を取捨選択し、目的別目次を 用意しておく。新規作成者は適切な目次を選択し、選択された 目次は作業領域に展開される。 書の作成を行い、現行の作成方法と比較することでシステムの 有効性の評価を行った。 2.4 プレゼンテーション編集インタフェース 本ケーススタディでは、計 1632 枚のスライドを含む 17 つの既 存プレゼンテーションファイルを再利用する対象とする。 (1) プレゼンテーション編集の流れ 本システムでは、再利用可能と判断されたスライドの URI を 作業領域に展開された目次の各項目に紐付けながら、スライド を作業領域に格納する。 図 2 に開発したプレゼンテーション編集のためのユーザイン タフェースを示す。①-A には、2.3 で選択された目次が展開さ れる。また、目次の項目毎にスライド情報を格納でき、①-B で選 択した項目に格納されたスライド一覧が閲覧出来る。②は検索 機能を実現する部分、③は検索結果を表示する部分であり、検 索結果のスライドの URI に紐付けられたサムネイル(③-A)や画 像(③-B)を初めとする周辺情報(③-C,D,E)が表示される。また、 ④では検索以外のスライド格納機能やダウンロード機能を実現 する。 3.2 既存プレゼンテーション群 3.3 個別のスライド検索性能の評価 まず、全文検索と類似度検索の検索性能評価を行う。検索対 象スライドを「システム開発標準プロセス体系 SDEM に関する ポンチ絵を含むスライド」とする。全プレゼンテーション内にこの 条件を満たすスライドは図 3 に示す 6 スライドであった。 ① ② ③ ④ ⑤ ⑥ ② 全文検索のみで検索する場合と、全文検索と類似度検索を 組み合わせた検索を行う場合の検索結果を表.1 に示す。全文 検索においては、様々な検索クエリを送信するものの、スライド 5, 6 を検索するまでに、6 ステップを要する。一方、全文検索に おけるクエリ id=1 の「SDEM」の検索結果のスライドをクエリとし て類似度検索を用いた場合、テキスト類似度検索を行えば、基 準とするスライドを id=1,2,4 とすれば、2 ステップ目で全 6 スライ ドを検索可能である。 ①-A ③-A 図3 検索対象スライド ④ ①-B ③-B ③-C ③-D 表.1 全文検索による検索結果 Full Text Searcg ③-E Query id 図2 ユーザインタフェース Query 1 2 3 4 5 6 7 (2) スライド情報の検索機能 本システムは、 入力した文字列をクエリとする全文検索機能、 基本情報のメタデータを元に選択したスライドの前後のスライド を検索する機能、スライド類似性に関するメタデータを元に検索 する機能の 3 つを備える。 SDEM 標準プロセス体系 標準プロセス 標準 プロセス 開発標準 開発プロセス 開発 プロセス Search Result num of results 9 4 10 29 10 8 56 correct slide id Precision Recall 1,2,3,4 3,4 3,4 1,2,3,4 2,3 1,2,4,5,6 1,2,3,4,5,6 0.44 0.50 0.20 0.14 0.20 0.63 0.11 Fmeasure 0.67 0.33 0.33 0.67 0.33 0.83 1.00 0.53 0.40 0.25 0.23 0.25 0.71 0.19 Precision Recall Fmeasure 表.2 類似度検索による検索結果 2.5 ダウンロードインタフェース Similar Search 編集作業により、作業領域に目次の項目と対応するスライド が紐付けられている。それらのスライドを目次の順序に合わせて 一つのプレゼンテーションとしてマージし、プレゼンテーション 作成者に提供する。 Query Query Type of id Slide id Similarity 1 2 3 4 5 6 7 8 9 10 11 12 3. ケーススタディ 3.1 ケーススタディ概要 本ケーススタディでは、まず本システムを用いた既存プレゼン テーションスライド検索の性能評価について述べる。次に、実際 に本システムを用いて、代表的なプレゼンテーションである提案 -2- 1 1 1 2 2 2 3 3 3 4 4 4 Shape Color Text Shape Color Text Shape Color Text Shape Color Text Search Result num of results 10 10 23 10 10 35 10 10 10 101 10 34 correct slide id 1,6 1, 1,2,3,4,5,6 2,4,5 2, 1,2,3,4,5,6 3,4 3, 1,2,3,4 2,3,4,5,6 4, 1,2,3,4,5,6 0.20 0.10 0.26 0.30 0.10 0.17 0.20 0.10 0.40 0.05 0.10 0.18 0.33 0.17 1.00 0.50 0.17 1.00 0.33 0.17 0.67 0.83 0.17 1.00 0.25 0.13 0.41 0.38 0.13 0.29 0.25 0.13 0.50 0.09 0.13 0.30 The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012 3.4 プレゼンテーション作成シナリオ プレゼンテーションの作成シナリオを以下とし、基本的な目次 を設定して作成する。 【被験者】IT ベンダー A 社 業務経験 16 年の社員 【提案形式】紹介資料(50 枚程度のプレゼンテーション) 【提案内容】個別受注生産の生産管理システムの再構築 【顧客要望】①納期短縮 ②コストダウン まず、各プレゼンテーションにおける提案目次の項目別のス ライド数を図 4 に示す。修正後のプレゼンテーション①-B、②-B の分布が類似しているのに対し、修正前の収集を終えた段階の ①-A は約半数の 35 枚が「第 4 章」に関するスライドである。一 方で、「第 5 章」に関するスライドが収集されていなかった。比べ て、②-A は比較的バランスよく収集されていることがわかる。 the number of slides 0 第1章 3.5 評価方法 表.3 に 2 通りの作成方法に関する各過程の所要時間を示す。 作成方法①の実作業時間は 109 分、作成方法②の場合は 87.5 分(自動統合処理の 8.5 分は除いた)であった。本システム を用いた作業時間は現行の方法に比べ、19.7%短縮された。 これの主な要因は 2 点考えられる。1 点目は、現行の方法で は、ファイルを開閉する無駄と、既存プレゼンテーションファイル 内のスライド順通りに再利用可能性を判断する必要が生じるが、 本システムを用いる場合は、スライド単位で一元管理がなされて いる上、2.4.2 の各種検索の検索結果についてのみ再利用可能 性を判断すればよく、処理スライド数は激減する。 2 点目は現行の方法では、抽出と組換えの過程が連続的で あり、まず有益と判断したスライドを抽出し、その後それらのスラ イドを並び替えながら統合する。一方で、本システムは、検索の 段階で、目次に対して紐づけを行うことで、抽出と組換え作業の 並列化が行われている。その後の不要スライドの削除と修正プ ロセスにおいても時間が短縮できているのがわかる。 第5章 Reassembly 21 25 30 the number of slides 35 40 0 5 35 3 6 10 40 21 11 10 ①-A ②-A 4 3 第8章 ①-B 35 3 3 第7章 3 3 第8章 30 16 10 第6章 19 25 5 5 第5章 3 20 9 第4章 0 0 15 6 第3章 第7章 10 1 1 第2章 18 第6章 ②-B 図1 目次の各項目に含まれるスライド数の違い(左図: ①-A, ①-B, 右図 : ②-A, ②-B) 次に、抽出元のプレゼンテーションファイル別に集計した表を 図 5 に示す。現行の方法で作成された①-A, ①-B に関しては、 7 ファイルから抽出されたスライドのみで作成される。一方で、② -A, ②-B に関しては、それぞれ 15 ファイル、12 ファイルから抽 出されている。 最後に、再利用されたスライドの抽出元プレゼンテーションフ ァイルにおける位置の一部(スライド番号 1~99) を図 6 に示す。 横軸はプレゼンテーションファイルにおけるスライド番号を表す。 ①-A は数種類のプレゼンテーションから、連続的に抽出されて いるのがわかる。一方、②-A については、同一のプレゼンテー ションファイル内においても、その抽出位置が前後にばらつい ていることがわかる。 30 ①-A 24 25 15 14 11 8 10 5 5 0 1 This system 0.5 (Select TOC) ①-B 21 19 20 55 00 11 00 00 00 2 3 4 5 6 7 00 00 8 9 2 10 00 00 00 11 11 12 13 14 Proposal file ID 00 15 16 17 30 the number of slides Existing method 5(Open all files) 20 7 6 第4章 表.3 各プロセスの所要時間内訳 (分) Process Preprocess Search Extract 15 3 3 第3章 the number of slides 3.6 作成プロセスの比較 10 第1章 第2章 被験者に 2 通りの方法によって新規プレゼンテーションの草 案を作成してもらう。作成の流れをビデオで記録し、作成された プレゼンテーションの草案を比較した。ただし、以下の 2 通りの プレゼンテーション作成はできるだけ事前知識の公平性を保つ ため、一週間の間隔を空け、作業の制限時間を 2 時間とした。 (作成方法-①) 現行の方法によるプレゼンテーション作成 17 つのプレゼンテーションを PC のデスクトップに置いた状態 で、Microsoft PowerPoint2010 のみを用いて作成する。 (作成方法-②) 本システムを用いたプレゼンテーション作成 本システムに 17 つのプレゼンテーションを事前に蓄積してお き、本システムを用いて検索、抽出、作成を行う。 Delete and Modify Total 5 1 1 25 ②-A 24 ②-B 20 55 66 15 8.5 (Automatic) 28 21 109 96 87 00 0 2 3 22 4 3 0 5 22 6 7 6 7 4 8 3 9 55 21 3 1 10 00 11 21 10 10 11 12 13 14 15 16 Proposal file ID 17 図2 各プレゼンテーションファイルから抽出されたスライド数 (上図 : ①-A, ①-B, 下図:②-A、②-B) 先述した作成方法と作成段階(A.削除修正前、B.削除修正 後)の観点から表.4 の 4 つのプレゼンテーションを評価する。 表.4 各提案書に含まれるスライド数(枚) Existing method① 74 44 33 5 1 3.7 作成されたプレゼンテーションの比較 A. Before modification B. After modification 11 10 This system② 70 41 -3- Existing Proposals Existing Proposals ID1~17 ID1~17 The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012 Slide No.1-99 No.99 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 DI書案提 DI書案提 71 61 7511 6411 5311 421 311 201 911 801 79 68 57 46 35 24 1 3 2 1 71 61 1 .oNドイ1ラス .oNドイラス 1 1 2 2 1 3 3 1 1 4 4 1 1 5 5 1 1 1 1 1 1 6 6 1 1 1 1 71 7 1 1 1 1 8 8 1 1 1 9 1 9 1 1 01 01 1 11 1 11 1 1 1 21 1 21 1 1 31 31 1 1 1 1 1 41 1 41 1 1 1 1 51 51 1 61 1 61 71 71 1 81 1 81 1 91 1 91 1 1 1 02 1 02 1 1 1 12 1 12 1 22 1 22 1 32 1 32 1 42 1 42 1 52 1 52 1 1 1 62 1 62 72 72 82 82 92 92 1 03 1 03 1 13 1 13 1 23 1 23 33 33 43 43 53 53 63 63 73 73 83 83 93 93 04 04 14 14 24 24 34 34 1 1 44 44 54 54 1 1 1 1 64 64 1 1 1 1 1 74 74 1 1 1 84 84 1 1 94 1 94 05 05 1 1 15 15 1 1 25 25 1 1 35 35 1 1 45 45 55 55 65 65 75 75 1 1 1 85 1 85 95 95 06 06 1 16 1 16 26 26 36 36 46 46 56 56 66 66 1 1 76 76 86 86 96 96 1 1 07 07 1 1 17 17 27 27 37 37 47 47 57 57 67 67 77 77 87 87 97 97 1 1 1 1 08 08 1 1 18 18 28 28 38 38 48 48 58 58 1 1 68 68 78 78 88 88 98 98 09 09 1 19 1 19 29 29 39 39 49 49 59 59 69 69 1 1 79 79 89 89 99 99 51 7141 6131 5121 41 1 3011 291 181 071 96 85 74 63 DI書案提 DI書案提 52 14 3 2 1 1 .oNドイラス 1 .oNドイラス 2 2 3 3 4 4 5 5 61 6 7 7 8 8 9 9 01 01 1 11 1 11 21 21 31 31 41 41 51 51 61 61 71 71 81 81 1 91 1 91 02 02 12 12 22 22 32 32 1 42 1 42 1 52 1 52 1 62 1 62 1 72 1 72 82 82 92 92 03 03 13 13 1 23 1 23 33 33 43 43 53 53 63 63 73 73 83 83 93 93 04 04 14 14 24 24 34 34 44 44 54 54 64 64 74 74 84 84 94 94 05 05 15 15 25 25 35 35 1 45 1 45 55 55 65 65 1 75 1 75 1 85 1 85 95 95 1 06 1 06 1 16 1 16 26 26 1 36 1 36 1 46 1 46 56 56 66 66 76 76 86 86 96 96 07 07 17 17 27 27 37 37 47 47 57 57 67 67 77 77 87 87 97 97 08 08 18 18 28 28 38 38 48 48 58 58 68 68 78 78 88 88 98 98 09 09 19 19 29 29 39 39 49 49 59 59 69 69 79 79 89 89 99 99 No.0 No.0 No.99 Slide No.1-99 図3 抽出されたスライドの既存プレゼンテーションファイルに おける位置 (上図:①-A, 下図:②-A) 3.8 利用履歴に基づく各検索機能の比較 スライドの格納の直前の検索はそのスライドの発見に寄与し たことを意味する。本システムはスライドの検索、格納等のアク ションのログを記録している。ログの解析から、2.4.2 の各種検索 回数およびスライドの格納に寄与した検索の回数を図 7 に示す。 検索プロセス全体の 7 割弱は全文検索であるが、スライドの 格納に関しては 39%が全文検索によるものであり、35%がテキ スト類似検索によるものであった。検索一回あたりの格納スライ ド数はテキスト類似検索が最も多く 2.0(枚)を上回ることがわかる。 92 the number of searches the number of stored slides 33 29 2 4 2 Text similar 8 Color similar Previous slides Next slides 2 0 14 Shape similar 14 18 Full text 100 90 80 70 60 50 40 30 20 10 0 4.3 元のプレゼンテーションファイルの多様性 現行の方法では、各プレゼンテーションに対してタイトルおよ び数枚のスライドのみでシナリオとの合致性を判断し、プレゼン テーション全体の取捨選択を行うため、プレゼンテーションの後 半は確認されないこともある。一方、プレゼンテーション②-A に ついては、①-A では採用されなかった 9 つのプレゼンテーショ ンファイル(id=2,4,5,6,8,9,11,12,16)からもスライドを抽出している。 これらの提案内容はシナリオで指定された「個別受注生産」とは 異なるが、今回提案するシステムと同様のパッケージ製品の説 明に関するスライドや、詳細なプロジェクト体制図が含まれてい た。また、図 6 から、②-A もついては同一ファイル内における隔 たりを超えて様々なスライドが抽出されている。このように提案内 容と直接的に依存しない部分で提案内容の異なる様々なプレ ゼンテーションファイルに含まれる有益なスライドが抽出できて いることがわかる。 5. 結論 本研究ではプレゼンテーション作成支援システムを開発した。 プレゼンテーションファイルを URI を用いてスライド情報単位で 管理し、RDF を用いて適切な属性情報の付与や類似スライドの 関連付けを行うことでスライド再利用効率の向上、とりわけ候補 スライドの網羅的な検索を実現した。 また、メタデータとして情報を紐づける際に、自然言語処理、 画像処理技術を用いることで、属人性を排した網羅的な関連づ け、属性情報の付与を実現した。 ケーススタディによって本システムを評価した結果、現行の方 法に比べ、プレゼンテーション作成時間が 2 割程度短縮した。 また、本システムを用いて作成されたプレゼンテーションは、現 行の方法に比べ、広い検索領域から、適切なスライドを抽出し て作成されていることがわかった。本システムにより記録された ログデータを分析することで、メタデータを用いた類似スライドの 関連づけの有効性を示した。 以上より、効率的に多様なプレゼンテーションを作成できると いう点で本プレゼンテーション作成支援システムは有効である。 図4 6 種類の検索方法の比較 参考文献 4. 考察 4.1 検索対象スライドへの前提知識の影響 検索対象スライドに対する知識が十分にある作成者は、関連 する文字列が思いつくため全文検索のみで目的のスライドに到 達できる可能性が高い。知識が乏しい場合は代替文字列が思 い浮かばず、検索できない可能性がある。しかし、そのような知 識が乏しい場合に対しても、3.3 の結果から類似度検索を用い れば有効な検索ができると考えられる。このようなクエリの支援 の手段としては、オントロジーの利用も考えられるが、本研究で は自動的に付与できるメタデータのみを対象としており、人手を 用いたオントロジーの作成なしでもクエリの補完支援ができたこ とに意味がある。 4.2 各項目に対するスライド漏れの抑止効果 [ 神 崎 2005] 神 崎 正 英 : セ マ ン テ ィ ッ ク ・ ウ ェ ブ の た め の RDF/OWL 入門, 森北出版株式会社, (2005) [Sivic 2003] J. Sivic and A. Zisserman : Video Google: A text retrieval approach to object matching in videos, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on Computer Vision, pp. 1470–1477, (2003) [Swain 1991] M. J. Swain and D. H. Ballard : Color indexing, International journal of computer vision, vol. 7, no. 1, pp. 11–32, (1991) [Eishbein 2008] Jonathan M. Fishbein , Chris Eliasmith : Integrating structure and meaning: a new method for encoding structure for text classification, Proceedings of the IR research, 30th European conference on Advances in information retrieval, (2008) 本システムは作業領域に展開されたプレゼンテーション目次 に格納する形で、再利用するスライドを収集する。そのため作成 者に対し、目次の項目に対する強い意識付けが行われるため、 現行の方法による作成で生じた項目の欠落というミスは軽減で きると考えられる。 -4-