Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 E6-1 多次元ツリー自動構成ツール MD-TACT の開発と評価 -一括選択・セーブ機能の追加と評価実験- 柿本 由気† 掛下 哲郎‡ †佐賀大学工学系研究科 〒840-0054 佐賀市本庄町 1 番地 E-mail: †[email protected], ‡[email protected] あらまし 近年多くの企業や企業で大量の情報が電子化されており、それらの整理や検索が困難になっている。 我々は増え続けるファイル群を系統的に整理するべく、多次元ツリーを用いたファイル整理ツール HyperClassifier を開発している。本論文では既存の分類で良く使われる単一ツリーを HyperClassifier の多次元ツリーに変換する手 間を軽減するため、多次元ツリー自動構成ツール MD-TACT を開発する。MD-TACT は単一ツリーを多次元ツリー に自動変換し、さらに手動で洗練する機能を提供する。また、ツリーの再構成情報を利用することで、それ以降の 自動構成の精度向上を図る。過去に行った評価実験のアンケートから、MD-TACT の新機能であるリネーム、Undo、 一括選択、セーブ機能を提案し実装した。これらの使用感を確認する為、新機能を実装した MD-TACT の評価実験 を行った。結果として、MD-TACT を利用することで多次元ツリーの再構成操作を手動操作と比較して 1/2 の作業時 間で行えることが分かった。 キーワード 多次元ツリー、OLAP、ファイル整理ツール、データ分類 1. は じ め に 近年、多くの企業や団体でコンピュータが導入され、 これらの問題を解決するために、我々は多次元ツリ ー を 用 い て フ ァ イ ル を 整 理 す る ツ ー ル HyperClassifier 大量の情報を電子化して扱っている。その数は企業の を 開 発 し て き た [2,3]。 HyperClassifier は 多 次 元 ツ リ ー 規模などにもよるが、ファイル数にして、およそ数万 構 造 と 対 応 付 け て フ ァ イ ル を 登 録 し 、 OLAP 操 作 を 行 か ら 数 十 万 フ ァ イ ル 以 上 に も の ぼ る 。こ れ ら の 情 報 は 、 う こ と で 登 録 し た フ ァ イ ル を 検 索 で き る 。こ れ に よ り 、 企業の活動によって作成およびやり取りがされること 今までのファイル整理ツールと比較して高速かつ柔軟 によって次々と蓄積されていく。企業が蓄積している な検索ができるようになった。 情報の量は、時間の経過とともに増大の一途をたどっ HyperClassifier の 欠 点 と し て 、 既 存 の フ ァ イ ル サ ー て い る 。近 年 で は 50~ 60%の 割 合 で 増 加 し 、今 後 10 年 バからの移行に手間がかかる点が挙げられる。特に、 以上はこの傾向が続くといわれている。このまま大量 単一のフォルダ階層を用いて管理されてきたファイル のファイルが蓄積してくると、それらの整理や検索が を多次元ツリーによって再整理するには時間と労力が 困 難 に な っ て く る 。「 イ ン フ ォ メ ー シ ョ ン ワ ー カ ー は 、 かかる。 平 均 で 労 働 時 間 の 24 % を 情 報 の 検 索 と 分 析 に 費 や し この欠点を克服するために、我々 は既存の単一ツリ て い る 」と の 報 告 [1] も あ り 、情 報 探 索 に か か る 労 力 は 、 ーで構成されたファイル群を多次元ツリー形式に自動 企 業 活 動 に お い て 大 き な 負 担 と な っ て い る 。そ の た め 、 的 に 組 み 替 え る ツ ー ル MD-TACT( Multi- Dimensional 必要な情報の探索にかける時間を短縮することは、企 Tree Automatic Construction Tool) を 開 発 し て い る [4]。 業等にとって重要な課題である。 MD-TACT は 、既 存 の フ ァ イ ル 群 を 読 み 込 み 、フ ァ イ ル このような背景から、ファイルを系統的に分類・整 名を取得して自動的に多次元ツリーに再構成する。ま 理し、素早く検索できるシステムが求められている。 た 、 生 成 さ れ た 多 次 元 ツ リ ー を HyperClassifier に イ ン 企業内に蓄積された情報を検索できるようなシステム ポートすることで、時間のかかるファイル登録を、フ は 従 来 か ら 多 く 開 発 さ れ て い る が 、 そ の 多 く は 、 Web ァイル群ごと一括で行うことができる。 ページの検索エンジンのような、キーワードを入力す 本 論 文 で は 、 過 去 に 実 施 し た MD-TACT の 評 価 を 踏 ることによってファイルの検索を行うシステムである。 まえて改善および再評価を 行った結果を報告する。ま しかしこの形式のシステムの場合、情報を得るために ず 2 節では、本研究のファイル整理の要点である多次 はキーワードが必要であり、目的の情報を検索できる 元 分 類 方 式 と OLAP 操 作 に つ い て 述 べ 、そ れ を も と に キーワードが不明だと検索ができない。また、ファイ 開 発 さ れ た フ ァ イ ル 整 理 ツ ー ル HyperClassifier に つ い ルサーバの中に何の情報がどのように分布しているか て 述 べ る 。 3 節 で は 多 次 元 ツ リ ー 自 動 構 成 ツ ー ル MD- 分からず、目的の情報が存在するかが分かりにくい。 TACT の 目 的 と 機 能 、 基 本 的 な 処 理 の 流 れ に つ い て 説 明 す る 。 4 節 で は 、 本 論 文 で MD-TACT に 実 装 し た 新 操作を用いる。 機能の内容とアルゴリズムについて解説する。5 節で ダイシング は 新 機 能 の 有 用 性 を 検 証 す る た め に MD-TACT の 評 価 次元を指定し、それに基づいた検索結果を表示する 実験を行ったので 、その結果を分析する。 6 節では本 操作。 「学年」 「学部」 「 出 身 地 」の 3 つ の 次 元 か ら 作 成 論文のまとめと今後の研究課題について述べる。 し た 学 生 情 報 を 集 計 す る 場 合 に 、「 学 年 」 を 指 定 し て 、 2. 基 本 事 項 各学年の学生数の表を表示するときなどに用いられる。 2.1. 多 次 元 ツリー この操作により、分析の観点を変えることができる。 多次元ツリーとは、各ファイルを複数のツリーのノ ードと対応付けて分類する方式で、本研究で独自に提 スライシング 特定の条件を適用し、データの絞り込みを行う操作。 案 す る 分 類 方 式 で あ る 。 一 般 的 な OS は 、 単 一 ツ リ ー 学生情報を集計する際に、 「 理 工 学 部 の 学 生 」と い っ た を使ってファイルを分類している。単一ツリーは、構 条件を付けて絞り込むような操作がスライシングであ 造が比較的単純で実現も容易であるが、複数の分類観 る。条件を設定して絞り込むことで、必要な情報だけ 点が混在しているため 、ツリーの分類の一貫性を保て を抽出できる。 ない。この他にも、検索の順序がツリーの根から葉へ ドリリング の方向に固定され、検索の自由度が低い、分類観点が 特定の次元の階層を上下させ、データの集計範囲を 増えると、ノード数が爆発的に増加する等の欠点があ 切り替える操作。下の階層に切り替える操作をドリル り、検索効率が良いとは言えない。 ダウン、上の階層に切り替える操作をドリルアップと こ れ に 対 し て 多 次 元 分 類 方 式 で は 、「 プ ロ ジ ェ ク ト いう。例を挙げると、ドリルダウンは学部ごと のデー 名」や「ファイルの目的」などといった、ファイルの タを学科ごとのデータに分割する操作、ドリルアップ 分類基準ごとにツリーを複数構築し、分類を行う。 は学科ごとのデータを学部ごとのデータにまとめる操 多次元ツリーで用いるツリーは、以下の 2 つの制約 を満たすように構成される。 IS-A 制 約 作である。 2.3. HyperClassifier HyperClassifier は 、 フ ァ イ ル を 登 録 ・ 分 類 す る 機 能 親 子 の ノ ー ド 間 に は 、IS-A 関 連 が 成 り 立 つ よ う に と、ファイルを検索する機能の 2 つを主に提供する。 構 築 す る 。IS-A 関 連 と は 、子 ノ ー ド は 親 ノ ー ド の ファイルの登録は、各観点のツリーから対応付けた 特 別 な 場 合 に 対 応 す る 関 連 で あ る 。あ る 概 念 A と いタグを選択し、登録するファイルやフォルダをドラ B の 間 に「 A は B の 特 別 な 場 合 で あ る( A is a B)」 ッ グ &ド ロ ッ プ す る こ と で 、登 録 を 行 う こ と が で き る 。 という関係が成り立つ 。 登録されたファイルはファイルサーバにアップロード 排他制約 され、利用者が共用できるようになっている。 同 一 ツ リ ー の 兄 弟 ノ ー ド は 、互 い に 排 他 的 な も の フ ァ イ ル 検 索 の 際 に は 、 OLAP 操 作 を 用 い る こ と が と す る 。こ の 制 約 に よ り 、分 類 基 準 を 明 確 化 で き できる。タグを選択するとダイシングを行い、そのタ る。 グに対応付けられているファイルの一覧が表示される 多 次 元 ツ リ ー は 個 別 の ツ リ ー が 一 貫 し て お り 、ツ リ ー ( 図 1)。フ ァ イ ル を 選 択 し た 状 態 で タ グ を 選 択 す る と を比較的小さくできるため、理解及び保守が容易であ スライシングされ、目的のファイルを素早く探し出す る。また、ツリーやノードを利用者が自由に指定して こ と が で き る( 図 2)。各 階 層 構 造 に は 、ド リ リ ン グ に 検索ができるので、全ての階層をたどらなくてもファ よ っ て ア ク セ ス で き る( 図 3)。こ れ に よ り 、柔 軟 な フ イルを見つけることができる。さらに、ツリー のノー ァイル検索を可能にしている。また、利用者は検索キ ドに対応するファイル数を付記することで 、蓄積され ーワードを指定する必要もない。 ている情報の全体像を容易に把握できる。 2.2. OLAP 操 作 OLAP( Online Anal ytical Processing)[7]は 、利 用 者 が 直接データを検索・加工することで、問題発見や問題 解決のための分析を行う、多次元データベース構成の 分析型情報システムである。リレーショナルデータベ ースは 2 次元の表で構成されているが、多次元データ ベースは、それ以上の数の次元を持つことが可能であ る 。 HyperClassifier で は フ ァ イ ル 検 索 の 各 操 作 に ダ イ シ ン グ 、 ス ラ イ シ ン グ 、 ド リ リ ン グ の 3 種 類 の OLAP 図 1. HyperClassifier の ダ イ シ ン グ 操 作 む。フルパスは 1 行ずつ記録されており、各ノードの 区 切 り に は ¥も し く は /が 使 わ れ て い る 必 要 が あ る 。 読 み 込 ま れ た 単 一 ツ リ ー は 元 ツ リ ー と し て MD-TACT 内 に 記 録 さ れ る 。も う 1 つ は 単 語 辞 書 と い う CSV フ ァ イ ル で あ る 。こ れ は 、MD-TACT で 多 次 元 ツ リ ー を 再 構 成 した時に生成されるもので、どのノードがどのツリー に所属しているかを記録している。元ツリーを単語辞 書の記録する通りにノードを多次元ツリーへ分配する 操作を再構成操作と呼び、これにより多次元ツリーが 再構成される。2 回目以降の読み込みでフルパス一覧 図 2. HyperClassifier の ス ラ イ シ ン グ 操 作 と共に読み込めば、前回の構造を維持しながら新たな ツリーを自動構成できる。 図 3. HyperClassifier の ド リ リ ン グ 操 作 従来のファイル整理ツールと違い、多次元ツリーを 用いることでより検索しやすく、登録機能によりファ イルの増加に対応することもできる。また、 HyperClassifier を 用 い る と 、 多 次 元 ツ リ ー 上 で フ ァ イ ルの分布状況を確認することもできる。 図 4. MD-TACT の ユ ー ザ ー イ ン タ ー フ ェ ー ス 3.2. 機 能 説 明 3. MD-TACT 3.1. 概 要 HyperClassifier で は 、 フ ァ イ ル 整 理 の た め に 多 次 元 ツ リ ー を 用 い て い る 。し か し 、PC や フ ァ イ ル サ ー バ で MD-TACT は 多 次 元 ツ リ ー 自 動 構 成 機 能 [5]と 多 次 元 ツリー手動洗練機能を主に提供する。 多次元ツリー自動構成 単一ツリー構造のファイル群から単語を切り出し、 管理されている既存のファイル群は単一ツリーで整理 多次元ツリーの構造を自動的に構成する機能。このと されているため、単一ツリーから多次元ツリーに再構 きに読み込まれるのはファイル群のフルパス一覧であ 成する移行操作には手間と時間がかかる。多次元ツリ る。初回構築と追加構築の 2 パターンがあり、初回構 ー 自 動 構 成 ツ ー ル MD-TACT は 、 こ の 欠 点 を 克 服 す る 築ではファイルパスのみで多次元ツリーを自動構成す た め に 開 発 し て い る [4,5]( 図 4 )。 る。追加構築では、過去に行った多次元ツリーの再構 MD-TACT は 単 一 ツ リ ー で 構 成 さ れ た デ ー タ 構 造 を 読み込み、構成されているファイル・フォルダ名を切 り出し、多次元ツリーへと自動的に変換し出力する。 成のデータを基に 、より精度の高い多次元ツリーを自 動構成する 。 多次元ツリー手動洗練 また、出力されたツリーに正しくないカテゴリ設定が 初回構築で行われる自動構成は機械的な分類がさ されていた場合、手動で修正する機能も提供する。さ れており、必ずしも精度の高い多次元ツリーが生成 さ ら に 再 構 成 さ れ た ツ リ ー の 情 報 は CSV フ ァ イ ル に 出 れるとは限らない。そこで自動構成終了後にユーザ ー 力 で き 、 こ れ を HyperClassifier に イ ン ポ ー ト す る こ と が手動で多次元ツリーを検査・編集する機能を提供す で HyperClassifier 上 に 多 次 元 ツ リ ー を 再 現 で き る 。 増 る。編集結果は記録され、それ以降の自動構成の際に え 続 け る フ ァ イ ル に も 対 応 す る た め 、 MD-TACT で も は再利用される。多次元ツリー手動洗練機能は以下の ファイルの 追加読み込みが可能になっている。 操作から構成される。 MD-TACT は 、2 種 類 の 情 報 を 読 み 込 ん で 処 理 を 行 う 。 洗練操作:ノードの移動機能 1つは、単一ツリーの構造を示したファイルフルパス ツリー上のノードを他のツリーに移動する機能。元 の一覧であり、これはテキストファイルとして読み込 の単一ツリーにおける親子 関係を崩すことなく整理で きる。また多次元ツリーの規則上ふさわしくない移動 が行われた場合には、利用者に警告する。 洗練操作:ノードの統合機能 ツリー上の異なるノードを同一ノードに統合する 機能。これによってツリー上の同義語を 1 つの単語に Undo 機 能 1 つ前に行われた高水準操作による変更を元に戻す。 Undo 機 能 の 対 象 と す る 高 水 準 操 作 は 、ノ ー ド の 移 動・ 統合・分割・リネームの 4 種類である。 一括選択機能 ま と め る こ と が で き る 。統 合 後 の ノ ー ド が 操 作( 移 動 、 ノードの選択状態を変更した時にそのノードの兄 リネーム、削除等)されると、統合前の双方のノード 弟ノードの選択状態も同じものに変更する操作である。 が一括操作される。 通 常 の 選 択 操 作 と 区 別 す る た め 、Shift ボ タ ン を 押 し な 洗練操作:ノードの分割機能 が ら 操 作 を 行 う 。Shift ボ タ ン を 押 し な が ら 操 作 を 行 っ ツリー上のノードを分割する機能。1 つのノードの たノードと 、その直前に選択状態を変更したノードの 名前が 2 つ以上の観点を持っていても、分割操作を通 間にある全ての兄弟ノードを対象に、選択状態の変更 じて個別に 整理できる ようになる 。 が行われる。このノードたちは必ず兄弟ノードである ログ機能 MD-TACT 上 で 行 っ た 操 作 の 履 歴 を 取 る 機 能 。 取 得 した履歴から、使用者の癖や効率的な多次元ツリーの 再構成パターンを解析できる。 3.3. MD-TACT の評 価 概 要 必要があり、兄弟ノードでなければ通常の選択状態の 変更が行われる。 セーブ機能 現在の操作状況を 1 つのファイルに出力する機能と、 出力ファイルを入力することで作業状態を再構成する MD-TACT の 有 用 性 を 示 す た め に 、MD-TACT の 評 価 機能を提供する。多次元ツリーの再構成は元ツリーの 実 験 を 行 っ た 。評 価 実 験 で は 被 験 者 10 名 を MD-TACT ファイルパス群と単語辞書があれば可能なので、この を 先 に 使 う チ ー ム と 後 に 使 う チ ー ム に 分 け 、1649 個 の 2 つ を ま と め た CSV フ ァ イ ル を 入 出 力 す る こ と で 機 能 ファイル名を含む フルパスを再構成させた。結果とし を実現する。また、新規作成時に誤ってセーブデータ て 、MD-TACT を 利 用 す る こ と で 作 業 時 間 を 1/5 に ま で を 上 書 き し な い よ う 、 MD-TACT 上 の ツ リ ー が 空 の 場 削 減 で き る こ と が 分 か っ た 。ま た 、MD-TACT の 自 動 構 合、セーブを行わないようにする。 成機能は、ノード上の重複単語が多ければ多いほど効 4.2. 新 機 能 実 装によるデータ構 造の変 更 率 が 上 が る こ と が 分 か っ た [5]。 前回の評価実験で得られたアンケートの中には、 MD-TACT で 表 示 さ れ る ノ ー ド は 個 別 に 単 語 辞 書 に 登 録 さ れ る 。単 語 辞 書 に は 、ノ ー ド を 判 別 す る 単 語 ID、 「 Undo 機 能 が 欲 し い 」「 分 割 ノ ー ド の 名 前 が 判 断 し づ ノードの表示名である単語名、ノードがどのツリーに らく困った」といった機能 に関する要望もあった。 配 置 さ れ て い る か を 示 す カ テ ゴ リ ID の 3 つ の 要 素 が 4. MD-TACT の 新 機 能 登録される。手動洗練操作はこの 3 つの要素を変更す 前 回 の 評 価 実 験 で 得 ら れ た ア ン ケ ー ト か ら 、 MD- ることで実現している。今回提案した新機能はこれら TACT の 操 作 性 を 向 上 さ せ る た め に 4 つ の 新 機 能 を 提 3 つの値では実現が難しい。そこで新たに、表示フラ 案・実 装 し た [6]。本 論 文 で は 新 た に 実 装 し た 機 能 に つ グ と い う 要 素 を 追 加 し た( 図 5)。こ れ は 多 次 元 ツ リ ー いて解説する。 上で実際に表示するか否かを示す要素で、この値が 偽 4.1. 新 機 能 説 明 ならば、そのノードは ツリー上に表示されなくなる。 リネーム機能 これにより統合操作などで 多次元ツリー上から消され ツリー上で表示されるノードの名前をユーザーの るノードを、表示させずに保持できるようになった。 入力した名前に変更する。 分割後のノードの名前を変 ま た 、MD-TACT 内 に 保 持 し て い る 元 ツ リ ー に 、単 語 更することで、どちらをどの観点に当てはめるかを視 名 だ け で な く 単 語 ID も 同 時 に 保 持 す る よ う に し た 。 覚的にわかりやすくするために使う。 ただし、ノード これによって、リネーム機能で名前を変更しても単語 上で既に存在する 名前に変更することは禁止する。こ ID か ら 元 の 名 前 を 確 認 で き る よ う に な り 、追 加 構 築 で れは同名に変更することは同一の単語に統合すること 元の名前と同じノードが追加されても 、同一のノード と同義であり、統合操作で行えるからである。 また、 として判定 できるようになった。 1 回の操作で変更できるノードは 1 つまでにする。移 更 に Undo 機 能 を 実 現 す る た め に Undo 履 歴 を 実 装 動・統 合・分 割 操 作 は 対 象 ノ ー ド を 複 数 選 択 で き た が 、 し た 。こ れ は Undo に 対 応 し た 移 動・統 合・分 割・リ ネ リネーム操作は必ず既存でない名前に変更する必要が ーム操作が行われる度に、変更内容と変更した対象を あ る た め で あ る 。 さ ら に 後 述 の Undo 機 能 を 行 え る よ 記録する。 移動操作時には、対象に取ったノード群の う、リネームによって変更されたノードは変更前の名 単 語 ID と 、 変 更 前 の カ テ ゴ リ ID を 履 歴 に 格 納 す る 。 前を保持しておく必要がある。 統合操作時には対象に取ったノード群の単語名と、変 更 前・変 更 後 の 単 語 ID を 履 歴 に 格 納 す る 。分 割 操 作 時 前の単語名 と同じものを持つノードを選択し、表示フ に は 生 成 さ れ た 分 割 ノ ー ド 群 の 単 語 ID を 履 歴 に 格 納 ラ グ を 真 に 変 更 す る 。 そ れ 以 外 の 同 一 単 語 ID の ノ ー する。リネーム操作時には対象に取ったノードの単語 ドは表示フラグをすべて偽に変更する。 ID と 変 更 前 の 単 語 名 を 履 歴 に 格 納 す る 。 操作に応じた変更が完了したら再構成操作を行い、 確 認 中 の 操 作 内 容 を Undo 履 歴 か ら 消 去 す る 。 一括選択機能 選択状態が変更されるときは、変更後にどのノード が最後に指定されたかを上書き記録する。 Shift ボ タ ン を 押 し な が ら 選 択 状 態 を 変 更 し た 場 合 、 記録されているノードの選択状態と位置を取得し、 Shift ボ タ ン を 押 し な が ら 変 更 し た ノ ー ド と 兄 弟 関 係 かを確認する。兄弟関係でなければ通常通りの選択状 態変更を行い、そうでなければそれら 親ノードを確認 する。確認した親ノードの子ノードで、記録されたノ ー ド と Shift ボ タ ン を 押 し な が ら 選 択 状 態 を 変 更 さ れ たノード、それらの間にある子ノード すべてを、取得 した選択状態に変更する。 図 5. 表 示 フ ラ グ を 追 加 し た 単 語 辞 書 4.3. 新 機 能 アルゴリズム リネーム機能 選 択 状 態 に な っ て い る ノ ー ド か ら 単 語 ID を 取 得 し 、 セーブ機能 作業記録を出力するときは、元ツリーのファイルフ ルパスと単語辞書を取得し、それぞれ空欄を開けて 1 つ の CSV フ ァ イ ル に 出 力 す る 。入 力 時 に は 、入 力 さ れ 同 じ 単 語 ID を 持 つ ノ ー ド を 単 語 辞 書 か ら 探 す 。 そ の た CSV フ ァ イ ル で 空 欄 を 読 む ま で を フ ァ イ ル フ ル パ 中にユーザーから入力された名前があったら、そのノ スとして読み込み、それ以降を単語辞書として読み込 ー ド の 表 示 フ ラ グ を 真 に し 、そ れ 以 外 で 同 じ 単 語 ID を み再構成操作を行う。 持つノードの表示フラグを偽にする。なければ新たな 5. MD-TACT の 評 価 ノードとして単語辞書に新規登録し、それ以外で同じ 5.1. 目 的 単 語 ID を 持 つ ノ ー ド の 表 示 フ ラ グ を 偽 に す る 。 最 後 MD-TACT を た く さ ん の 人 に 利 用 し て も ら う に は 、 に元ツリーの同一ノードの表示名をユーザーから入力 本 ツ ー ル の 有 用 性 を 検 証 す る 必 要 が あ る 。そ の た め に 、 された名前に変更し、すべての多次元ツリーに対して MD-TACT 利 用 時 お よ び 非 利 用 時 に 単 一 ツ リ ー か ら 多 再構成操作を行う。 次元ツリーを生成するために必要な時間を計測する。 Undo 機 能 Undo が 実 行 さ れ る と 、 Undo 履 歴 内 で 一 番 新 し い 操 作を確認し、その操作に応じた各種値の変更を行う 。 本 節 で は 、 MD-TACT の 評 価 実 験 の 内 容 と 評 価 結 果 を 述べる。 5.2. 今 回 の評 価実 験 移 動 操 作 で あ れ ば 、 履 歴 か ら 単 語 ID と 変 更 前 の カ MD-TACT の 評 価 実 験 で は 、 単 一 ツ リ ー を 多 次 元 ツ テ ゴ リ ID を 取 り 出 し 、単 語 辞 書 上 で 単 語 ID が 同 じ ノ リ ー に 再 構 成 す る 作 業 を 12 名 の 被 験 者 に 行 わ せ た 。 ー ド を 探 す 。 そ れ ら の カ テ ゴ リ ID を 変 更 前 の 値 に 変 被験者は本学・知能情報システム学科の学部 3 年生で 更する。 あり、情報分野の専門教育を一通り受けている。本評 統合操作であれば、履歴から単語名、変更前・変更 価 実 験 で は MD-TACT 利 用 時 ・ 非 利 用 時 の 2 パ タ ー ン 後 の 単 語 ID を 取 り 出 し 、 単 語 辞 書 か ら 変 更 後 の 単 語 の デ ー タ を 収 集 し た 。 MD-TACT 利 用 時 は ロ グ 機 能 に ID を 持 つ ノ ー ド を す べ て 探 す 。そ の 中 で 履 歴 か ら 得 た より出力されるログを収集した。一方、非利用時には 単 語 名 と 同 じ 単 語 名 を も つ 物 を 探 し 、 単 語 ID を 変 更 Microsoft Excel の ワ ー ク シ ー ト で 多 次 元 ツ リ ー を 表 現 前の物に戻して表示フラグを真に変更する。 す る こ と と し 、 Excel を 用 い て ツ リ ー の 編 集 を 行 わ せ 分 割 操 作 で あ れ ば 、履 歴 か ら 単 語 ID を 取 り 出 し 、元 ツ リ ー と 単 語 辞 書 か ら 同 じ 単 語 ID を 持 つ ノ ー ド を 削 除する。 た 。 図 6 は 図 4 で 表 示 さ れ た 単 一 ツ リ ー を Excel の ワ ークシート形式に編集したものである。 12 人 の 被 験 者 は 6 人 2 組 の グ ル ー プ に 分 け 、一 方 の リ ネ ー ム 操 作 で あ れ ば 、 履 歴 か ら 単 語 ID と 変 更 前 グ ル ー プ( 以 下 、チ ー ム 甲 )に は Excel 使 用 、MD-TACT の 単 語 名 を 取 り 出 し 、 単 語 辞 書 か ら 単 語 ID が 一 致 す 使用の順で多次元ツリーの構築を行わせた。もう一方 るノードをすべて探す。それらのノード群から、変更 の グ ル ー プ ( 以 下 、 チ ー ム 乙 ) に は MD-TACT 使 用 、 Excel 使 用 の 順 で 多 次 元 ツ リ ー の 構 築 を 行 わ せ た 。 ま て い る が 、甲 6 は 実 質 2 回 目 の 作 業 時 間 に な っ て い る 。 た 、再 構 築 し て も ら う サ ン プ ル の 単 一 ツ リ ー は 、1 人 1 甲 6 のデータ(※で示す)のみ被験者の習熟度が異な 人違うサンプルを使ってもらった。今回利用したサン るので、平均値からは外して計算している。また、甲 プルは、複数のフォルダを含むテキストファイルであ 6 は他の甲チームの被験者より短い時間で作業を完了 る 。 各 チ ー ム に 割 り 当 て ら れ た フ ォ ル ダ 数 は 111 個 か し て い る が 、 こ の こ と に よ り MD-TACT に 習 熟 す れ ば ら 192 個 の 範 囲 に 分 布 し て お り 、 表 2 に 示 す よ う に 、 より効率的に作業できることが予想される。 含 ま れ る 単 語 数 も 108~ 202 個 の 範 囲 で 分 布 し て い る 。 両チームが手動再構成を行った時間の平均値を比 フォルダ数と比較して単語数が少ないのは、共通の上 較すると、甲チームは 2 時間 0 分、乙チームは 1 時間 位フォルダ名のように、異なるフォルダに同一の単語 31 分 と な っ て お り 、 乙 チ ー ム の 方 が 29 分 短 く な っ て が出現するためである。 い る 。こ れ は 、MD-TACT を 先 に 利 用 す る こ と で 、多 次 元ツリーの完成形を既に確認できていたので、甲チー ムによる編集作業がスムーズに進んだためと考えられ る 。MD-TACT を 利 用 し た 作 業 時 間 も 同 じ よ う に 、甲 チ ー ム が 45 分 、乙 チ ー ム が 1 時 間 37 分 と 、後 か ら MDTACT を 使 っ た チ ー ム の 方 が 少 な い 時 間 で 完 了 し て い る。これは 1 回目の作業で再構成する多次元ツリーの 全体像を確認しており、2 回目からは多次元ツリーの 全体像を考える時間(思考時間)が不要になったため だと思われる。この作業時間から思考時間を引いた値 を 実 作 業 時 間 と し た 場 合 、 甲 チ ー ム の MD-TACT 利 用 と乙チームの手動再構成の作業時間がそれに該当する。 図 6. Excel で 表 現 す る 単 一 ツ リ ー 2 つ を 比 較 す る と 実 作 業 時 間 は MD-TACT を 利 用 す る こ と で 約 1/2 に 削 減 で き る こ と が 分 か る 。 前回の作業時間削減率と比較すると、新機能を実装 5.2.1. 作 業 時 間 まず新機能によってどれほどの時間短縮が得られ し た MD-TACT の 作 業 時 間 削 減 率 は 低 く な っ た 。 こ れ たかを確認する。表 1 は本実験で得られた作業時間を は本稿で実装した機能が、ユーザーの習熟 度によって フ ァ イ ル 群 上 で 出 現 し た 単 語 数 で 割 り 、 100 単 語 毎 の は使いづらい物であると推測できる。 作業時間に 正規化したものの一覧表である。本実験で ま た 、思 考 時 間 が Excel と MD-TACT で は 23 分 の 差 は 被 験 者 甲 6 の MD-TACT が 作 業 途 中 で フ リ ー ズ し た ができている。このデータで結論を出すことができな ため、最初から作業をやり直して もらった 。このため い が 、 Excel を 用 い た 作 業 で は 実 作 業 時 間 の 中 に 思 考 甲 1~ 甲 5 は MD-TACT を 初 め て 使 っ た 作 業 時 間 が 出 し て い る 時 間 が 含 ま れ て い る 可 能 性 が あ る 。仮 に Excel 表 1. 被 験 者 の 多 次 元 ツ リ ー 再 構 成 作 業 時 間 の 比 較 グループ 甲 Excel ↓ MD-TACT 乙 MD-TACT ↓ Excel 1 100 単 語 毎 の 再 構 成 作 業 時 間 Excel 利 用 MD-TACT 利 用 2 時 間 25 分 48 分 2 2 時 間 58 分 3 1 時 間 38 分 4 2 時間 7 分 5 3 時間 1 分 52 分 6 1 時 間 54 分 20 分 ※ 1 2 時間 6 分 1 時 間 16 分 2 1 時 間 41 分 1 時 間 44 分 3 1 時 間 38 分 4 1 時 間 22 分 5 1 時間 0 分 1 時 間 36 分 6 1 時 間 22 分 1 時 間 49 分 被験者 思考時間想定値 36 分 平均値 2 時間 0 分 平均値 1 時 間 31 分 29 分 38 分 平均値 45 分 54 分 1 時 間 44 分 平均値 1 時 間 37 分 1 時 間 33 分 52 分 い た が 、 Excel 利 用 で の 間 違 っ た 箇 所 が 想 定 よ り 多 か 表 2. 多 次 元 ツ リ ー の 品 質 比 較 ファイ ル群 単語 総数 1 202 2 190 3 138 4 197 5 108 6 被験者 186 甲1 MD-TACT 利用 20 か 所 Excel 利用 8 か所 乙 甲 乙 甲 1 2 2 3 4 42 21 34 か所 か所 か所 か所 2 35 5 36 か所 か所 か所 か所 乙 甲 乙 甲 3 4 4 5 33 20 11 1 か所 か所 か所 か所 0 9 9 16 か所 か所 か所 か所 った。この間違った箇所は「ツリー上で使われていな い ノ ー ド 」が 6 か 所 、 「 別 々 の ツ リ ー に 同 一 単 語 」が 3 か所あり、 手動でファイルフルパスか らノードを移行 す る 過 程 で ミ ス が あ っ た と 考 え ら れ る 。 MD-TACT は 出現した単語をすべて辞書に登録するため、取りこぼ しや複数回同じ単語を入力してしまう 間違いは起こさ ない。この点で、手動で行う多次元ツリーの再構成よ り MD-TACT が 優 れ て い る と い う こ と が 言 え る 。 5.2.3. 被 験 者 の ア ン ケ ー ト 評価実験の終了時に、被験者からアンケートを取っ た。 乙5 6 か所 12 か 所 甲6 3 か所 31 か 所 被 験 者 全 員 の 共 通 意 見 は 、 MD-TACT の 使 い や す さ 乙6 36 か 所 29 か 所 に関することだった。手動で行うとノード名を手動で 入 力 し な い と い け な い が 、 MD-TACT は あ る 程 度 ま で 自動構成されておりマウスのみで操作ができる 点が評 の 実 作 業 時 間 に 思 考 時 間 が 含 ま れ て い る 場 合 、 MD- 価された。時間がかかった被験者もいたが、操作性に TACT と の 実 作 業 時 間 の 差 は 1/2 よ り も 少 な く な る 。 関しては全ての被験者が良いという意見を上げていた。 5.2.2. ツ リ ー の 品 質 ま た 、MD-TACT の 改 良 点 の 提 案 も あ っ た 。 「終了時 次に再構成した多次元ツリーの品質がどれだけ高 に何の警告も出さずに終了するので、警告を出してほ いかを確認する。品質は、被験者が再構成した多次元 しい」 「ツリーに名前を付ける機能が欲しい」 「 Undo の ツリーと完成形がどの程度異なるかによって判定した。 対 に な る Redo 機 能 」 「親ノードと子ノードの一括選択 再構成された多次元ツリーは、明らかに間違ってい る箇所数から判定した。ここでの明らかに間違ってい 機能」など、運用性の向上に役立つ案が複数出た。 5.2.4. 前 回 の 評 価 実 験 と の 比較 と 考 察 る 部 分 と は 、「 ノ ー ド 名 を 間 違 え て い る 」「 兄 弟 関 係 が 前 回 の 評 価 実 験 で は 被 験 者 10 人 、使 用 フ ァ イ ル 1649 矛盾している」 「ツリー上で使われていないノードがあ 個 で 行 い 、 今 回 は 被 験 者 12 人 、 使 用 フ ァ イ ル 1374 個 る 」「 分 類 観 点 が 違 う 」 の 4 点 で あ る 。 た だ し 、 MD- で行った。今回の評価実験はファイル数が前回より少 TACT は リ ネ ー ム 機 能 が 実 装 さ れ て お り 、 名 前 の 変 更 ないので少ない作業時間が結果として出ると予想して はすべて意図的に行われたものなので、ノード名の間 いたが、結果は以上の通り今回の実験 での時間削減率 違いは無視する。 の方が低かった。この原因については 2 つの推測がで 本 稿 で は 被 験 者 12 名 が 再 構 成 し た 多 次 元 ツ リ ー を 調べた。表 2 はそれによって得られた結果である。 きる。 1 つ は 、 前 述 し た MD-TACT で 再 構 成 す る ツ リ ー の Excel 利 用 と MD-TACT 利 用 の 再 構 成 で で き た ツ リ 品質要求が上がっている点である。被験者の操作履歴 ーの品質からは、法則性を見いだせなかった。これは の中には今回追加されたリネーム機能をうまく使いこ ファイル群の内容によって 、再構成の難易度が違って なせず、同名単語にリネームする、リネームの中断や い る た め と 思 わ れ る 。 例 え ば 甲 1、 乙 1 が 再 構 成 時 に Undo す る な ど の 操 作 が 何 度 か 行 わ れ て い た 。リ ネ ー ム 生成した単語辞書には、表示フラグが真になっている 操作は多次元ツリーにある程度精通していないと操作 単 語 が 205 種 類 、甲 5、乙 5 の 方 は 129 種 類 で あ っ た 。 が難しい高水準操作である可能性がある。 MD-TACT の 自 動 構 成 は 、 ノ ー ド 上 に 存 在 す る 重 複 単 もう 1 つは、ファイルパス群の実ボリュームと重複 語を切り出し他のツリーへ再分配する操作なので、 単 ノードの量の差によって多次元ツリーの再構成しやす 語の種類が増えるほど自動構成機能の精度が低下する 。 さが変わる可能性である。今回使用したファイルパス そのため、ファイル群の違いで大きく差が出たのだと 群は、前回の評価実験で使ったフルパス群とほぼ同じ 思われる。 これを考慮して、表 1 では通常の作業時間 重 複 単 語 数 で あ り 、行 数 が 83% 程 度 に な っ て い る 。前 で な く 100 単 語 毎 の 作 業 時 間 を ま と め て い る 。 回の評価実験では、ファイルパス内に重複単語が多い ま た 、 Excel 利 用 に よ る 再 構 成 で あ り が ち な ノ ー ド ほ ど MD-TACT の 効 率 が 上 が る と い う 結 果 が 出 て お り 、 の取りこぼしや別々のツリーに同一単語を入れてしま 重複単語数に変わりがなければ効率が変化しづらいと う ミ ス を MD-TACT で は 防 げ る 点 も 影 響 し て い る と 考 いうことが言える。さらに、今回の評価実験で使った え ら れ る 。 乙 5 は MD-TACT 利 用 の 作 業 を 先 に 行 っ て フルパスは前回の ものよりも行数が少なくなっている ので、手動で行う再構成の難易度が相対的に下がって ル MD-TACTの リ ネ ー ム ・ Undo機 能 の 開 発 」 ,第 67 いるといえる。この 2 点により、前回の評価実験より 回 電 気 ・ 情 報 関 係 学 会 九 州 支 部 連 合 大 会 ,2014. も作業時間削減率が下がってしまった可能性がある。 [7]Wikipedia :OLAP,http://ja.wikipedia.org/wiki/OLAP 6. ま と め 本 論 文 で は 、MD-TACT の 改 良 に つ い て 述 べ 、評 価 実 験 の 結 果 を 分 析 し た 。MD-TACT に よ り 、単 一 ツ リ ー を 短時間で多次元ツリーに再構成することが可能になり、 再構成を反 復適用することで自動的に多次元ツリーを 洗 練 で き る 。MD-TACT の ロ グ 機 能 を 使 い 、熟 練 者 に よ る多次元ツリーの再構成作業を記録・分析すれば、よ り精度の高い多次元ツリーの自動構成アルゴリズムを 工夫できる可能性がある。 よ り 多 く の ユ ー ザ ー に MD-TACT を 使 っ て も ら う た めには、このツールの有用性の証明と操作性の向上が 必 要 で あ る 。 前 回 の 評 価 実 験 の ア ン ケ ー ト か ら 、 MDTACT の 操 作 性 を 向 上 さ せ る た め リ ネ ー ム 、 Undo、 一 括選択、セーブ機能を提案し、実装した。また、これ ら の 機 能 を 実 装 し た MD-TACT の 有 用 性 を 示 す た め に 再度評価実験を行った。今回の評価実験では、実装し た機能が多次元ツリーの概念をある程度習得していな いと効果が得られないということが分かった。 今後は評価実験を通して得られたロ グデータを基 に 、詳 細 な 分 析 を 行 う 。ま た 、多 次 元 ツ リ ー や MD-TACT への理解を高める環境づくりが必要で ある。さらに、 利 用 者 の 習 熟 度 に 応 じ て 、 MD-TACT を 利 用 し た 多 次 元ツリー構築にどれほどの効率変化が見られるかに焦 点 を 当 て た 評 価 実 験 を 行 う こ と を 検 討 し て い る 。ま た 、 評価実験で得られたデータから効率的な多次元ツリー 自動構成アルゴリズムを開発する 可能性についても検 討する予定である 。 参 考 文 献 [1] IDC, 「 The Hidden Costs of Information Worker」 ,2006 [2] 山 口 章 太 ,「 フ ァ イ ル 整 理 ツ ー ル HyperClassifierに おける移行支援ツールの評価とその改良」, 平成 21年 度 佐 賀 大 学 理 工 学 部 知 能 情 報 シ ス テ ム 学 科 卒 業論文 [3] 掛 下 哲 郎 , 園 木 幸 寶 ,「 OLAP 操 作 を 活 用 し た フ ァ イ ル 整 理 ツ ー ル HyperClassifier 」 , 第 8 回 情 報 科 学 技 術 フ ォ ー ラ ム (FIT 2009), 2009. [4] 柿 本 由 気 , 掛 下 哲 郎 、 「 系 統 的 な フ ァ イ ル 整 理 を 目 的 と す る 多 次 元 ツ リ ー 構 成 ツ ー ル MD-TACT」 、 電 気 関 係 学 会 九 州 支 部 第 65回 連 合 大 会 06-2P-01、 2013. [5] 柿 本 由 気 ,掛 下 哲 郎 ,「 多 次 元 ツ リ ー 自 動 構 成 ツ ー ル MD-TACTの 開 発 と 評 価 」 ,第 6回 デ ー タ 工 学 と 情 報 マ ネ ジ メ ン ト に 関 す る フ ォ ー ラ ム ,2014. [6] 柿 本 由 気 ,掛 下 哲 郎 ,「 多 次 元 ツ リ ー 自 動 構 成 ツ ー