...

電子情報通信学会ワードテンプレート (タイトル)

by user

on
Category: Documents
5

views

Report

Comments

Transcript

電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 E6-1
多次元ツリー自動構成ツール MD-TACT の開発と評価
-一括選択・セーブ機能の追加と評価実験-
柿本
由気†
掛下
哲郎‡
†佐賀大学工学系研究科 〒840-0054 佐賀市本庄町 1 番地
E-mail: †[email protected], ‡[email protected]
あらまし 近年多くの企業や企業で大量の情報が電子化されており、それらの整理や検索が困難になっている。
我々は増え続けるファイル群を系統的に整理するべく、多次元ツリーを用いたファイル整理ツール HyperClassifier
を開発している。本論文では既存の分類で良く使われる単一ツリーを HyperClassifier の多次元ツリーに変換する手
間を軽減するため、多次元ツリー自動構成ツール MD-TACT を開発する。MD-TACT は単一ツリーを多次元ツリー
に自動変換し、さらに手動で洗練する機能を提供する。また、ツリーの再構成情報を利用することで、それ以降の
自動構成の精度向上を図る。過去に行った評価実験のアンケートから、MD-TACT の新機能であるリネーム、Undo、
一括選択、セーブ機能を提案し実装した。これらの使用感を確認する為、新機能を実装した MD-TACT の評価実験
を行った。結果として、MD-TACT を利用することで多次元ツリーの再構成操作を手動操作と比較して 1/2 の作業時
間で行えることが分かった。
キーワード 多次元ツリー、OLAP、ファイル整理ツール、データ分類
1. は じ め に
近年、多くの企業や団体でコンピュータが導入され、
これらの問題を解決するために、我々は多次元ツリ
ー を 用 い て フ ァ イ ル を 整 理 す る ツ ー ル HyperClassifier
大量の情報を電子化して扱っている。その数は企業の
を 開 発 し て き た [2,3]。 HyperClassifier は 多 次 元 ツ リ ー
規模などにもよるが、ファイル数にして、およそ数万
構 造 と 対 応 付 け て フ ァ イ ル を 登 録 し 、 OLAP 操 作 を 行
か ら 数 十 万 フ ァ イ ル 以 上 に も の ぼ る 。こ れ ら の 情 報 は 、
う こ と で 登 録 し た フ ァ イ ル を 検 索 で き る 。こ れ に よ り 、
企業の活動によって作成およびやり取りがされること
今までのファイル整理ツールと比較して高速かつ柔軟
によって次々と蓄積されていく。企業が蓄積している
な検索ができるようになった。
情報の量は、時間の経過とともに増大の一途をたどっ
HyperClassifier の 欠 点 と し て 、 既 存 の フ ァ イ ル サ ー
て い る 。近 年 で は 50~ 60%の 割 合 で 増 加 し 、今 後 10 年
バからの移行に手間がかかる点が挙げられる。特に、
以上はこの傾向が続くといわれている。このまま大量
単一のフォルダ階層を用いて管理されてきたファイル
のファイルが蓄積してくると、それらの整理や検索が
を多次元ツリーによって再整理するには時間と労力が
困 難 に な っ て く る 。「 イ ン フ ォ メ ー シ ョ ン ワ ー カ ー は 、
かかる。
平 均 で 労 働 時 間 の 24 % を 情 報 の 検 索 と 分 析 に 費 や し
この欠点を克服するために、我々 は既存の単一ツリ
て い る 」と の 報 告 [1] も あ り 、情 報 探 索 に か か る 労 力 は 、
ーで構成されたファイル群を多次元ツリー形式に自動
企 業 活 動 に お い て 大 き な 負 担 と な っ て い る 。そ の た め 、
的 に 組 み 替 え る ツ ー ル MD-TACT( Multi- Dimensional
必要な情報の探索にかける時間を短縮することは、企
Tree Automatic Construction Tool) を 開 発 し て い る [4]。
業等にとって重要な課題である。
MD-TACT は 、既 存 の フ ァ イ ル 群 を 読 み 込 み 、フ ァ イ ル
このような背景から、ファイルを系統的に分類・整
名を取得して自動的に多次元ツリーに再構成する。ま
理し、素早く検索できるシステムが求められている。
た 、 生 成 さ れ た 多 次 元 ツ リ ー を HyperClassifier に イ ン
企業内に蓄積された情報を検索できるようなシステム
ポートすることで、時間のかかるファイル登録を、フ
は 従 来 か ら 多 く 開 発 さ れ て い る が 、 そ の 多 く は 、 Web
ァイル群ごと一括で行うことができる。
ページの検索エンジンのような、キーワードを入力す
本 論 文 で は 、 過 去 に 実 施 し た MD-TACT の 評 価 を 踏
ることによってファイルの検索を行うシステムである。
まえて改善および再評価を 行った結果を報告する。ま
しかしこの形式のシステムの場合、情報を得るために
ず 2 節では、本研究のファイル整理の要点である多次
はキーワードが必要であり、目的の情報を検索できる
元 分 類 方 式 と OLAP 操 作 に つ い て 述 べ 、そ れ を も と に
キーワードが不明だと検索ができない。また、ファイ
開 発 さ れ た フ ァ イ ル 整 理 ツ ー ル HyperClassifier に つ い
ルサーバの中に何の情報がどのように分布しているか
て 述 べ る 。 3 節 で は 多 次 元 ツ リ ー 自 動 構 成 ツ ー ル MD-
分からず、目的の情報が存在するかが分かりにくい。
TACT の 目 的 と 機 能 、 基 本 的 な 処 理 の 流 れ に つ い て 説
明 す る 。 4 節 で は 、 本 論 文 で MD-TACT に 実 装 し た 新
操作を用いる。
機能の内容とアルゴリズムについて解説する。5 節で
ダイシング
は 新 機 能 の 有 用 性 を 検 証 す る た め に MD-TACT の 評 価
次元を指定し、それに基づいた検索結果を表示する
実験を行ったので 、その結果を分析する。 6 節では本
操作。
「学年」
「学部」
「 出 身 地 」の 3 つ の 次 元 か ら 作 成
論文のまとめと今後の研究課題について述べる。
し た 学 生 情 報 を 集 計 す る 場 合 に 、「 学 年 」 を 指 定 し て 、
2. 基 本 事 項
各学年の学生数の表を表示するときなどに用いられる。
2.1. 多 次 元 ツリー
この操作により、分析の観点を変えることができる。
多次元ツリーとは、各ファイルを複数のツリーのノ
ードと対応付けて分類する方式で、本研究で独自に提
スライシング
特定の条件を適用し、データの絞り込みを行う操作。
案 す る 分 類 方 式 で あ る 。 一 般 的 な OS は 、 単 一 ツ リ ー
学生情報を集計する際に、
「 理 工 学 部 の 学 生 」と い っ た
を使ってファイルを分類している。単一ツリーは、構
条件を付けて絞り込むような操作がスライシングであ
造が比較的単純で実現も容易であるが、複数の分類観
る。条件を設定して絞り込むことで、必要な情報だけ
点が混在しているため 、ツリーの分類の一貫性を保て
を抽出できる。
ない。この他にも、検索の順序がツリーの根から葉へ
ドリリング
の方向に固定され、検索の自由度が低い、分類観点が
特定の次元の階層を上下させ、データの集計範囲を
増えると、ノード数が爆発的に増加する等の欠点があ
切り替える操作。下の階層に切り替える操作をドリル
り、検索効率が良いとは言えない。
ダウン、上の階層に切り替える操作をドリルアップと
こ れ に 対 し て 多 次 元 分 類 方 式 で は 、「 プ ロ ジ ェ ク ト
いう。例を挙げると、ドリルダウンは学部ごと のデー
名」や「ファイルの目的」などといった、ファイルの
タを学科ごとのデータに分割する操作、ドリルアップ
分類基準ごとにツリーを複数構築し、分類を行う。
は学科ごとのデータを学部ごとのデータにまとめる操
多次元ツリーで用いるツリーは、以下の 2 つの制約
を満たすように構成される。


IS-A 制 約
作である。
2.3. HyperClassifier
HyperClassifier は 、 フ ァ イ ル を 登 録 ・ 分 類 す る 機 能
親 子 の ノ ー ド 間 に は 、IS-A 関 連 が 成 り 立 つ よ う に
と、ファイルを検索する機能の 2 つを主に提供する。
構 築 す る 。IS-A 関 連 と は 、子 ノ ー ド は 親 ノ ー ド の
ファイルの登録は、各観点のツリーから対応付けた
特 別 な 場 合 に 対 応 す る 関 連 で あ る 。あ る 概 念 A と
いタグを選択し、登録するファイルやフォルダをドラ
B の 間 に「 A は B の 特 別 な 場 合 で あ る( A is a B)」
ッ グ &ド ロ ッ プ す る こ と で 、登 録 を 行 う こ と が で き る 。
という関係が成り立つ 。
登録されたファイルはファイルサーバにアップロード
排他制約
され、利用者が共用できるようになっている。
同 一 ツ リ ー の 兄 弟 ノ ー ド は 、互 い に 排 他 的 な も の
フ ァ イ ル 検 索 の 際 に は 、 OLAP 操 作 を 用 い る こ と が
と す る 。こ の 制 約 に よ り 、分 類 基 準 を 明 確 化 で き
できる。タグを選択するとダイシングを行い、そのタ
る。
グに対応付けられているファイルの一覧が表示される
多 次 元 ツ リ ー は 個 別 の ツ リ ー が 一 貫 し て お り 、ツ リ ー
( 図 1)。フ ァ イ ル を 選 択 し た 状 態 で タ グ を 選 択 す る と
を比較的小さくできるため、理解及び保守が容易であ
スライシングされ、目的のファイルを素早く探し出す
る。また、ツリーやノードを利用者が自由に指定して
こ と が で き る( 図 2)。各 階 層 構 造 に は 、ド リ リ ン グ に
検索ができるので、全ての階層をたどらなくてもファ
よ っ て ア ク セ ス で き る( 図 3)。こ れ に よ り 、柔 軟 な フ
イルを見つけることができる。さらに、ツリー のノー
ァイル検索を可能にしている。また、利用者は検索キ
ドに対応するファイル数を付記することで 、蓄積され
ーワードを指定する必要もない。
ている情報の全体像を容易に把握できる。
2.2. OLAP 操 作
OLAP( Online Anal ytical Processing)[7]は 、利 用 者 が
直接データを検索・加工することで、問題発見や問題
解決のための分析を行う、多次元データベース構成の
分析型情報システムである。リレーショナルデータベ
ースは 2 次元の表で構成されているが、多次元データ
ベースは、それ以上の数の次元を持つことが可能であ
る 。 HyperClassifier で は フ ァ イ ル 検 索 の 各 操 作 に ダ イ
シ ン グ 、 ス ラ イ シ ン グ 、 ド リ リ ン グ の 3 種 類 の OLAP
図 1. HyperClassifier の ダ イ シ ン グ 操 作
む。フルパスは 1 行ずつ記録されており、各ノードの
区 切 り に は ¥も し く は /が 使 わ れ て い る 必 要 が あ る 。 読
み 込 ま れ た 単 一 ツ リ ー は 元 ツ リ ー と し て MD-TACT 内
に 記 録 さ れ る 。も う 1 つ は 単 語 辞 書 と い う CSV フ ァ イ
ル で あ る 。こ れ は 、MD-TACT で 多 次 元 ツ リ ー を 再 構 成
した時に生成されるもので、どのノードがどのツリー
に所属しているかを記録している。元ツリーを単語辞
書の記録する通りにノードを多次元ツリーへ分配する
操作を再構成操作と呼び、これにより多次元ツリーが
再構成される。2 回目以降の読み込みでフルパス一覧
図 2. HyperClassifier の ス ラ イ シ ン グ 操 作
と共に読み込めば、前回の構造を維持しながら新たな
ツリーを自動構成できる。
図 3. HyperClassifier の ド リ リ ン グ 操 作
従来のファイル整理ツールと違い、多次元ツリーを
用いることでより検索しやすく、登録機能によりファ
イルの増加に対応することもできる。また、
HyperClassifier を 用 い る と 、 多 次 元 ツ リ ー 上 で フ ァ イ
ルの分布状況を確認することもできる。
図 4. MD-TACT の ユ ー ザ ー イ ン タ ー フ ェ ー ス
3.2. 機 能 説 明
3. MD-TACT
3.1. 概 要
HyperClassifier で は 、 フ ァ イ ル 整 理 の た め に 多 次 元
ツ リ ー を 用 い て い る 。し か し 、PC や フ ァ イ ル サ ー バ で
MD-TACT は 多 次 元 ツ リ ー 自 動 構 成 機 能 [5]と 多 次 元
ツリー手動洗練機能を主に提供する。
多次元ツリー自動構成
単一ツリー構造のファイル群から単語を切り出し、
管理されている既存のファイル群は単一ツリーで整理
多次元ツリーの構造を自動的に構成する機能。このと
されているため、単一ツリーから多次元ツリーに再構
きに読み込まれるのはファイル群のフルパス一覧であ
成する移行操作には手間と時間がかかる。多次元ツリ
る。初回構築と追加構築の 2 パターンがあり、初回構
ー 自 動 構 成 ツ ー ル MD-TACT は 、 こ の 欠 点 を 克 服 す る
築ではファイルパスのみで多次元ツリーを自動構成す
た め に 開 発 し て い る [4,5]( 図 4 )。
る。追加構築では、過去に行った多次元ツリーの再構
MD-TACT は 単 一 ツ リ ー で 構 成 さ れ た デ ー タ 構 造 を
読み込み、構成されているファイル・フォルダ名を切
り出し、多次元ツリーへと自動的に変換し出力する。
成のデータを基に 、より精度の高い多次元ツリーを自
動構成する 。
多次元ツリー手動洗練
また、出力されたツリーに正しくないカテゴリ設定が
初回構築で行われる自動構成は機械的な分類がさ
されていた場合、手動で修正する機能も提供する。さ
れており、必ずしも精度の高い多次元ツリーが生成 さ
ら に 再 構 成 さ れ た ツ リ ー の 情 報 は CSV フ ァ イ ル に 出
れるとは限らない。そこで自動構成終了後にユーザ ー
力 で き 、 こ れ を HyperClassifier に イ ン ポ ー ト す る こ と
が手動で多次元ツリーを検査・編集する機能を提供す
で HyperClassifier 上 に 多 次 元 ツ リ ー を 再 現 で き る 。 増
る。編集結果は記録され、それ以降の自動構成の際に
え 続 け る フ ァ イ ル に も 対 応 す る た め 、 MD-TACT で も
は再利用される。多次元ツリー手動洗練機能は以下の
ファイルの 追加読み込みが可能になっている。
操作から構成される。
MD-TACT は 、2 種 類 の 情 報 を 読 み 込 ん で 処 理 を 行 う 。
洗練操作:ノードの移動機能
1つは、単一ツリーの構造を示したファイルフルパス
ツリー上のノードを他のツリーに移動する機能。元
の一覧であり、これはテキストファイルとして読み込
の単一ツリーにおける親子 関係を崩すことなく整理で
きる。また多次元ツリーの規則上ふさわしくない移動
が行われた場合には、利用者に警告する。
洗練操作:ノードの統合機能
ツリー上の異なるノードを同一ノードに統合する
機能。これによってツリー上の同義語を 1 つの単語に
Undo 機 能
1 つ前に行われた高水準操作による変更を元に戻す。
Undo 機 能 の 対 象 と す る 高 水 準 操 作 は 、ノ ー ド の 移 動・
統合・分割・リネームの 4 種類である。
一括選択機能
ま と め る こ と が で き る 。統 合 後 の ノ ー ド が 操 作( 移 動 、
ノードの選択状態を変更した時にそのノードの兄
リネーム、削除等)されると、統合前の双方のノード
弟ノードの選択状態も同じものに変更する操作である。
が一括操作される。
通 常 の 選 択 操 作 と 区 別 す る た め 、Shift ボ タ ン を 押 し な
洗練操作:ノードの分割機能
が ら 操 作 を 行 う 。Shift ボ タ ン を 押 し な が ら 操 作 を 行 っ
ツリー上のノードを分割する機能。1 つのノードの
たノードと 、その直前に選択状態を変更したノードの
名前が 2 つ以上の観点を持っていても、分割操作を通
間にある全ての兄弟ノードを対象に、選択状態の変更
じて個別に 整理できる ようになる 。
が行われる。このノードたちは必ず兄弟ノードである
ログ機能
MD-TACT 上 で 行 っ た 操 作 の 履 歴 を 取 る 機 能 。 取 得
した履歴から、使用者の癖や効率的な多次元ツリーの
再構成パターンを解析できる。
3.3. MD-TACT の評 価 概 要
必要があり、兄弟ノードでなければ通常の選択状態の
変更が行われる。
セーブ機能
現在の操作状況を 1 つのファイルに出力する機能と、
出力ファイルを入力することで作業状態を再構成する
MD-TACT の 有 用 性 を 示 す た め に 、MD-TACT の 評 価
機能を提供する。多次元ツリーの再構成は元ツリーの
実 験 を 行 っ た 。評 価 実 験 で は 被 験 者 10 名 を MD-TACT
ファイルパス群と単語辞書があれば可能なので、この
を 先 に 使 う チ ー ム と 後 に 使 う チ ー ム に 分 け 、1649 個 の
2 つ を ま と め た CSV フ ァ イ ル を 入 出 力 す る こ と で 機 能
ファイル名を含む フルパスを再構成させた。結果とし
を実現する。また、新規作成時に誤ってセーブデータ
て 、MD-TACT を 利 用 す る こ と で 作 業 時 間 を 1/5 に ま で
を 上 書 き し な い よ う 、 MD-TACT 上 の ツ リ ー が 空 の 場
削 減 で き る こ と が 分 か っ た 。ま た 、MD-TACT の 自 動 構
合、セーブを行わないようにする。
成機能は、ノード上の重複単語が多ければ多いほど効
4.2. 新 機 能 実 装によるデータ構 造の変 更
率 が 上 が る こ と が 分 か っ た [5]。
前回の評価実験で得られたアンケートの中には、
MD-TACT で 表 示 さ れ る ノ ー ド は 個 別 に 単 語 辞 書 に
登 録 さ れ る 。単 語 辞 書 に は 、ノ ー ド を 判 別 す る 単 語 ID、
「 Undo 機 能 が 欲 し い 」「 分 割 ノ ー ド の 名 前 が 判 断 し づ
ノードの表示名である単語名、ノードがどのツリーに
らく困った」といった機能 に関する要望もあった。
配 置 さ れ て い る か を 示 す カ テ ゴ リ ID の 3 つ の 要 素 が
4. MD-TACT の 新 機 能
登録される。手動洗練操作はこの 3 つの要素を変更す
前 回 の 評 価 実 験 で 得 ら れ た ア ン ケ ー ト か ら 、 MD-
ることで実現している。今回提案した新機能はこれら
TACT の 操 作 性 を 向 上 さ せ る た め に 4 つ の 新 機 能 を 提
3 つの値では実現が難しい。そこで新たに、表示フラ
案・実 装 し た [6]。本 論 文 で は 新 た に 実 装 し た 機 能 に つ
グ と い う 要 素 を 追 加 し た( 図 5)。こ れ は 多 次 元 ツ リ ー
いて解説する。
上で実際に表示するか否かを示す要素で、この値が 偽
4.1. 新 機 能 説 明
ならば、そのノードは ツリー上に表示されなくなる。
リネーム機能
これにより統合操作などで 多次元ツリー上から消され
ツリー上で表示されるノードの名前をユーザーの
るノードを、表示させずに保持できるようになった。
入力した名前に変更する。 分割後のノードの名前を変
ま た 、MD-TACT 内 に 保 持 し て い る 元 ツ リ ー に 、単 語
更することで、どちらをどの観点に当てはめるかを視
名 だ け で な く 単 語 ID も 同 時 に 保 持 す る よ う に し た 。
覚的にわかりやすくするために使う。 ただし、ノード
これによって、リネーム機能で名前を変更しても単語
上で既に存在する 名前に変更することは禁止する。こ
ID か ら 元 の 名 前 を 確 認 で き る よ う に な り 、追 加 構 築 で
れは同名に変更することは同一の単語に統合すること
元の名前と同じノードが追加されても 、同一のノード
と同義であり、統合操作で行えるからである。 また、
として判定 できるようになった。
1 回の操作で変更できるノードは 1 つまでにする。移
更 に Undo 機 能 を 実 現 す る た め に Undo 履 歴 を 実 装
動・統 合・分 割 操 作 は 対 象 ノ ー ド を 複 数 選 択 で き た が 、
し た 。こ れ は Undo に 対 応 し た 移 動・統 合・分 割・リ ネ
リネーム操作は必ず既存でない名前に変更する必要が
ーム操作が行われる度に、変更内容と変更した対象を
あ る た め で あ る 。 さ ら に 後 述 の Undo 機 能 を 行 え る よ
記録する。 移動操作時には、対象に取ったノード群の
う、リネームによって変更されたノードは変更前の名
単 語 ID と 、 変 更 前 の カ テ ゴ リ ID を 履 歴 に 格 納 す る 。
前を保持しておく必要がある。
統合操作時には対象に取ったノード群の単語名と、変
更 前・変 更 後 の 単 語 ID を 履 歴 に 格 納 す る 。分 割 操 作 時
前の単語名 と同じものを持つノードを選択し、表示フ
に は 生 成 さ れ た 分 割 ノ ー ド 群 の 単 語 ID を 履 歴 に 格 納
ラ グ を 真 に 変 更 す る 。 そ れ 以 外 の 同 一 単 語 ID の ノ ー
する。リネーム操作時には対象に取ったノードの単語
ドは表示フラグをすべて偽に変更する。
ID と 変 更 前 の 単 語 名 を 履 歴 に 格 納 す る 。
操作に応じた変更が完了したら再構成操作を行い、
確 認 中 の 操 作 内 容 を Undo 履 歴 か ら 消 去 す る 。
一括選択機能
選択状態が変更されるときは、変更後にどのノード
が最後に指定されたかを上書き記録する。
Shift ボ タ ン を 押 し な が ら 選 択 状 態 を 変 更 し た 場 合 、
記録されているノードの選択状態と位置を取得し、
Shift ボ タ ン を 押 し な が ら 変 更 し た ノ ー ド と 兄 弟 関 係
かを確認する。兄弟関係でなければ通常通りの選択状
態変更を行い、そうでなければそれら 親ノードを確認
する。確認した親ノードの子ノードで、記録されたノ
ー ド と Shift ボ タ ン を 押 し な が ら 選 択 状 態 を 変 更 さ れ
たノード、それらの間にある子ノード すべてを、取得
した選択状態に変更する。
図 5. 表 示 フ ラ グ を 追 加 し た 単 語 辞 書
4.3. 新 機 能 アルゴリズム
リネーム機能
選 択 状 態 に な っ て い る ノ ー ド か ら 単 語 ID を 取 得 し 、
セーブ機能
作業記録を出力するときは、元ツリーのファイルフ
ルパスと単語辞書を取得し、それぞれ空欄を開けて 1
つ の CSV フ ァ イ ル に 出 力 す る 。入 力 時 に は 、入 力 さ れ
同 じ 単 語 ID を 持 つ ノ ー ド を 単 語 辞 書 か ら 探 す 。 そ の
た CSV フ ァ イ ル で 空 欄 を 読 む ま で を フ ァ イ ル フ ル パ
中にユーザーから入力された名前があったら、そのノ
スとして読み込み、それ以降を単語辞書として読み込
ー ド の 表 示 フ ラ グ を 真 に し 、そ れ 以 外 で 同 じ 単 語 ID を
み再構成操作を行う。
持つノードの表示フラグを偽にする。なければ新たな
5. MD-TACT の 評 価
ノードとして単語辞書に新規登録し、それ以外で同じ
5.1. 目 的
単 語 ID を 持 つ ノ ー ド の 表 示 フ ラ グ を 偽 に す る 。 最 後
MD-TACT を た く さ ん の 人 に 利 用 し て も ら う に は 、
に元ツリーの同一ノードの表示名をユーザーから入力
本 ツ ー ル の 有 用 性 を 検 証 す る 必 要 が あ る 。そ の た め に 、
された名前に変更し、すべての多次元ツリーに対して
MD-TACT 利 用 時 お よ び 非 利 用 時 に 単 一 ツ リ ー か ら 多
再構成操作を行う。
次元ツリーを生成するために必要な時間を計測する。
Undo 機 能
Undo が 実 行 さ れ る と 、 Undo 履 歴 内 で 一 番 新 し い 操
作を確認し、その操作に応じた各種値の変更を行う 。
本 節 で は 、 MD-TACT の 評 価 実 験 の 内 容 と 評 価 結 果 を
述べる。
5.2. 今 回 の評 価実 験
移 動 操 作 で あ れ ば 、 履 歴 か ら 単 語 ID と 変 更 前 の カ
MD-TACT の 評 価 実 験 で は 、 単 一 ツ リ ー を 多 次 元 ツ
テ ゴ リ ID を 取 り 出 し 、単 語 辞 書 上 で 単 語 ID が 同 じ ノ
リ ー に 再 構 成 す る 作 業 を 12 名 の 被 験 者 に 行 わ せ た 。
ー ド を 探 す 。 そ れ ら の カ テ ゴ リ ID を 変 更 前 の 値 に 変
被験者は本学・知能情報システム学科の学部 3 年生で
更する。
あり、情報分野の専門教育を一通り受けている。本評
統合操作であれば、履歴から単語名、変更前・変更
価 実 験 で は MD-TACT 利 用 時 ・ 非 利 用 時 の 2 パ タ ー ン
後 の 単 語 ID を 取 り 出 し 、 単 語 辞 書 か ら 変 更 後 の 単 語
の デ ー タ を 収 集 し た 。 MD-TACT 利 用 時 は ロ グ 機 能 に
ID を 持 つ ノ ー ド を す べ て 探 す 。そ の 中 で 履 歴 か ら 得 た
より出力されるログを収集した。一方、非利用時には
単 語 名 と 同 じ 単 語 名 を も つ 物 を 探 し 、 単 語 ID を 変 更
Microsoft Excel の ワ ー ク シ ー ト で 多 次 元 ツ リ ー を 表 現
前の物に戻して表示フラグを真に変更する。
す る こ と と し 、 Excel を 用 い て ツ リ ー の 編 集 を 行 わ せ
分 割 操 作 で あ れ ば 、履 歴 か ら 単 語 ID を 取 り 出 し 、元
ツ リ ー と 単 語 辞 書 か ら 同 じ 単 語 ID を 持 つ ノ ー ド を 削
除する。
た 。 図 6 は 図 4 で 表 示 さ れ た 単 一 ツ リ ー を Excel の ワ
ークシート形式に編集したものである。
12 人 の 被 験 者 は 6 人 2 組 の グ ル ー プ に 分 け 、一 方 の
リ ネ ー ム 操 作 で あ れ ば 、 履 歴 か ら 単 語 ID と 変 更 前
グ ル ー プ( 以 下 、チ ー ム 甲 )に は Excel 使 用 、MD-TACT
の 単 語 名 を 取 り 出 し 、 単 語 辞 書 か ら 単 語 ID が 一 致 す
使用の順で多次元ツリーの構築を行わせた。もう一方
るノードをすべて探す。それらのノード群から、変更
の グ ル ー プ ( 以 下 、 チ ー ム 乙 ) に は MD-TACT 使 用 、
Excel 使 用 の 順 で 多 次 元 ツ リ ー の 構 築 を 行 わ せ た 。 ま
て い る が 、甲 6 は 実 質 2 回 目 の 作 業 時 間 に な っ て い る 。
た 、再 構 築 し て も ら う サ ン プ ル の 単 一 ツ リ ー は 、1 人 1
甲 6 のデータ(※で示す)のみ被験者の習熟度が異な
人違うサンプルを使ってもらった。今回利用したサン
るので、平均値からは外して計算している。また、甲
プルは、複数のフォルダを含むテキストファイルであ
6 は他の甲チームの被験者より短い時間で作業を完了
る 。 各 チ ー ム に 割 り 当 て ら れ た フ ォ ル ダ 数 は 111 個 か
し て い る が 、 こ の こ と に よ り MD-TACT に 習 熟 す れ ば
ら 192 個 の 範 囲 に 分 布 し て お り 、 表 2 に 示 す よ う に 、
より効率的に作業できることが予想される。
含 ま れ る 単 語 数 も 108~ 202 個 の 範 囲 で 分 布 し て い る 。
両チームが手動再構成を行った時間の平均値を比
フォルダ数と比較して単語数が少ないのは、共通の上
較すると、甲チームは 2 時間 0 分、乙チームは 1 時間
位フォルダ名のように、異なるフォルダに同一の単語
31 分 と な っ て お り 、 乙 チ ー ム の 方 が 29 分 短 く な っ て
が出現するためである。
い る 。こ れ は 、MD-TACT を 先 に 利 用 す る こ と で 、多 次
元ツリーの完成形を既に確認できていたので、甲チー
ムによる編集作業がスムーズに進んだためと考えられ
る 。MD-TACT を 利 用 し た 作 業 時 間 も 同 じ よ う に 、甲 チ
ー ム が 45 分 、乙 チ ー ム が 1 時 間 37 分 と 、後 か ら MDTACT を 使 っ た チ ー ム の 方 が 少 な い 時 間 で 完 了 し て い
る。これは 1 回目の作業で再構成する多次元ツリーの
全体像を確認しており、2 回目からは多次元ツリーの
全体像を考える時間(思考時間)が不要になったため
だと思われる。この作業時間から思考時間を引いた値
を 実 作 業 時 間 と し た 場 合 、 甲 チ ー ム の MD-TACT 利 用
と乙チームの手動再構成の作業時間がそれに該当する。
図 6. Excel で 表 現 す る 単 一 ツ リ ー
2 つ を 比 較 す る と 実 作 業 時 間 は MD-TACT を 利 用 す る
こ と で 約 1/2 に 削 減 で き る こ と が 分 か る 。
前回の作業時間削減率と比較すると、新機能を実装
5.2.1. 作 業 時 間
まず新機能によってどれほどの時間短縮が得られ
し た MD-TACT の 作 業 時 間 削 減 率 は 低 く な っ た 。 こ れ
たかを確認する。表 1 は本実験で得られた作業時間を
は本稿で実装した機能が、ユーザーの習熟 度によって
フ ァ イ ル 群 上 で 出 現 し た 単 語 数 で 割 り 、 100 単 語 毎 の
は使いづらい物であると推測できる。
作業時間に 正規化したものの一覧表である。本実験で
ま た 、思 考 時 間 が Excel と MD-TACT で は 23 分 の 差
は 被 験 者 甲 6 の MD-TACT が 作 業 途 中 で フ リ ー ズ し た
ができている。このデータで結論を出すことができな
ため、最初から作業をやり直して もらった 。このため
い が 、 Excel を 用 い た 作 業 で は 実 作 業 時 間 の 中 に 思 考
甲 1~ 甲 5 は MD-TACT を 初 め て 使 っ た 作 業 時 間 が 出
し て い る 時 間 が 含 ま れ て い る 可 能 性 が あ る 。仮 に Excel
表 1. 被 験 者 の 多 次 元 ツ リ ー 再 構 成 作 業 時 間 の 比 較
グループ
甲
Excel
↓
MD-TACT
乙
MD-TACT
↓
Excel
1
100 単 語 毎 の 再 構 成 作 業 時 間
Excel 利 用
MD-TACT 利 用
2 時 間 25 分
48 分
2
2 時 間 58 分
3
1 時 間 38 分
4
2 時間 7 分
5
3 時間 1 分
52 分
6
1 時 間 54 分
20 分 ※
1
2 時間 6 分
1 時 間 16 分
2
1 時 間 41 分
1 時 間 44 分
3
1 時 間 38 分
4
1 時 間 22 分
5
1 時間 0 分
1 時 間 36 分
6
1 時 間 22 分
1 時 間 49 分
被験者
思考時間想定値
36 分
平均値
2 時間 0 分
平均値
1 時 間 31 分
29 分
38 分
平均値
45 分
54 分
1 時 間 44 分
平均値
1 時 間 37 分
1 時 間 33 分
52 分
い た が 、 Excel 利 用 で の 間 違 っ た 箇 所 が 想 定 よ り 多 か
表 2. 多 次 元 ツ リ ー の 品 質 比 較
ファイ
ル群
単語
総数
1
202
2
190
3
138
4
197
5
108
6
被験者
186
甲1
MD-TACT
利用
20 か 所
Excel
利用
8 か所
乙
甲
乙
甲
1
2
2
3
4
42
21
34
か所
か所
か所
か所
2
35
5
36
か所
か所
か所
か所
乙
甲
乙
甲
3
4
4
5
33
20
11
1
か所
か所
か所
か所
0
9
9
16
か所
か所
か所
か所
った。この間違った箇所は「ツリー上で使われていな
い ノ ー ド 」が 6 か 所 、
「 別 々 の ツ リ ー に 同 一 単 語 」が 3
か所あり、 手動でファイルフルパスか らノードを移行
す る 過 程 で ミ ス が あ っ た と 考 え ら れ る 。 MD-TACT は
出現した単語をすべて辞書に登録するため、取りこぼ
しや複数回同じ単語を入力してしまう 間違いは起こさ
ない。この点で、手動で行う多次元ツリーの再構成よ
り MD-TACT が 優 れ て い る と い う こ と が 言 え る 。
5.2.3. 被 験 者 の ア ン ケ ー ト
評価実験の終了時に、被験者からアンケートを取っ
た。
乙5
6 か所
12 か 所
甲6
3 か所
31 か 所
被 験 者 全 員 の 共 通 意 見 は 、 MD-TACT の 使 い や す さ
乙6
36 か 所
29 か 所
に関することだった。手動で行うとノード名を手動で
入 力 し な い と い け な い が 、 MD-TACT は あ る 程 度 ま で
自動構成されておりマウスのみで操作ができる 点が評
の 実 作 業 時 間 に 思 考 時 間 が 含 ま れ て い る 場 合 、 MD-
価された。時間がかかった被験者もいたが、操作性に
TACT と の 実 作 業 時 間 の 差 は 1/2 よ り も 少 な く な る 。
関しては全ての被験者が良いという意見を上げていた。
5.2.2. ツ リ ー の 品 質
ま た 、MD-TACT の 改 良 点 の 提 案 も あ っ た 。
「終了時
次に再構成した多次元ツリーの品質がどれだけ高
に何の警告も出さずに終了するので、警告を出してほ
いかを確認する。品質は、被験者が再構成した多次元
しい」
「ツリーに名前を付ける機能が欲しい」
「 Undo の
ツリーと完成形がどの程度異なるかによって判定した。
対 に な る Redo 機 能 」
「親ノードと子ノードの一括選択
再構成された多次元ツリーは、明らかに間違ってい
る箇所数から判定した。ここでの明らかに間違ってい
機能」など、運用性の向上に役立つ案が複数出た。
5.2.4. 前 回 の 評 価 実 験 と の 比較 と 考 察
る 部 分 と は 、「 ノ ー ド 名 を 間 違 え て い る 」「 兄 弟 関 係 が
前 回 の 評 価 実 験 で は 被 験 者 10 人 、使 用 フ ァ イ ル 1649
矛盾している」
「ツリー上で使われていないノードがあ
個 で 行 い 、 今 回 は 被 験 者 12 人 、 使 用 フ ァ イ ル 1374 個
る 」「 分 類 観 点 が 違 う 」 の 4 点 で あ る 。 た だ し 、 MD-
で行った。今回の評価実験はファイル数が前回より少
TACT は リ ネ ー ム 機 能 が 実 装 さ れ て お り 、 名 前 の 変 更
ないので少ない作業時間が結果として出ると予想して
はすべて意図的に行われたものなので、ノード名の間
いたが、結果は以上の通り今回の実験 での時間削減率
違いは無視する。
の方が低かった。この原因については 2 つの推測がで
本 稿 で は 被 験 者 12 名 が 再 構 成 し た 多 次 元 ツ リ ー を
調べた。表 2 はそれによって得られた結果である。
きる。
1 つ は 、 前 述 し た MD-TACT で 再 構 成 す る ツ リ ー の
Excel 利 用 と MD-TACT 利 用 の 再 構 成 で で き た ツ リ
品質要求が上がっている点である。被験者の操作履歴
ーの品質からは、法則性を見いだせなかった。これは
の中には今回追加されたリネーム機能をうまく使いこ
ファイル群の内容によって 、再構成の難易度が違って
なせず、同名単語にリネームする、リネームの中断や
い る た め と 思 わ れ る 。 例 え ば 甲 1、 乙 1 が 再 構 成 時 に
Undo す る な ど の 操 作 が 何 度 か 行 わ れ て い た 。リ ネ ー ム
生成した単語辞書には、表示フラグが真になっている
操作は多次元ツリーにある程度精通していないと操作
単 語 が 205 種 類 、甲 5、乙 5 の 方 は 129 種 類 で あ っ た 。
が難しい高水準操作である可能性がある。
MD-TACT の 自 動 構 成 は 、 ノ ー ド 上 に 存 在 す る 重 複 単
もう 1 つは、ファイルパス群の実ボリュームと重複
語を切り出し他のツリーへ再分配する操作なので、 単
ノードの量の差によって多次元ツリーの再構成しやす
語の種類が増えるほど自動構成機能の精度が低下する 。
さが変わる可能性である。今回使用したファイルパス
そのため、ファイル群の違いで大きく差が出たのだと
群は、前回の評価実験で使ったフルパス群とほぼ同じ
思われる。 これを考慮して、表 1 では通常の作業時間
重 複 単 語 数 で あ り 、行 数 が 83% 程 度 に な っ て い る 。前
で な く 100 単 語 毎 の 作 業 時 間 を ま と め て い る 。
回の評価実験では、ファイルパス内に重複単語が多い
ま た 、 Excel 利 用 に よ る 再 構 成 で あ り が ち な ノ ー ド
ほ ど MD-TACT の 効 率 が 上 が る と い う 結 果 が 出 て お り 、
の取りこぼしや別々のツリーに同一単語を入れてしま
重複単語数に変わりがなければ効率が変化しづらいと
う ミ ス を MD-TACT で は 防 げ る 点 も 影 響 し て い る と 考
いうことが言える。さらに、今回の評価実験で使った
え ら れ る 。 乙 5 は MD-TACT 利 用 の 作 業 を 先 に 行 っ て
フルパスは前回の ものよりも行数が少なくなっている
ので、手動で行う再構成の難易度が相対的に下がって
ル MD-TACTの リ ネ ー ム ・ Undo機 能 の 開 発 」 ,第 67
いるといえる。この 2 点により、前回の評価実験より
回 電 気 ・ 情 報 関 係 学 会 九 州 支 部 連 合 大 会 ,2014.
も作業時間削減率が下がってしまった可能性がある。
[7]Wikipedia :OLAP,http://ja.wikipedia.org/wiki/OLAP
6. ま と め
本 論 文 で は 、MD-TACT の 改 良 に つ い て 述 べ 、評 価 実
験 の 結 果 を 分 析 し た 。MD-TACT に よ り 、単 一 ツ リ ー を
短時間で多次元ツリーに再構成することが可能になり、
再構成を反 復適用することで自動的に多次元ツリーを
洗 練 で き る 。MD-TACT の ロ グ 機 能 を 使 い 、熟 練 者 に よ
る多次元ツリーの再構成作業を記録・分析すれば、よ
り精度の高い多次元ツリーの自動構成アルゴリズムを
工夫できる可能性がある。
よ り 多 く の ユ ー ザ ー に MD-TACT を 使 っ て も ら う た
めには、このツールの有用性の証明と操作性の向上が
必 要 で あ る 。 前 回 の 評 価 実 験 の ア ン ケ ー ト か ら 、 MDTACT の 操 作 性 を 向 上 さ せ る た め リ ネ ー ム 、 Undo、 一
括選択、セーブ機能を提案し、実装した。また、これ
ら の 機 能 を 実 装 し た MD-TACT の 有 用 性 を 示 す た め に
再度評価実験を行った。今回の評価実験では、実装し
た機能が多次元ツリーの概念をある程度習得していな
いと効果が得られないということが分かった。
今後は評価実験を通して得られたロ グデータを基
に 、詳 細 な 分 析 を 行 う 。ま た 、多 次 元 ツ リ ー や MD-TACT
への理解を高める環境づくりが必要で ある。さらに、
利 用 者 の 習 熟 度 に 応 じ て 、 MD-TACT を 利 用 し た 多 次
元ツリー構築にどれほどの効率変化が見られるかに焦
点 を 当 て た 評 価 実 験 を 行 う こ と を 検 討 し て い る 。ま た 、
評価実験で得られたデータから効率的な多次元ツリー
自動構成アルゴリズムを開発する 可能性についても検
討する予定である 。
参
考
文
献
[1] IDC, 「 The Hidden Costs of Information
Worker」 ,2006
[2] 山 口 章 太 ,「 フ ァ イ ル 整 理 ツ ー ル HyperClassifierに
おける移行支援ツールの評価とその改良」, 平成
21年 度 佐 賀 大 学 理 工 学 部 知 能 情 報 シ ス テ ム 学 科 卒
業論文
[3] 掛 下 哲 郎 , 園 木 幸 寶 ,「 OLAP 操 作 を 活 用 し た フ ァ
イ ル 整 理 ツ ー ル HyperClassifier 」 , 第 8 回 情 報 科 学
技 術 フ ォ ー ラ ム (FIT 2009), 2009.
[4] 柿 本 由 気 , 掛 下 哲 郎 、 「 系 統 的 な フ ァ イ ル 整 理 を
目 的 と す る 多 次 元 ツ リ ー 構 成 ツ ー ル MD-TACT」 、
電 気 関 係 学 会 九 州 支 部 第 65回 連 合 大 会 06-2P-01、
2013.
[5] 柿 本 由 気 ,掛 下 哲 郎 ,「 多 次 元 ツ リ ー 自 動 構 成 ツ ー
ル MD-TACTの 開 発 と 評 価 」 ,第 6回 デ ー タ 工 学 と 情
報 マ ネ ジ メ ン ト に 関 す る フ ォ ー ラ ム ,2014.
[6] 柿 本 由 気 ,掛 下 哲 郎 ,「 多 次 元 ツ リ ー 自 動 構 成 ツ ー
Fly UP