Comments
Description
Transcript
電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2015 D1-4 ヘルプデスク作業効率化のためのラべリング自動化 堀内 佑城† 輪島 幸治‡ 古川 利博† †東京理科大学〒162-8601 東京都新宿区神楽坂 1-3 ‡産業技術大学院大学 〒140-0011 東京都品川区東大井 1-10-40 E-mail: †[email protected] あらまし 近年,多くの問合せがヘルプデスクに寄せられる.ヘルプデスクとはユーザから,製品(おもにパソコン)の使用 方法やトラブル時の対処法,クレーム処理など様々な問い合わせに対応する部門のことである.ヘルプデスクのオペレータ業務 ではユーザが抱える問題に対して原因を的確に特定し,顧客満足度を向上させることが求められている[1].しかし,ユーザの抱 える問題は多岐にわたることから,必ずしもその問題に対して知識のあるオペレータが担当し適切な回答が出来るとは限らない. ここでヘルプデスクに寄せられる質問文書の内容を特徴づけることができれば,質問文書を分類することが可能になる.上記 の技術が実現すれば,ヘルプデスクのオペレータは回答作業を行う際,自分が専門とするカテゴリに回答することが出来,質問 文書の回答時間短縮に繋がるので,ヘルプデスクオペレータの作業効率が向上すると考えられる. 本研究では Apple サポートコミュニティ[3]に投稿された質問文書に潜在的ディリクレ配分法(Latent Dhirichlet Allocation)(以下 LDA とする)を適用し,文書から話題を抽出する.これに対して Wikipedia のタイトルを用いることでラベル付けを自動で行う 手法を提案した. キーワード ヘルプデスク,トピックモデル,潜在的ディリクレ配分法 1. は じ め に IT の 普 及 に 伴 い 様 々 な 問 い 合 わ せ が ヘ ル プ デ ス ク に寄せられる.ヘルプデスクのオペレータには問い合 を組み合わせるにあたって,単語の組み合わせは膨大 に 存 在 す る た め そ の 中 か ら Wikipedia に 存 在 す る 記 事 を見つけ出すことは困難である. わせに回答するにあたって迅速で正確な対応が要求さ 本 研 究 で は ,分 類 し た い 文 書 に LDA を 適 用 す る こ と れる.ヘルプデスクの作業範囲は,パソコンの基本設 で得た各文書が構成するトピックの割合を 用いること 定やアプリケーションソフトのインストール といった に よ っ て 文 献 [5]に お け る 問 題 点 を 改 善 す る .上 記 に よ 初級者レベルのサポートから,業務システムのトラブ っ て Wikipedia の 文 書 毎 に ト ピ ッ ク の 構 成 割 合 を 得 る ルシューティングや障害切り分けといった 高度なサポ こ と で ,Wikipedia の タ イ ト ル を 用 い て ト ピ ッ ク の ラ ベ ートまで,多岐にわたる.そのためヘルプデスクオペ リングを行う.これらによって,ヘルプデスクの業務 レ ー タ に は 幅 広 い 知 識 と ス キ ル が 求 め ら れ る .し か し , における問題点解決を目指した. 昨 今 の 高 度 化 し た IT 技 術 を 駆 使 し て ,シ ス テ ム を サ ポ ートするスキルをすべて身につけることは困難である. 2.準 備 ここで,ヘルプデスクに寄せられる質問文書を分類す 2.1.ト ピ ッ ク モ デ ル ることができれば,ヘルプデスクオペレータは各々が トピックとは話題や分野など文書における大まか 専門とするカテゴリに対応することできる.上記が実 な意味のことであり,トピックモデルとは 1 つの文書 現することによって,ヘルプデスクのオペレータ業務 が複数のトピックの混合として表現されるという仮定 において,現状より正確で速い回答が実現することが のことである.1つの文書が1つのトピックであらわ 期待される される混合多項分布に対して,トピックモデルは文書 文 書 を 分 類 す る 方 法 に は LDA が あ る .分 類 し た い 文 書 集 合 に 対 し て LDA を 適 用 す る こ と に よ っ て ,各 文 書 が複数のトピックの混合分布として表現されているの で , 高 い 精 度 で 文 書 を モ デ ル 化 で き る [2]. が構成するトピックの割合と生起したトピックに対し 本研究ではトピックモデルの中でも潜在的ディリ て 構 成 さ れ や す い 単 語 の 割 合 が 生 成 さ れ る . 文 献 [5] ク レ 配 分 法 (Latent Dhirichlet Allocation)(以 下 LDA と す で は ,分 類 し た い 文 書 に LDA を 適 用 す る こ と で 得 ら れ る )を 用 い て ト ピ ッ ク 分 類 を 行 う . た 生 起 し た ト ピ ッ ク に お け る 単 語 の 割 合 の 上 位 10 個 2.2. 潜 在 的 デ ィ リ ク レ 配 分 法 (Latent Dhirichlet の 単 語 を 組 み 合 わ せ た も の の う ち ,Wikipedia に 記 事 と して存在するもののタイトルをトピックの名称として ラ ベ リ ン グ し て い る .し か し こ の 手 法 だ と 10 個 の 単 語 Allocation) LDA は ,文 書 中 に お い て 単 語 は 潜 在 的 な ト ピ ッ ク に よって出現するという考えに基づいたマルチトピック 率分布を更新することによって,各単語に付与される 抽 出 モ デ ル の 一 つ で あ る .LDA は ,文 書 は 複 数 の ト ピ トピックが変化する.あるトピックの確率分布はトピ ックから生成されるというトピックの混合比に基づい ック以外のすべてのトピックの確率分布によって更新 て い る .LDA に よ る 文 書 の 生 成 過 程 は 以 下 の よ う に な される.これをすべてのトピックに対して行い,更新 る . ま た , LDA の グ ラ フ ィ カ ル モ デ ル を 図 1 に 示 す . を繰り返すことにより,尤もらしいφとθの値が推定 さ れ る [5].あ る 文 書 内 で は ,デ ィ リ ク レ 分 布 に よ っ て トピックの確率分布には偏りができるため,トピック 内には同じ文書で出現する単語が集まりやすくなって い る .こ こ で ,ギ ブ ス サ ン プ リ ン グ の 更 新 式 は (2)式 で 定 義 さ れ る [3][4]. P( =j| =m, , ) ま た ,ギ ブ ス サ ン プ リ ン グ を し た 結 果 ,推 定 さ れ る と の値は以下の式で表わされる. 図 1 : LDA の グ ラ フ ィ カ ル モ デ ル まず文書ごとにポアソン分布に従ってある文書に おける単語出現回数 d が生成される. d ~ Poisson(ξ ) (d=1,2,… ,D) 次にハイパーパラメタβによってディリクレ分布 は単語 m がトピック j に割り当てられた回数, に従ってトピックにおいてある単語が生成される確率 は文書 d がとトピック j に割り当てられた回数,V は を表わす単語分布 全単語数,T は全トピック数である. が生成される. ~ Dir( )(k=1,2,… ,K) 次にハイパーパラメタ によってディリクレ分布に従 って文書 d においてあるトピックが生成される確率を 表わすトピック分布 が生成される. が生成される. ~ Multi( 最後にトピック ト ピ ッ ク 分 類 を 行 い た い 文 書 集 合 に 対 し て LDA を 適用し得られたトピックに対して,そのラベリングを ~ Dir( )(d=1,2,… ,D) 次に各文書において 3.先 行 研 究 自 動 で 行 う 研 究 が 文 献 [5]に よ っ て 行 わ れ て い る .文 献 から多項分布に従ってトピック [5] で は ト ピ ッ ク 分 類 を 行 い た い 文 書 集 合 に 対 し て LDA を 適 用 し ,得 ら れ た ト ピ ッ ク の 単 語 の 生 成 確 率 で )(d=1,2,… ,D) (n=1,2,… , における単語分布 から多項分布 に従って単語 が生成される. ~ Multi( )(d=1,2,… ,D)(n=1,2,… , こ こ で ,D は 全 文 書 数 ,K は 全 ト ピ ッ ク 数 , d の n 番目の単語の潜在的トピック, d) 上 位 10 個 の 単 語 に 対 し そ の 単 語 単 体 あ る い は 複 数 の 単 語 を 組 み 合 わ せ た .そ の 組 み 合 わ せ た 語 句 に 対 し て , Wikipedia に 記 事 と し て 存 在 す る も の を ト ピ ッ ク の タ d) は文書 は文書 d の n 番目の単語をそれぞれ表わす. ま た LDA に よ っ て 文 書 d=1,2,… ,D が 生 成 さ れ る 確 率 が 式 (1)に よ っ て 表 わ さ れ る . イトルとしてラベリングした. 3.1.問 題 点 先行研究ではトピックのラベリングを自動で行う際 に , 使 用 す る 単 語 の 組 み 合 わ せ は 3 つ の 場 合 だ と 720 通 り ,4 つ の 場 合 だ と 5040 通 り と 膨 大 で あ る .そ の 組 み 合 わ せ の 中 か ら Wikipedia に 記 事 と し て 存 在 す る も のを全て見つけだし,かつラベルとして適当なものを 見つけ出すのは困難である. = そこで,本研究ではトピック分類を行いたい文書集 2.3.ギ ブ ス サ ン プ リ ン グ 合 に LDA を 適 用 す る こ と で 得 ら れ た ト ピ ッ ク の 混 合 LDA の パ ラ メ タ と を 推 定 す る 方 法 の 一 つ に ギ ブ 比を用いることで,あるトピックが構成する単語の組 スサンプリングがある.ギブスサンプリングを用いて み合わせを用いることなしにトピックのラベル付けを トピックの確率分布を更新することによって,各単語 自動で行うことを目指す. に付与されたトピックが変化する.あるトピックの確 4.提 案 手 法 python2.6, NLTK, Gensim を 用 い た . 実 験 デ ー タ に は 本 研 究 で は あ る コ ー パ ス に LDA を 適 用 す る こ と で MeCab[8]に よ る 形 態 素 解 析 を 行 っ た . 得られた各文書のトピックの混合比 とトピック毎の 5.2.対 象 デ ー タ 単語生成確率 を Wikipedia 記 事 集 合 に 当 て は め て 実験には 2 つのコーパスを用いる.1 つ目のコーパス LDA を 適 用 す る こ と で Wikipedia 記 事 の そ れ ぞ れ に 対 に は , Apple サ ポ ー ト コ ミ ュ ニ テ ィ の 質 問 文 書 を 用 い し て ト ピ ッ ク の 混 合 比 を 得 る .文 書 ご と に 得 ら れ た ト る . 2 つ 目 の コ ー パ ス に は Wikipedia の 記 事 を 用 い る . ピック混合比同士を比較し,各トピックの生成確率が そ れ ぞ れ 抽 出 し た デ ー タ の 件 数 を 表 1,2 に 示 す .ま た , 最 も 高 い Wikipedia 文 書 の タ イ ト ル を そ の ト ピ ッ ク の Apple サ ポ ー ト コ ミ ュ ニ テ ィ の 質 問 文 章 に 対 し て , 使 名称としてラベル付けをすることを提案する.この提 用 し た Wikipedia 記 事 の 組 み 合 わ せ を 表 3 に 示 す . 案手法によりトピックの単語生成確率を組み合わせる 5.3.実 験 手 順 ことなしにラベリングの自動化が達成できると考えら 実 験 1-A で は Apple サ ポ ー ト コ ミ ュ ニ テ ィ の 質 問 文 れる. 書 で 日 本 語 の 単 語 の み を 抽 出 し た も の に 対 し LDA を ・ Step1 適 用 し 得 ら れ た ト ピ ッ ク に 対 し ,Wikipedia の タ イ ト ル あ る コ ー パ ス に LDA を 適 用 し , ト ピ ッ ク ご と の 単 語 を 用 い て ト ピ ッ ク の ラ ベ ル 付 け を 行 っ た . 実 験 1-B で 生成確率と文書ごとのトピックの混合比を得る. は 実 験 1-A と 同 様 の 環 境 の も と 英 語 の 単 語 も 含 め て 実 ・ Step2 験 を 行 う . 実 験 2-B で は Apple サ ポ ー ト コ ミ ュ ニ テ ィ 得られた単語生成確率と文書ごとのトピックの混合比 の 質 問 文 書 に 対 し LDA を 適 用 す る こ と で 得 ら れ た ト を 利 用 し , Wikipedia 記 事 集 合 に 対 し て LDA を 適 用 す ピ ッ ク に 対 し ,iPhone,iPad,Mac,iOS,OS X と い っ る. た iPhone に 関 連 す る 単 語 の い ず れ か を 含 む Wikipedia ・ Step3 記事のタイトルを割り当てることでラベリングを自動 LDA を 適 用 し た Wikipedia 文 書 の そ れ ぞ れ に 対 し て で 行 う . 実 験 3-C, 4-D, 5-E で は Apple サ ポ ー ト コ ミ Step1 で 得 ら れ た パ ラ メ タ に 基 づ い て 以 下 の よ う に ト ュ ニ テ ィ の 質 問 文 書 ,Wikipedia 記 事 双 方 に 対 し て ,特 ピックの混合比を得る. 定 の 単 語 を 含 む 記 事 に 限 定 し ,実 験 1-A と 同 様 の 処 理 を 行 う .ま た ,限 定 す る 単 語 は そ れ ぞ れ iPhone,iTune, iPad と し た . Apple サ ポ ー ト コ ミ ュ ニ テ ィ の 質 問 文 書 を,文書に含まれる単語ごとに絞り込みをかけたもの を 表 1 に ,Wikipedia に お い て ,単 語 ご と に 絞 り 込 み を かけたものを表2に,それぞれの組み合わせを表 3 に それぞれ示した. 表 1 : LDA の 抽 出 実 験 図2:トピックの混合比 ・ Step4 実験パターン 1 2 3 4 5 Step3 で 得 ら れ た Wikipedia 文 書 に お け る ト ピ ッ ク の 混 合比において,それぞれのトピック毎に一番確率の高 い Wikipedia 文 書 の タ イ ト ル を そ の ト ピ ッ ク の 名 称 と してラベリングを行う. 5.実 験 第 4 章に挙げた手順に基づいてトピックのラベリン グの自動化を試みた.実験の目的はコーパスに対して 得られたトピックのラベリングを自動で行うことであ る. 5.1.実 験 環 境 本 研 究 の 実 験 環 境 は ,OS は Windows7Professional64 ビ ッ ト , メ モ リ は 8GB , プ ロ グ ラ ミ ン グ 言 語 は 対象 全データ(日本語のみ抽出する) 全データ(英語も抽出する) "iPhone"を含む文書のみ対象 "iPad"を含む文書のみ対象 "iTune"を含む文書のみ対象 文書数 トピック数 LDA試行回数 10,391 40 3回 10,391 40 3回 6,816 40 3回 288 40 3回 2,102 40 3回 表 2 : Wikipedia の 割 り 当 て 実 験 実験パターン A B C D E 対象 Wikipedia全記事 Appleに関する記事 (以下のキーワードのいずれかを含む記事を対象) キーワード:iPhone,iPad,Mac,iOS,iPod,iTune キーワード"iPhone"を含む文書のみ対象 キーワード"iPad"を含む文書のみ対象 キーワード"iTune"を含む文書のみ対象 文書数 10,391 割り当て回数 3回 10,391 3回 6,816 288 2,102 3回 3回 3回 表3:実験組み合わせ 実験組み合わせ 1-A, 1-B, 2-B, 3-C, 4-D, 5-E 5.4.実 験 結 果 ミ ュ ニ テ ィ の 文 書 に LDA を 適 用 し 得 ら れ た 各 ト ピ ッ 実験の結果を表 4 に示す. 表4:実験結果 実験組み合わせ トピックの名称としてラベリングされたもの 1-A ファイル同期,外部キー 安心GPS,Dock,XLURunner,Mobile Device Management 1-B 削除キー,ViolaWWW,Ezweb絵文字 2-B 文字化け,Touch Press,Pass Book,Id Software 3-C SoftBank,スマートフォン,iPhoneを探す,Ezweb絵文字,フリック入力,iOS SDK 4-D iPod 管理ソフト,Backup(ソフトウェア) iカメラワーク,Touch Press,Pass Book,Dock,iPad 5-E Office for iPad,iPhone Simulator,iOS SDK,iPad(第一世代) 実 験 1-A で は ト ピ ッ ク の 名 称 と し て 割 り 当 て ら れ た 単 語 に は iPhone と は 関 連 の な い 単 語 が 大 部 分 を 占 め クにおける単語の生成確率を用いる。各トピックにお け る 単 語 の 生 成 確 率 の う ち 、上 位 3 つ の 単 語 に 着 目 し 、 そ の 単 語 す べ て を 含 む 文 書 を Apple サ ポ ー ト コ ミ ュ ニ ティから検索をかけて抽出した。その抽出した文書を 実際にヘルプデスクのオペレータに検証してもらい、 適切にラベリングが出来ているかを検証してもらった。 10 個 の 文 書 を 検 証 し て も ら い 、そ の う ち 6 個 の 文 書 が 適切にラベリングできているという評価を得た。 6.ま と め 本研究ではヘルプデスクの作業効率向上を目的とし, た.これはトピックのラベル付けの際に用いる Apple サ ポ ー ト コ ミ ュ ニ テ ィ の 質 問 文 書 に 対 し て LDA Wikipedia 記 事 に 制 限 を 設 け な か っ た た め と 考 え ら れ を適用することで得られたトピックのラベリング自動 る. 化を目指した. 実 験 1-B は 実 験 1 -A と 比 較 す る と , よ り 多 く の 実際にヘルプデスクのオペレータに実験結果を評価 iPhone に 関 連 す る 単 語 が ラ ベ ル と し て 割 り 当 て ら れ た . してもらい有意であるという結果をえることができた。 またその中でも, 「 削 除 キ ー 」が 割 り 当 て ら れ た ト ピ ッ 今 後 の 課 題 と し て は ,iPhone に 関 連 性 の 低 い も の が ク で 最 も 含 み や す い 単 語 は 「 デ リ ー ト キ ー 」,「 あ ん し トピック名としてラベリングされることを減らすこと ん GPS」が 割 り 当 て ら れ た ト ピ ッ ク で 含 み や す い 単 語 が求められる. は 「 駅 探 」,「 年 齢 制 限 」 と い っ た そ れ ぞ れ の ラ ベ ル に 関連しやすいと考えられる単語が含まれていた. 実 験 2-B で は , 実 験 1-B と 比 較 す る と ト ピ ッ ク の 名 称 と し て 割 り 当 て ら れ た も の で , iPhone に 関 連 す る も の の 個 数 は 実 験 2-B は 実 験 1-B と 比 べ て 減 少 し た . 実 験 3-C で は , ト ピ ッ ク 名 と し て ラ ベ リ ン グ さ れ た も の で 有 意 で あ る と 考 え ら れ る も の は ,「 iPhone を 探 す 」, 「フ リ ッ ク 入 力 」と い っ た iPhone の 操 作 に 関 連 す る語句が多く抽出された. 「 iPhone」の 場 合 ,Wikipedia 記 事 内 に お い て 「 iPhone カ バ ー を 発 売 す る 」 と い っ た 文 章 に も 反 応 し て し ま う た め , iPhone と は 関 係 の 無 い 単語がトピックの名称としてラベリングされていた例 があった. 実 験 4-D で は ,「iPod 管 理 ソ フ ト 」, 「 Backup (ソ フ ト ウ ェ ア )」 と い っ た iPhone を 外 部 か ら 操 作 す る ア プ リ ケーションの名称がラベリングされた.一方で,ラベ リングされたものには音楽関係のものが多くみられた. こ れ は iTune と い う 単 語 を 含 む Wikipedia 記 事 に は iPhone に 関 連 す る も の よ り ,音 楽 関 係 の も の が 多 か っ たためと考えられる. 実 験 5-E で は , 「 iPad」, 「 Office for iPad」と い っ た iPad に関連する単語がラベリングされた.トピックとして ラベリングされたものには,音楽やゲーム,漫画に関 係 す る 単 語 が 多 く み ら れ た . こ れ は , iPad に 提 供 さ れ ているコンテンツが多く存在するためと考えられる . 5.5.評 価 方 法 本 実 験 で は 実 験 結 果 を 評 価 す る 際 に Apple サ ポ ー ト コ 参 考 文 献 [1] “NEC ネ ク サ ソ リ ュ ー シ ョ ン ズ - お 客 様 の 期 待 を 超 え る , ヘ ル プ デ ス ク と は ? - ” (https://www.nec-nexs.com/outsourcing/column/artic le13/index.html¥#h2-4)(2015/1/12 ア ク セ ス ) [2] 森 本 由 起 子 , 間 瀬 久 雄 , 平 井 千 秋 , 衣 川 一 久 : ” 問合せ事例を活用したヘルプデスクオペレータ 支 援 機 能 の 開 発 ”, 情 報 処 理 学 会 論 文 誌 , 2003 [3] 'Apple サ ポ ー ト コ ミ ュ ニ テ ィ ' (https://discussionsjapan.apple.com/welcome)(2015/ 1/12 ア ク セ ス ) [4] Jey Han Lau,Karl Grieser,David Newman,Timothy Baldwin: ” Automatic Labelling of Topic Models ”, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics , 2011 [5] 白 井 匡 人 ,三 浦 孝 夫:”LDA を 用 い た 著 者 推 定 ”, DEIM Forum, 2011 [6] Thomas L . Griffiths , Mark Steyvers : ” Finding scientific topics”, Colloquim, 2004 [7] David M.Blei, Andrew Y.Ng, Michael I. Jordan: ” Latent Dirichlet Allocation ”, Journal of Machine Learning Research, 2003 [8] “MeCab”(http://mecab.googlecode.com/svn/trunk/me cab/doc/index.html)(2015/1/12 ア ク セ ス )