電子情報通信学会ワードテンプレート (タイトル)

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download 電子情報通信学会ワードテンプレート (タイトル)

Transcript

電子情報通信学会ワードテンプレート (タイトル)

DEIM Forum 2015 D1-４
ヘルプデスク作業効率化のためのラべリング自動化
堀内佑城†
輪島幸治‡
古川利博†
†東京理科大学〒162-8601 東京都新宿区神楽坂 1-3
‡産業技術大学院大学〒140-0011 東京都品川区東大井 1-10-40
E-mail: †[email protected]
あらまし
近年，多くの問合せがヘルプデスクに寄せられる．ヘルプデスクとはユーザから，製品(おもにパソコン)の使用
方法やトラブル時の対処法，クレーム処理など様々な問い合わせに対応する部門のことである．ヘルプデスクのオペレータ業務
ではユーザが抱える問題に対して原因を的確に特定し，顧客満足度を向上させることが求められている[1]．しかし，ユーザの抱
える問題は多岐にわたることから，必ずしもその問題に対して知識のあるオペレータが担当し適切な回答が出来るとは限らない．
ここでヘルプデスクに寄せられる質問文書の内容を特徴づけることができれば，質問文書を分類することが可能になる．上記
の技術が実現すれば，ヘルプデスクのオペレータは回答作業を行う際，自分が専門とするカテゴリに回答することが出来，質問
文書の回答時間短縮に繋がるので，ヘルプデスクオペレータの作業効率が向上すると考えられる．
本研究では Apple サポートコミュニティ[3]に投稿された質問文書に潜在的ディリクレ配分法(Latent Dhirichlet Allocation)(以下
LDA とする)を適用し，文書から話題を抽出する．これに対して Wikipedia のタイトルを用いることでラベル付けを自動で行う
手法を提案した．
キーワード
ヘルプデスク，トピックモデル，潜在的ディリクレ配分法
1. はじめに
IT の普及に伴い様々な問い合わせがヘルプデスク
に寄せられる．ヘルプデスクのオペレータには問い合
を組み合わせるにあたって，単語の組み合わせは膨大
に存在するためその中から Wikipedia に存在する記事
を見つけ出すことは困難である．
わせに回答するにあたって迅速で正確な対応が要求さ
本研究では，分類したい文書に LDA を適用すること
れる．ヘルプデスクの作業範囲は，パソコンの基本設
で得た各文書が構成するトピックの割合を用いること
定やアプリケーションソフトのインストールといった
によって文献 [5]における問題点を改善する．上記によ
初級者レベルのサポートから，業務システムのトラブ
って Wikipedia の文書毎にトピックの構成割合を得る
ルシューティングや障害切り分けといった高度なサポ
ことで，Wikipedia のタイトルを用いてトピックのラベ
ートまで，多岐にわたる．そのためヘルプデスクオペ
リングを行う．これらによって，ヘルプデスクの業務
レータには幅広い知識とスキルが求められる．しかし，
における問題点解決を目指した．
昨今の高度化した IT 技術を駆使して，システムをサポ
ートするスキルをすべて身につけることは困難である．
2.準備
ここで，ヘルプデスクに寄せられる質問文書を分類す
2.1.トピックモデル
ることができれば，ヘルプデスクオペレータは各々が
トピックとは話題や分野など文書における大まか
専門とするカテゴリに対応することできる．上記が実
な意味のことであり，トピックモデルとは 1 つの文書
現することによって，ヘルプデスクのオペレータ業務
が複数のトピックの混合として表現されるという仮定
において，現状より正確で速い回答が実現することが
のことである．１つの文書が１つのトピックであらわ
期待される
される混合多項分布に対して，トピックモデルは文書
文書を分類する方法には LDA がある．分類したい文
書集合に対して LDA を適用することによって，各文書
が複数のトピックの混合分布として表現されているの
で，高い精度で文書をモデル化できる [2]．
が構成するトピックの割合と生起したトピックに対し
本研究ではトピックモデルの中でも潜在的ディリ
て構成されやすい単語の割合が生成される．文献 [5]
クレ配分法 (Latent Dhirichlet Allocation)(以下 LDA とす
では，分類したい文書に LDA を適用することで得られ
る )を用いてトピック分類を行う．
た生起したトピックにおける単語の割合の上位 10 個
2.2. 潜在的ディリクレ配分法 (Latent Dhirichlet
の単語を組み合わせたもののうち，Wikipedia に記事と
して存在するもののタイトルをトピックの名称として
ラベリングしている．しかしこの手法だと 10 個の単語
Allocation)
LDA は，文書中において単語は潜在的なトピックに
よって出現するという考えに基づいたマルチトピック
率分布を更新することによって，各単語に付与される
抽出モデルの一つである．LDA は，文書は複数のトピ
トピックが変化する．あるトピックの確率分布はトピ
ックから生成されるというトピックの混合比に基づい
ック以外のすべてのトピックの確率分布によって更新
ている．LDA による文書の生成過程は以下のようにな
される．これをすべてのトピックに対して行い，更新
る．また， LDA のグラフィカルモデルを図 1 に示す．
を繰り返すことにより，尤もらしいφとθの値が推定
される [5]．ある文書内では，ディリクレ分布によって
トピックの確率分布には偏りができるため，トピック
内には同じ文書で出現する単語が集まりやすくなって
いる．ここで，ギブスサンプリングの更新式は (2)式で
定義される [3][4]．
P( =j|
=m,
,
)
また，ギブスサンプリングをした結果，推定されると
の値は以下の式で表わされる．
図１： LDA のグラフィカルモデル
まず文書ごとにポアソン分布に従ってある文書に
おける単語出現回数ｄが生成される．
ｄ
～
Poisson(ξ ) (d=1,2,… ,D)
次にハイパーパラメタβによってディリクレ分布
は単語 m がトピック j に割り当てられた回数，
に従ってトピックにおいてある単語が生成される確率
は文書 d がとトピック j に割り当てられた回数，V は
を表わす単語分布
全単語数，T は全トピック数である．
が生成される．
～
Dir( )(k=1,2,… ,K)
次にハイパーパラメタによってディリクレ分布に従
って文書 d においてあるトピックが生成される確率を
表わすトピック分布
が生成される．
が生成される．
～ Multi(
最後にトピック
トピック分類を行いたい文書集合に対して LDA を
適用し得られたトピックに対して，そのラベリングを
～ Dir( )(d=1,2,… ,D)
次に各文書において
3.先行研究
自動で行う研究が文献 [5]によって行われている．文献
から多項分布に従ってトピック
[5] ではトピック分類を行いたい文書集合に対して
LDA を適用し，得られたトピックの単語の生成確率で
)(d=1,2,… ,D) (n=1,2,… ,
における単語分布
から多項分布
に従って単語
が生成される．
～ Multi(
)(d=1,2,… ,D)(n=1,2,… ,
ここで，D は全文書数，K は全トピック数，
d の n 番目の単語の潜在的トピック，
ｄ)
上位 10 個の単語に対しその単語単体あるいは複数の
単語を組み合わせた．その組み合わせた語句に対して，
Wikipedia に記事として存在するものをトピックのタ
ｄ)
は文書
は文書 d の n
番目の単語をそれぞれ表わす．
また LDA によって文書 d=1,2,… ,D が生成される確率
が式 (1)によって表わされる．
イトルとしてラベリングした．
3.1.問題点
先行研究ではトピックのラベリングを自動で行う際
に，使用する単語の組み合わせは 3 つの場合だと 720
通り，4 つの場合だと 5040 通りと膨大である．その組
み合わせの中から Wikipedia に記事として存在するも
のを全て見つけだし，かつラベルとして適当なものを
見つけ出すのは困難である．
=
そこで，本研究ではトピック分類を行いたい文書集
2.3.ギブスサンプリング
合に LDA を適用することで得られたトピックの混合
LDA のパラメタとを推定する方法の一つにギブ
比を用いることで，あるトピックが構成する単語の組
スサンプリングがある．ギブスサンプリングを用いて
み合わせを用いることなしにトピックのラベル付けを
トピックの確率分布を更新することによって，各単語
自動で行うことを目指す．
に付与されたトピックが変化する．あるトピックの確
4.提案手法
python2.6， NLTK， Gensim を用いた．実験データには
本研究ではあるコーパスに LDA を適用することで
MeCab[8]による形態素解析を行った．
得られた各文書のトピックの混合比とトピック毎の
5.2.対象データ
単語生成確率
を Wikipedia 記事集合に当てはめて
実験には 2 つのコーパスを用いる．1 つ目のコーパス
LDA を適用することで Wikipedia 記事のそれぞれに対
には， Apple サポートコミュニティの質問文書を用い
してトピックの混合比を得る．文書ごとに得られたト
る． 2 つ目のコーパスには Wikipedia の記事を用いる．
ピック混合比同士を比較し，各トピックの生成確率が
それぞれ抽出したデータの件数を表 1，2 に示す．また，
最も高い Wikipedia 文書のタイトルをそのトピックの
Apple サポートコミュニティの質問文章に対して，使
名称としてラベル付けをすることを提案する．この提
用した Wikipedia 記事の組み合わせを表 3 に示す．
案手法によりトピックの単語生成確率を組み合わせる
5.3.実験手順
ことなしにラベリングの自動化が達成できると考えら
実験 1-A では Apple サポートコミュニティの質問文
れる．
書で日本語の単語のみを抽出したものに対し LDA を
・ Step1
適用し得られたトピックに対し，Wikipedia のタイトル
あるコーパスに LDA を適用し，トピックごとの単語
を用いてトピックのラベル付けを行った．実験 1-B で
生成確率と文書ごとのトピックの混合比を得る．
は実験 1-A と同様の環境のもと英語の単語も含めて実
・ Step2
験を行う．実験 2-B では Apple サポートコミュニティ
得られた単語生成確率と文書ごとのトピックの混合比
の質問文書に対し LDA を適用することで得られたト
を利用し， Wikipedia 記事集合に対して LDA を適用す
ピックに対し，iPhone，iPad，Mac，iOS，OS X といっ
る．
た iPhone に関連する単語のいずれかを含む Wikipedia
・ Step3
記事のタイトルを割り当てることでラベリングを自動
LDA を適用した Wikipedia 文書のそれぞれに対して
で行う．実験 3-C， 4-D， 5-E では Apple サポートコミ
Step1 で得られたパラメタに基づいて以下のようにト
ュニティの質問文書，Wikipedia 記事双方に対して，特
ピックの混合比を得る．
定の単語を含む記事に限定し，実験 1-A と同様の処理
を行う．また，限定する単語はそれぞれ iPhone，iTune，
iPad とした． Apple サポートコミュニティの質問文書
を，文書に含まれる単語ごとに絞り込みをかけたもの
を表１に，Wikipedia において，単語ごとに絞り込みを
かけたものを表２に，それぞれの組み合わせを表 3 に
それぞれ示した．
表１： LDA の抽出実験
図２：トピックの混合比
・ Step4
実験パターン
1
2
3
4
5
Step3 で得られた Wikipedia 文書におけるトピックの混
合比において，それぞれのトピック毎に一番確率の高
い Wikipedia 文書のタイトルをそのトピックの名称と
してラベリングを行う．
5.実験
第 4 章に挙げた手順に基づいてトピックのラベリン
グの自動化を試みた．実験の目的はコーパスに対して
得られたトピックのラベリングを自動で行うことであ
る．
5.1.実験環境
本研究の実験環境は，OS は Windows7Professional64
ビット，メモリは 8GB ，プログラミング言語は
対象
全データ(日本語のみ抽出する)
全データ(英語も抽出する)
"iPhone"を含む文書のみ対象
"iPad"を含む文書のみ対象
"iTune"を含む文書のみ対象
文書数トピック数 LDA試行回数
10,391
40
3回
10,391
40
3回
6,816
40
3回
288
40
3回
2,102
40
3回
表２： Wikipedia の割り当て実験
実験パターン
A
B
C
D
E
対象
Wikipedia全記事
Appleに関する記事
(以下のキーワードのいずれかを含む記事を対象)
キーワード：iPhone,iPad,Mac,iOS,iPod,iTune
キーワード"iPhone"を含む文書のみ対象
キーワード"iPad"を含む文書のみ対象
キーワード"iTune"を含む文書のみ対象
文書数
10,391
割り当て回数
3回
10,391
3回
6,816
288
2,102
3回
3回
3回
表３：実験組み合わせ
実験組み合わせ
1-A, 1-B, 2-B, 3-C, 4-D, 5-E
5.4.実験結果
ミュニティの文書に LDA を適用し得られた各トピッ
実験の結果を表 4 に示す．
表４：実験結果
実験組み合わせ
トピックの名称としてラベリングされたもの
1-A
ファイル同期，外部キー
安心GPS，Dock，XLURunner，Mobile Device Management
1-B
削除キー，ViolaWWW，Ezweb絵文字
2-B
文字化け，Touch Press，Pass Book，Id Software
3-C
SoftBank，スマートフォン，iPhoneを探す，Ezweb絵文字，フリック入力，iOS SDK
4-D
iPod 管理ソフト，Backuｐ（ソフトウェア）
iカメラワーク，Touch Press，Pass Book，Dock，iPad
5-E
Office for iPad，iPhone Simulator，iOS SDK，iPad(第一世代)
実験 1-A ではトピックの名称として割り当てられた
単語には iPhone とは関連のない単語が大部分を占め
クにおける単語の生成確率を用いる。各トピックにお
ける単語の生成確率のうち、上位 3 つの単語に着目し、
その単語すべてを含む文書を Apple サポートコミュニ
ティから検索をかけて抽出した。その抽出した文書を
実際にヘルプデスクのオペレータに検証してもらい、
適切にラベリングが出来ているかを検証してもらった。
10 個の文書を検証してもらい、そのうち 6 個の文書が
適切にラベリングできているという評価を得た。
6.まとめ
本研究ではヘルプデスクの作業効率向上を目的とし，
た．これはトピックのラベル付けの際に用いる
Apple サポートコミュニティの質問文書に対して LDA
Wikipedia 記事に制限を設けなかったためと考えられ
を適用することで得られたトピックのラベリング自動
る.
化を目指した．
実験 1-B は実験１ -A と比較すると，より多くの
実際にヘルプデスクのオペレータに実験結果を評価
iPhone に関連する単語がラベルとして割り当てられた．
してもらい有意であるという結果をえることができた。
またその中でも，
「削除キー」が割り当てられたトピッ
今後の課題としては，iPhone に関連性の低いものが
クで最も含みやすい単語は「デリートキー」，「あんし
トピック名としてラベリングされることを減らすこと
ん GPS」が割り当てられたトピックで含みやすい単語
が求められる．
は「駅探」，「年齢制限」といったそれぞれのラベルに
関連しやすいと考えられる単語が含まれていた．
実験 2-B では，実験 1-B と比較するとトピックの名
称として割り当てられたもので， iPhone に関連するも
のの個数は実験 2-B は実験 1-B と比べて減少した．
実験 3-C では，トピック名としてラベリングされた
もので有意であると考えられるものは，「 iPhone を探
す」，｢フリック入力｣といった iPhone の操作に関連す
る語句が多く抽出された．
「 iPhone」の場合，Wikipedia
記事内において「 iPhone カバーを発売する」といった
文章にも反応してしまうため， iPhone とは関係の無い
単語がトピックの名称としてラベリングされていた例
があった．
実験 4-D では，｢iPod 管理ソフト｣，
「 Backup (ソフト
ウェア )」といった iPhone を外部から操作するアプリ
ケーションの名称がラベリングされた．一方で，ラベ
リングされたものには音楽関係のものが多くみられた．
これは iTune という単語を含む Wikipedia 記事には
iPhone に関連するものより，音楽関係のものが多かっ
たためと考えられる．
実験 5-E では，
「 iPad」，
「 Office for iPad」といった iPad
に関連する単語がラベリングされた．トピックとして
ラベリングされたものには，音楽やゲーム，漫画に関
係する単語が多くみられた．これは， iPad に提供され
ているコンテンツが多く存在するためと考えられる．
5.5.評価方法
本実験では実験結果を評価する際に Apple サポートコ
参
考
文
献
[1] “NEC ネクサソリューションズ－お客様の期待
を超える，ヘルプデスクとは？－ ”
(https://www.nec-nexs.com/outsourcing/column/artic
le13/index.html¥#h2-4)(2015/1/12 アクセス )
[2] 森本由起子，間瀬久雄，平井千秋，衣川一久： ”
問合せ事例を活用したヘルプデスクオペレータ
支援機能の開発 ”，情報処理学会論文誌， 2003
[3] 'Apple
サポートコミュニティ '
(https://discussionsjapan.apple.com/welcome)(2015/
1/12 アクセス )
[4] Jey Han Lau，Karl Grieser，David Newman，Timothy
Baldwin： ” Automatic Labelling of Topic Models ”，
Proceedings of the 49th Annual Meeting of the
Association for Computational Linguistics ， 2011
[5] 白井匡人，三浦孝夫：”LDA を用いた著者推定 ”，
DEIM Forum， 2011
[6] Thomas L ． Griffiths ， Mark Steyvers ： ” Finding
scientific topics”， Colloquim， 2004
[7] David M.Blei， Andrew Y.Ng， Michael I. Jordan： ”
Latent Dirichlet Allocation ”， Journal of Machine
Learning Research, 2003
[8] “MeCab”(http://mecab.googlecode.com/svn/trunk/me
cab/doc/index.html)(2015/1/12 アクセス )