...

修士論文 機械学習を用いたWebテキストにおける 有害表現の識別 三谷

by user

on
Category: Documents
7

views

Report

Comments

Transcript

修士論文 機械学習を用いたWebテキストにおける 有害表現の識別 三谷
NAIST-IS-MT1151102
修士論文
機械学習を用いた Web テキストにおける
有害表現の識別
三谷 亮介
2013 年 02 月 07 日
奈良先端科学技術大学院大学
情報科学研究科 情報科学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
三谷 亮介
審査委員:
松本 裕治 教授
鹿野 清宏 教授
新保 仁 准教授
小町 守 助教
(主指導教員)
(副指導教員)
(副指導教員)
(副指導教員)
機械学習を用いた Web テキストにおける
有害表現の識別∗
三谷 亮介
内容梗概
インターネット上における,違法薬物の売買や未成年の売春などの行為は社会
的問題として広く認知されている.それらの行為は隠語と呼ばれる表現によって
巧妙に偽装されることがある.一般的な単語を隠語として使用した場合,単純な
キーワードマッチングだけでは,一般的な語義としての用法が多く検出される.
そのために,膨大な数の情報から隠語を含む有害情報だけを人手によって管理す
ることは難しい.このような作業を機械によってサポートするために本研究では,
隠語の有害性識別タスクと隠語の発見タスクを提案する.また,これらのタスク
に文脈分類の手法を用いて取り組む.隠語の発見タスクでは,隠語の候補に対し
て隠語らしさをスコアとして与えることで,隠語を効率的に発見可能な手法を提
案する.
キーワード
自然言語処理,有害表現,隠語,機械学習,文脈分類
∗ 奈良先端科学技術大学院大学
情報科学研究科 情報科学専攻 修士論文, NAIST-IS-MT1151102,
2013 年 02 月 07 日.
i
The slang disambiguation on web text using machine
learning methods∗
Ryosuke Mitani
Abstract
Recently, illegal trades of drug on the Internet is being a serious social problem in
Japan. They use slang to hide these acts. When they use a popular word as slang, simple patten matching method cannot detect only malicious expressions but also harmless
ones. It costs expensive human resources for Internet service providers to manage such
information on social communication services. In this thesis, I propose a slang classification task and a slang discovery task to support their work. Also, I address these
problems using a context classification method. Furthermore, I show a method which
improves the classification accuracy by exploiting malicious expressions as extra features. In the slang discovery task, I show that my proposed method which uses a slang
score can find slang effectively.
Keywords:
natural language processing, malicious expression, slang, machine learning, context
classification
∗ Master’s
Thesis, Department of Information Science, Graduate School of Information Science,
Nara Institute of Science and Technology, NAIST-IS-MT1151102, February 07, 2013.
iii
v
謝辞
本研究を行うにあたって,大変多くの方々にご協力を頂きました.
主指導教員である松本 裕治 教授には,大変多くのご助言,ご指導を承りまし
た.心より感謝いたします.また,本論文の審査を引き受けて頂いた,副指導教
員の音情報処理学研究室 鹿野 清宏 教授にも深く感謝いたします.副指導教員で
ある新保 仁 准教授には,研究会などの場において,的確なアドバイスを頂き,研
究方針を適時見直すことができました.小町 守 助教には,研究のアイデアから
学会原稿のアドバイスまで非常に丁寧な指導をして頂きました.Kevin Duh 助教
には,研究におけるモチベーションの保ち方など,研究に取り組む姿勢について
多くのことを学ばせて頂きました.教員の方々から,自分の勉学に対する意欲を
刺激され,大学院生として学ぶために最高の環境を提供していただきました.
KDDI 研究所の隅田 飛鳥 研究員にはインターンシップの機会と研究に取り組
むにあたって必要不可欠なデータ等を提供して頂きました. 日本システムアプリ
ケーションの大久保 佳子 様には,研究に必要となるコーパスを作成するための
ご助言を多々頂きました.
最後に,研究室の先輩,後輩,同期の皆様方には大変お世話になりました.勉
強会から,学外プロジェクトに至るまで様々なことに対して共に挑戦できたこと
に対して感謝しています.
以上,ここに記して,皆様に心から感謝の意を示します.
vii
目次
謝辞
v
第1章
1.1
1.2
1.3
1.4
1.5
はじめに
背景 . . . . . . . . . . .
本研究の目的 . . . . . .
隠語とその有害性の定義
本研究で取り組むタスク
本論文の構成 . . . . . .
第2章
2.1
2.2
2.3
2.4
Web テキストにおける隠語の有害性識別
隠語の有害性識別タスクの目的 . . . . .
関連研究 . . . . . . . . . . . . . . . . . .
教師あり学習による隠語の有害性識別 . .
実験設定 . . . . . . . . . . . . . . . . . .
2.4.1 隠語コーパス . . . . . . . . . . .
2.4.2 有害表現リスト . . . . . . . . . .
2.4.3 実験に用いるツール . . . . . . .
2.4.4 素性 . . . . . . . . . . . . . . . .
評価尺度 . . . . . . . . . . . . . . . . . .
実験結果 . . . . . . . . . . . . . . . . . .
考察 . . . . . . . . . . . . . . . . . . . .
まとめ . . . . . . . . . . . . . . . . . . .
課題 . . . . . . . . . . . . . . . . . . . .
2.5
2.6
2.7
2.8
2.9
第3章
3.1
3.2
3.3
3.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
2
2
4
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
6
8
8
8
9
10
10
11
13
13
有害性スコアリングによる Web テキストにおける隠語の発見
隠語発見タスクの目的 . . . . . . . . . . . . . . . . . . . . . . . .
関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
提案手法 1:未知の隠語に対する有害性識別を用いた隠語の発見 .
提案手法 2:ドメインの異なる文書間における名詞の生起頻度の活用
15
15
16
17
18
3.5
3.6
3.7
第4章
3.4.1 隠語コーパスの有害性ラベルに基づく手法 . . . . . . . .
3.4.2 ラベルなしにドメインの異なる文書を活用する手法 . . .
隠語の発見の実験 . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 隠語候補の選定 . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 ベースライン : ランダムな単語選択 . . . . . . . . . . . .
3.5.3 有害性識別による隠語の発見 . . . . . . . . . . . . . . .
3.5.4 ドメインの異なる文書間における名詞の生起頻度の活用 .
3.5.5 評価尺度 . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.6 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . .
実験結果の考察 . . . . . . . . . . . . . . . . . . . . . . . . . . .
おわりに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
おわりに
.
.
.
.
.
.
.
.
.
.
.
19
19
22
22
22
22
22
23
23
23
25
35
参考文献
37
viii
ix
図目次
1.1
隠語の分類
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1
有害性識別システムの概要 . . . . . . . . . . . . . . . . . . . . . .
7
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
未知の隠語の有害性識別システムの概要 . . . . . . . . . . . . . .
ドメインが異なる文書の活用 . . . . . . . . . . . . . . . . . . . . .
すべての手法による上位 K 語の隠語カバー率 . . . . . . . . . . . .
ベースラインよりも性能が高い手法による上位 K 語の隠語カバー率
ベースラインよりも性能の低い手法による上位 K 語の隠語カバー率
軟体文書を用いた手法による上位 K 語の隠語カバー率 . . . . . . .
硬体文書を用いた手法による上位 K 語の隠語カバー率 . . . . . . .
Web 文書を用いた手法による上位 K 語の隠語カバー率 . . . . . . .
18
19
28
29
30
31
32
33
xi
表目次
1.1
有害表現における隠語と有害語の分類 . . . . . . . . . . . . . . . .
3
2.1
2.2
隠語コーパスのサンプル . . . . . . . . . . . . . . . . . . . . . . .
隠語の有害性識別結果における各素性の比較 . . . . . . . . . . . .
8
10
3.1
3.2
3.3
3.4
現代日本語書き言葉均衡コーパスにおける文書の種類
各手法における AUC の評価 . . . . . . . . . . . . . .
各手法により獲得した隠語のランキング結果 . . . . .
有害性スコアリングでは発見が困難な隠語 . . . . . .
21
26
26
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
第1章
はじめに
1.1 背景
近年,インターネット人口が広がり,様々な人々が手軽にインターネットを楽し
める時代となった.その一方で,ユーザ層の拡大とインターネット上における情
報へのアクセスの容易さから,多種多様な社会的問題を引き起こされている.そ
の実際の例としては,覚せい剤や大麻などの薬物の違法取引や中学生や高校生の
売春行為の斡旋,さらには,学校裏サイトにおけるいじめなどが挙げられ,ニュー
スでも大々的に取り扱われている.このことから,インターネットによる便利な
生活の裏で,その一部の空間は様々な反社会的行為の温床であることがわかる.
このような現状において,警察などの治安維持を目的とした行政組織のみなら
ず,様々なユーザがインターネット上で交流することを目的として作られたイン
ターネットサービスの一つであるソーシャル・ネットワーキング・サービス (SNS)
のサービス提供者たちも,社会全体からの強い要請により,健全なインターネッ
ト利用の促進のための対応に追われている.
しかし,情報が増え続けるというインターネットの特性上,すべての Web ペー
ジの情報を人手で確認する作業は非常にコストが高く難しい.例えば,代表的な
インターネット・サービスである Twitter1 では,一日に約 4 億件もの情報が投稿さ
れる (2012 年 6 月時点2 ),これら全てを人手で監視することは極めて困難である.
さらに,有害な情報の中には,
「キノコ」や「スピード」等の一般的な単語を用
いて,ある領域における専門的な知識を持つ人間にのみ理解させることが可能な
表記方法「隠語」が使われることがある.隠語を巧みに用いることによって,薬
物の売買などの有害な情報を公共の場所から堂々と発信することができる.
このような一般的な単語で表される隠語を含む投稿を自動的に検出しようとし
た場合,単なるキーワードマッチングでは,一般的な意味での単語の事例が大量
に検出される.そのために,抽出した事例が有害かどうかを識別する作業が必要
となる.さらに,隠語で書かれている文章の意味を理解するためには,隠語に関
1 Twitter
https://twitter.com/
2 http://news.mynavi.jp/news/2012/06/08/022/index.html
する高度な専門的知識が必要となる.それ故に,隠語を含む文の有害性識別は人
間ならば誰しもができる作業ではなく,作業自体のコストが非常に高い.
また,識別性能の低い自動識別システムをサービスに組み込んでしまうと,ユー
ザ間のコミュニケーションを一種のコンテンツとして取り扱っている SNS などに
おいては,ユーザの投稿に対して間違った識別を行なってしまう可能性がある.
それは,円滑なコミュニケーションの利便性,有用性を排除してしまう恐れがあ
り,コミュニケーションサービスとしての品質の低下につながる.
これらのことから,隠語を含む文の有害性識別は,SNS などの Web サービス
運用などにおいてコスト的にも技術的に極めて難しい問題であると言える.
1.2 本研究の目的
このような背景から,様々なインターネット・サービスにおける健全な運営の
ための監視コストの低減,さらには,混迷を続ける近年のインターネット社会に
おいて,すべてのユーザが健全なインターネット利用を行える社会を構築するた
めの基盤技術の実現を目的として,本研究では,
「隠語の有害性識別タスク」,と
「隠語の発見タスク」を提案し,その解決に向けて取り組む.
1.3 隠語とその有害性の定義
本節で,本研究で取り扱う隠語を定義する.隠語とは特定の社会集団の中での
み通用する語義を持つ単語である.本研究では,隠語を,
「語義に曖昧性があり,
さらに,1 つ以上の “有害” な語義と “無害” な語義を持つ単語」と定義する.さ
らに,
「ある隠語の語義が,インターネットサービス上において風紀を乱す行為,
また,それを示唆する行為を指す」その時に,隠語が “有害性” を持っていると判
断する.
本研究では,有害な語義を持つ表現を “有害表現” と呼ぶ.有害表現において,
無害な語義の有無により隠語と有害語への分類を行う (図 1.1).つまり,“隠語”
は無害な語義と有害な語義の両方を持ち,“有害語” は有害な語義しか持たない単
語を指す.その例を表 1.1 に示す.
1.4 本研究で取り組むタスク
本研究において取り組むタスクに関して概要を述べる.
2
表 1.1: 有害表現における隠語と有害語の分類
語の分類 有害表現 無害な語義
有害な語義
有害語
有害語
隠語
隠語
大麻
強盗
キノコ
スピード
菌類
速度
大麻
強盗
マジックマッシュルーム
覚せい剤
図 1.1: 隠語の分類
隠語の有害性識別
本タスクは与えられた事例における隠語の有害性の有無を識別するタスクであ
る.本研究では,隠語とその周辺文脈に対して有害性の有無をラベルとしてアノ
テーションした隠語コーパスを用いて,教師あり文脈分類による手法を提案する.
隠語の発見
有害性識別タスクが隠語になりうる単語を対象に有害性識別を行なうことに対
して,隠語の発見タスクでは,隠語ではない単語も含めた隠語候補から隠語を発
見することを目的とする.本研究では,隠語の候補となる単語に対して,隠語ら
3
しさのスコアを付与することで隠語候補から隠語を発見する.本研究では,スコ
アを与える手法として,有害性識別の結果を利用する手法と,ドメインが異なる
文書間の頻度を用いる手法を提案する.
1.5 本論文の構成
次章では,
「隠語の有害性識別タスク」に取り組み.教師あり学習を用いた文脈
分類による隠語の有害性識別手法の有効性を示す.3 章では,
「隠語の発見タスク」
に取り組む.本研究では,既存の言語資源を活用することにより効率よく隠語を
獲得する手法を提案する.最後に,本研究のまとめを述べる.
4
5
第2章
Web テキストにおける隠語の
有害性識別
2.1 隠語の有害性識別タスクの目的
本章では,隠語の有害性識別タスクに取り組む.隠語の有害性識別は,SNS な
どのコミュニケーションサービスにおける未成年の売春行為や、覚せい剤や大麻
といった違法な薬物の取引などの運営上不健全とされる有害情報の監視業務をサ
ポートすることを目的に,文中に現れた隠語の有害性を識別するタスクである.
本研究では,この隠語の有害性をある単語が持つ語義の 1 つとして考える.そし
て,自然言語処理における代表的なタスクの 1 つである語義曖昧性解消タスクに
おいて用いられる手法を適応することにより,無害な用法と有害な用法を識別す
る教師あり文脈分類問題として隠語の有害性識別を行う.
2.2 関連研究
Web テキストにおける有害情報を検知することを目的とした先行研究を挙げる.
井上ら [8] は,有害サイトのフィルタリングシステムが URL 登録式である点を
問題と考え,表示しようとしている Web ページに含まれる単語の分布から文書分
類を行うことで,自動的にその Web ページが有害 (アダルト) か否かを判定す
るソフトウェアを提案した.池田ら [11] は,Web ページにおける HTML 構造か
ら「リンク数が多い」などの有害 Web サイトの特徴を抽出,利用することで,有
害サイトの分類を行った.さらに,Web ページの本文から Web ページ上の頻出
キーワード抽出を行うことで高い性能 (適合率 0.781) で有害 Web ページのフィ
ルタリングを実現した.
本研究は,これらの研究と有害な情報を自動的に分類したいという大きな目的
では一致するが,対象とする情報の粒度が異なる.先行研究が Web サイトや Web
ページの文章などの大域的な大きい情報を対象としている点に対して,本研究は
隠語を含む文脈という局所的な小さい情報を有害性識別の対象としている.
本研究が有害な情報のフィルタリングを行うことを目的としているにも関わら
ず,Web ページ上の豊富な情報を扱うことができる文書分類の手法を使わずに,
扱える情報が少ない短い文を対象に語義曖昧性解消の手法を適応する理由として
は,有害性識別の対象とするデータの違いを挙げる.特に近年においては,Twitter
や LINE1 ,Mobage2 ,GREE3 などに代表されるショートメッセージによるコミュ
ニケーション・サービスを楽しむことができるサービスが流行している.これら
のサービスにおいては,ユーザ同士は気軽にメッセージ交換を楽しむことができ
る一方で,児童売春や違法薬物売買の温床となっている.そのために,これらの
サービスで用いられている短いテキストデータから有害性を識別する技術は広く
求められている.しかし,これまでに関連研究が行なってきたような文書分類の
手法では識別対象とするデータの小ささに適応することができない.本研究は,
自然言語処理の技術を活用することで,短いテキストデータのみから有害な情報
を検知する点において新規性がある.
村本ら [4] は,Web テキストを対象として語義曖昧性解消を行なった.彼らの
取り組んだ Web テキストにおける語義曖昧性解消タスクは本研究における有害
性識別タスクに類似している.彼らは,Web テキストにおける固有名詞の意味カ
テゴリの曖昧性を解消する研究を行った一方で,本研究は隠語の曖昧性解消を行
うために対象とする品詞が固有名詞だけではない点で彼らの研究と異なる.
2.3 教師あり学習による隠語の有害性識別
本研究において提案する教師あり有害性識別の手法の概要を図 2.1 に示す.ま
ず,有害性の有無をアノテーションしたデータから,素性を抽出し分類器をトレー
ニングする.そして,分類器は有害性のラベルが付与されていないテストデータ
から素性を入力として受け取り,有害性をする.そして,ラベルとして有害性の
有無を出力する.
2.4 実験設定
本章における提案手法の有効性を検証するための実験を行う.また,有害性識
別タスクにおいてどのような素性が有効かを検証するための比較実験を行う.さ
らに,本節では,実験に必要なコーパス,データの説明を行う.
1 http://line.naver.jp/ja/
2 http://www.mbga.jp/
3 http://gree.jp/
6
図 2.1: 有害性識別システムの概要
7
表 2.1: 隠語コーパスのサンプル
有害性
有
有
無
有
無
2.4.1
前文脈
沖縄県警は 6 日,麻薬を含む乾燥
まとめます!血溶き最強説!
?
|BLOGTOP|
一度聞いたら忘れられない、優しい歌声と
【 メッセージ 】 どうも!綾乃です私個人で色んな
逮捕された新聞記事で絵葉書作って
隠語
キノコ
ネタ
メロディー
H
売り
後文脈
( マジックマッシュルーム ) を国際郵便で密輸入
の安全な隠し場所
を、今回はアコースティックで
な写真や動画を見れるサイトをやっています
ました。 1 枚 150 円で 20 万枚売れたので
隠語コーパス
本研究で用いる隠語コーパスは,薬物乱用などに関わる Web ページから独自に
構築されたコーパスである.隠語の生起に対して,隠語とその周辺文脈を 1 文脈
として抽出し,その文脈における隠語の有害性の有無が人手でアノテートされて
いる.本研究では,1 つの文脈を対象の隠語とその前後 10 単語と設定している.
また,有害性識別の識別粒度として,1 文脈を 1 つの単位として識別を行う.隠
語コーパスでは,254 種類の隠語を含む.また,文脈の総数は 8,097 件である.表
2.1 に,隠語コーパスのサンプルを示す.
本コーパスは隠語の有害性をその周辺文脈から学習するための重要な情報源で
ある.本研究では,この隠語コーパスを用いて 5 分割交差検定を行う.
2.4.2
有害表現リスト
本研究では,この有害表現リストから,隠語 254 件と有害語 1,517 件を抽出し
た.また,有害語は分類器の学習における素性の1つとして利用する.本リスト
は,Web 上に出現した有害な語義を持つ表現 2,098 個に関して,人手で独自に有
害性や,語義の曖昧性の有無などの分類情報を付与したデータである.
2.4.3
実験に用いるツール
• 形態素解析器 MeCab4 (0.994)
• 形態素解析辞書 UniDic5 (1.3.12)
• 分類器 LIBSVM6 (3.00)
4 http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
5 http://www.tokuteicorpus.jp/dist/
6 http://www.csie.ntu.edu.tw/
~cjlin/libsvm/
8
以上のツールを,隠語コーパスからの素性抽出,データの分類に利用する.
2.4.4
素性
本実験で使用する各素性の概要を述べる.
Bag-of-words
隠語とその周辺文脈における単語の出現を素性に加えることが目的である.本
実験では,この素性のみを用いる手法をベースラインとして用いる.
単語 bigram
与えられた文脈を 2 単語ずつ素性に加えることで,複合語などのより局所的な
情報を素性に加えることが目的である.
単語 trigram
単語 bigram よりも 1 文字多い 3 単語ずつを素性に加えることで,より長い複合
語や,名詞と動詞の共起などの情報を素性に加えることが目的である.
有害語の共起
必ず有害な語義で使われる有害語と共起する隠語は有害な語義として用いられ
るのではないかという仮説に基づいた素性である.有害語のリストは,図 1.1 に
おける有害語にあたる語を抽出し使用する.その数は,1,517 件である.
• 先日,見つけたお店には 麻薬 とキノコが大量に陳列されているようだ.
隠語の直後に出現する動詞
ある単語が,隠語として用いられる際,通常の用法では出現しないような動詞
と共に使用されるのではないかという仮説に基づき,この素性を提案する.
• あすは,クラブでスピードを キメる ぜ!
以上の素性を組み合わせて,本章の目的である有害性の識別において有効な素
性を探索する.
9
表 2.2: 隠語の有害性識別結果における各素性の比較
Feature
Accuracy Precision Recall F-measure
Bag-of-words (baseline)
Bag-of-words+Bigram
Bag-of-words+Bigram+Trigram
Bag-of-words+有害語
Bag-of-words+隠語の直後の動詞
Bag-of-words+Bigram+有害語
0.915
0.917
0.915
0.917
0.913
0.918
0.849
0.839
0.814
0.853
0.849
0.839
0.870
0.883
0.899
0.872
0.865
0.886
0.859
0.860
0.854
0.863
0.857
0.861
2.5 評価尺度
評価尺度としては,Accuracy 式 2.1, Precision 式 2.2, Recall 式 2.3,F-measure
式 2.4 の 4 つの尺度を用いた.本章の実験では,Precision と Recall の調和平均で
ある F-measure のスコアが高い素性の組み合わせを最も高い性能で有害性識別が
可能な素性の組み合わせとして評価する.
Accuracy =
Precision =
Recall =
識別器が正しく隠語を含む文脈を識別できた数
識別器の出力数
識別器が有害な隠語を含む文脈を正しく識別できた数
識別器が有害な文脈であると識別した数
識別器が有害な隠語を含む文脈を正しく識別できた数
文書集合 D に含まれる有害な隠語を含む文脈の数
F − measure =
2 · Precision · Recall
Precision + Recall
(2.1)
(2.2)
(2.3)
(2.4)
2.6 実験結果
隠語の有害性識別タスクにおける提案手法の有効性を検証するための実験を
行った.また,ベースラインとそれぞれの素性を組み合わせた手法の比較実験を
行った.実験結果を表 2.2 に示す.
10
2.7 考察
隠語の有害性識別システムの有効性の検証
提案した隠語コーパスを用いた教師あり学習による文脈分類の手法により,Bagof-words のみを用いたベースラインにおいても隠語の有害性を Accuracy で 0.915,
Precision で 0.849,Recall で 0.870,F-measure で 0.859 という性能で隠語の有害
性を識別することができた.
各素性の有効性の検証
表 2.2 の結果から,Bag-of-words と出現すれば必ず有害な語義を持つ有害語の
素性を組み合わせたシステムは最も高い F 値(0.863)で有害性識別を行うことが
わかった.
有害語素性により,分類が成功した例,失敗した例に関して考察を述べる.まず,
成功した例としては,
• 有害語の羅列
スピードセブンスヘブン 睡眠導入剤 ハイドロキノン クロロ エフェドラ
覚せい剤
• 有害語との共起
英名では HEMP(ヘンプ) と言う.俗に言うマリファナとはラテン語で 大麻
の葉っぱ…
のように,有害語と共起するような文脈を正しく識別することが可能となった.
しかし,その一方で失敗した例としては,
• 有害語との共起のために識別を失敗
…会社員 S 容疑者を重 過失致死 の疑いで…
のように,関係の無い単語と共起することでも,識別ミスをしてしまう例を挙げ
る.このことから,有害語を素性として使うことは有効だが,有害語をすべて一
様に扱うのではなく,有害性識別に効果的なものだけを分類する必要があること
がわかった.
次に,素性を組み合わせることで性能が低下してしまった素性に関して考察を
行う.隠語の直後に出現した動詞の素性が識別結果へ悪影響を与えた理由として
11
は,Web テキスト独自の書き方や表現方法が挙げられる.実際の Web テキストに
は,通常の文型をなしていない記述が多数含まれる.特に多い事例としては,単
語の羅列や話し言葉の記述が挙げられる.こういった事例の場合,そもそも意図
した場所に動詞が出現しないために素性を抽出することができない.また,Web
テキストにはノイズが多く,形態素解析器に新聞記事などの文章を与えた時のよ
うな解析精度を期待することができないために,動詞を正しく解析できないとい
う問題もある.
その一方で,
• 村に白人連中が300人ぐらいいるというから異常だ。村には草を 出し て
くれる食堂もあり、ほとんどニンビン(オーストラリア)なみ...
• その後どうですか?食ってます?大キノコ部では東京進出の計画を 進め て
います。一緒に遊び
といったような文を正しく識別することに成功している事例もある.また,2 文
目に例示した「食ってます?」のように,隠語自体が省略されることもあるため
に,照応解析などの技術を応用することで,有効な素性として使用できる可能性
がある.
単語 Bigram,単語 Trigram の組み合わせでは,Recall のスコアはベースライン
よりも高い.そのために,間違いを許容してでも多くの有害な隠語を識別したい
という,高い Recall を要する用途や状況であれば ベースラインよりも有効である.
これらの素性によって以下のような文脈を正しく識別できた.
• 数量金額欧州での使用例 5g91000 円最も代表的な マジックマッシュルーム
です。誤って服用した場合ハワイアンコーポランディアとは一味違った効
果が
• ン スピード セブンス ヘブン 睡眠導入剤 ハイドロ キノン クロロ エフェド
ラ 覚せい 剤 メラトニン GHB ラブコスメ マインド スケープ エストロゲン
コカイン 威哥王 合法 ドラッグ MDMA 睡眠剤
これらの例から,
「マジックマッシュルーム」や「合法ドラッグ MDMA」といった
Bag-of-words では直接的には抽出できなかった表現を扱うことができることがわ
かった.しかし,単語 bigram や単語 trigram により作成した素性は出現する回数
が少ないことから,有害/無害のどちらかの文脈において生起頻度の偏りが生じて
しまう場合,識別に悪影響を与えてしまう可能性がある.このことから,Bigram
12
や Trigram を有効に利用するためには,識別に有効な素性に対して重み付けを行
う必要があると考えている.
また,本章で扱った隠語を含む文脈は,Web サイトを構成する 1 要素とみなす
ことができる.そのために,提案手法による識別結果を新たな素性として加える
ことで,池田ら [11] が行ったような Web サイトの有害性識別に利用することが
できると推測する.
2.8 まとめ
本章では,Web 上における有害な隠語を含む文脈の有害性を識別するタスク
「隠語の有害性識別」を提案した.また,人手で隠語の有害性に対してアノテー
ションを行った隠語コーパスを教師データとして利用する教師あり文脈分類によ
る手法を提案した.
実験の結果,Bag-of-words と文脈に出現すれば必ず有害な語義として出現す
る「有害語」を素性として組み合わせることにより,ベースラインである Bag-ofwords のみを用いる手法よりも高い F 値 (0.863) で隠語を含む文脈の有害性を識
別することが可能なことを示した.
2.9 課題
本章における実験では,すべての隠語を区別せずに扱った.しかし,実際には,
有害な語義としての出現分布の違いにより,各隠語の識別の難しさは異なる.ま
た,隠語としての有害な語義に関しても重大な犯罪を隠匿するようなものから,
軽微な内容を示すものまで様々である.
これらの問題の中でも,隠語コーパス中における有害語義としての出現分布の
偏りは大きな問題である.例えば,
「ラッシュ」という隠語は隠語コーパスにおい
ては必ず有害な語義として出現している.さらに,
「円」という隠語は約 2,000 回
の出現において 1 回しか有害な語義として出現しておらず,ほとんどが無害な単
語としての出現である.その一方で,
「キノコ」の出現頻度は有害/無害の文脈にお
いて,ほぼ半分ずつの出現比率で生起しており,非常に有害性の有無が曖昧な隠
語であり,隠語コーパスを用いる手法において識別することが困難な隠語である.
このことから,隠語コーパスを用いる有害性識別の手法においては,
「キノコ」
のような有害性が曖昧な隠語をうまく識別することが性能の向上に直結すると考
えられる.
13
また,エラー分析の結果から現在の有害語の定義から有害語を抽出するだけで
はなく,有害性識別に効果的な有害語のみを分類する必要がある.その方法とし
ては,隠語との共起スコアなどによる重み付けなどが有効ではないかと考えて
いる.
さらに,ドラッグのドメインにおける有害性とアダルトのドメインにおける有
害性は具体的な意味としては異なることから,前もって有害性の種類を分類して
おくことで,それぞれの隠語における有害性に関して,より隠語の意味的な情報
を活用することが可能になると考えている.つまり,有害性の定義を見直すこと
で,識別性能が向上する可能性がある.
14
15
第3章
有害性スコアリングによる
Web テキストにおける隠語の
発見
3.1 隠語発見タスクの目的
前章までの研究では,人手で作成した有害表現リストに記載された隠語のみを
有害性識別の対象としていた.しかし,実際の応用を考えると,識別すべき隠語
がすべて既知であるという仮定は不自然である.そこで,
「隠語の有害性識別」タ
スクが隠語として使われる可能性がある単語に対する有害性の識別を行なってい
たことに対して,本章で取り組む「隠語の発見」タスクは,隠語以外も含む単語
集合に対して隠語らしさを判定することで隠語の候補の中から隠語を効率的に見
つけ出すことを目的とする.
意味解析においては,語義を記録した辞書を基に解析を行う.例えば,小林ら
[3] は,文章から意見情報を抽出するタスクにおいて重要となる評価表現の収集
を行った.評価表現辞書では,意見の評価極性を決定づける表現が収集されてい
る.有害性識別タスクにおいては,ある単語とその有害な語義を記載した隠語リ
ストが実質的な辞書となる.前章までの研究ではこの隠語リストを基に隠語を含
む文脈を収集し,有害性の有無をアノテーションすることで隠語コーパスを作成
した.また,識別の対象となる隠語もリストに含まれる隠語のみであることから,
隠語リストが与える影響は非常に大きい.また,網羅性の高い隠語は,質の高い
隠語の有害性識別システムを提供するための重要な要素である.
その一方で,服部ら [7] の研究で示されているように,Web は新しい単語であ
る “未知語” が生起しやすい環境であることから,次々と新しい隠語が出現するこ
とが考えられる.隠語のリストに登録されていない隠語である “未知の隠語” の存
在は,有害性識別システムとしての網羅性を低下させる原因である.しかし,人
手による隠語リストの更新のためには,隠語に関する専門的知識と多くの文章を
読み込むための膨大な人的コストが必要であり,困難な作業である.
こうした背景から,本章では隠語リストを構築する作業をサポートすることを
目的として「隠語の発見タスク」を提案する.本研究では,隠語コーパスなどの
既存の言語資源を用いて,与えられた隠語の候補から,有害な意味で使われる隠
語を選び出すための手法を提案する.
3.2 関連研究
関連研究として,新語義検出タスクに取り組んでいる研究を挙げる.新語義検
出タスクとは,Web 上などで流行しており,一部の人間によく使われる tweet(マ
イクロブログサービス Twitter において,Tweet と呼ばれる投稿を行うこと)な
どの辞書に未定義の “新語義” を発見するという語義曖昧性解消タスクの1つで
ある.
新語義検出タスクと隠語の発見タスクは,辞書に定義されていない語義として
使われている単語を発見するという目的で共通する.しかし,新語義検出タスク
が既存の単語における新しい用法の発見を目的としている一方で,隠語の発見タ
スクは,有害性という語義よりも粗い概念における単語の新しい用法の獲得を目
的としている点で異なる.
新納ら [6] は,データマイニングにおける外れ値検出の手法を新語義発見タス
クに適応可能なことを示した.また,Lau ら [1] は,文書に生起した単語を教師
なしに同じ語義ごとにクラスタリングする Word Sense Induction の手法を単語の
新語義発見に適応した.本研究は,ある名詞が持つ隠語の有害な語義を新語義の
1 つとして考える点と,単語の用法に違いがあると期待できる 2 種類のコーパス
を利用する点について Lau らの研究と類似する.しかし,Lau らは単語の語義を
すべてを区別して扱っている点に対して,本研究では,ある単語が持つ語義を有
害な語義と無害な語義の 2 つのみに分けることで,手法を簡略化し,隠語を発見
するという本タスクに特化させている点で異なる.
Mihalcea ら [2] は,ある文脈中に生起した単語が生起した年代を当てるタスク
Word Epoch Disambiguation を提案した.Word Epoch Disambiguation タスクでは,
単語の用法の経時的な変化を捉えることで,dinner や surgeon などの経時的に語義
が変化した語の生起年代を推測する.本研究では,生起した年代や場所が異なる
文書を “ドメインが異なるコーパス” として扱う点で共通する.しかし,Mihalcea
らは,単語の用法から生起年代を推測する一方で,本研究では,ドメインや生起
した年代から単語の用法を推測し,隠語の発見に応用する点で異なる.
安藤ら [9] の有害な Web ページの分類に関する研究で用いられているような文
書中のキーワードを基にした文書分類の手法は,文書中の単語の分布を利用する
16
という点で本研究と類似する.しかし,彼らが Web ページに出現するキーワード
の分布から Web ページのドメイン(有害か否か)を識別しようとしている一方
で,本研究では,ドメインから単語の分布を抽出し,さらに単語の分布からその
単語自身の新しい用法を発見しようとしている点で異なる.
3.3 提案手法 1:未知の隠語に対する有害性識別を用い
た隠語の発見
本手法は,
「有害性識別タスク」において用いた手法を「隠語の発見タスク」に
応用したものである.覚せい剤を意味する隠語は複数存在することから,同じ意
味を持つ隠語は同様の用法によって使われるのではないかという仮説に基づき,
隠語の情報を使用せずとも文脈情報のみを用いることで,分類が可能ではないか
と考えた.具体的には,データから素性を抽出する際,隠語の情報を削除するこ
とで,周辺文脈の情報のみを用いて分類を行うという制限を設けた.また,隠語
コーパスに記載されている隠語とその他の単語では,隠語コーパスから得られる
学習情報の質が異なることから,その偏りを除去するために,トレーニングを行
う際,対象とする隠語自身に関する情報の取得を制限した.つまり,ある隠語「キ
ノコ」に対して有害性識別を行う際は,隠語コーパスにおいて「キノコ」を含む
事例は全て削除し,それ以外の隠語の周辺文脈のみを用いてトレーニングを行う
ということである.本章における未知の隠語の有害性識別システムの概要を図 3.1
に示す.
システムは,隠語コーパスから隠語の周辺文脈の有害性を学習し,事例として
与えられた隠語の候補とその周辺文脈に対して,有害性の有無を識別する.本章
における実験では,1 つの隠語候補に対して有害ドメイン文書から T 個の事例を
抽出し,テストデータとして用いる.次に,隠語コーパスから隠語の周辺文脈の
有害性を学習する.そして,テストデータの各事例に対して,超平面からの距離
を取得する.最後に,事例の結果の集合において,最大の有害ラベルへの超平面
距離を取得し,その単語 w の隠語らしさのスコア Sw として用いる (式 3.1).つま
り,最も隠語コーパスにおける有害な文脈に似ている事例に対して高いスコアを
与えるということである.
Sw = max{Distance(wi ),i = 1,2,· · · ,T }
17
(3.1)
図 3.1: 未知の隠語の有害性識別システムの概要
3.4 提案手法 2:ドメインの異なる文書間における名詞
の生起頻度の活用
本章では,Lau ら [1] の研究を応用し,隠語の語義を新語義の 1 つとして考え
ることで,隠語の獲得タスクに適用する.さらに,安藤ら [9] が単語の分布から
ドメインを推定しようとしていたのとは逆に,ドメインが一致するならば単語の
分布が推定できる,つまり,ドメインによって単語が異なる語義で使用されるな
らば,ドメインが異なる文書間においては単語の頻度が異なるという仮説に基づ
き,有害な文脈を多く含むと思われる文書と,無害な文脈を多く含むと思われる
文書から,文書間における隠語候補の単語の頻度を比較することで隠語らしさの
スコアを算出する.本研究では,式 3.2 を用いて,単語 w の隠語らしさのスコア
を算出し,ランキングを行う.
Sw =
有害な文書における単語 w の出現頻度
無害な文書における単語 w の出現頻度
18
(3.2)
図 3.2: ドメインが異なる文書の活用
3.4.1
隠語コーパスの有害性ラベルに基づく手法
隠語コーパスに付与されている有害性のラベルに基づき文脈単位でコーパスを
2 分割し,有害と無害のそれぞれの文脈の集合を別ドメインの文書として扱う.
3.4.2
ラベルなしにドメインの異なる文書を活用する手法
一方,隠語コーパスのアノテーションは作業コストが高いために,大量のコー
パスを作成することは困難である.また,隠語に関する高度な専門知識を持った
アノテータとのコネクション,または,そのようなスキルをもったアノテータを
雇うための研究資金が十分でない場合,隠語に関する研究を始めたいと考えても,
研究を行うことができないという問題がある.そこで,本節では,文章中におけ
る単語の頻度に着目した教師データを必要としない手法を提案する.
本手法では,図 3.2 に示すように,有害ドメイン文書と様々なコーパスを組み
合わせることで,有害-無害ドメイン文書間の単語頻度を計算する.そして,式
3.2 によって隠語らしさのスコアを得る.
本研究で用いた有害/無害ドメインの文書を示す.
19
有害ドメイン文書コーパス
有害ドメイン文書コーパスは,薬物とアダルトの 2 つの分野の Web ページから
独自に構築した.一般的な新聞記事などの文書と比べて,薬物の乱用などのドメ
インに依存した有害な表現が多く使われていると考えられる.記事数は 31,333 件
である.
青空文庫コーパス
青空文庫コーパスは,青空文庫に掲載された文学作品を基に独自に構築された
コーパスである.青空文庫の特徴としては,著作権の有効期限(著者の没後 50 年
間)が切れている古い作品が多数集められている点が挙げられる.本研究では,
その点に着目し,無害な語義としての用法が期待できると考えた.
2012 年 10 月に本コーパスを作成した際の作品数は 11,836 件である.
Twitter テキストコーパス
このコーパスは,Twitter というマイクロブログサービスにおける日本語投稿文
を収集したコーパスである.
Twitter において,ユーザがサービスに投稿する情報は Tweet(ツイート)と呼
ばれ,新聞などの歴史的な文章と比べて現代のインターネットユーザの行動(表
現方法や嗜好なども含めて)を色濃く反映する新しい言語資源として注目されて
いる.また,その有効な活用方法の創出のための意見情報抽出などの様々な研究
が行われており,非常に大きな注目を集めている.
Twitter ではサービス内において,一文が 140 文字に制限されており,形式張っ
た冗長な表現が少ないことや,投稿の気軽さからユーザの投稿の間隔が非常に短
く,一人のユーザが数多くのデータを生成する点と,ソーシャル・ネットワーキ
ング・サービスによって生み出されるコンテンツとして,主にユーザ間の交流に
よってデータは生み出されており,人々の会話に近いような形式でツイートは生
成される点が Twitter における独特の特徴である.
本研究では,Twitter が 2013 年現在において最も活発で人気のあるコミュニケー
ションサービスの一つであることから,同じ Web テキストである有害文書コーパ
スと比べて,有害な表現などを含む数が少なく,無害な語義を含む文書として利
用できると考えた.
20
表 3.1: 現代日本語書き言葉均衡コーパスにおける文書の種類
文体
媒体
軟文体
Web 文体
硬文体
現代日本語書き言葉
出版・書籍 (PB)
出版・雑誌 (PM)
図書・書籍 (LB)
広報誌 (OP)
ベストセラー (OB)
Yahoo!知恵袋 (OC)
Yahoo!ブログ (OY)
韻文 (OV)
国会会議録 (OM)
法律 (OL)
白書 (OW)
教科書 (OT)
出版・新聞 (PN)
全て (BCCWJ)
また,コーパスの作成には,Twitter 社が提供している API を用いて,全体のツ
イートからランダムに日本語のツイートを収集した.収集時期は 2012 年 6 月か
ら 2012 年 12 月であり,全ツイート数は 27,071,613 件である.
現代日本語書き言葉均衡コーパス
現代日本語書き言葉均衡コーパス (BCCWJ) は,前川ら [5] によって作成され
た現代的な日本語書き言葉が集められたコーパスである.本研究では,このコー
パスが様々な媒体から構成されていることから,本タスクにおいてはどのような
媒体から文書を抽出すべきかを調べたいと考えた.
BCCWJ は,表 3.1 に示す 13 種類の媒体から構成されるコーパスである.さら
に,本研究では,文書における表現,表記の自由度を示す言葉として “文体” と
いう単語を用いる.書き手に与えられる自由度が隠語の出現/非出現に関連するの
ではないかという仮説に基づき,13 種類の媒体を「硬文体」「軟文体」「Web 文
体」の 3 つに分類を行った.さらに,現代日本語の書き言葉を代表すると言われる
BCCWJ 全体を 1 つの媒体として扱う.以上,17 種類の文書集合をそれぞれコー
パスとして利用する.
21
3.5 隠語の発見の実験
提案手法の有効性を検証するために,ベースラインと各提案手法の比較実験を
行う.
3.5.1
隠語候補の選定
対象とする単語は,隠語コーパスにおいてラベル付けされた有害と無害の両方
の文脈に 1 回以上出現した名詞 2,020 語である.また,それらに含まれる隠語の
数は 57 語である.
3.5.2
ベースライン : ランダムな単語選択
本研究で対象とする隠語 57 語を含む名詞 2,020 語を対象として,ランダムに並
べ替えを行った場合をベースラインとする.
3.5.3
有害性識別による隠語の発見
本研究では,有害性識別のための分類器,形態素解析器,形態素解析辞書は 2
章で述べたものと同じものを用いた.そして,対象となる 2,020 単語に関して,事
例数 T=100 として,1 単語 100 件の文脈を有害ドメイン文書から抽出し,有害性
識別のテスト事例として使用する.また,単語 w の隠語らしさのスコア Sw を式
3.1 にて計算する.
3.5.4
ドメインの異なる文書間における名詞の生起頻度の活用
本研究では,以下の 20 種類の無害/有害文書集合を使用して実験を行う.
• 隠語コーパス
• 青空文庫
• Twitter
• BCCWJ を構成する 13 種類の媒体
• BCCWJ に含まれる 3 種類の文体
22
• BCCWJ 全体
有害性スコアの計算
式 3.2 によって,それぞれの文書集合における隠語候補のスコアを計算する.
3.5.5
評価尺度
評価には,各手法が算出した隠語候補に対する隠語らしさのスコアのランキン
グから,上位 K 語に含まれる隠語の Coverage の Area Under Curve (AUC) を用い
て評価を行う.本研究では,隠語のカバー率 Coverage を式 3.3 を用いて算出する.
また,AUC とは,K-Coverage 曲線下における面積を指す.
Coverage =
3.5.6
発見した隠語の数
全隠語候補における隠語の数
(3.3)
実験結果
各手法において,隠語らしさのスコアによるランキング結果から上位 100-2,000
個までの隠語の Coverage 率の推移を図 3.3 に示す.また,ベースラインよりも高
い性能を示した手法による結果を図 3.4 に,ベースラインよりも隠語を効率的に
発見することができなかった手法による結果を図 3.5 に示す.さらに,文体によっ
て分類を行った結果を,硬体,軟体,Web の順で図 3.7, 図 3.6, 図 3.8 にそれぞれ
を示す.また,各手法の性能を AUC で評価した結果を表 3.2 に示す.
3.6 実験結果の考察
図 3.4,表 3.2 の結果から,有害性識別,青空文庫,硬文体,出版・新聞,国
会会議録,出版・書籍,隠語コーパス,Twitter を用いる手法がベースラインより
も高い性能で隠語を発見できることがわかった.特に有害性識別を用いる手法で
は,AUC における評価で約 25 ポイントの性能向上が確認できている.また,こ
の結果から,有害性ラベルのようなアノテーションデータを使わずとも,古い文
学作品の集合である青空文庫や,表記に自由度が少なく,定型的な表現を多く含
む BCCWJ における硬文体の媒体を用いることで効率的に隠語を発見することが
できることがわかった.
23
その一方で,図 3.5,図 3.7 に示されているように,法律や白書,韻文といった
硬文体の媒体を利用した結果は芳しくない.その原因は文書中における隠語に関
する語彙量の乏しさである.特に,法律の文書では,隠語が全体の 4 割程度しか
含まれておらず,他の文書と比べても少ない.このことから,本タスクにおいて
有効な文書を選ぶ指標として,語彙量を考える必要があることがわかった.
有害ドメイン文書と同じ Web から取得した文書を用いた手法による結果を図
3.8 に示す.また,Web 文体と同様に豊かな表現が可能であると考えた軟文体の文
書を用いた結果を 3.6 に示す.特に生起年代が古く,使われている単語の分布に
独自性があり,かつ語彙量も豊富な青空文庫以外からは,ベースラインとの明確
な性能差を見出すことができなかった.その原因としては,有害性スコアリング
の手法に問題があると考えられる.本研究で提案した手法では,文書間の単語分
布の差が小さい場合,隠語に高いスコアを与えることができない.つまり,2 つ
の文書において,有害/無害のドメインだけではなく,生起年代や扱っている領域
などの大きな変化が無い限り効率的に隠語を発見することが難しいことがわかっ
た.この問題の解決のためには,新しいスコアリングの手法を提案する必要があ
る.具体的には,Lau ら [1] が行ったような教師なしに同じ語義を持つ単語の用
例をクラスタリングする語義推定タスクの手法を用いることで,単語の頻度だけ
では検知することができない局所的な情報を扱うことで性能の向上が可能である
と考えている.
表 3.3 に,本実験において,特に隠語の発見性能が高かった 3 つの手法によっ
て発見することができた隠語を挙げる.有害性識別を用いた手法では,ランキン
グ上位 500 件以降の時,最も高いカバー率で隠語を発見することができた.特に,
アップやヤクなどの隠語コーパス内では有害/無害文脈間の頻度にあまり違いが見
られなかった語を有害性識別によるスコアリングにより高い順位でランク付けす
ることができた.頻度を用いた手法においては,
「罰」といった隠語が有害文脈中
で無害な文脈における頻度よりも高い頻度で登場していたために,こういった隠
語を有害と判定できるトレーニングデータが少なかった有害性識別による手法よ
りも,高くランク付けすることができた.
最後に,本研究において提案した手法では発見することが困難な隠語を表 3.4
に示す.これらの隠語は,隠語コーパス中に有害な語義として出現する回数が少
なく,さらに,ドメインが異なる文書においても頻度に差が見られなかった語で
ある.これらの語に関しては,シソーラスを用いて類義語を取得し,同じグルー
プ内での隠語らしさを比較する手法や,異なるドメインのデータを適用するなど,
新しいアプローチで抽出を行う必要があると考えている.
24
3.7 おわりに
本研究では,人手で更新し続けるには高コストな作業である隠語のリストの更
新をサポートするという目的で,文書中の単語から隠語を発見する「隠語の発見
タスク」を提案し,その解決に取り組んだ.本研究で提案した手法のうち,有害
性識別を用いる手法と,有害ドメイン文書と青空文庫や硬文体文書などの組み合
わせにおける頻度を活用する手法がベースラインよりも高い性能で隠語の発見が
可能なことを示した.特に,有害性識別を用いる手法はベースラインよりも,カ
バー率における AUC において約 25 ポイント高い性能で隠語の発見が可能である.
一方で,ドメイン外のデータである青空文庫などを活用し,有害文書との頻度の
差を比較することで,アノテーションデータの頻度を用いる手法よりも高い性能
で隠語を発見することが可能であることを示した.
今後の課題として,今回提案した手法では発見することが困難な隠語に対して,
シソーラスなどの高度な意味情報を用いるなどしてアプローチする必要があると
考えている.また,新しいスコアリングの手法として新語義発見タスクで Lau ら
[1] が用いた hierarchical Dirichlet process などの教師なし手法を応用することで,
文脈中で生起した単語の語義に合った隠語らしさのスコアを与えることが可能で
あると考えている.
また,本研究では,隠語リストを 0 から作ることを前提として「隠語の発見タ
スク」を行ったが,次のステップとして,ある程度の数が揃った隠語リストに対
する「隠語の拡張タスク」に取り組む必要があると考えている.さらに,そのタ
スクでは本研究で用いた隠語の有害性識別の手法のように既存の隠語を含む文脈
と似たような文脈で使われている新しい単語を獲得することでアプローチが可能
だと考えている.
25
表 3.2: 各手法における AUC の評価
媒体
AUC
有害性識別 (CLASSIFIER)
青空文庫 (AOZORA)
硬体文書 (HARD)
出版・新聞 (PN)
国会会議録 (OM)
出版・書籍 (PB)
隠語コーパス (INGOCORPUS)
Twitter (TWITTER)
ベースライン (BASELINE)
図書・書籍 (LB)
現代日本語書き言葉 (BCCWJ)
Yahoo!知恵袋 (OC)
軟体文書 (SOFT)
広報誌 (OP)
Web 文書 (WEB)
ベストセラー (OB)
Yahoo!ブログ (OY)
出版・雑誌 (PM)
教科書 (OT)
韻文 (OV)
白書 (OW)
法律 (OL)
12.98
12.17
11.71
10.89
10.61
10.54
10.54
10.54
10.39
10.36
10.61
10.22
10.21
9.91
11.71
9.87
9.82
9.54
9.42
8.75
8.47
6.52
表 3.3: 各手法により獲得した隠語のランキング結果
隠語
有害性識別 青空文庫 硬文体文書 (BCCWJ)
ヤク
アップ
サポート
罰
126
943
1155
1622
132
968
22
293
26
935
1936
1179
290
表 3.4: 有害性スコアリングでは発見が困難な隠語
隠語
有害性識別 青空文庫 硬文体文書 (BCCWJ)
コーラ
援助
1647
1794
1681
1821
27
1680
1829
図 3.3: すべての手法による上位 K 語の隠語カバー率
28
図 3.4: ベースラインよりも性能が高い手法による上位 K 語の隠語カバー率
29
図 3.5: ベースラインよりも性能の低い手法による上位 K 語の隠語カバー率
30
図 3.6: 軟体文書を用いた手法による上位 K 語の隠語カバー率
31
図 3.7: 硬体文書を用いた手法による上位 K 語の隠語カバー率
32
図 3.8: Web 文書を用いた手法による上位 K 語の隠語カバー率
33
35
第4章
おわりに
インターネット上に出現する文の有害性を識別する際,
「キノコ」や「スピード」
などの一般的な単語としても用いられる “隠語” が有害文脈中に出現すると単純
なパターンマッチングだけでは,有害/無害な用例もどちらも大量に抽出してしま
う.そのために,インターネットサービスの管理者への負担が大きくなることは
問題である.
本研究では,インターネットサービス上の有害情報を管理する作業をサポート
することを目的として,自然言語処理における語義曖昧性解消タスクの1つとし
て,
「隠語の有害性識別タスク」を提案し,その解決に取り組んだ.
本研究では,2012 年に発表した自身の研究論文 [10] で用いた教師あり学習によ
る文脈分類の手法に,文脈中で出現すれば必ず有害な語義を持つ有害語を素性と
して追加することで,より高い性能 (F 値 0.863) で隠語の有害性識別を行うこと
が可能なことを示した.今後の課題としては,識別が困難な隠語に対する有害性
識別が挙げられる.本研究では,すべての隠語を区別することなく扱ったが,実
際には,その分布の偏りや,有害性の強弱に違いがあるために,サービスにとっ
てクリティカルな隠語に的を絞り,正しく識別する手法が必要である.
また,実際のシステムの運用を考慮した際,隠語のリストを人手で作成するこ
とは,高い専門的知識と長時間の作業量を要する高コストな作業であるために管
理者にとって負担が大きい.さらに,前述の研究では,あらかじめ生起する隠語
が既知の状態であることを不自然だと指摘した.そこで,本論文では,本研究に
おける 2 番目のタスクとして複数の隠語候補から隠語を見つけ出す「隠語の発見
タスク」を提案した.
本研究では,有害性をスコアとして定量化することで,隠語候補の中から隠語
を効率的に発見することができないかと考えた.そして,スコアの与え方として,
未知の隠語の有害性識別を用いる手法,ドメインが異なる文書の頻度を用いる手
法の 2 つを提案した.
実験の結果,本研究で提案した有害性識別を用いた手法は,ベースラインとし
て設定したランダムに単語を選ぶ手法よりもカバー率における AUC において,約
25 ポイント高い性能で隠語の発見が可能なことを示した.一方で,ドメイン外の
データである青空文庫などを活用し,有害文書との頻度の差を比較することで,
アノテーションデータの頻度を用いる手法よりも高い性能で隠語を発見すること
が可能であることを示した
今後の課題として,今回提案した手法では発見することが困難な隠語に対して,
シソーラスなどの高度な意味情報を用いるなどしてアプローチする必要があると
考えている.また,隠語を新語義の 1 つとして考え,新語義発見タスクで Lau ら
[1] が用いた hierarchical Dirichlet process などの教師なし手法を適応することで
も,文脈中で生起した単語の語義に合った隠語らしさのスコアをランキングする
ことが可能であると考えている.
本研究は,KDDI 研究所株式会社との共同研究により得ることができたデータ
を基に行われた.科学技術分野の発展という点で産学連携による研究活動に 2 年
間取り組んだ身として感じたことは,データ公開の重要性に関することである.
私が取り組んだ自然言語処理の分野では,テキストデータというコンピュータを
使うことで容易に蓄積が可能なデータを対象とするために,様々な組織が持つ独
自データとの相性が良い.その具体的な例としては,医療機関におけるカルテや,
コールセンターのログなどが挙げられる.
企業の秘密漏洩防止やプライバシーの保護は難しい問題であるが,オープンに
なっていない企業独自のデータと意欲の高い学生のコラボレーションは,思いも
よらない大きな成果のきっかけとなる可能性も高い.このことから,学生が企業
の持つ独自のデータを使うことが可能となる機会を増やすことが,斬新で魅力的
なテーマを生み出す鍵となるのではないかと考えている.
36
37
参考文献
[1] Jey Han Lau, Paul Cook, Diana McCarthy, David Newman, and Timothy Baldwin. Word sense induction for novel sense detection. In Proceedings of the 13th
Conference of the European Chapter of the Association for Computational Linguistics, pp. 591–601. Association for Computational Linguistics, 2012.
[2] Rada Mihalcea and Vivi Nastase. Word epoch disambiguation: Finding how
words change over time. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pp. 259–263.
Association for Computational Linguistics, 2012.
[3] 小林のぞみ, 乾健太郎, 松本裕治, 立石健二, 福島俊一. 意見抽出のための評
価表現の収集. 自然言語処理 = Journal of natural language processing, Vol. 12,
No. 3, pp. 203–222, 2005.
[4] 村本英明, 鍛冶伸裕, 吉永直樹, 喜連川優. Wikipedia と web テキストを利用し
た固有名の意味カテゴリの曖昧性解消. 言語処理学会第 17 回年次大会, pp.
774–777, 2011.
[5] 前川喜久雄. KOTONOHA『現代日本語書き言葉均衡コーパス』の開発 (< 特
集 > 資料研究の現在). 日本語の研究, Vol. 4, No. 1, pp. 82–95, 2008.
[6] 新納浩幸, 佐々木稔. 外れ値検出手法を利用した新語義の検出. 自然言語処理,
Vol. 19, No. 4, pp. 303–327, 2012.
[7] 服部峻, 亀田弘之. Web テキストにおける未知語の頻度調査 (発達と知識獲
得). 電子情報通信学会技術研究報告. TL, 思考と言語, Vol. 110, No. 63, pp.
7–12, 2010.
[8] 井ノ上直己, 帆足啓一郎, 橋本和夫. 文書自動分類手法を用いた有害情報フィ
ルタリングソフトの開発. 電子情報通信学会論文誌. D-II 情報・システム IIパターン処理, Vol. 84, No. 6, pp. 1158–1166, 2001.
[9] 藤井雄太郎, 伊藤孝行, 安藤哲志. 複数単語間の共起情報を用いた有害文章判
定手法の提案. 人工知能学会全国大会 (第 24 回), 3D2-3, pp. 1–2, 2010.
[10] 三谷亮介, 小町守, 松本裕治, 隅田飛鳥. 極大部分文字列を用いた web テキス
トの語義曖昧性解消. 言語処理学会第 18 回年次大会, pp. 1292–1295, 2012.
[11] 池田和史, 柳原正, 松本一則, 滝嶋康弘. HTML 要素に着目した違法・有害サ
イト検出手法の提案と評価 (D 分野:データベース, 査読付き論文). 情報科学
技術フォーラム講演論文集, Vol. 9, No. 2, pp. 7–12, 2010.
38
Fly UP