...

電子掲示板における炎上を抽出するための フレームワークの

by user

on
Category: Documents
1

views

Report

Comments

Transcript

電子掲示板における炎上を抽出するための フレームワークの
2012 年度
修士論文
指導教員 花川 典子 教授
電子掲示板における炎上を抽出するための
フレームワークの提案
The proposal of the framework for detecting the destruction by
fire in an electronic bulletin board
阪南大学大学院
企業情報研究科
企業情報専攻
8111013
福本
1
昌生
概要
本論文では、電子掲示板での炎上を特定できるフレームワークの提案をする。インター
ネットの普及によって電子掲示板を利用した情報収集、商品売買、幅広い人達とのコミュ
ニケーションなど無くてはならない存在となっている。しかし、電子掲示板の炎上によっ
て様々な問題が起こっており、ブログの炎上や電子掲示板を利用しての違法物の売買、特
定の人に対しての誹謗中傷などによって現在の我々の生活に大きな被害をもたらしている
原因にもなっている。
そこで、本研究では電子掲示板の炎上を即座に対応できる一つの方法として、2ch を用い
た炎上した電子掲示板を特定できるフレームワークを提案し、提案したフレームワークが
実際に炎上した電子掲示板に適応できるか検証する。具体的には、フレームワークの提案
として炎上した電子掲示板から炎上と判断したキーワード 20 個と 3 つの複数のキーワード
の組み合わせたパターンを抽出し、抽出したキーワード候補をt検定を使用して有意差の
検証を行い、実際に炎上した電子掲示板に適用して検証を行う。
検証した結果、炎上と判断したキーワード候補と複数のキーワードを組み合わせたパタ
ーンから炎上と特定できる電子掲示板が 14 個検出できた。また、電子掲示板の検出の制度
をあげるために書き込まれた文章の構成や文章のある特定のフレーズを検出に利用すべき
こともわかった。このような解決策を用いることによって残りの電子掲示板から半分以上
の炎上を特定できる電子掲示板を見付けることができるのではないかと推測する。
2
-目次-
1. はじめに........................................................................................................................5
2. 関連研究........................................................................................................................6
2. 1. 類似研究...............................................................................................................6
2. 1. 1. 公共性の研究..................................................................................................6
2. 1. 2. 視覚的要約手法の研究....................................................................................7
2. 1. 3. 電子掲示板の会話の抽出支援……………………………………………………..9
2. 2. 類似研究と本研究の差.........................................................................................10
3. 電子掲示板の問題点……………………………………………………………………….....11
3. 1. 電子掲示板の炎上…..…………………………………………………………………...11
3. 2. 違法物の売買………………...................................................................................12
3. 3. 特定の人に対しての誹謗中傷………………………………………………………….12
3. 4. 着目した問題点………………………………………………………………………….12
4. フレームワークの提案………………………………………………………………….……14
4.1. フレームワーク…………………………………………………………………………..14
4.2. 電子掲示板データの CSV 化……………………………………………………………14
4.3. キーワードの抽出方法…………………………………………………………………..14
4.3.1. 炎上したキーワードの抽出方法…………………………………………………….15
4.3.2. 複数のキーワードの組み合わせの抽出方法……………………………………….18
4.4. キーワードの選択方法…………………………………………………………………..18
4.4.1. 電子掲示板で炎上している時間帯………………………………………………….19
4.4.2. t 検定を利用した検証方法……..…………………………………………………….19
5. フレームワークの適用………………………………………………………………….……21
5.1. 電子掲示板データの CSV 化……..………………………………………...…………..21
5.2. 炎上キーワードの抽出……..……………………………………………………………23
5.2.1. 炎上したキーワードの抽出………………………………………………………….23
5.2.2. 複数のキーワードの組み合わせの抽出…………………………………………….26
5.3. 炎上キーワードの選択…………………………………………………………………..29
5.3.1. 炎上と判断したキーワード候補の検証結果……………………………………….29
5.3.2. 複数のキーワードの組み合わせパターンの検証結果…………………………….29
6. 考察…………………………...………………………………………………………….…….31
3
6. 1. 検出率について……………………………………………………………………….…31
6.1.1. 炎上したキーワード候補の検出率………………………………………………….31
6.1.2. 複数のキーワードの組み合わせパターンの検出率……………………………….32
6. 2. 検出率の低い理由……………………………………………………………………….33
6.2.1. 特定の人に対して誹謗中傷の発言が少ない……………………………………….34
6.2.2. 文章が長すぎる場合と短すぎる場合……………………………………………….34
6.2.3. 文字絵(アスキアート)が文章より多い……………………………………..…..35
6. 3. 検出率向上のための対策……………………………………………………………….35
6.3.1. 特定の人に対して誹謗中傷の発言が少ない場合の対策………………………….36
6.3.2. 文章が長すぎる場合と短すぎる場合の対策……………………………………….36
6.3.3. 文字絵(アスキアート)が文章より多い場合の対策……………………………..36
6.3.3. 対策の結果……………………………………………..……………………………..36
7. まとめ............................................................................................................................37
8. 参考文献........................................................................................................................38
9. 謝辞……........................................................................................................................39
4
1 章 はじめに
本論文では、炎上した電子掲示板を特定できるフレームワークを提案し、提案したフレ
ームワークが実際に有効であるか検証する。電子掲示板とは、インターネット上において
不特定多数の人達がコミュニケーションを行うツールであり、スレッド解説者がタイトル
やテーマなどを決め、参加者が自由に文章などを投稿し、書き込みを連ねていくことでコ
ミュニケーションを行うことができると特徴とされている[1]。
また、電子掲示板は自分の思ったことなど様々な書き込みがされていることから企業が
開発した商品がどういった顧客に使用されているか、どのような商品が顧客に喜んでもら
うことができるかなど企業側に取ってもマーケティングを拡大するための大きな情報源と
なっており、インターネットを使用して行われていることから幅広い人達とコミュニケー
ションを行うことも特徴とされている。数年前までコミュニケーションを取る方法は自ら
の口で喋ってコミュニケーションを取ることしかできず、企業側のどういった商品が顧客
に喜ばれているか調べる方法は口コミや商品の売り上げの実績だけとなっていた。しかし、
近年インターネットが普及されるに連れて電子掲示板が現在の我々の社会に浸透し、自ら
コミュニケーションを行う娯楽としてだけでなく様々な情報源や遠い人達ともコミュニケ
ーションができるとして非常に重宝されている。
しかし、全てが有効であるとは言えず、その主な原因が電子掲示板の不適切な発言と
なっている。特に有名とされているのが、電子掲示板のスレッドの炎上、電子掲示板を
利用しての違法物の売買、電子掲示板内で特定の人に対しての誹謗中傷を行うなどがあ
げられている。特に電子掲示板の炎上によって私生活にも大きな影響がもたらされるこ
ともあり、自らの手だけで炎上を何とかしようとするには限界がある。
そこで、多くの電子掲示板上での発言から自動的にスレッド炎上を把握することがで
きるシステムを開発するために炎上した電子掲示板を特定できるフレームワークを提
案し、そのフレームワークが実際に有効であるか検証をする。
本論文では、第2章でインターネット上でのコミュニケーション、炎上した電子掲示板の
研究について説明を行う。炎上した電子掲示板の研究がどういったものか整理し、第3章で
電子掲示板の問題点を参考に提案を提示する。第4章では、炎上した電子掲示板を特定でき
るフレームワークを提案し、第5章で実際に提案したフレームワークが炎上した電子掲示板
に適用できるか検証を行う。第6章で適用したフレームワークの考察を行い、第7章でまと
めと今後の課題について述べる。
5
2 章 関連研究
2.1 類似研究
インターネット上でのコミュニケーション、電子掲示板に関して様々な研究はなされて
いる。まず、辻らの公共性の研究を紹介し、次に提示板の話題遷移に関する研究、岡村ら
の会話の抽出支援の研究を紹介する。
2.1.1 公共性の研究
辻らの公共性の研究は,インターネットにおける公共性問題の視点からインターネット
上のコミュニケーションについて考察した[2]。先行研究を分析し、インターネットの構造
的特性を考慮して、新たな公共性の可能性を探った。1990 年代の「公共性」の研究はハー
バーマスとアーレントの「公共圏」の理論から引用されることが多く、インターネットの
普及により「公共性」の研究もこれらの理論を引用して進められている。技術革新による
利便性の飛躍的向上やコミュニケーションの時間的制約、コミュニケーションの範囲拡大、
ブログ炎上による社会問題などが研究の対象である。
インターネット・コミュニケーションの公共性を議論する場合、多くの論者が自律性を
取り上げており、
「公共圏」の実現可能性について個人の自律性の有無が個人のコミュニケ
ーション行為に大きく影響されていると考えられている。したがって、個人の自律性を高
めることが「公共圏」の討議機能を強化するために必要であると考えられている。それが
できなければインターネット・コミュニケーションにおいて公共性を期待することができ
ないとされており、メディアリテラシー教育を徹底させたとしても公共性の確立には不十
分という指摘も考えられている。
また、インターネット・コミュニケーションにおいての個人は言語、非言語、断片情報
など様々な形で出現し、コミュニケーションの主体としての個人を統合された人格として
の保障はなく、インターネット・コミュニケーションにおける相互の個人の測定には不確
定性がつきまとっている。しかし、情報の集合体のインターネットがどのような相互関係
にあるかを考察する。情報を公開した電子的な場(2ch 等)で情報の集合体を個人ではなく
別のものとして捉えることで個人とインターネット上の情報の集合体が影響しあう過程と
多数の個人がインターネット上の情報の集合体が影響しあう過程を明らかにできる。
また、インターネットでの自律性を期待できなくても共通の趣味やサークルといった個
人・家族と国家の間にある自発的中間組織は公私問題の境目が流動的になっている現在に
6
おいてもインターネット上で重要な役割を担っている。これらを利用して電子的な空間に
おいて個人とインターネット上の情報の集合体がどのように影響しあい、不特定多数の個
人同士が情報の集合体を媒介にしてどのように間接的に影響しあうのか、その過程を考察
することによってインターネット・コミュニケーションにおける公共性の可能性を見つけ
出すことが辻等の研究である。
このように、公共性の確立に向けて中間組織に注目する研究やハーバマスの「公共圏」
に捉われずインターネットだからこそ可能な新たな公共性を設定できるのはないかとも考
えている研究も存在している。しかし、1998 年の「東芝問題」を境に今まで「公共圏」の
実現可能性を高く評価する研究内容から懐疑的な意見が出るようにもなっており、インタ
ーネットの人口普及率やトラブルが増加していった 2001 年以降はハーバマス理論では「公
共圏」の形成は不可能という研究からハーバマス理論の批判から新しい「公共圏」の定義
が模索されてもいる。
2.1.2 視覚的要約手法の研究
電子提示板(BBS)のスレッドにおける話題とその遷移を投稿を読まずに把握すること
を可能にし、情報可視化技術を用いたインタラクティブな情報提示手法「視覚的要約」を
提案する研究である[3]。以前まで個人の感想や意見などの情報はノイズと見なされること
が多かったが、その価値が評価され近年では企業のマーケティング、個人の購買における
意思決定など有効な情報源として重要視されており、SNS、BBS、ブログといったサービ
スがそれぞれの特性を活かしたコミュニケーションを行っている。視覚的要約手法の研究
では BBS のスレッド中で言及される話題の時間的変化、話題の言及のされ方の時間的変化
を話題の遷移と捉え、上記で述べた内容をキーワードとして収集し、スレッド内に存在す
る重要な情報と重要でない情報に区分するために話題遷移、話題雑談、自由雑談に分類す
る。提案手法として BBS のスレッド内の各投稿から時間とキーワードを抽出して行うため
に図 1 のような Bag-of-words モデルを使用する[4]。
図 1
Bag-of-words モデル
7
共起キーワードの時間的変化に着目する話題遷移を可視化する視覚的要約を提案し、提
案手法をプロトタイプシステムで実装する。システムでは、視覚的要約生成に必要な情報
を抽出してキーワードデータと投稿詳細データとして XML ファイルに出力する。それを
基にキーワード間で関連度の計算を行い、視覚的要約をインタラクティブに提示する。ま
た、BBS 情報抽出モジュールの実装にはテキスト処理能力などに優れている Ruby を使用
し、キーワード間の関連度計算を行う視覚的要約をインタラクティブに提示するために
MIT メディアラボで開発されていた Processing を実装する。表 1 に Ruby と Processing
の特徴の比較を示す[5][6]。
表 1
Ruby と Processing の特徴
Ruby の特徴
Processing の特徴
シンプルな文法
初心者のプログラミング学習に便利
普通のオブジェクト指向機能
電子スケッチブックの基盤として利用
特殊なオブジェクト指向機能
アニメーション作成に適している
演算子オーバーロード
グラフィック機能に特化
例外演算処理機能
移植性が高く UNIX,Mac 等で使用可能
実証実験では視覚的要約の有効性を示すために、通常に BBS で投稿を閲覧した場合と
提案システムを用いた場合の話題推定結果、話題遷移パターンの判別結果、分析に用いた
手がかりを比較する。
また、
提案システムがスレッド閲覧に適した機能を備えている場合、
被験者によらず一定の合理的分析手順が存在していると考えていることからアンケート結
果及び実験中の被験者の行動を分析することで、被験者に共通する分析手順について考察
を行い、正確な比較を行うために被験者にはブラウザを用いて Yahoo!提示板サイトにアク
セスしてもらい実験を行う。
被験者実験を行った結果、提案システムを用いることで個々の投稿を読んだ場合と同等
の話題遷移の判別や話題の推測ができるようになったと結果が得られた。また、スレッド
に含まれる話題だけでなくその遷移パターンも判別可能であることを示しており、被験者
によらず一定の分析手順が存在することから提案システムが有効なスレッド分析手段を提
供している。
8
2.1.3 電子掲示板の会話の抽出支援
電子掲示板での発言の重要度や会話の意味構造を可視化し、そこからユーザの興味のあ
る会話を抽出する研究である[7]。電子掲示板の形式として一般的にツリー式というものが
あり、興味のある発言のツリーをたどることでその話題についての発言が得られるが、大
規模な掲示板を見るには負担となっている。そこで、各発言にキーワードベクトルを与え、
双対尺度法という統計手法使用することで発言とそれらを構成するキーワードの関連性を
同一の距離空間上に配置することが可能となり、複数の発言を受けた発言でも繋がりを表
現することができる。また、ある発言からその下のツリーに伝播した影響量の総和をとる
ことで発言が媒介した影響量を得られ、各語が均等に媒介していると仮定すると各発言間
での 1 語あたりの影響量を求められる。発言やキーワードの重要度を定量化する方法とし
てこうした手法によって得られる影響量を採用している。
可視化には、
「ニンテンドーDS」に関する使用レポートの掲示板で行い、会話の構造、発
言・キーワードの重要度を可視化する。影響量が上位の語からなるキーワードベクトルを
発言ごとに求め、双対尺度法を適用する。それによって得られた空間のうち、相関数の上
位 2 軸を用いて発言とキーワードの配置を決定する。可視化を行った結果、実際に関連の
深いキーワードが近くに配置されていた。実際にその話題の起点になっているなど肯定的
なレポート、否定的なレポートについて主な話題はどのようなものか、どの発言が重要で
あったかということが、可視化された空間に実際に反映されているということが言える。
また、発言の抽出を口コミによる商品の評価を基に行うと知人からの口コミはその人の
興味・視点などがある程度わかっているのでより共感できる人の意見を重視するといった
ことができるが、電子掲示板での口コミにはそのような背景情報がなく視点ごとに発言を
整理することが考えられる。各項目の掲示板について同じキーワードベクトルを用いて空
間を構成すると商品の長所についての発言とそれに対する反論、ある商品が良いという根
拠となる発言など抽出ができる。しかし、口コミの情報は主観的なものが多く、ただ並べ
て眺めるだけではわかりにくいこともあり、抽出した発言は商品を肯定する発言と反論な
ど会話的な性質も持っている。そこで、各商品を務める仮想的な人物同士の会話として表
現し、それぞれがどのような視点から商品を評価しているかを明らかにすることができれ
ば理解しやすくできるとも考えている。また、各発言は上記で説明したように整理するこ
とでどの人物に割り振るか、どの発言の応答として利用できるかといったことがわかる。
今後の課題は可視化された空間が人間の感覚とできるだけ一致するようにすること、抽出
した発言を繋げ、自然な会話を生成する手法を考案することである。
9
2.2 類似研究と本研究の差
2.1 で紹介した3つの類似研究では炎上を検出することができないのではないかと考え
ている。スレッド中で言及される話題やユーザの興味のある会話を抽出するということは
興味のあった会話を全て抽出するということになる。また、重要でない情報と重要である
情報を区分することで重要でない部分からキーワードとなる文章を見過ごす原因にもなる
と考えている。このことから、本研究は炎上を自動で検出を目指すというように電子掲示
板上での問題となっている発言のみに絞りこみ電子掲示板に存在している全てのスレッド
内容から抽出を行うものと考えている。
10
3 章 電子掲示板の問題点
電子掲示板上では不適切な発言によって様々な問題点が挙げられている。まず、電子掲
示板の炎上について紹介し、次に電子掲示板からの違法物売買、電子掲示板で特定の人に
対して行う誹謗中傷について紹介する。
3.1 電子掲示板の炎上
電子掲示板の炎上とは、ある1つの電子掲示板(スレッド)においてテーマから逸脱し、
非難や批判が参加者によって殺到している状態のことである[8]。炎上は、立場も考え方も
違う者同士の意見の食い違いから発生することが多く、感情的な対立から相手の人格を否
定し合うことまで発展することもある。
図 2
炎上の具体例
図 2 の具体例を見てみると 48 番目に書き込んだ人がその前に書き込んだ 41、45 番目の
人に対して不適切な発言を行っていることがよくわかる。その発言から 49、50 番目の人が
48 番目の人に対して相手を誹謗中傷する発言を行っており、それに対して 48 番目の人が
51 番目でまた自分に対して誹謗中傷を行った人に対して不適切な発言を行っている。この
ように、感情的な対立が発端となってスレッドの内容を意見し合う電子掲示板から特定の
人同士が争う電子掲示板となっており、炎上となる原因となっている。
11
また、このような具体例のように不適切な発言だけでなく、意見の対立がエスカレート
し偏る、不快な写真の掲載などによって炎上することも数多く存在しており、炎上してい
るサイトのきっかけとなったものや写真等を他のコミュニティサイトにコピーして貼り付
けて人々が炎上する姿を楽しむという愉快犯な行為を行う人も存在している。
3.2 違法物の売買
電子掲示板は多くの人達が閲覧・書き込みを行うものであり、電子掲示板に商品を売買
する内容を記載してアクセスして,電子掲示板上での売買が可能である[9]。電子掲示板で
売買が行われた場合、売買を行っているものが ID を変えて取引を行うこともあり、他人を
煽る発言目的で書き込んでいる人もいることから、違法物などを売買している人物も特定
することが難しくなる。このように幅広い人達に対して違法な売買が行えるだけでなく人
物の特定も難しいため、薬物だけでなく児童ポルノや違法 DVD、改造されたモデルガン等
といった販売が禁止されている違法物の売買を電子掲示板上で行っており、電子掲示板の
管理者が放置していたことにより書類送検されてもいる[10]。
最近では、違法物以外にも他人の電話番号やメールアドレスだけでなく ID やパスワード
といった個人情報を電子掲示板に掲載して売買することも増えており、個人情報流出の事
件として犯罪事件にまで発展することもある。また、違法物の売買だけでなく爆弾の製造
法といった危険物の作り方を掲載するといった違法行為も数多く存在する。
3.3 特定の人に対しての誹謗中傷
上記で説明したように、炎上は複数人で意見の食い違いから発生することが多く、感情
的な対立から相手の人格を否定し合うことで起こる。図 2 の電子掲示板のやりとりの具体
例を見てみると特定の人が不適切な発言を行うことで他の発言者から誹謗中傷のような発
言があり、関係ない人達であっても煽りや面白半分で同じように誹謗中傷を行う場合もあ
る。このように、特定の人が不満や反論する人だけでなく煽り等によって誹謗中傷を行う
人も存在しており、誹謗中傷の内容によっては犯罪事件にもあげられることがある[11]。
また、不適切な発言によって特定の人を誹謗中傷するのはテーマの中だけでなくテーマ
の内容自体を特定の人に対して誹謗中傷することもあり、芸能人や企業等がTVやラジオ
で不適切な発言をすると発生することが多いとされている。これにより、謝罪会見を開く
場合や企業のプロジェクト等を中止するなど現実の行動にも被害が及ぶ場合がある。
12
図 3
株式会社・ガイナックスの取締役辞任のニュース
図 3 は 2007 年 4 月 27 日アニメ制作会社・ガイナックス取締役の赤井孝美氏が辞任した
事件が書かれたニュースサイトである[12]。この事件は当時取締役であった赤井孝美氏と社
員がプロデューサーとして当時放送したアニメが 2ch で批判されていることに対して mixi
日記に誹謗中傷を書き込んだ。それによって多くのユーザーやファンから批判が相次ぎ、
公式ブログにコメントが殺到するという炎上状態になった。この事件によって赤井氏はガ
イナックス公式ページで謝罪を行い、取締役を辞任するだけでなく当時放送されていたア
ニメのプロデューサーからも外れることになった。このように、特定の人に対して誹謗中
傷を行うことによって多くの批判を浴び、謝罪会見だけでなく現在の自分の地位なども無
くすことにもなる。
3.4 着目した問題点
3.1,3.2,3.3 で説明した 3 つの問題点の中で現在の我々の生活において電子掲示板の炎
上が一番多くの問題が起こっており、電子掲示板での炎上が自動で検出しやすくかつ炎上
は電掲示板での有意義な議論のさまたげになると考えて着目をおいた。また、電子掲示板
の炎上によるトラブルの原因によって個人だけでなく法人団体にも多大な影響を及ぶこと
から炎上の検出に着目をおく。
13
4 章 フレームワークの提案
3 章で説明した電子掲示板の問題点は多数あり、特に 3.1 で説明した炎上は現在でも多く
の問題が起こっている。そこで、炎上した電子掲示板を CSV ファイルでデータ化し、炎上
した電子掲示板の分析を行う。そして、分析した結果から電子掲示板で起こる炎上を特定
することができるフレームワークを提案する。
4.1 炎上スレッドを特定するフレームワーク
上記で述べたように電子掲示板の炎上によって様々な問題が起こっている。そこで、電
子掲示板の炎上を特定するために以下のステップのフレームワークを提案する。

STEP1:電子掲示板データの CSV 化

STEP2:目視による炎上キーワードの抽出

STEP3:炎上キーワードの選択
以上の流れに従って次節以降にフレームワークの各ステップの詳細を記す。
4.2 電子掲示板データの CSV データ化
図 4
CSV へのデータ化の構図
図 4 は電子掲示板のデータを CSV でデータ化するイメージである。まず、2ch から炎上
した電子掲示板のスレッドをいくつか抜粋し、炎上した電子掲示板をプログラムを使用し
て CSV でデータ化し、Excl ファイルに抽出する。また、炎上を把握するために ID,時間,
テキストの 3 つの項目に区分して抽出を行う。炎上していると判断する電子掲示板は,特
定の炎上した電子掲示板を集めた Web サイトから収集を行う。
14
4.3 目視による炎上キーワードの抽出
4.2 で作成した CSV データから特定の炎上キーワードを抽出する。炎上キーワードを抽
出する理由は,炎上した電子掲示板には似た議論や発言があることである。その議論や発
言を炎上キーワードと呼び,そのキーワードを特定する。手法としては,自動判別を試み
たが,精度に問題が発生し,結果として目視(手動)で当初のキーワードを抽出する。以
下の 2 つの方法を抽出する。
(1)単体の炎上キーワードの抽出方法
(2)複数のキーワードの組み合わせの抽出方法
以上の流れに従って次節以降に炎上キーワードの各抽出方法の詳細を記す。
4.3.1 単体の炎上キーワードの抽出方法
図 5
電子掲示板上で頻繁に出現するキーワード
図 5 のように 48 スレッドから 54 スレッドの間に同じキーワードが頻繁に出ていること
がわかる。このように、頻繁に出てくるキーワードを目視で調査を行い、頻繁に出現して
いるキーワードを炎上したキーワードとする。また、目視で炎上と判断したキーワードを
表 2 のように CSV ファイルに 10 分ごとに抽出を行う。
15
表 2
炎上したキーワードの抽出した具体例
抽出開始時間
抽出終了時間
キーワード候補
キーワード数
48:00
58:00
オマエ
9
58:00
08:00
オマエ
18
08:00
18:00
オマエ
13
また、抽出したキーワード候補のキーワード数が時間帯ごとにどれくらい抽出されてい
るか調査するために時系列でキーワードの出現頻度のグラフ作成を行う。これによって視
覚的直観的な炎上キーワードの出現のイメージを明確にする。
図 6
炎上したキーワード候補のグラフ化の具体例
16
4.3.2 複数のキーワードの組み合わせの抽出方法
図 7
図 8
複数のキーワードの組み合わせパターンの具体例
複数のキーワードを組み合わせたグラフ化の具体例
17
図 7 のように特定のキーワードの組み合わせが見られていることがわかる。また、図 8
のように炎上と判断したキーワード候補のグラフの組み合わせを行うことで特定のキーワ
ードの組み合わせに着目する。そこで、複数のキーワードに着目する。まず、目視で炎上
と判断した組み合わせパターンを下記の表 3 のように組み合わせパターンが確認される部
分だけを CSV ファイルに 10 分ごとに抽出を行う。
表 3
抽出開始時間
複数キーワードの組み合わせパターンの抽出例
抽出終了時間
最小・最大
組み合わせ
組み合わせ
キーワード数
キーワード候補
キーワード数
31:00
41:00
19
オマエ
19
21:00
31:00
21
オマエ
21
表 3 のように抽出を行う。また、組み合わせたキーワード数が単体で抽出したキーワー
ド候補の抽出した結果と同じになることから組み合わせた複数のキーワードの中から 0 以
上の最小キーワード数もしくは最大キーワード数を別途抽出を行い、炎上したキーワード
の最低限の数と最大限の数も抽出を行う。
4.4 炎上キーワードの選択
4.3 で検証した炎上したキーワード候補が全て有効であるとは限らないため、炎上と判断
したキーワード候補の有意差を検証する必要がある。そこで、有効なキーワードの選択を
行うために以下の選択方法のステップを行う。
(1)電子掲示板から目視で炎上している場所を調査
(2)有効性を検証するためにt検定を利用して有意差があるか検証
次節以降に各ステップの詳細を記す。
18
4.4.1 電子掲示板で炎上している時間帯
図 9
電子掲示板の炎上している時間帯
図 9 のように 4.3 で炎上と判断したキーワード候補が書き込まれていた付近で数件の書き
込みがされている。このような場所を炎上と判断した電子掲示板内で目視で調査を行い、4.
3.1 で作成したキーワード候補のグラフの調査とも照らし合わせて炎上が開始されていた
時間と炎上が終了した時間を決定する。
4.4.2 t検定を利用した有意差の検証方法
4.3 で抽出した炎上キーワード候補の有効性を検証する方法としてt検定を使用して炎
上キーワード候補の有効性の検証を行う。まず、目視と作成したグラフによって調査した
炎上開始時間と炎上終了時間から炎上していないと判断した場所と炎上していると判断し
た場所のそれぞれのキーワードの出現回数の平均を取る。
19
図 10
有意差の検出方法の具体例
図 10 のように 4.3 で抽出したキーワード数から炎上と判断した場所(有意差あり)と炎
上と判断されない場所(有意差なし)の数の出現回数の平均を取る。図 10 の具体例のよう
に炎上と判断した場所(有意差あり)のキーワード数の平均が 15、炎上と判断されない場
所(有意差なし)の平均を 2 だったとする。この 2 つの値を平均の差の検定を行い、有意
差があれば有効なキーワードと判断する。
図 11
組み合わせパターンの検出方法の具体例
図 11 のように複数のキーワードの組み合わせパターンの場合は各キーワードの抽出した
数が抽出されているため、別途抽出した最小・最大キーワード数の数から炎上と判断した
場所(有意差あり)と炎上と判断されない場所(有意差なし)数の出現回数の平均を取り、
平均の差の検定を行い、有意差があれば有効なキーワードと判断する。
20
5 章 フレームワークの適用
4 章で提案したフレームワークが実際に炎上した電子掲示板で有効に使用できるか検証
するために以下のステップの順にフレームワークを適用する。

STEP1:電子掲示板データの CSV 化

STEP2:目視による炎上キーワードの抽出

STEP3:炎上キーワードの選択
以上の流れに従って次節以降にフレームワークの適用の各ステップの詳細を記す。
5.1 電子掲示板データの CSV 化
図 12
2ch 勢いランキングのサイト
図 12 は 2ch の炎上情報や勢いのあるスレッドの情報をまとめた 2ch 勢いランキングとい
う Web ページである[13]。この Web ページにはニュース、実況、ゲーム、スポーツ等など
2ch で挙げられているスレッドで勢いのあるスレッドや炎上によって勢いのあるスレッド
をランキング付けされている。また、それぞれのスレッドには作成された日時やスレッド
を解析された日時、現在のレス数などが表示されている。
21
図 13
2ch 勢いランキングの炎上情報
図 13 は 2ch 勢いランキングの炎上となったスレッド情報をランキング付けされた Web
ページである。この中からタイトルに炎上となっていることが書かれており、レス数が 800
件以上の投稿となっているスレッドを 50 個テキスト形式に変換する。また、テキストに変
換した 50 個の炎上した電子掲示板を CSV ファイルで抽出した。
図 14 CSV ファイルに変換した炎上データ
図 14 は 2ch 勢いランキングからテキスト変換して CSV ファイルで抽出した炎上データ
である。また、テキスト変換した 50 個の炎上電子掲示板を 4.2 で述べたように ID、投稿さ
れた時間、書き込まれたテキストの 3 項目に分別し抽出を行った。
22
5.2 目視による炎上キーワードの抽出
4.3 で提案した抽出方法を以下の 2 つに適用してキーワードを抽出する。
(1)単体の炎上キーワードの抽出
(2)複数のキーワードの組み合わせの抽出
以上の流れに従って次節以降に炎上キーワードの各抽出方法の詳細を記す。
5.2.1 単体の炎上キーワードの抽出
4.3.1 で述べたように目視で炎上した電子掲示板を調査していくと以下の 20 個のキーワ
ードが頻繁に出現しており、炎上と判断できるのはないかと考えた。
表 4
炎上と判断した 20 個のキーワード候補
1.
www
11.
ビビ
2.
イジメ
12.
びび
3.
おかしい
13.
ボケ
4.
お前
14.
マジ
5.
カス
15.
乙
6.
キチガイ
16.
許さない
7.
クズ
17.
差別
8.
チョン
18.
死ね
9.
ネトウヨ
19.
叩
10.
バカ
20.
徹底的
次に、上記の表 4 で炎上と判断できるキーワード候補を 4.3.1 の表 2 のように 10 分間
ごとに CSV ファイルに抽出を行った。
23
図 15
「お前」という炎上キーワード候補の抽出結果
図 15 が「お前」という炎上キーワード候補を抽出した結果となっている。このように、
他の炎上候補として考えたキーワード候補も同じように抽出を行う。次に、キーワード候
補を目視で調査をしていくキーワード以外にも発言をした人に対して発言を行う時に使用
する引用【>>】の出現頻度が高くなると炎上したと判断できた。これも炎上キーワード候
補と同じように 10 分ごとに CSV ファイルで抽出を行い、全角【>>】、全半角【>>】
、半
全角【>>】
、半角【>>】の 4 つのデータの抽出を行った。
(図 16)
図 16
>>【引用】の抽出した結果
24
また、炎上した電子掲示板で数分の間に数十件の発言が連続して発言されていると炎上
したと判断できると考え、同じように 10 分ごとに CSV ファイルで抽出を行った。
(図 17)
図 17
10 分ごとのレス数を抽出した結果
また、抽出されたキーワード候補が時系列でどれくらい抽出をされているか調査を行う
ために図 6 のようにキーワード候補のグラフを作成した。(図 18)
図 18
「www(全角)
」という炎上キーワード候補の出現回数のグラフ
図 18 で作成した時間ごとの出現回数のグラフを見てみるとある時間帯の部分だけグラフ
が高くなっていることがわかる。このように、グラフを作成することによってより炎上と
判断できるではないかと考え、他のキーワード候補も同じようにグラフを作成した。
25
5.2.2 複数のキーワードの組み合わせの抽出
4.3.2 で述べたように複数のキーワードを組み合わせたパターンを抽出するために、図 8
のような炎上と判断したキーワード候補を組み合わせたグラフを作成した。
図 19
複数のキーワードを組み合わせたグラフ
図 19 の複数のキーワードを組み合わせたグラフと炎上した電子掲示板を目視で調査して
いくと作成したグラフの中から以下の 3 つのパターンの組み合わせが炎上と判断できるの
ではないかと考えた。
①、
「>>【引用】
」
,
「www(全角)」,
「お前」,
「クズ」,
「チョン」、
「ネトウヨ」、
「バカ」
、
「マジ」
、
「叩」の 9 個の炎上と判断したキーワードのうち 1 つでも出現頻度が高け
れば炎上と判断する。
(図 20)
図 20
組み合わせパターン①の例
26
②、
「>>【引用】
」、
「www(全角)
」、
「お前」の 3 つの炎上と判断したキーワードが他
の炎上と判断したキーワードよりも出現頻度が高くなると炎上と判断する。
(図 21)
図 21
組み合わせパターン②の例
③、
「>>【引用】
」
,
「www(全角)
」の順番に出現頻度が高くその次に「お前」,
「クズ」
,
「チョン」
,
「バカ」
,
「叩」の 5 つの炎上キーワードのどれかが出現頻度が高くなると
炎上と判断する。
(図 22)
図 22
組み合わせパターン③の例
次に、上記の図 20,図 21,図 22 で炎上と判断できる組み合わせパターンを 4.3.2 の表 3
のように炎上した電子掲示板から組み合わせパターンが確認できる部分を 10 分間ごとに
CSV ファイルに抽出を行った。
27
図 23
組み合わせパターン①の抽出結果
図 24
組み合わせパターン②の抽出結果
図 25
組み合わせパターン③の抽出結果
図 23 がパターン①の組み合わせの抽出結果となっており、組み合わせた 9 つのキーワー
ドのうち最も高く抽出された最大キーワード数を別途抽出している。図 24 がパターン②の
組み合わせの抽出結果となっており、組み合わせた 3 つのキーワードのうち 0 を除く最も
低い最低キーワード数が別途抽出している。図 25 がパターン③の組み合わせ結果の抽出結
果となっており、パターン①と同じように最大キーワード数を別途抽出している。
28
5.3 炎上キーワードの選択
4.4 で提案した選択方法を適用して以下の2つの検証を行った。
(1)炎上と判断したキーワード候補の検証結果
(2)複数のキーワードの組み合わせパターンの検証結果
以上の流れに従って次節以降に炎上キーワードの各検証結果の詳細を記す。
5.3.1 炎上と判断したキーワード候補の検証結果
5.2.1 で抽出した 20 個の炎上と判断したキーワード候補、>>【引用】、10 分ごとのレス
数をt検定を使用して検証を行った結果、以下のような検証結果となった。
(図 26)
図 26
炎上と判断したキーワード候補の検証結果
図 26 の炎上と判断したキーワード候補の検証結果を見てみると「www(全角)」
,「お
前」
,
「クズ」
,
「バカ」の 4 つのキーワード候補が他のキーワード候補よりも有意差が高い
ことがわかる。
5.3.2 複数のキーワードの組み合わせパターンの検証結果
5.2.2 で抽出した複数キーワードの組み合わせの 3 つのパターンをt検定を使用して検証
を行った結果、以下のような検証結果となった。
(図 27)
29
図 27
複数のキーワードの組み合わせパターンの検証結果
図 27 の検証結果を見てみるとパターン 1 とパターン 3 に比べてパターン 2 は有意差が高
いことがわかる。また、パターン 3 に関しては他の 2 つのパターンよりも有意差があると
は言えず、炎上を判断するのは難しいのでないかと考えられる。
30
6. 考察
5 章で実際に行った検証結果から 2 つの考察を行う
6.1 検出率について
炎上したキーワード候補と複数のキーワードの組み合わせの検証を 50 個の炎上した電子
掲示板で行った結果、5.3 のような検証結果となった。そこで、炎上したキーワード候補と
複数のキーワードの組み合わせパターンの検証結果が検証を行った電子掲示板でどれくら
いの有意差が出たか下記にそれぞれの検出率を記す。
6.1.1 炎上したキーワード候補の検出率
炎上したキーワード候補の有意差にあった数を 50 個の電子掲示板の数で除算して検出率
を計算した結果、図 26 のような計算結果となった。
図 28
炎上したキーワード候補の検出率
31
図 28 の炎上したキーワード候補の検出率を見てみると 5.3.1 で述べたように「www(全
角)
」
,
「お前」
,
「クズ」
,
「バカ」の 4 つのキーワード候補が他のキーワード候補に比べて検
出率が高いことがわかる。しかし、有意差が一番高い「クズ」というキーワード候補の検
出率を見てみると 28.0%となっており、3 分の 1 だけしか有意差がなく他の 3 つのキーワ
ードの検出率も見てみると 24~26%ぐらいしか有意差がなく全てのキーワード候補の検出
率と照らし合わせて見てみると有意差が低いことがわかる。
6.1.2 複数のキーワードの組み合わせパターンの検出率
炎上したキーワード候補と同じように複数のキーワードの組み合わせパターンも有意差
のあった数を 50 個の電子掲示板の数で除算して検出率を計算した結果、図 27 のような計
算結果となった。
図 29
複数のキーワードの組み合わせパターンの検出率
図 29 の複数のキーワード組み合わせパターンの検出率を見てみるとパターン 2(www
が半角)の 26.0%が一番高い検出率が出ている。しかし、全てのパターンの検出率が 3 分
の 1 以下となっており、複数のキーワードを組み合わせたパターンであっても有意差が低
いということがわかる。このことから、炎上したキーワード候補と複数のキーワードの組
み合わせパターンの両方の検出率が低いことから目視だけの調査では炎上を予測すること
は難しいのでないかと考えられる。
6.2 検出率が低い理由
このように炎上と判断したキーワード候補、複数のキーワードの組み合わせパターンの
検出率を分析をした結果、検出率が低い理由として以下の 3 つが考えられる。
(1)特定の人に対して誹謗中傷や他人を煽る発言が極端に少ない
(2)スレッドに書き込まれた文章が長すぎるか短すぎる
(3)他のスレッド比べて文字絵(アスキーアート)が多く文章が少ない
上記 3 つの検出率の低いと考えられる理由を下記に記す。
32
6.2.1 特定の人に対して誹謗中傷の発言が少ない
1 つ目の理由として考えられるのは特定の人に対して誹謗中傷の発言が少ないが、実際に
炎上しているスレッドである。短い「バカ」,「クズ」,「ボケ」といった誹謗中傷のキーワ
ードを発言するのではなく、文章を用いて表現として誹謗中傷するケースである。
図 30 誹謗中傷が少ない電子掲示板の具体例
例えば,図 30 に示すように,短い誹謗中傷の言葉は少ないが,内容的には炎上をしてい
るケースである。じっくり読めば,炎上していると気づくが,単純なキーワードの抽出が
多いことがわかる。このことから、特定の人に対しての誹謗中傷の発言が少なくなればそ
れに乗じてキーワードの発言も低くなるのではないかと考えられる。
6.2.2 文章が長すぎる場合と短すぎる場合
2 つ目の理由として考えられるのはスレッドに書き込まれた文章が長すぎる場合と短す
ぎる場合によってキーワードの検出率が低くなったのではないかと考えた。具体例として、
炎上キーワード候補と複数のキーワードの組み合わせパターンで有意差が検出されなかっ
た電子掲示板(図 31)を基に説明する。
33
図 31
文章が長すぎる電子掲示板の具体例
図 31 の具体例を見ると 1 回に書き込まれている文章が長く文章の内容がいくつかコピー
ペーストされている。URL を張り付けていることから文章としても成り立っておらず、コ
ピーペーストによる引用や URL などが多数が書き込まれていることによって炎上と判断で
きるキーワードの検出率が低くなったと考えられる。
図 32
文章が短すぎる電子掲示板の具体例
34
また、図 32 のように文章が短すぎることによって文章として成り立っておらず、炎上と
判断できるキーワード候補の検出率が低くなったとも考えられる。
6.2.3 文字絵(アスキーアート)が多く文章が少ない
3 つ目の理由として考えられるのは文字絵によるアスキーアートが頻繁に書き込まれて
いるからではないかと考えた。具体例として、実際にアスキーアートが多く書き込まれた
電子掲示板を基にして説明する。
図 33
文字絵(アスキーアート)による電子掲示板の具体例
図 33 の具体例をみると文章ではなく文字による絵(アスキアート)が書き込まれている
ことがわかる。このように、文章でなく文字によるアスキーアートが書かれていることに
よって炎上と判断できるキーワードの検出率が低くなったのでないかと考えられる。
6.3 検出率向上のための対策
6.2 で述べた検出率が低い理由の改善方法として炎上した電子掲示板から検出率を向上
させるために以下の 3 つの対策方法が必要と考えた。
35
6.3.1 特定の人に対して誹謗中傷の発言が少ない場合の対策
特定の人に対して誹謗中傷のキーワードの発言が少なく出現しない炎上の場合、新たな
特定の発言フレーズを検出させる。具体例として、「ネット上で晒してやる」「逃げてばか
りじゃないか」等の発言フレーズに近い発言が出ればキーワードの抽出と同じように自動
検出させる。また、特定の発言フレーズが数分間の間に複数発言されていた場合、炎上と
判断できるとして自動検出させることで対策できると考えている。
6.3.2 文章が長すぎる場合と短すぎる場合の対策
文章が長すぎる場合、特定の Web サイトから引用された文章はコピペ検出プログラムを
使用してコピペされた文章を削除させる[14]。また、特定の Web サイトから引用されてい
ない文章であっても前文に同じような文章が書かれていた場合も同じように削除させる。
文章が短すぎる場合は、検出単位を 5 分間の間に発言された内容を1つの発言として処
理するなど複数発言の方法によって検出することによって対策できると考えている。
6.3.3 文字絵(アスキーアート)が多く文章が少ない場合の対策
アスキーアートが多く文章が少ない場合、アスキーアートを自動判定するプログラムを
作成してアスキーアートが文章内で出現すれば排除するようにする。また、炎上と判断し
た電子掲示板でアスキーアートが複数存在する場合は炎上と判断できないようにすること
によって対策できると考えている。
6.3.4 対策後の結果
6.3.1,6.3.2,6.3.3 の対策が実現できるかどうか炎上と特定できなかった電子掲示板を目
視で再調査したところ 6.3.1 は 5 個,6.3.2 は 11 個,6.3.3 は 6 個の特定できなかった電子
掲示板に対策できることがわかった。また、文章が長く URL や引用とみられる文章が貼り
付けられた電子掲示板が多くみられたことから 6.3.2 で説明した対策が一番効果的であると
考えている。
36
7. まとめ
インターネットの普及によって電子掲示板を利用した情報収集、商品売買、幅広い人達
とのコミュニケーションなどは無くてはならない存在となっている。しかし、電子掲示板
の炎上によって様々な問題が起こっており、現在の我々の日常生活にも大きな被害をもた
らす原因にもなっている。そのため、電子掲示板の炎上を即座に対応できる一つの方法と
して、2ch を用いた炎上した電子掲示板を特定できるフレームワークを提案し、提案したフ
レームワークが実際に炎上した電子掲示板に適応できるか検証した。
提案した手法は、炎上と判断された電子掲示板をテキスト形式に抽出し、抽出した電
子掲示板から炎上の原因となっているキーワード候補と炎上の契機となるキーワード
の組み合わせパターンを検出する。その後、検出したキーワード候補と複数のキーワー
ドの組み合わせパターンの炎上と判断した場所(有意差あり)と炎上と判断しなかった
場所(有意差なし)の出現回数の平均を取り、2つの平均の差の検定を行い有意な差が
あれば有効な炎上キーワードとする。このキーワードが頻繁に出れば炎上と判断できる
とし、実際に提案した手法を炎上した電子掲示板に適用した。
炎上した電子掲示板に提案した手法を実際に適用した結果、炎上と判断したキーワード
候補と複数のキーワードの組み合わせのパターンの有意差はどちらも検出率が 3 分の 1 程
度となっており、検出率が低いということがわかった。検出率が低いと考えられる理由と
しては、炎上の原因となる誹謗中傷のキーワードの発言が少ない、文章が極端に長く短い、
文字絵(アスキーアート)による書き込みが多いからではないかと考えた。
今後の課題としては、検出率が低くなった原因を対策して検出率の向上と向上した検
出率から炎上の原因となるフレームワークを提案できるか検証することである。特定の
人に対して誹謗中傷のキーワードの発言が少なく出現しない炎上の場合、新たな特定の発
言フレーズを検出させてキーワードの抽出と同じように自動検出させる。文章が長すぎる
場合や短すぎる場合は、Webサイトから引用された文章をコピペ検出プログラムを使用して
削除したり、数分間の間に発言された内容を1つの発言として処理するなど複数発言の方
法によって検出する。アスキーアートも同じように自動判定するプログラムを作成して削
除できるようにして検出率を向上させる。また、現在目視によって炎上を判断できるか調
査を行っているが、システムによって炎上を判断できるか自動化を目指す。
37
8 . 参考文献
[1]
http://e-words.jp/w/E99BBBE5AD90E68EB2E7A4BAE69DBF.html
[2]
辻智佐子,辻俊一,渡辺昇一:インターネット・コミュニケーションにおける公共性研究
における一考察,pp. 33-51,2011.
[3]
高間康史,小井沼岳:BBS スレッドにおける話題遷移理解を支援する視覚的要約の手法,
知能と情報(日本知能情報ファジィ学会詩),Vol.22,No.6,pp.680-690,2010.
[4]
http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes02.html
[5]
http://www.ruby-lang.org/ja/about/
[6]
http://neworlder.com/Processing/Processing.html
[7]
岡村剛,角康之,西田豊明:電子掲示板からの興味のある会話の抽出支援,2005.
[8]
http://ja.wikipedia.org/wiki/%E7%82%8E%E4%B8%8A_(%E3%83%8D%E3%83%
83%E3%83%88%E7%94%A8%E8%AA%9E)
[9]
http://footballchamp.nobody.jp/trade.html
[10] http://headlines.yahoo.co.jp/hl?a=20121220-00000575-san-soci
[11] http://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%9E%E3%82%A4%E3%83%AA
%E3%83%BC%E3%82%AD%E3%82%AF%E3%83%81%E4%B8%AD%E5%82%B7
%E8%A2%AB%E5%AE%B3%E4%BA%8B%E4%BB%B6
[12] http://www.itmedia.co.jp/news/articles/0704/27/news092.html
[13] http://www.ikioi2ch.net/search/%E7%82%8E%E4%B8%8A
[14]
https://online-tl.org/keep25/toolkit/html/snapshot.php?id=14826143733064: 2001
阪南大学コピペ検索システム‐教育の質の向上のために‐:花川 典子
38
9. 謝辞
本論文を行うあたり査読をしていただき、授業でもお世話になった前田利之先生に感謝致
します。本論文の査読をしていただき、授業でもお世話になった北川悦司先生に感謝致し
ます。奨学金をいただき、研究する環境を提供してくださった本大学院に感謝致します。
研究するにあたり作業を手伝っていただいた本大学経営情報学部経営情報学科 3 回生の臼
杵高太郎氏に感謝致します。大学院生活において雑務や研究室を和ませてくれた本大学経
営情報学部経営情報学科 4 回生の三好健太氏に感謝致します。研究するに当たり色々と助
言を下さった本大学院修士課程 2 回生の仙田友久氏、松谷栄輝氏に感謝します。尾花将輝
氏に感謝します。最後に研究やプレゼンテーションなど様々な指導をしていただきお世話
になった花川典子教授に感謝致します。
39
Fly UP