...

学生間関係マップを使用したコピペの クロスチェックの誤認識

by user

on
Category: Documents
19

views

Report

Comments

Transcript

学生間関係マップを使用したコピペの クロスチェックの誤認識
2011 年度
修士論文
指導教員
花川
典子
教授
学生間関係マップを使用したコピペの
クロスチェックの誤認識回避方法の提案
Improving incorrect recognition for
copied reports among students using student relation maps
阪南大学大学院企業情報研究科
企業情報専攻
8110005 佐々木
剛
目次
1
はじめに .................................................................................................................. 1
2
関連研究 .................................................................................................................. 3
2.1 コピペルナー .................................................................................................... 3
2.2 turnitin ............................................................................................................. 4
2.3 永井らのシステム ............................................................................................. 5
2.4 高橋らのシステム ............................................................................................. 5
3
コピペ検出システム ................................................................................................ 7
3.1 システムの概要 ................................................................................................. 7
3.2 Copy&Paste ..................................................................................................... 8
3.2.1 Web チェック機能 ..................................................................................... 9
3.2.2 クロスチェック機能 ................................................................................. 10
3.2 クロスチェック機能の問題点 ......................................................................... 11
4
クロスチェック機能の誤認識回避方法の提案....................................................... 15
4.1 概要 ................................................................................................................. 15
4.2 学生間関係マップ ........................................................................................... 16
3.5.1 マグネティックスプリングモデル ........................................................... 17
4.3 学生間関系マップ上での誤認識箇所 .............................................................. 18
4.4 誤認識の回避方法の提案 ................................................................................ 21
5
誤認識回避精度の検証........................................................................................... 27
5.1 検証のための適合率と再現率 ......................................................................... 27
5.2 現状と誤認識回避結果 .................................................................................... 28
5.3 学生数閾値とコピペ回数閾値の検証 .............................................................. 29
6
まとめ .................................................................................................................... 33
7
参考文献 ................................................................................................................ 35
謝辞............................................................................................................................... 36
付録............................................................................................................................... 37
1 はじめに
近年多くの大学では教育の一環としてレポート課題を取り入れている.学生はレポー
トを作成することにより,文章能力,考察力,調査力,など様々な能力を獲得すること
ができる.また,教員にとっても,授業中に講義したこと以外に学生が自ら調査し考え
た内容を知ることができ,通常のテストでは測れない学生の理解度を把握することがで
きる.数年前までレポート作成は手書きが主流であったが,最近では,コンピュータの
発達,インターネットの普及によりコンピュータの文書作成ソフト(MS-Word など)で
レポート作成を行い,文書ファイルの電子データで提出するという教育方法が浸透して
いる.これによって,学生はメールや Web ベースのレポート提出方法で,自宅からレ
ポートを提出できる.さらに教員は添削結果やコメントをメール等で容易に返答でき,
何度も添削やコメント等の指導が実施でき,充実した教育環境が実現された.
しかし,コンピュータ上で作成するレポート課題には手書きで作成するレポート課題
とは別の問題点がある.現在のほぼ全てのコンピュータはインターネットに接続してお
り,学生はレポート作成時にインターネット検索にて容易に必要な情報を得ることがで
きる.もちろん,電子図書館のように有意義な情報を自宅に居ながら入手できることは
高価値である.しかし,インターネット検索を容易にできる環境にてレポートを作成す
るので,検索した結果の Web ページの文章をそのままコピーしてレポートに貼り付け
るコピーアンドペースト(以下,コピペと称す)を行ってレポート作成するという問題
がある.このコピペ行動には著作権の問題はもとより,学習効果が上がらないという問
題点がある.
そこで,学生のコピペで作成したレポートを検出するために「コピペ検出システム」
を開発し,一定の教育効果を上げることが確認できた[1].本システムの主な機能は2
つあり,インターネット検索した Web ページからの文章のコピペを自動的に検出する
機能と,学生間のレポートのコピペを自動的に検出する機能である.本論文では,本シ
ステ
ムの2番目の機能である学生間のコピペ検出の精度向上に着目する.学生間の
コピペ検出では,同一科目の同一テーマでのレポート作成であるので,コピペの誤検出
が多く発生する.例えば,同じ教科書を参照してその内容をまとめる課題や,同じ事件
をもとにその経緯を説明させる課題等である.学生間でレポートのコピペをしなくとも,
自ずとその内容は似ており,その類似性でコピペであると誤認識されるケースが多い.
1
そこで,本論文では,開発したコピペ検出システムの学生間レポートのコピペ誤検出の
回避方法を提案する.アプローチは学生間のコピー関係をグラフ形式で表現する学生間
関係マップを作成し,その特徴ある部分を取り出すことで誤認識箇所を特定する手法を
とる.これによって,コピペ検出システムの学生間レポートのコピペ検出精度を向上さ
せる.
本稿では,2 章では本システムと同様にコピペを検出するシステムについて述べ,3
章では本システムの概要を述べ,4章では学生間のコピペ検出の精度向上する手法につ
いて述べ,5章では提案した手法の有効性について述べ,6章でまとめと今後の課題に
ついて述べる.
2
2 関連研究
近年,レポートや論文のコピペ文章の問題が注目されており,本学で開発したコピペ
検出システムと類似のシステムの開発や研究が盛んに行われている.以下に紹介する.
2.1 コピペルナー
コピペルナーとは金沢工業大学知的財産科学研究センター長の杉光一成教授が考案し,
株式会社アンクが開発したコピペ判定支援システムである[2].コピペルナーはすでに
販売しており,本研究で開発したコピペ検出システムと類似したシステムである.コピ
ペルナーは,文書ファイルに Web ページやコピペルナーに登録した文献などから,コ
ピペを行った文章を検出するシステムである.また,コピペの判定する際に形態素解析
エンジンを用いることにより,コピペ元の文章を多少変更してもコピペしていると判定
することができる.このコピペルナーにはシングルチェッカー,マルチチェッカー,ク
ロスチェッカーの 3 つの機能がある.シングルチェッカーは,1 つのレポートファイル
を Web ページや,コピペルナーに登録した文献と比較してコピペを判定する機能であ
る.Web ページとの比較方法は,検索キーワードを最大 5 つ指定し,yahoo 検索エン
ジンを用いて検索を行い,5 つの検索結果の Web ページ(最大各 100 件)とレポートを
比較する仕組みである.マルチチェッカーはシングルチェッカーと同様の機能であるが,
複数のレポートファイルを指定することができ,複数のファイルを一括してコピペ判定
を行う機能である.しかし,同時に指定できるファイル数は 50 件と上限があることか
ら大学のレポート試験などの大規模な環境では使用できない.
図 1
図 2
コピペルナー判定画面
3
コピペルナー設定画面
図 3
クロスチェッカー結果画面
また,Web ページを取得する際に用いる 5 つの検索キーワードは,指定した全レポ
ート共通の検索キーワードになってしまうため,同一内容のレポートを指定しなければ
コピペを行った可能性のある Web ページを取得できない可能性がある.クロスチェッ
カー機能は指定した複数のレポートファイル同士でコピペ文章があるか判定する機能
である.この機能でレポートを判定した結果は図 3 のようにシングルチェッカーとマ
ルチチェッカーと大きく異なっている.また,レポート同士のコピペを行った相関関係
の表示がある.
2.2 turnitin
turnitin とは米国 iparadigms 社が開発した不正コピー検出システムである[3].この
システムは,米国の教育機関などでも使用されており,現在サポートしている言語は英
語,ドイツ語,フランス語,スペイン語,ポルトガル語,トルコ語,日本語,韓国語,
マレー語,そして中国語(繁体および簡体)もあり世界的に使用されているシステムで
ある.このシステムの特徴は Web システムのため,大学などの大規模な環境でも使用
でき,個人でもシステムを使用することができる.
図 4
Turnitin 判定画面
4
また,コピペ判定を行うための比較文書は約 14 億の Web ページ数と独自に収集を行
っている約 1 億件もの論文などの文書ファイルをレポジトリデータベースに蓄えてあ
る.このレポジトリデータベースに蓄えられた文章と比較することにより不正コピーの
検出を行うことができる.さらに,コピペ判定を行ったレポートファイルはレポート間
コピペの判定用のレポジトリデータベースに蓄えられるため,レポート間の不正コピー
も検出することができる.
2.3 永井らのシステム
永井らは類似度で不正コピー文章を判定するのではなく,レポート文章を作成する際
の作成編集履歴に着目した「レポート評価支援システム」を開発した[7].このシステ
ムは,学生が Web サーバーにあるレポート作成用エディタを使用してレポートの作成
を行い提出する仕組みである.このレポート作成用エディタの編集機能には,
「カット」,
「コピー」,「ペースト」,「アンドゥ」,「リドゥ」を備えている.学生がレポート
作成時に入力,削除,コピぺを行った場合に変更履歴情報が取得・更新・保存され,レ
ポート提出時には変更履歴情報も提出される.この変更履歴情報からコピペを行った一
番長い文章を yahoo 検索エンジンで検索を行い Web ページの URL を取得することに
よりコピペ元の Web ページを発見することができる.このシステムの特徴は文章の類
似度で不正コピー文章の判定をするのではなく,レポート作成編集履歴に着目している
点である.レポートと一緒に提出される変更履歴情報を解析することにより不正コピー
文章の検出だけではなく,学生がどのようにレポートを作成しているかを把握すること
ができる.そのため,教員は変更履歴情報をもとにレポート作成方法の指導することが
可能となる.
2.4 高橋らのシステム
高橋らは複数の Web ページからのコピペしたレポートを検出するシステムを開発し
た[5][6].このシステムでは,まず学生がコピペした元になる Web ページを検索するた
めに,レポート文章内で一番長い単語を上位 3 つ抽出する.抽出した単語を組み合わせ
て検索キーワードを作成し,検索エンジンを用いて検索を行う.検索結果の上位の Web
ページを取得することによりレポートと比較する文章を取得する.取得した Web ペー
5
ジとレポートを表層情報解析に用いられる n-gram 解析を用いて類似度計算を行い,コ
ピペした文章を検出する.しかし,この方法では 3 種類の単語で組み合わせた検索結果
の Web ページでしか類似度計算ができない.そのため,コピペ文章を検出できなかっ
た文章を改めて,検索キーワードの抽出から行う方法により,様々な Web サイトから
のコピーに対応する手法を取っている.具体的には,まずレポートの複製を作成し,複
製したレポートで検索キーワードの抽出を行い,Web ページの検索及び Web ページと
類似度計算を行いコピペしている文章の検出を行う.さらに検出した文章を複製したレ
ポートから削除し,もう一度,文章内で一番長い単語を上位 3 つ抽出する.そして,抽
出した単語で検索キーワードを作成し検索を行い,結果の Web ページと複製したレポ
ートを類似度計算するということを繰り返すことにより,複数の Web ページとレポー
トを比較するシステムを開発した.また,開発したシステムを評価するために,Web
ページからコピペして作成したレポートや,コピペせずに作成したレポートを用いて実
験を行った.その結果,複数の Web ページからのコピペを検出する方法として有効で
あることを示した.しかし,Web ページ検索に用いる単語の抽出方法に問題があるた
め,コピペして作成した全てのレポートを検出することができなかった.
6
3 コピペ検出システム
3.1 システムの概要
コピペ検出システムは阪南大学のレポート試験にて学生のレポートに含まれる剽窃
部分を自動検出するシステムである.ここでいう剽窃部分は,Web ページの一部の文
章のコピーや,他の学生のレポートの一部の文章のコピーを含む.コピペ検出システム
は阪南大学で実際の運用することを目標に開発を行った.阪南大学のレポート試験では
提出されるレポート数は最大 10000 件程度ある.また,レポート提出を締め切ったあ
と,レポートの評価を行う教員に渡すのが 3 日後がとなるため,事務員の作業工程を考
慮して 12 時間以内に 10000 件のレポートを処理することを目指した.図 5 にコピペ
検出システムの実行画面,図 6 にシステムの全体図を示す.
本システムは大規模処理量となるために大学の教室 PC を利用した分散環境を構築し
た.なぜならば,本システムで計算する類似度計算処理は A4 一枚程度の文字数のレポ
ートで 30 分程度の時間がかかってしまうため,10000 件のレポートを1台の PC で処
理をする場合は,約 208 日かかってしまう.そのため,阪南大学の教室には学生が使
用できる教室 PC が 560 台あり,ネットワークで接続した大学のインフラ環境を利用し
て,教室 PC に処理を分散させることにより,10000 件のレポートを 12 時間以内に処
理を完了するシステム構成を実現した.分散処理のために,管理 PC を設置し分散処理
管理用プログラムである PCAdministration や,そのほかの細かなツールがインストー
ルされ実行される.教室 PC にはコピペ検出処理のメイン部分である Copy&Paste プロ
グラムがインストールされ実行される.管理 PC の分散処理管理用プログラム
図 5
コピペ検出システム実行画面
7
図 6
コピペ検出概要図
PCAdministration は接続されたすべての教室 PC を管理し,Copy&Paste プログラム
の起動,処理の依頼,処理終了の通知,次の処理の依頼等の管理と,ハングアップ等の
故障系やエラー系の管理を行う.教室 PC の Copy&Paste プログラムが実際に Web ペ
ージや他の学生のレポートとのコピペ箇所を検出する処理を実行する.
コピペ検出システム全体の処理の流れは,まず管理 PC の PCAdministration プログ
ラム上でコピペチェックを行う学内 NAS サーバー-内のファイル選択を行う.次に選択
したファイルパス(教室 PC に 1 台につき,ひとつのレポートファイルパス)を管理
PC から各教室 PC へ送信して,コピペ検出処理を依頼する.教室 PC は送られてきた
ファイルパスをもとに学内 NAS サーバーにあるファイルにアクセスしコピペ検出処理
を行う.そして処理が終了したら結果を xml ファイル形式で出力し,レポートファイ
ルと同じディレクトリ内に出力する.そして管理 PC に処理が終了したと通知し,次の
処理まで待機する.コピペ検出システムの核となる Copy&Paste プログラムの詳細は
以下に示す.
3.2 Copy&Paste
Copy&Paste は教室 PC にインストールされているプログラムである.このプログラ
ムの主な機能として,レポート文章内に Web ページの文章のコピペを検出する Web
チェック機能と,他の学生のレポートの一部の文章のコピペを検出するクロスチェック
8
機能がある.これらの2つの機能の大きな違いは比較する文章の違いである.Web チ
ェック機能はインターネットを用いてコピペした可能性のある Web ページの文字のみ
を抽出して比較することにより,Web ページからのコピペを検出すのに対して,クロ
スチェック機能は,レポート試験の同一科目の提出されたレポートファイルの文章と比
較することにより,レポート間コピペの検出を行う.これら2つの機能の詳細を以下に
述べる.
3.2.1 Web チェック機能
Web チェック機能とは提出されたレポート文章内に Web ページの文章からのコピペ
検出する機能である.Web チェック機能のコピペ検出方法を図 7 に示す.始めに検出
するレポートファイルを文字列のみを抽出して,そこから形態素解を行い名詞のみを抽
出する.抽出した名詞を TF/IDF 法と空間ベクトル法を用いてレポートの内容を推測で
きる 4 つの重要語を見つけ出す.見つけ出した 4 つの重要語を組み合わせて 31 通りの
検索キーワードを生成する.生成した検索キーワードを用いて,プログラムから google
検索を行い,検索結果の上位 10 位の Web ページの文字列のみを抽出して比較する文書
として保存して文書空間を構築する.次にレポートファイルの文章と,作成した文書空
間を句読点の「。」で 1 つの文と考え,3 文節に区切り 3 文節ずつ類似度計算を行う.
類似度計算の方法は TF/IDF 法と空間ベクトル法を用いて計算を行い,類似度が高い場
合にコピーがあると判断する.今回は 60%以上の類似度の場合コピーと判断し,コピ
ペ検出結果は XML ファイルファーマット形式で出力を行う.出力ファイルの XML フ
ァイルを MS-Word で開くと図 8 のように表示される.出力ファイルでは,コピーの
疑いがある箇所は本文が蛍光色の赤で塗りつぶされており,右側のコメント欄にどの
Web ページからコピーされたかと,類似度計算の計算結果をコピーの可能性と表示し
図 7
Web チェック機能概要
9
図 8
Web チェック出力ファイル
ている.
3.2.2 クロスチェック機能
クロスチェック機能とは提出されたレポート文書にレポート間でコピペを行った文
章を検出する機能である.クロスチェック機能のコピペ検出方法を図 9 に示す.Web
チェック機能と大きく違う点は文書空間の作成方法である.Web チェック機能は Web
ページから文書空間を作成するのに対して,クロスチェック機能は処理をするレポート
ファイルと同じ科目の全てのレポートファイルを文書空間とすることによりレポート
間コピペの検出を行う.レポート間コピペでは,Web チェック機能は 3 文節区切りで
類似度計算を行うのに対して,クロスチェック機能は 5 文節区切りで類似度計算を行う.
図 10 のようにクロスチェック出力ファイルも Web チェック出力ファイルと同様にコ
ピーの疑いがある箇所は本文が蛍光色の赤で塗りつぶされており,右側のコメント欄に
はどの学生からからコピーしたかと,類似度計算の計算結果をコピーの可能性と表示し
ている.
図 9
クロスチェック機能概要
10
図 10
クロスチェック出力ファイル(1)
3.2 クロスチェック機能の問題点
(1)過去 3 回のクロスチェックの結果
コピペ検出システムは阪南大学で現時点までで 3 回のレポート試験での運用実績が
ある.2010 年前期試験ではテスト運用として,学生にコピペチェックを行うことを告
知せずに運用し,2010 年後期試験から学生に告知を行った後に運用させ,2011 年前期
試験も同様に学生にコピペチェックを行うと告知した後に運用した.2010 年前期試験
の運用実績は提出レポート数 5316 件あり,Web チェック機能のコピー検出数は 2042
件,クロスチェック機能のコピー検出数は 3274 件である.2010 年後期試験ではレポ
ート数 6489 件であり,そのうち Web チェック機能のコピー検出数は 1948 件,クロス
チェック機能のコピー検出数は 2815 件であった.2011 年前期試験では,提出レポー
ト数 6026 件であり,Web チェック機能のコピー検出数は 2744 件検出,クロスチェッ
ク機能のコピー検出数は 3262 件であった.コピー検出数は Web チェック機能とクロ
スチェック機能共にレポート内に 1 箇所でも検出されたレポート数のことである.図
11 は Web チェック機能のコピー検出率をまとめたものであり,図 12 はクロスチェッ
ク機能のコピー検出率のグラフである.
11
図 11
図 12
Web チェック検出率
クロスチェック検出率
図 11 と図 12 のグラフで示した通り,Web チェック検出率,クロスチェック検出率
が運用回数を重ねるごとに減少していっていることが分かる.図 11 と図 12 のグラフ
を比較すると明らかにクロスチェック検出率が高いことが分かる.2010 年前期試験の
クロスチェック検出率は 63.5%の検出率があり,学生の 3 人中 2 人がコピペを行って
いることとなる.しかし,実際に学生の 3 人中 2 人がコピペを行っているとは考えられ
ないため,コピーしていない学生をコピーしたと誤認識している可能性が分かる.その
ためクロスチェック機能の出力ファイルの分析を行った.
12
(2)誤検出と考えられる例
図 13 は実際のクロスチェック機能の
出力ファイルのコメント欄を別ウィンド
ウで表示した図である.図 13 のレポー
トは,学籍番号「2108***」の学生レポー
トである.学籍番号は学生の個人情報の
ため下三桁は「***」と記載する.本大学で
は学籍番号は 7 桁の数字で表し,上 2 桁
は学部を表し,次の 2 桁は入学年度を表
している.クロスチェック機能の目的は
レポート間コピぺを検出する機能である.
このレポートでは「6310***」・
「6208***」・「5111***」・「4109***」
「6311***」・「 2111***」の学生からコ
ピーしていると検出されている(図 13
の赤枠参照).図 14 はこのレポート間
のコピーの相関図である.図 14 のよう
にこのレポートは多くの学生からコピー
しており,また,コピー参照先の学生も
図 13
多くの学生とコピーしていることがわか
クロスチェック出力ファイル(2)
った.実際にレポート間のコピーを行
うのは多くても 2 人,3 人からコピー
を行うと考えられるため,このような
相関図になるということはコピーを誤
図 14
認識している可能性が非常に高いと考
レポート間コピー相関図
えられる.また,レポート間コピペは仲の良い学生同士でコピペしあう可能性が非常に
高い.そのため,同学年であり,かつ同じ学部の学生同士でコピーを行う可能性が非常
に高いと考えられるが,実際には,学部や学年が違う学生同士でコピーを行っていると
検出されていることが分かる.
13
(3)誤検出になる理由
図 13 の科目のレポート課題はガリレオ・ガリレイの業績について問うレポート課題
である.そのため,この科目のレポートはガリレオ・ガリレイが実際に行った業績を記
述している内容になる.しかし,この科目のクロスチェック出力ファイルを分析すると,
コピー検出箇所のほとんどが,ガリレオ・ガリレイの業績について記述している文章が
コピーしていると検出されていることが分かった.このレポート課題では,多くの学生
がガリレオ・ガリレイの業績を記述することになり,学生のレポート文章が類似してし
まっており,特にガリレオ・ガリレイの業績について記述している文章がレポート間で
コピーしていると誤認識して検出されていることが分かった.
その他にも,違う科目のレポート課題では教科書の要約という課題が出題されており,
この科目でも非常にコピー検出数が多いことが分かった.この科目のレポートを分析し
たところ,非常に類似した文章を記述している学生が多数存在している.なぜならば,
教科書の重要な部分をレポートに記述してしまうため,類似した文章を作成してしまう.
そのためクロスチェック機能は類似した文章をコピーしたと誤認識してしまっている
ことが分かった.
(4)クロスチェックの問題点のまとめ
実際にクロスチェック機能の出力ファイルを分析したことにより,レポート間でコピ
ーを行っていない文章をコピーと誤認識して検出されていることが分かった.また,学
生達がレポートを作成する際に同じ Web サイトを参照や,コピーした場合も非常に類
似した文章となるため,上記のようにクロスチェック機能では誤検出してしまうと考え
られる.このような誤認識の細かな傾向や特徴などを把握するためにはレポートファイ
ルの分析を行う必要がある.しかし,阪南大学が実施した 2010 年後期レポート試験で
のレポート数は 6489 件あるため,全てのレポートを 1 つ 1 つ調査するのが難しい.ま
た,クロスチェックの相関関係は図 14 のように非常に複雑になっているため,1 つ 1
つ調査を行って学生の関係や,どのような特徴があるかを把握するのが非常に難しい.
そのため,自動的に誤認識を判別するツール等が必要となる.
14
4 クロスチェック機能の誤認識回避方法の提案
4.1 概要
クロスチェック機能の誤認識の特徴を発見するために学生間関係マップを作成し
た.学生間関係マップとは,クロスチェック出力ファイルを解析し,レポート間でのコ
ピペを行った相関を表すグラフのことである.この学生間関係マップを学年単位や,科
目単位などで作成することにより,通常では多すぎる関連を示す学生間関係マップをい
くつか確認した.図 15 は誤認識している学生間関係マップイメージ図である.非常に
コピーした関係が複雑になっているのが分かる.「2108***」の学生は 8 人の学生から
コピペしている.しかし,現実的にレポート作成する際に,8 人の学生からコピペして
レポートを作成したとは考えられない.学生同士でコピペする場合,多くても 2,3 人
の学生からコピペしてレポート作成すると考えられる.そのため,図 15 のように 8 人
の学生とコピペ関係があるということは,「3.2 クロスチェック機能の問題点」で述べ
たように,レポート課題により非常に類似した文章を学生間でコピペしたと誤認識して
検出している可能性が高いのではないかと考えた.そのため,図 15 のような複数の学
生からコピペした関係を排除するこ
とにより,誤認識を回避することがで
き本来学生間でコピペした学生の検
出を行う方法を提案する.図 16 は図
15 を元に複数の学生からコピペした
と検出されている学生を排除し,レポ
ート間でコピペした学生の相関イメ
図 15
誤認識相関イメージ
ージである.図 15 の「2111***」と
「2108***」の関係は,1 対 1 の関係
となっており,このような学生を絞り
込み,他の学生は誤認識していると判
定することによりクロスチェック機
能の検出精度の向上を図る.
図 16
15
コピペ間レポート相関イメージ
4.2 学生間関係マップ
学生間関係マップを図 17 に示す.図 17 は学生間関係マップを科目単位で作成した
例である.グラフのノードは学生を意味しており,黄色の丸で表示している.コピーした
学生とコピーされた学生は,学生間の関係があると判定して赤い線で繋がっている.この
線をリンク,ひとつのノードから出ている線の赤い線の数をリンク数と言う.また,線
で結ばれた学生同士の距離は学生関係の強さを表しており,この強さはリンク値を元に
算出している.
リンク値は,
クロスチェック出力ファイルのである XML ファイルから,
どの学生と何回コピーしたかを抽出する.そして,抽出したコピー回数の逆数に重みを
加えることにより算出する.リンク値を求める計算式は式(1)に示す.
リンク値
1
コピー回数
300
(1)
式(1)中の定数 300 とは重みのことであり,図 17 のようなマップの描画域に合わ
せた重みを加えることにより描画範囲に広がったビジュアルなマップを生成すること
ができる.算出したリンク値は,関係する 2 人の学生間のコピー回数が多いほどリンク
値は小さくなり,コピー回数が少ないほど,リンク値が大きくなる.このリンク値を用
いて三末・杉山が考案したグラフレイアウトアルゴリズムであるマグネティックスプリ
ングモデルにて図 17 に示すグラフ上のノードの位置を決定する[8].
16
図 17
学生間関係マップ(1)
図 18
学生間関係マップ生成イメージ
図 18 は学生間関係マップを作成するイメージである.学生間関係マップを作成する
のには,まず学生 A のレポートでは,どの学生から何回コピーしているかをクロスチ
ェック出力ファイルから検索する.検索した結果,学生 B から 10 回,学生 C から 1
回,学生 D から 5 回,学生 E から 3 回コピーしたことがわかる.コピー回数を式(1)
に当てはめることにより,それぞれのリンク値を算出する.算出したリンク値は学生 A
と学生 B 間では 30,学生 A と学生 C 間では 300,学生 A と学生 D 間では 60,学生 A
と学生 E 間では 100 となる.求めたリンク値をマグネティックスプリングアルゴリズ
ムを用いて,マップ上の位置(X 座標,Y 座標)を計算し,描画することにより図 18
の右側のようなノードの位置が決定しマップが生成される.生成されたマップでは,リ
ンク値が小さいほど学生同士の距離が短くなるため,
リンク値が一番小さい B が学生 A
の近くに描画され,リンク値が一番大きい学生 C は学生 A から離れて描画される.
3.5.1 マグネティックスプリングモデル
マグネティックスプリングモデルは,グラフの辺がスプリングで構成される物理モデ
ルとみなし,その安定状態を見つけることでレイアウトを自動的に求めるスプリング・
モデルに,「磁場」の概念を導入したアルゴリズムである.図 19 のようにマップのリ
ンクはスプリングで構成されているためノードには隣接するノード同士が引き合う力
である引力や,ノード同士が反発しあう力である斥力が働く.これらの力の作用は,
XML ファイルから算出したリンク値を理想の距離とし,全てのノードがリンク値の距
離に近づくように働く.
17
図 19
スプリングの力
図 20
マグネティックスプリングモデルの概要
図 20 はマップに描画した際に,引力と斥力の働くイメージである.学生 A と学生 B
のリンク値は 30 であり,描画された距離が 60 離れていた場合は,リンク値に近づこ
うとこうとする力である引力が働き学生 A と学生 B の距離が縮まる.学生 A と学生 C
のリンク値は 80 であり,描画された距離が 50 離れている場合は,ノードが反発し合
う力である斥力が働き,学生 A と学生 C の距離が離れる.このように描画された全て
のノードに対して,リンク値に近づく力を働かせ,ノードを移動させる.この動作を全
てのノードに対して行い,ノードの動く距離が微量になるまで繰り返すことにより学生
間関係マップを生成する.
また,マグネティックスプリングモデルでは「磁場」の概念を導入し,辺を「方位磁
針」と見なすことにより磁場から受ける回転力を定義することにより,辺の向きや方向
性を制御することが可能である.磁場の種類は「平行磁場」・「放射所磁場」・「同心
円状磁場」の 3 種類あり,これらの 3 種類の磁場を組み合わせた「複合磁場」がある.
今回は「同心円状磁場」を用いて学生間関係マップを生成した.
4.3 学生間関系マップ上での誤認識箇所
作成した学生間関係マップを学年単位や科目単位などの様々な集合で作成した.作成
した学生間関係マップを調査したところ科目単位で作成した学生間関係マップには 2
つの種類の特徴のあることが分かった.図 21 はレポート間コピペ検出率の低い科目で
作成したマップである.コピペ検出率が低いため,ノード数は多いがコピペした学生同
士が線で繋がっているノードが少ないことがわかる.また,線で結ばれているノードを
見てもリンク数が少ないため,学生間の関係は複雑ではなく,レポート間でコピペした
学生の結果がマップに表されていると推測できる.図 21 の学生間関係マップとは対照
18
的に図 22 の学生関係マップでは一見レポート間でコピペした集合がきちんと収束し
ているように見える.しかし,図 22 の青い円で囲ってある一番上の集合を拡大した図
23 を見ると 1 つの集合で 20 人程の学生が互いにコピーしていることが分かる.クロス
チェック検出率が高い科目のマップはこのような特徴があるケースがいくつか発見で
きた.また,この特徴のあるマップの学生のコピー箇所を出力ファイルである XML フ
ァイルを調査した.その結果,「3.2 クロスチェック機能の問題点」で述べたように同
一 Web サイトからコピーした文章が,レポート間でコピーしたと検出されていること
や,レポート課題内容によって必然的に必要な文章がコピーしたと検出されていること
が分かった.上記のことから,図 23 のようなリンク数が非常に多い特徴のレポートは,
誤認識している学生である可能性が高いことがわかった.すなわち,学生間関係マップ
で表示されたリンク数の多い学生の集合が誤認識している集合であるということであ
る.
図 21
学生間関係マップ(2)
19
図 22
図 23
誤認識マップ
誤認識マップ拡大図
20
4.4 誤認識の回避方法の提案
本節ではレポート間コピペの誤認識を回避する方法を提案する.図 24 は誤認識回避
方法のフローチャートである.以下の 3 つのステップで構成される.
Step1. 学生間関係マップを用いて誤認識が発生している科目を絞り込む.
Step2. 学生数閾値を用いてコピペ箇所の絞り込みをする.
Step3. コピペ回数閾値を用いてレポートを絞り込む.
まず,学生間関係マップを作成して,誤認識の特徴があらわれた科目を「誤認識があ
る科目」として絞り込む.次に5文節内でのコピペ元学生数を検索しコピペ元学生数が
学生数閾値以下のコピペ箇所のみを絞り込む.最後に1レポート中の同一学生からコピ
ペ回数を集計し,コピペ回数がコピペ回数閾値以上のレポートに絞り込む.3 ステップ
の絞り込みによって残ったレポートが「レポート間コピペのあったレポート」と判断す
る方法である.次節以降に各ステップについて説明する.
Step1:学生間関係マップを用いて誤認識が発生している科目を絞り込む
誤認識の特徴あり
Step2:学生数閾値を用いてコピペ箇所の絞り込みをする
学生数閾値以下
Step3:コピペ回数閾値を用いてレポートを絞り込む
コピペ回数閾値以
レポート間コピペあり
図 24
誤認識(コピペではない)
誤認識回避方法のフローチャート
21
図 26
(1)
Step1.
図 25
レポートで学生数検索イメージ
5 文節で学生数検索イメージ
学生間関係マップを用いて誤認識が発生している科目を絞り込む
4.3 節の図 22 と図 23 で示したような学生間関係マップの誤認識の特徴を示す科目を
探し,誤認識が発生している科目を絞り込む.2011 年度前期のレポート試験のすべて
の科目の学生間関係マップを付録に示す.例えば,図 43 に示す生命科学 a_2 の科目の
マップは典型的な誤認識の特徴をもつ.このように学生間関係マップを作成して,誤認
識がある科目を絞り込む.
(2)
学生数閾値を用いてコピペ箇所の絞り込みをする
次に,5 分節で区切られた文章において,いくつの他のレポートと類似しているかを
検索する.図 25 の例では,最初の箇所は「学生 A」のみのレポートからコピペの可能
性が示されている.2 番目の 5 文節では,学生 B,C,D の 3 レポートからのコピペの
可能性が示されている.3 番目の 5 文節では学生 E の 1 レポートからのコピペの可能性
が示されている.ここでは,1 番目の箇所は 1,2 番目の箇所は 3,3 番目の箇所は1の
数値を求める.このように求めた数値をコピペ元学生数と呼ぶ.
ここで,5 文節ごとのコピペ元学生数を求めた理由をのべる.図 26 は 1 レポート全
体のコピペ元学生数を求めた例である.学生 A から G まで 7 名の学生からコピペした
ことが分かる.また,4.3 で示した学生間関連マップはこの7という数値を利用して
リンク(ノード間の関連)を表現した.しかし,実際は図 23 で示すようなコピペ検出
結果であり,7 名すべてが均等にコピペ元となったわけではない.この均等にコピペ元
にならないにもかかわらず,7 名をコピペ元とすると精度が低下する恐れがあるので,
22
図 23 に示すように5文節ごとにコピペ元学生数を求めることにした.また,5 文節の
5の理由は「3.2.2 クロスチェック機能」で述べたように類似度計算を 5 文節ずつ行う
ためである.
5文節内でのコピペ元学生数を求め学生数閾値より小さい場合は,Step3 の処理に移
る.学生数閾値より大きい場合は最終的に誤認識(つまりコピペではない)と判定する.
図 25 の例で,学生数閾値が 1 の場合,最初の 5 文節ではコピペ元学生数は 1 であるた
め,学生数閾値以下となり,Step3 の処理に移る.2 番目の 5 文節のコピペ元学生数は
3 であり,学生数閾値より大きいので誤認識であったと判断する.3 番目の 5 文節のコ
ピペ元学生数は1であり,学生数閾値以下になるため Step3 に移る.
次にコピペ元学生数の閾値の値の 1 の求め方を説明する図 28,図 29,図 30 は「民
法」科目を,コピペ元学生数閾値 1,3,5 を用いて誤認識を排除した学生間関係マッ
プである.図 27 は現在のクロスチェック結果からそのまま作成した学生間関係マップ
である.図 28 は学生数閾値 5,図 29 は学生数閾値 3,図 30 は学生数閾値 1,それぞ
れ設けた学生間関係マップである.つまり,図 28 の学生数の閾値 5 という意味は,図
26 の 2 番目のコピペ元学生数が3の 5 文節もレポート間コピペが実施されたとみなす
ことであり,図 29 の学生数閾値3と図 30 の学生数閾値1は,図 26 の 2 番目のコピペ
元学生数が3の5文節をレポート間コピペではなかったとみなすことを意味する.図
27 と閾値を設けた学生間関係マップを比較すると学生数閾値を小さくするほどマップ
上のリンク数が減少していることが分かる.
次にコピペ元学生の3つの閾値を用いた誤認識検出の精度について述べる.「民法」
のレポート数は 75 件であり,その全てのレポートを目視で調査したところ,5 人の学
生がレポート間でコピペしていたことが分かった.図 27 から図 30 のすべての学生間
関連マップに 5 人学生を検出した.しかし,学生数閾値 5 では誤認識している学生数
344 人,閾値 3 の場合は誤認識している学生数 225 人,閾値 1 の場合は誤認識してい
る学生数 70 人検出しており,まだ誤認識(レポート間コピペではないのにコピペと認
識される)が多く,精度としては低い.そこで,Step3 を行うことにより,さらに誤認
識を回避して精度を向上させる.
23
(3)
図 27
閾値なしのマップ
図 29
閾値 3 のマップ
図 28
図 30
閾値 5 のマップ
閾値 1 のマップ
コピペ回数閾値を用いてレポートを絞り込む
Step1,Step2 で科目と 5 文節ごとのコピペ箇所を絞り込んだ後,レポート全体の同
一学生からのコピペ回数をもとにさらに絞り込む.これは,レポート間のコピペを行う
時には,多くても2,3人の学生からコピペをするという現実から,同一学生からのコ
ピペ回数を調べることを思いついた.したがって,1 レポート中で同一学生からのコピ
ペ回数が多いと,その学生のレポートをコピーした可能性が高くなると判断した.これ
らを誤認識の排除に利用する.
24
Step1,2
Step3
図 31 コピペ回数算出イメージ
図 31 の例では,学生数閾値 3 を設けた Step2 により,最初の 5 文節は誤認識と判定
し,2 番目の 5 文節と最後の 5 文節は学生数閾値以下となり Step3 に移る.Step3 に移
った学生 A と学生 B が何回コピペしているかを算出する.最初の 5 文節は,誤認識の
文章と判定しているため,学生 A と学生 B が含まれていても,集計を行わずに,2 番
目の 5 文節と最後の 5 文節のみで集計するため学生 A のコピペ回数は 2,学生 B のコ
ピペ回数は1となる.Step3 では,このように 1 レポート内の同一学生のコピペ回数を
算出する.
上記の方法で求めた学生毎のコピペ回数が閾値以上の場合,レポート間でコピペした
学生だと判定する.コピペ回数が閾値より小さい場合,誤認識(つまり,コピペしたれ
ぽーとではない)と判断する.図 31 の例でコピペ回数閾値を 2 に設けた場合,Step3)
により学生 A のコピー回数が 2 となり,コピペ回数閾値以上となるため,レポート間
でコピペした学生と判定する.学生 B のコピー回数は 1 となり,コピペ回数閾値より
小さいため誤認識と判定する.
次に同一学生のコピペ回数の閾値の求め方について説明する.図 32,図 33 は,
「民
法」という科目を,学生数閾値を 1 で Step2 を行い,コピペ回数閾値を 10 と 15 に設
定し,誤認識を回避した結果で作成した学生間関係マップである.Step2 までの絞り込
みで作成した図 28,図 29,図 30 の学生間関係マップと比較するとノードとリンク数
が非常に削減することできた.また,図 32 のコピペ回数閾値 10 を設けた結果で作成
したマップでは,「民法」科目で実際にレポート間コピペした学生 5 人中 4 人を検出す
ることができた.図 33 のコピペ回数閾値 15 を設けた学生間関係マップでは,レポー
25
ト間でコピペした学生 5 人中 1 人を検出することができた.つまり,1 レポート内の同
一学生のコピペ回数閾値が 10 の時は 1 人,コピペ回数閾値が 15 の時は 4 人,本来の
レポート間コピペを検出できなかったこととなる.「民法」科目における精度はコピペ
回数閾値を 10 にした方が圧倒的に良い結果となった.
図 32
コピペ回数閾値 10 のマップ
図 33
コピペ回数閾値 15 のマップ
本手法にて利用した 2 つの閾値である「5文節内のコピペ元学生数」と「1 レポート
内の同一学生のコピペ回数」のチューニングについては次章にて検討する.
26
5 誤認識回避精度の検証
5.1 検証のための適合率と再現率
提案したクロスチェック機能の誤認識回避方法の精度の検証を行う.精度の検証を行
う方法は,適合率(precision)と再現率(recall)を求めて検証を行う.適合率は正確性を表
す指標であり,検索結果の中に検索に適合した結果が得られているかを求める.再現率
は網羅性の指標であり,検索結果の中に正しい結果の含まれている割合を求める.適合
率を求める式を式(2),再現率を求める式を式(3)に示す[4].
R
N
precision
recall
R
C
(2)
(3)
図 34 は適合率と再現率の関係を表したものである.赤い円 N はレポート間コピペ
検出結果,つまり提案した回避方法を実施して求めたレポート間コピペを実施した学生
果であり,青い円 C は正解,つまり実際にレポート間でコピペした学生のことである.
円が重なっている部分 R は,本手法にて検出できた正解コピペ学生である.つまり,
適合率と再現率ともに 1.0 に近づくほど,提案手法が有効であることを示す.この適合
率と再現率の指標を用いてクロスチェック機能の誤認識回避方法の精度の検証を行う.
図 34
適合率と再現率
27
5.2 現状と誤認識回避結果
まず,Step1 にて誤認識が発生している科目を絞り込む.付録の全科目の学生間関係
マップより,誤認識の特徴のある科目は,「生命科学 a_2」,「観光計画論」,「日本
史概説」,「心理学 a_1」,「心理学 a_2」,「旅行業論」,「民法 1」,「自然科学
史 a_2」,「ブランドマーケティング」,「国際マーケティング」,「地球環境科学
a_1」の 11 科目に絞り込むことができた.
誤認回避手法の検証として,この 11 科目の内,レポート件数の 50%以上がレポート
間でコピペした可能性があると判断された科目から無作為に 3 科目(科目A,科目 B,
科目 C)を選び検証を行った.表 1 に誤認識回避方法の適用前のクロスチェック機能
の現状を示す.科目 A,と科目 B,科目 C の全ての検出結果数が非常に高い.検出結
果数とはレポート間コピペと認識されたレポートの組み合わせ数であるために,レポー
ト数よりも大きな数になる.また,全てのレポートを目視で調査しレポート間でコピペ
と判定したレポート数を表 1 の「レポート間コピペ数」に示す.レポート間コピペと認
識された割合が非常に高いにも関わらず,実際のレポート間でコピペしたレポート数が
少ないため,適合率が非常に低い.つまり,多くの誤認識があることが分かる.
表2に提案した方法で誤認識を回避した結果の適合率と再現率を示す.最適な閾値を
求める方法については「5.3 学生数閾値とコピペ回数閾値の検証」で述べる.図 35 は
現状の適合率と再現率と最適な閾値で提案した誤認識回避方法を適用した結果で適合
率と再現率を求めたものである.
表 1 クロスチェック機能の現状
レポート数
レポート間コピペ数
検出結果数
適合率
再現率
表 2
適合率
再現率
科目A 科目B 科目C
78
129
103
5
1
2
1590 2405
999
0.31% 0.04% 0.20%
100% 100% 100%
誤認識回避結果
科目A
100%
80%
28
科目B
100%
100%
科目C
50%
100%
100 %
~ ~
80%
50 %
~
1%
0%
図 35
現状と回避後の適合率
まず,適合率を検討する.図 35 に示した通り,現状の適合率と比較すると,圧倒的
に誤認識回避後の適合率の値が高くなったことがわかる.また,誤認識回避後の科目 C
の適合率の値が 50%と低い結果になってしまった.適合率の値が低くなってしまった
原因として,レポート間コピペ学生数が少ないことが考えられる.科目 C のレポート
間でコピペした学生は 2 人であったが,誤認識回避で絞り込んでも 4 人がレポート間で
コピペした学生という結果となり,適合率の値が 50%となった.50%という数値は低
いかもしれないが,999 人を 4 人程度までに絞り込むことができた.したがって,4 人
のレポートを目視で確認することは可能であるため,適合率の値が 50%でも十分に有
益な誤認識を回避できたと言える.
次に再現率について検討する.図 35 で示した通り,現状の再現率と誤認識回避結果
の再現率で比較した際に,誤認識回避後の科目 A の再現率が 80%に減少している.再
現率が 80%に減少した原因を調査したところ,レポート間でコピペした学生1人を排
除してしまった結果である.しかし,その他の B,C の科目では再現率の値は 100%と
なり,レポート間でコピペした学生を排除せずに絞り込むことができた.これらの結果
により,提案した誤認識回避方法は十分に誤認識を回避し,レポート間でコピペした学
生を絞り込むことができたと言える.
5.3 学生数閾値とコピペ回数閾値の検証
提案した誤認識回避方法では,学生間関係マップを用いて科目を絞り込んだ後,2 段
階に分けて誤認識している箇所を回避する.1段階目では学生数閾値,2 段階目ではコ
29
ピペ回数閾値を用いて誤認識を回避する.そのため,誤認識回避精度は,2 つの閾値の
組み合により大きく影響されるため 2 つの閾値の検証を行う.
(1)学生数閾値の検証
まず,学生数閾値の検討を行う.学生数閾値とは「4.4 誤認識の回避方法の提案」で
述べたように,同じ箇所を学生数閾値よりも多くコピペしていた場合,誤認識と判断す
るためのものである.表 3,表 4,表 5 は 3 つの科目に学生数閾値 1,3,5 をそれぞ
れ設置して検証を行った結果である.図 36 は,現状の適合率と再現率と,3 つの科目
に 1,3,5 の閾値を用いて適用した結果の適合率と再現率のグラフである.図 36 の青
の縦軸が適合率を表しており,赤の縦軸が再現率を表している.適合率のグラフでは,
3 科目とも学生数閾値が 1 の場合が,適合率が最も高く,学生数閾値が 5 の場合,適合
率が最も低くなった.
次に再現率について検討を行う.3 つの科目にそれぞれの学生数閾値を設置した結果,
再現率は 3 科目とも全ての閾値で 100%になった.このことから,学生数閾値では,レ
ポート間でコピペした学生を排除せずに,誤認識している学生のみを排除できたことが
わかる.すなわち学生間閾値の最小の値 1 の時に誤認識している学生を効率的に排除で
きた.これらのことから,学生数閾値の最適な値は「1」とした.
表 3
科目A
閾値1
閾値3
閾値5
科目 A 学生数閾値の検証結果
検出結果 適合率
再現率
71
9.091%
100
225
6.757%
100
688
6.667%
100
表 4 科目 B 学生数閾値の検証結果
科目B
検出結果
適合率
再現率
閾値1
71
9.091%
100
閾値3
225
6.757%
100
閾値5
688
6.667%
100
30
表 5 科目 C 学生数閾値の検証結果
科目C
閾値1
閾値3
閾値5
検出結果
192
258
415
適合率
再現率
3.448%
100
2.857%
100
2.817%
100
100%
~
10%
5.%
0.%
1
3
5
科目 A
図 36
1
3
科目 B
5
1
3
5
閾値
科目 C
現状と学生数閾値適用後の適合率と再現率
(2)コピペ回数閾値の検証
コピペ回数閾値の検討を行う.コピペ回数閾値とは「4.4 誤認識の回避方法の提案」
で述べたように,コピペ回数閾値で絞り込んだ学生のコピー回数がコピペ回数閾値より
小さい場合は誤認識と判定するものである.検証方法は,学生数閾値の最適な値である
「1」を設置して絞り込んだ学生に対して,コピペ回数閾値 5,10,15 を設置してさら
に学生を絞り込んだ結果で検討を行う.表 6,表 7,表 8 は,3 つの科目で検証した
結果である. 図 37 は現状とコピペ回数閾値を 5,10,1 と設定して適用した結果のグ
ラフである.コピペ回数閾値が小さくなれば,検出結果が増加する傾向にあり,コピペ
回数閾値が大きくなれば検出結果が減少する傾向がある.そのため,コピペ回数閾値の
大きい方がレポート間でコピペした学生を絞り込めることがわかる.しかし,コピペ回
数閾値 15 を設置した場合,科目 A では検出結果が 1,科目 B では検出結果が 0 になっ
た.このことから,コピペ回数閾値が大きいほど,学生を絞り込めるが,絞り込みすぎ
て本来レポート間でコピペした学生を削除してしまっている.また,科目 B,科目 C
のコピペ回数閾値に 5 を設定した場合,適合率が著しく低くなり,十分に誤認識を回避
できていないことが分かる.一方,再現率については,科目 A,科目 B で学生数閾値
31
が大きくなるほど,再現率は減少し,学生数閾値が小さくなるほど,再現率は増加する
傾向がある.上記でも述べたように,コピペ回数閾値が大きくするほど学生を絞り込む
ことができるが,本来レポート間でコピペした学生を削除してしまっているため,再現
率が減少してしまっている.つまり適合率を上げるためにはコピペ回数閾値を大きくし
なければならなく,再現率を上げるためにはコピペ回数閾値を小さくしなければならな
いということである.誤認識している学生を排除するのは良いのだが,本来レポート間
でコピペした学生を排除してしまってはいけない.そのため,コピペ回数閾値の最適な
値を検討する基準として,再現率を優先した.これらを考慮したうえで,再現率が一番
高い値でかつ,適合率も高い値の閾値である「10」に決定した.
表 6
科目 A コピペ回数閾値検証結果
科目A
閾値5
閾値10
閾値15
検出結果 適合率
再現率
4
100%
80%
4
100%
80%
1
100%
20%
表 7
科目 B コピペ回数閾値検証結果
科目B
閾値5
閾値10
閾値15
検出結果 適合率
再現率
11
9%
100%
1
100%
100%
0
0%
0%
表 8
科目 C コピペ回数閾値検証結果
科目C
閾値5
閾値10
閾値15
5
10
15
科目 A
図 37
検出結果 適合率
再現率
9
22%
100%
4
50%
100%
2
100%
100%
5
10
15
科目 B
5
10
15
閾値
科目 C
現状とコピペ回数閾値適用後の適合率と再現率
32
6 まとめ
現在レポート作成時における Web ページからのコピぺや,レポート間でのコピペが
問題になっている.そのため,レポート内の文章にコピペで作成された文章を検出する
コピペ検出システムの開発し,一定の教育効果を上げることができた.しかし,コピペ
検出システムのレポート間のコピペを検出するクロスチェック機能では,本来はコピペ
していないのに「コピペしている」と判断される誤認識が発生するケースがあることが
分かった.そのため,レポート間のコピペチェックでの誤認識を回避するために,学生
間関係マップを用いて誤認識の特徴を把握し,誤認識部分を排除することによりクロス
チェック機能の検出精度を向上させる手法を提案した.
提案した手法は,まず学生間関係マップを作成して可視化することにより,誤認識し
ている部分の特徴を把握する.学生間関係マップを用いて可視化することにより,複数
の学生からコピペしていると検出されている部分が誤認識している特徴だと分かった.
この特徴から,複数の学生からコピペしている部分を排除するためにリンク数に閾値を
設けることにより誤認識を回避する手法を提案した.しかし,リンク数のみで閾値を設
けた結果を学生間関係マップにて可視化すると,まだレポート単位では複数の学生から
コピペされていることが分かり,実際に学生のレポートを調査すると誤認識しているこ
とが分かった.
そのため,新しい誤認識回避方法を提案した.まず,科目ごとに学生間関係マップを
作成し,誤認識の特徴のある科目を誤認識回避処理対象の科目として絞り込む.次に,
検出された 5 文節ごとのコピペ箇所においてコピー元学生数に閾値を設け,閾値より大
きい場合は誤認識としてコピペ箇所とは認識しない方式である.これによってレポート
間コピペ箇所を絞り込む.さらに,1 レポート内での同一学生からのコピペ回数を数え
て,コピペ回数閾値より小さい場合は誤認識としてコピペレポートと認識しない方式も
加えて提案した.この方法を適用することで,レポート間コピペ検出の適合度が 1%未
満から 100%,または 50%まで改善された.
今後の課題としては,誤認識回避方法の Step1 の自動化である.現在は学生間関係マ
ップを目視で確認して誤認識の特徴を判断しているので,その自動化を目指す.また,
さらなる精度の向上も今後の課題である.精度の検証は 3 科目で実施したのだが,ある
33
科目では適合率が 100%,であり,再現率は 80%という結果になった.この結果から本
当にレポート間でコピーした学生のレポートも誤認識していると判定し排除してしま
っていることが分かった.また,違う科目では適合率が 50%と再現率が 100%という結
果になった.この結果からまだ誤認識しているレポートがあり,誤認識している全ての
レポートを排除することができていないことが分かった.また,現在はコピペ検出シス
テムで出力された結果をもとに誤認識の回避を行っている.そのためコピペ検出システ
ムにこの手法を導入することにより,自動で誤認識を回避した結果を出力する仕組みを
実装する予定である.
34
7 参考文献
[1] https://online-tl.org/keep25/toolkit/html/snapshot.php?id=14826143733064:
2011 阪南大学コピペ検索システム ‐教育の質の向上のために‐:花川
典子
[2]http://www.ank.co.jp/copypelnahelp/copypelnahelp100/intro.html
[3] https://www.turnitin.com/
[4]http://ja.wikipedia.org/wiki/%E6%83%85%E5%A0%B1%E6%A4%9C%E7%B4%A
2
[5]上野 修司, 高橋 勇, 黒岩 丈介, 白井 治彦, 小高 知宏, 小倉 久和:複数の
Web ページから剽窃したレポートの発見支援システムの実装, 情報処理学会研究報告.
コンピュータと教育研究会報告 2006(130), 41-46, 2006-12-09
[6]高橋 勇, 宮川 勝年, 小高 知宏, 白井 治彦, 黒岩 丈介, 小倉 久和:Web サ
イトからの剽窃レポート発見支援システム(教育工学), 電子情報通信学会論文誌. D,
情報・システム J90-D(11), 2989-2999, 2007-11-01
[7]永井 昌,寛中村 隆義: 作成編集履歴を用いたレポート評価支援システムの提案と開
発課題, 日本教育工学会論文誌 34(Suppl.), 9-12, 2010-12-20
[8]三末 和男, 杉山 公造: マグネティック・スプリング・モデルによるグラフ描画法
について, 情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告 94(60),
17-24, 1994-07-14
35
謝辞
本論文の査読していただき,授業でもお世話になった加藤正治先生に感謝します.本
論文の査読をしていただき,学部時代から研究から私生活に至るまで様々な助言をいた
だきお世話になった北川悦司先生に感謝します.奨学金をいただき,研究する環境を提
供していただいた本大学院に感謝します.また,研究するにあたり様々な助言をいただ
いた奈良先端科学技術大学院大学の尾花将輝氏に感謝します.研究するにあたり,作業
を手伝っていただい本大学院修士課程 2 年生の妹背武志氏に感謝します.研究するにあ
たり,様々な雑務をこなしてくれた本大学院修士課程 1 年生の仙田友久氏に感謝します.
また,研究だけではなく,様々な理論を教えていただいた本学学部卒業生の金光大貴氏
に感謝します.最後に研究や,プレゼンテーションなど,様々なことにご指導をしてい
ただき,お世話になった花川典子先生に感謝します.
36
付録
以下にすべての学生間関係マップの結果を示す.
図 38
図 39
総合講座(インターネット・エコノミー)
図 40
図 41
中国語圏文化a_2
図 42
生命科学a_1
図 44
情報資料論
中国語圏文化a_1
現代株式会社論
図 43
図 45
37
生命科学a_2
図書館特論
図 47
観光計画論
文化開発論
図 49
日本文学a_1
図 50
日本文学a_2
図 51
日本史a_1
図 52
日本史a_2
図 46
資格取得講座2
図 48
図 53
38
日本史概説
図 54
図 56
図 58
図 60
図 55
英語圏文化a
図 57
心理学a_2
心理学a_1
心理学a_3
会計監査
図 59
スポーツ産業論
マーケティング論
図 61
中国語圏文化a
39
図 62
図 64
図 66
図 63
旅行業論
図 65
キャリアデザインa_2
オセアニアの文化と観光
図 68
キャリアデザインa_1
経済学史
40
マスメディア論a
図 67
遊び文化論
図 69
巡礼文化論
図 70
図 71
旅の文化史
図 72
民法総則
民法1
図 73
憲法
図 74
日本国憲法
図 75
法学a
図 76
先端技術論
図 77
41
日本経済論
図 78
自然科学史a_1
図 80
自然科学史a_3
図 82
国際マーケティング
図 84
地球環境科学a_1
図 79
図 81
自然科学史a_2
ブランドマーケティング
図 83
図 85
42
地理学a
地球環境科学a_2
図 86
哲学概論
43
Fly UP