Comments
Description
Transcript
多段決定木構築による属性選択法を 用いたクレジットカードの不正利用
情報処理学会第71回全国大会 6N-7 多段決定木構築による属性選択法を 用いたクレジットカードの不正利用検出システムの提案 峰岸 達也 1 伊勢 昌幸 2 新美 礼彦 3 小西 修 1 公立はこだて未来大学 システム情報科学部 複雑系科学科 1 株式会社 インテリジェントウェイブ 2 公立はこだて未来大学 システム情報科学部 情報アーキテクチャ学科 3 1. はじめに 近年、現金を持ち歩かずに支払いができること やインターネットショッピングでの支払い、ポイ ントや割引サービスなどに代表されるクレジット カード利用のシーンの増加に伴い、クレジットカ ード発行枚数も増加している。しかし、その一方 で偽造カードなどによる不正利用の犯罪が多発し、 その被害額は決して少ないとは言えないのが現状 である。 そこで本研究ではデータマイニングを用いて不 正利用を検出するシステムの提案を行う。 性選択を行うことを検討する。決定木を構築し属 性選択後は ACE Plus で用いられている分析手法 であるロジスティック回帰分析を行い、不正利用 モデルを作成することで不正利用検出を行うシス テムの提案をする。 3. 実験 ACE Plus はサンプリングしたクレジットカー ド利用データをロジスティック回帰分析し、モデ ルを作成し、そのモデルをもとに不正利用を検出 する。 本研究では ACE Plus の工程であるデータのサ 2. 提案手法と関連研究における違い ンプリングからロジスティック回帰分析までの処 本研究では株式会社インテリジェントウェイブ 理のサンプリング後に決定木構築により分析に用 社(以下 IWI とする)が開発しているクレジットカ いる属性の選択を行うプロセスを追加する。 ード不正検知システムである ACE Plus[1]を用い まず ACE Plus のサンプリング処理から 1 か月 ている。このシステムはクレジットカード取引デ 分のクレジットカード利用データをサンプリング ータからスコアとルールを組み合わせた分析を行 し、CSV 形式のファイルにした。しかしこのまま うことでクレジットカードの使用状況をリアルタ では 700MB ほどとサイズが大きいためにデータ数 イムで観察し、怪しい使用に対して警告を行うこ を 50000 件ほどとして 30MB 程度のファイルに変 とで最小限の被害に留めるためのシステムである。 換した。このデータはまず 1 か月分のデータの中 このシステムのデータサンプリング方法や分析方 から不正データをすべて取得し、その後、全不正 法を改良した研究がなされているが、多くのもの データと正常データを合わせて 50000 件ほどにな がクレジットカード利用データに存在する多くの るよう正常データを無作為に抽出した。これによ 属性を分析に用いてしまっているものがほとんど って決定木構築に用いるデータの割合は 10:1 程 である。 度のものになった。このようなファイルを 10 個 そこで本稿ではデータマイニングのプロセスで 作成し実験に用いた。 あるデータの前処理[2]の部分においてクレジッ 作成したデータファイルから決定木を構築した。 トカード利用データから決定木を構築することで、 今 回 は デ ー タ マ イ ニ ングツールソフトである 構築した決定木の上位に現れる属性を不正利用検 Weka[3]において決定木構築アルゴリズムである 出の分析に重要な属性と考え、分析対象とする属 C4.5[4]を基にした J4.8 と呼ばれるアルゴリズム 性数を減らす属性選択法を提案する。 によって決定木を構築した。作成したデータファ またクレジットカードの不正利用率が非常に低 イルを Weka で使用する際にいくつかの属性を削 いというなかでも、不正利用に関した決定木が構 除している。これは ACE Plus 自体の分析から独 築できるよう決定木構築の際に分類に失敗したデ 自にスコアとして付加している属性や、海外の端 ータのみを用いて再度多段に決定木を構築し、属 末情報データなどで数値データの中にアルファベ ットなどの文字データが存在していて Weka でノ A proposal of abusing credit cards detecting systems using イズとされて認識してくれないようなデータが多 attribute selection method with multistage decision tree construction く混在している属性など決定木構築に不向きな属 1 Tatsuya M inegishi, Osamu Konishi ・ Future University 性である。最終的に決定木を構築するために用い Hakodate 2 M asayuki Ise・INTELLIGENT WAVE INC. 3 Ayahiko Niimi・Future University Hakodate 1-603 情報処理学会第71回全国大会 た属性数は 113 属性であった。これらの処理を行 い 10 本の決定木を構築した。得られた決定木の 上位の属性について分析を行った。C4.5 では情 報利得による属性選択が行われるので、木の上位 の属性は分類に大きな影響を与える属性であると 考えられる。 4. 結果・考察 Weka で構築した決定木の一部を図 1 に示す。 したものである。その結果、1 回以上現れた属性 は 55 属性であった。 10 本の決定木に現れていた属性を IWI の分析 結果であげられていた属性と比較したところ、55 属性中 38 属性が同じものであった。 また、10 本の決定木に出現していた属性の 23 属性は IWI の分析で 11 ヶ月すべてに出現してい た属性と一致していた。 決定木に出現した属性は出現頻度の高いものに クレジットカード内に初めから存在する生データ ではなく、ACE Plus において分析に用いられて いるクレジットカード利用者の利用挙動から算出 された ACE Plus 独自の属性が多く出現した。 また、この決定木において 5 階層目までで分類 に失敗しているデータを用いて再度決定木を構築 した。決定木を多段に構築することにより 1 回目 の試行の際には出現していなかった属性が数は少 ないが出現した。 5. 図1 構築した決定木 終端ノード数は約 600、決定木のサイズは 1200 ほどとなった。分類の成功率は平均で 95.68%で あった。また、分類における詳細な精度を表 1 に 示す。 表 1 決定木の結果 平均値 正常 適合率 不正 正常 再現率 不正 0.9723 0.8078 0.9798 0.7526 分散値 最大値 最小値 6.10E-07 0.973 0.971 2.02E-05 0.815 0.801 5.60E-07 0.981 0.979 3.94E-05 0.762 0.742 このままの決定木ではサイズが大きすぎて、結 果を考察することが困難であったため、10 本の 決定木において上位のほうから出現している属性 を比較した。その結果、10 本の決定木を比較し たところ根ノードから 5 階層目まではほぼ同じ属 性が現れていたので、そこまでを安定とみなし、 5 階層目までに現れている属性を集計した。集計 した属性を IWI が独自に行った分析により不正利 用検出に強く関連している属性とみなされている 属性と比較した。 IWI が行った分析とは、12 ヶ月分のデータを使 用し、そのうちの1ヶ月分のデータをテストに用 い、残りの 11 ヶ月分のデータを 1 月ごとに学習 データとしてモデルを構築し、テストを行うとい う分析である。この分析結果から分析を行った 11 ヶ月中に何の属性が何ヶ月現れたのかを集計 おわりに 本研究ではクレジットカード利用データから決 定木を構築し、属性の選択をおこない、既存シス テムである ACE Plus の分析に用いる属性数を減 らすことを目的とした不正利用検出システムの提 案をおこなった。今回の実験では決定木を構築し、 分析に重要な属性を選択することはできた。しか し、今後の課題としては選択したデータのみを用 いて ACE Plus の分析を行った場合に不正検出の 精度においてどれほどの差があるのかを検証する ための実験を行う必要がある。 謝辞 本研究・実験・論文の執筆を進めていくにあた り、実験データの提供や、様々な助言を下さった 株 式会社 インテリジェントウェイブの関係者 方々に深く御礼申し上げます。 参考文献 [1] ACE Plus イ ン テ リ ジ ェ ン ト ウ ェ イ ブ http://www.iwi.co.jp/product/ace.htm [2] 元田 浩・津本 周作・山口 高平・沼尾 正行、 『データマイニングの基礎』、オーム社、P21~ 29、2006 [3] Ian H. Witten ・ Eibe Frank 、 『 DATA MINING』、MORGAN KAUFMANN PUBLISHERS、P187~ 199・P365~425、2005 [4] J.R.キンラン、翻訳:古川康一、『AI によ るデータ解析』、トッパン、P17~25、1995 1-604