Comments
Description
Transcript
+2 - Oracle
第45回瀬戸内オラクル技術団 ~オラクル純正開発ツール&噂の機械学習~ 実はDatabase Cloudだけで実現できる巷で噂の機械学習とは? 日本オラクル株式会社 クラウド・テクノロジー事業統括データ ベースソリューション本部 中部・西日本ソリューション部 2016年5月13日 Copyright © Oracle 2014 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016, and/or its affiliates. All rights reserved. • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 2 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 3 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 4 ビジネスで勝つためにビッグデータ活用が不可欠 60.9兆円 過半数 ・ビッグデータ活用による売上向上効果(全産業) ・ビッグデータ活用が売上向上やコスト削減に 効果があったと回答 今後ますます増えてくるビッグデータ活用 競争激化の時代においてビッグデータ活用が不可欠 総務省:情報通信白書平成26年版より Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 5 現実は、データは増えるがデータ活用は増えない 生成された データ 12% 自分の組織にあるデータの中で、 実際に活用できているのは全体の12% しかないとエグゼクティブは感じている 活用している データ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 6 データ活用の用途(例) 用途 線の上と下の 違いは何でしょうか? 帳票 • 帳簿や伝票などの定型的な書類の作成、印刷 レポーティング • 定型レポートの作成、公開(Web等)、配信 • ダッシュボード 分析 • 定型分析、非定型分析、アドホック・クエリ • 実績・推移に基づくシミュレーション(What-If分析) • 事前定義された分析切り口 • 人手による分析 探索 • 反復的なデータ検索・絞込みによる分析 • 新たな分析切り口の発見 • 人手による分析 データマイニング 統計解析 • データから意味のあるパターンやルール、相関関係を抽出する • 大容量のデータを自動的もしくは半自動的で解析 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 7 データ活用の用途(例) 用途 「人」が見て 「人」が意味のある 結果を発見する 帳票 • 帳簿や伝票などの定型的な書類の作成、印刷 レポーティング • 定型レポートの作成、公開(Web等)、配信 • ダッシュボード 分析 • 定型分析、非定型分析、アドホック・クエリ • 実績・推移に基づくシミュレーション(What-If分析) • 事前定義された分析切り口 • 人手による分析 探索 • 反復的なデータ検索・絞込みによる分析 • 新たな分析切り口の発見 • 人手による分析 データマイニング 統計解析 • データから意味のあるパターンやルール、相関関係を抽出する • 大容量のデータを自動的もしくは半自動的で解析 「機械」が 結果を生成する Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 8 データを活用して未来の予測・コントロールの領域へ どうやって起こせるのか? Prescriptive Analytics V A L U E 何が起きるのか? Predictive Analytics どうして起きたのか? Diagnostic Analytics 何が起きたのか? Descriptive Analytics 人が発見する 機械が発見する D I F F I C U LT Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 9 機械学習(マシン・ラーニング) 明示的にプログラムしなくても 学習する能力をコンピュータに与える • 教師あり学習 • 教師なし学習 • 連想される言葉 –人工知能、画像認識、自然言語処理、自動運転、 ディープラーニング、データマイニング、R、Python Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 10 機械学習の様々な活用例 • 効果的なダイレクトメール送付先 リストの作成 • 離反が予想される顧客の リスト作成 • 見込顧客の成約確度予測 • (小売業での)併売予測 • テロリスト容疑者の検出 • 医療実験結果実験データ 要因抽出 • 異常値検出 – クレジットカードの不正利用 – ネットワークの不正侵入 – 経費の不正利用の検知 – ソーシャルゲームでの 不正アクセス検知 – ただしく納税されているか – 工場ラインでの異常検出 – センサー情報からの 障害未然防止 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 11 たとえば 顧客情報 (属性値や、過去の利用状況など)から、 その顧客が今後優良顧客になる可能性を算出したい ・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・ 顧客データ この顧客は優良顧客か? その確率は? 分類モデル このモデルをどうやって作 成するのか? Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 12 モデルとは・・・ • データのパターンや現状をあらわすもの – 例) 年齢があがるほど収入も増える傾向にある → 数式で表現 属性の関係をあらわすもの 例):2つの属性を以下の式で近似値を算出する最適な変数(a,b) 収入 y = ax + b モデルを使うことで値の予測が可能 例) モデル( y = ax + b )に「年齢」を与えると、「収入」が算出 年齢 モデルの結果は、必ずしも正しい値ではない → 「誤差」が必ず存在する →いかに誤差が最小となるモデルを作るかがポイント Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 13 機械学習によるモデル作成 顧客データとアルゴリズムに よって自動生成 過去データ ・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・ ・優良顧客フラグ 顧客データ = 学習用データ アルゴリズム • 重回帰 • SVM • 決定木 … 予測された優良顧客リスト 分類モデル 目的達成です! アルゴリズムを選択 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 14 自動生成されるモデルのイメージ 過去顧客データ 前月請求額 <5,000円 ID 性別 年齢 職業 101 男性 31 会社員 102 女性 28 主婦 5,000円 YES 103 女性 36 主婦 200円 NO 104 男性 43 会社員 3,000円 NO 105 女性 22 会社員 7,000円 YES >=5,000円 前月請求額 ロイヤル ロイヤル= NO 10,000円 NO 性別 年齢 職業 314 男性 40 会社員 4,000円 NO 315 女性 26 会社員 5,500円 YES 男性 女性 ロイヤル= NO ロイヤル= YES 新規顧客データ ID 性別 前月請求額 ロイヤル IF ( 前月請求額 >= 5000 AND 性別 = “女性” ) THEN ロイヤル= YES Probability = 0.77(信頼度) Support = 0.250(組み合わせの出現率) Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 15 機械学習のビジネスへの有効性 機械学習を使用 ターゲット層へヒットする割合 100% 70% ROI 50% 顧客をランダムで選択 20% 0% 20% 50% 100% 全体の何割にアプローチするか Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 16 機械学習が向いていること・いないこと • 予測的分析が要件となっている • 予測分析を必要としていない • データ活用が重要視されている • ビジネスルールが重要視される • 過去データが大量に存在している • 過去データがあまり存在しない • 潜在的なパターンを持っている • 予測可能なパターンを持たない 役に立てます! 役に立てません。 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 17 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 18 売上明細情報 (顧客別過去の購買状況など)から、 ある商品といっしょによく売れる商品を発見したい アソシエーションモデル ・レシートID ・顧客ID ・商品コード ・数量 ・売上金額 ・・・ Apriori アルゴリズム • 同時に発生する確率は? • その商品の購入にしめる 同時率は? 売上データ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 19 機械学習でバスケット分析 パソコンショップの売上明細データから、よく併売されている商品を抽出 商品 顧客ID 日時 数量 購入(A) 併売(B) 信頼度 支持度 CD-R 103 1/10/2010 1 CD-R CDケース 90% 7% CD-R 110 1/10/2010 2 マウス マウスパッド 88% 3% CD-R 121 1/11/2010 1 CD-R マウスパッド 51% 2% マウスパッド 103 1/10/2010 1 マウスパッド 115 1/11/2010 3 信頼度・・・A全体のうち、AかつBの割合 支持度・・・全ケースのうち、AかつBの割合 リフト・・・ルールの強さ(関係の確信度/全体に占めるBの発生率) 確信度 高い 低い よくある組み合わせ ごくまれな組み合わせ サポート 全顧客に対するインパクトが 全顧客に対するインパクトが 大きい 小さい リフト 組み合わせで購入されること 単品で購入されることが多い が多い Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 20 Step1 データソースを選択 学習対象となる売上データを選択 ワークフロー・エディタより(データ)「データ ソース」をワークフロー設計画面にドラッグ&ド ロップ 「 売上データ 」を選択して 「終了」をクリック Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 21 Step2 モデルの作成(1/2) アソシエーションモデルを作成し、入力データとして売上データをつかう ワークフロー・エディタより(モデル)「アソシ エーション」ノードをドラッグ&ドロップ 「 売上データ 」を右クリックし、「接続」を選択 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 22 Step2 モデルの作成(2/2) 学習の対象を指定し、モデル作成 トランザクションID:「顧客ID」(バスケットとして 識別する列) アイテムID:「商品名」(併売をみる列) 値:「<存在>」 を選択 「相関構築」を右クリックし、 メニューから「実行」を選択 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 23 Step3 結果の確認 「相関構築」ノードを右クリックし、 「モデルの表示」→モデル名を選択 「O/S Documentation Set - English 」を購入して いる顧客の 96.6667% は Mouse Pad を購入し ている Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 24 バスケット分析(アソシエーションモデル)補足 • アソシエーションモデルのインプットは 2次元トランザクションデータ – 一連のバスケットまたはトランザクションで販売された商品群 – ケースIDが1回の取引(トランザクション)を表し、トランザクションのデータは複数の行 に格納する • ポイント – 一番よく売れている商品は多くのバスケットに含まれる可能性が高いため除外を検 討する • バスケット内個数との関連を検討 – Oracleの機械学習なら フィルタを追加することで簡単に実装可能 • マスター表と結合してIDを名前にして表示させるなども可能 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 25 顧客情報 (属性値や、過去の利用状況など)から、 その顧客が今後優良顧客になる可能性を算出したい 分類モデル ・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・ ・優良顧客フラグ 顧客データ 予測された優良顧客リスト アルゴリズム • 重回帰 • SVM • 決定木 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 26 機械学習で優良顧客分析 顧客データを元に、保険の加入/非加入はどのようなグループに分けられるのか分析 顧客ID 性別 年齢 職業 保険加入 全体 101 男性 31 会社員 Y Y:30人 N:25人 102 女性 28 主婦 N 103 女性 36 主婦 N 104 男性 43 会社員 Y 105 女性 47 自営業 N 年齢≧30 年齢<30 Y:24人 N:9人 性別=男性 Y:20人 N:2人 Y:6人 N:16人 性別=女性 Y:4人 N:7人 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 職業=会社員 Y:4人 N:6人 職業=その他 Y:2人 N:10人 27 Step1 データソースを選択 学習対象となる既存顧客表を選択 ワークフロー・エディタより(データ)「データ ソース」をワークフロー設計画面にドラッグ&ド ロップ 「 既存顧客表」を選択して 「終了」をクリック Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 28 Step2 モデルの作成(1/2) 分類モデルを作成し、入力データとして既存顧客表をつかう ワークフロー・エディタより(モデル)「分類」ノー ドをドラッグ&ドロップ 「 既存顧客表」を右クリックし、「接続」を選択 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 29 Step2 モデルの作成(2/2) 学習の対象を指定し、モデル作成 ターゲット:「保険加入」 ケースID:「CUSTOMER_ID」 を選択 デフォルトで分類モデルでは、4つのアルゴリ ズムが実行される 「分類構築」ノードを右クリックし、メニューから 「実行」を選択 (完了すると右上に緑のチェックが入る) Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 30 Step3 予測モデルの予測精度を確認 「分類構築」ノードを右クリックし、 「テスト結果の比較」を選択 各アルゴリズムごとの予測精度をグラフで表 示 (決定木(DT)アルゴリズムが一番予測信頼度 が高い) Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 31 Step4 予測モデルの確認 作成、選択したモデルをクリック Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 32 Step5 スコアリング結果を表に格納 スコアリング対象の表(見込み顧客)をデータ ソースとして追加し、「適用」ノードに接続 (評価と適用)「適用」ノード 分類構築から接続する 「表またはビュー」ノードを追加(出力ノード)し 適用から接続する Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 33 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 34 機械学習の特長 データ量を増やすことによって、予測精度を上げる ビッグデータ(例えば数百の属性 からなる入力)で生成されたモデル • 統計データ • POSトランザクションデータ • テキストやコメント • 位置情報 • 過去データと直近の行動データ • ウェブログデータ • センサーデータ etc. ターゲット層へヒットする割合 100% 0% ランダム 250の属性からなるモデル 75の属性からなるモデル 20の属性からなるモデル 全体の何割にアプローチするか Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 100% 35 機械学習の特長 • 大量のデータセット – 100~1000超の属性 – 1000~何億のデータ・レコード – 数値だけではなく文字列も対象 – データの整合性やコードの統一 • 手動でこのようなデータを扱うことは 困難 →ITのパワーをフルに活用 – Database • モデルを算出するためのデータを蓄積 – マイニング・アルゴリズム • 最適なモデルを算出するための ロジック Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 36 典型的なデータ解析基盤の課題 データの 取得依頼 意思決定の遅延 解析結果の 格納依頼 対象データの エクスポート マーケティング担当 性能問題 PC内でデータ 解析を実施 ビジネス部門 販売情報 + 顧客情報 インフラ担当 情報漏えいリスク 解析結果の インポート 情報システム部門 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 37 データは増加するが、IT予算は増えないというジレンマ コスト 予算 データ コスト/テラバイト 年間IT予算の増加率 企業が保有する データ量の増加率 $7,500-$9,000 10% 4% モバイル リテール IT予算に占める ストレージ費用の割合 毎年4%の上積みが IT予算に求められる イノベーション イノベーション Internet of Things 40% 1-2% オムニチャネル Copyright © 2016, Oracle and/or its affiliates. All rights reserved. Big Data Management 38 Oracleのクラウド環境での機械学習 クイック・スモールスタート オンプレミスにも移行可能な ハイブリッドクラウド クラウド環境に データをクローン マーケティング担当 データ解析のフローを設計 処理はクラウド側で実施 解析結果の格納も フローとして設計 販売情報 + 顧客情報 インフラ担当 暗号化・権限分掌による 高セキュリティレベル Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 39 Oracle Database Cloud Service (DBCS) No.1データベースをそのままクラウド上で利用可能 すぐに使える データベースが使えるまで、わずか5画面 すぐに拡張できる リソースが足りなくなったら、すぐに拡張できる Database Cloud Service 使った分だけ お支払い 費用は従量制 サーバーもソフトウェアライセンス(オプション含)も エンター プライズ対応 定番機能から機械学習まですぐ使える形で提供 最高のデータベース基盤である Exadata を選択可能 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 40 参考コストイメージ 動作検証(1週間=30時間)+2か月間(3時間×40営業日)利用 • 動作検証期間コスト – 1 OCPU 15GBメモリのマシンパワーで実施 – 環境設定(10時間) • 分析ユーザ作成/設定 • 150GBのストレージ容量1年分保持 – 操作確認(10時間) – データロード(10時間) • 120時間利用コスト – 2 OCPU 15GBメモリのマシンパワーで実施 – 分析PDCAサイクル(120時間) 動作検証期間コスト 120時間利用コスト (2か月間) DBCS Storage 合計 24,797円 198,374円 21,600円 46,397円 198,374円 ※分析実行回数・ユーザー数に関して 制約なし(金額への影響はなし) • 日々3時間 x 20日 x 2か月間 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 41 Oracle Database Cloud Service でここまでできる! Oracle Application Express https:// Data Miner GUI Oracle SQL Developer Oracle Advanced Analytics (Oracle Data Mining) Mobiles Oracle REST Data Services Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 42 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 43 一般的な機械学習アプローチ 機械学習 業務データ ①サンプルデータの取り出し ②サンプルデータの加工 ③モデルの作成 ⑤本番データの加工 ④本番データの取り出し データベース ⑥本番データに ⑦適用結果のロード モデルを適用 機械学習サーバ ⑧適用結果の活用 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 44 一般的な機械学習アプローチの課題 データベースと分析サーバ間のデータのやり取りが発生 ・データベースからのアンロード ・データベースから取り出したデータを分析サーバへ転送 ・分析サーバでモデリングしたデータをDBへ転送 ・モデリングデータをDBへローディング データやり取りの工数が増大 特にデータ量が増えるほど大きな影響 分析作業を高速化するため、高スペックな分析サーバが必要 分析サーバの高コスト化 分析サーバ上でのデータセキュリティ対策が別途必要 H/W、運用管理面でコストが増加 データベースの管理、分析処理、セキュリティの管理ごとにイン ターフェースや処理方式が異なるため、作業の標準化が困難 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 45 Oracleのアプローチ データベース内で分析が動く分析エンジン • データの移動が必要ない – データ移動コスト(工数/時間)の削減 – データベースのパワーを使った大規模な分析が可能 – セキュリティの確保 • アプリケーションへの組み込みが容易 – Oracle Databaseにつなげられれば、 マイニング機能を利用可能 – SQL, PL/SQLから利用可能 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 46 Oracleのアプローチのメリット •10-100x パフォーマンス – Databaseの機能との統合 – Database内で分析を行うことでデータの移動の必要がない • より早く分析結果にアクセスできる: 日単位、週単位 分単位、時間単位 •10x TCOの削減 – 旧来の統計/マイニングパッケージの高価な年単位の利用料金を削減 – Oracle Database, DWHのプラットフォームを活用 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 47 Oracle Databaseの機械学習機能の進化 アナリティクスSQLをデータベースに、そしてクラウドへ Oracle Data Mining “PL/SQL” Oracle R Enterprise Oracle Data Miner Thinking Machines Oracle Data Mining Oracle Data Miner Corporation “Darwin” “Java API” “Classic” 1998 2002 2004 Oracle Oracle Advanced Oracle R Advanced Analytics Analytics for Hadoop Analytics Cloud 2009 2012 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 2015 48 高度な機械学習エンジンをデータベースに内包 Oracle Advanced Analyticsライセンスとして2つのコンポーネントを提供 Oracle Data Mining Oracle R Enterprise • データベース内部でマイニング処理 • 12のin-databaseデータマイニングアルゴリズム • Predictive analytics アプリケーションを 開発するための環境 • SQL Developer/Oracle Data Minerによる GUIによる開発 • PL/SQL APIとJava API • Exadataのパワーを利用したモデルの適用 • • • • • • • 利用者の多いOSSの統計言語/環境 拡張性を得るためにデータベースに統合 広範な統計、高度な分析のための関数を用意 Rの機能をアプリケーションや OBIEEに統合 探索的なデータ分析 すぐれたグラフ描画機能 Open source R (CRAN) パッケージ R Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 49 機械学習アルゴリズムと活用例マッピング テーマ イメージ図 アルゴリズム 応用範囲の例 分類 Logistic Regression (GLM) Decision Trees Naïve Bayes Support Vector Machines (SVM) ロイヤルカスタマーの予測 稼働会員から外れる会員の予測 優良商品へ成長する製品の予測 インバウンドニーズのある店舗の予測 回帰 Linear Regression (GLM) Support Vector Machine (SVM) 特定商品の売り上げを予測 特定顧客の消費金額を予測 異常検出 One Class SVM 突発的な商品需要の検知 機器の異常値検知 属性重要度 Minimum Description Length (MDL) Principal Components Analysis (PCA) 属性の絞り込み、ノイズの低減 相関ルール Apriori バスケット分析/ NBO(Next Best Offer)分析 クラスタリング Hierarchical k-Means Hierarchical O-Cluster Expectation-Maximization Clustering (EM) 製品のグルーピング/ テキストマイニング 遺伝子-タンパク質分析 特徴抽出 Nonnegative Matrix Factorization (NMF) Singular Value Decomposition (SVD) テキスト分析 / 因子分析 A1 A2 A3 A4 A5 A6 A7 F1 F2 F3 F4 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 50 GUIによる操作で分析フローを設計が可能 • フローをイメージで保存可能 • クライアントツールから データベースを操作 • 複雑な機械学習の処理を 自動で同時実行 • モデリングに適したデータに 自動変換 • ETL処理も実行可能 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 51 Oracle Advanced Analyticsのインタフェース データサイエンティスト + ビジネスユーザー SQL Developer Rプログラマー R Enterprise Client ビジネスユーザー (マネージャーレベル) エンドユーザー Oracle BI HCM, CRMなど Oracle Database Enterprise Edition Oracle Advanced Analytics 並列実行のためのSQLデータ・マイニング/分析関数 スケーラブルな分散、高性能のRとの統合 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 52 機械学習機能のオラクル・アプリケーションへの組込み アプリケーション 機能 業種別データモデル • • • • 支出分類 • 支出とパフォーマンスの可視性を改善(誤承認検出) 人材管理 • 労働力の予測(離職率とパフォーマンス予測) CRM • 販売計画—販売機会の予測(いつ、なにを、どのくらい) ID管理 • ユーザログイン時のリアルタイムセキュリティ管理 イベント処理 • データモデルと統合されたイベント処理 カスタマーサービス • ユーザへのインシデント予測管理サービス(障害未然防止) 小売顧客分析 • 併売分析・推奨 工場管理 通信業における顧客セグメンテーション、プロファイリング、離脱予測 小売業におけるバスケット分析、顧客ロイヤリティ予測 航空業における発着便数最適化、顧客生涯価値向上 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 53 Program Agenda 1 機械学習概要 2 実践!Oracle Databaseで機械学習 3 クラウド環境を使うメリット 4 Oracle Databaseの機械学習機能概要 5 まとめ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 54 データ活用におけるPDCAサイクル (CRISP-DM) ビジネス 理解 データ 理解 データ 準備 展開 データ モデリング データ分析におけるPDCAサイクルを クラウド・マシン・ラーニング によって自動化・サポート 評価 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 55 データ活用におけるPDCAサイクル (CRISP-DM) ビジネス 理解 ビジネス 理解 データ 理解 データ 準備 展開 データ モデリング 評価 データ 理解 データ 準備 データ モデリング 評価 展開 ビジネス 目的を 決定する 初期 データを 収集する データを 選択する モデリング 手法を 選択する 結果を 評価する 展開を 計画する 状況を 評価する データを 記述する データを 整理する テスト 結果を 生成する プロセスを 審査する 運用を 計画する 分析の ゴールを 決定する データを 調べる データを 構築する モデルを 構築する 次の ステップを 決定する 最終 レポートを 作成する プロジェクト計 画を建てる データの 品質を 検証する データを 統合する モデルを 評価する プロジェクトを 審査する データを 設定する Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 56 包括的な分析環境をクラウドで提供 R データ連携 データマネジメント & データ分析 データビジュアライズ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 57 Appendix データマイニングの処理の流れ Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 58 データマイニングの処理の流れ ①データの 探索 ②データの 収集・加工 ③モデル の作成 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. ④モデル の評価 59 データの探索 分析の目的を明確にする / データの特徴をつかむ • データの可視化を通じて、分析の目 的を明確にする (どのデータを利用 して何を予測するのか?) • データの特徴をつかむ – マイニングを行うためには、どのように データを加工しなければならないのか を明確にする Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 60 データの収集・加工 アルゴリズムに適用できるようにデータを加工 • データの収集・加工 – データの収集 – データの粒度の調整 – 結合、フィルタリング • データのマイニング用処理 – 欠損値の補完 – 外れ値の排除 – 階級値への変換 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 61 モデルの作成 アルゴリズムの利用 • 目的の明確化 – 分類?クラスタリング?回帰? • アルゴリズムの選択 – 複数のアルゴリズムでモデルを生成することもある Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 62 モデルの評価 アルゴリズムの利用 • テスト用データによるモデルの正確さの評価 • 結果を踏まえて、利用データ・アルゴリズムの変更も検討 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 63 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 64 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 65