...

+2 - Oracle

by user

on
Category: Documents
5

views

Report

Comments

Transcript

+2 - Oracle
第45回瀬戸内オラクル技術団
~オラクル純正開発ツール&噂の機械学習~
実はDatabase Cloudだけで実現できる巷で噂の機械学習とは?
日本オラクル株式会社
クラウド・テクノロジー事業統括データ
ベースソリューション本部
中部・西日本ソリューション部
2016年5月13日
Copyright
© Oracle
2014 Oracle
and/or
its affiliates.
All rights
reserved. |
Copyright
© 2016,
and/or
its affiliates.
All rights
reserved.
• 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する
ものです。また、情報提供を唯一の目的とするものであり、いかなる契約
にも組み込むことはできません。以下の事項は、マテリアルやコード、機
能を提供することをコミットメント(確約)するものではないため、購買決定
を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ
れている機能の開発、リリースおよび時期については、弊社の裁量により
決定されます。
OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。
文中の社名、商品名等は各社の商標または登録商標である場合があります。
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
2
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
3
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
4
ビジネスで勝つためにビッグデータ活用が不可欠
60.9兆円
過半数
・ビッグデータ活用による売上向上効果(全産業)
・ビッグデータ活用が売上向上やコスト削減に
効果があったと回答
今後ますます増えてくるビッグデータ活用
競争激化の時代においてビッグデータ活用が不可欠
総務省:情報通信白書平成26年版より
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
5
現実は、データは増えるがデータ活用は増えない
生成された
データ
12%
自分の組織にあるデータの中で、
実際に活用できているのは全体の12%
しかないとエグゼクティブは感じている
活用している
データ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
6
データ活用の用途(例)
用途
線の上と下の
違いは何でしょうか?
帳票
• 帳簿や伝票などの定型的な書類の作成、印刷
レポーティング
• 定型レポートの作成、公開(Web等)、配信
• ダッシュボード
分析
• 定型分析、非定型分析、アドホック・クエリ
• 実績・推移に基づくシミュレーション(What-If分析)
• 事前定義された分析切り口
• 人手による分析
探索
• 反復的なデータ検索・絞込みによる分析
• 新たな分析切り口の発見
• 人手による分析
データマイニング
統計解析
• データから意味のあるパターンやルール、相関関係を抽出する
• 大容量のデータを自動的もしくは半自動的で解析
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
7
データ活用の用途(例)
用途
「人」が見て
「人」が意味のある
結果を発見する
帳票
• 帳簿や伝票などの定型的な書類の作成、印刷
レポーティング
• 定型レポートの作成、公開(Web等)、配信
• ダッシュボード
分析
• 定型分析、非定型分析、アドホック・クエリ
• 実績・推移に基づくシミュレーション(What-If分析)
• 事前定義された分析切り口
• 人手による分析
探索
• 反復的なデータ検索・絞込みによる分析
• 新たな分析切り口の発見
• 人手による分析
データマイニング
統計解析
• データから意味のあるパターンやルール、相関関係を抽出する
• 大容量のデータを自動的もしくは半自動的で解析
「機械」が
結果を生成する
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
8
データを活用して未来の予測・コントロールの領域へ
どうやって起こせるのか?
Prescriptive Analytics
V
A
L
U
E
何が起きるのか?
Predictive Analytics
どうして起きたのか?
Diagnostic Analytics
何が起きたのか?
Descriptive Analytics
人が発見する
機械が発見する
D I F F I C U LT
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
9
機械学習(マシン・ラーニング)
明示的にプログラムしなくても
学習する能力をコンピュータに与える
• 教師あり学習
• 教師なし学習
• 連想される言葉
–人工知能、画像認識、自然言語処理、自動運転、
ディープラーニング、データマイニング、R、Python
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
10
機械学習の様々な活用例
• 効果的なダイレクトメール送付先
リストの作成
• 離反が予想される顧客の
リスト作成
• 見込顧客の成約確度予測
• (小売業での)併売予測
• テロリスト容疑者の検出
• 医療実験結果実験データ
要因抽出
• 異常値検出
– クレジットカードの不正利用
– ネットワークの不正侵入
– 経費の不正利用の検知
– ソーシャルゲームでの
不正アクセス検知
– ただしく納税されているか
– 工場ラインでの異常検出
– センサー情報からの
障害未然防止
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
11
たとえば
顧客情報 (属性値や、過去の利用状況など)から、
その顧客が今後優良顧客になる可能性を算出したい
・顧客ID
・性別
・所在地
・継続期間
・前月請求額
・・・
顧客データ
この顧客は優良顧客か?
その確率は?
分類モデル
このモデルをどうやって作
成するのか?
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
12
モデルとは・・・
• データのパターンや現状をあらわすもの
– 例) 年齢があがるほど収入も増える傾向にある → 数式で表現
属性の関係をあらわすもの
例):2つの属性を以下の式で近似値を算出する最適な変数(a,b)
収入
y = ax + b
モデルを使うことで値の予測が可能
例) モデル( y = ax + b )に「年齢」を与えると、「収入」が算出
年齢
モデルの結果は、必ずしも正しい値ではない
→ 「誤差」が必ず存在する
→いかに誤差が最小となるモデルを作るかがポイント
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
13
機械学習によるモデル作成
顧客データとアルゴリズムに
よって自動生成
過去データ
・顧客ID
・性別
・所在地
・継続期間
・前月請求額
・・・
・優良顧客フラグ
顧客データ
= 学習用データ
アルゴリズム
• 重回帰
• SVM
• 決定木
…
予測された優良顧客リスト
分類モデル
目的達成です!
アルゴリズムを選択
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
14
自動生成されるモデルのイメージ
過去顧客データ
前月請求額
<5,000円
ID
性別 年齢
職業
101
男性 31
会社員
102
女性 28
主婦
5,000円 YES
103
女性 36
主婦
200円 NO
104
男性 43
会社員
3,000円 NO
105
女性 22
会社員
7,000円 YES
>=5,000円
前月請求額 ロイヤル
ロイヤル= NO
10,000円 NO
性別 年齢
職業
314
男性 40
会社員
4,000円 NO
315
女性 26
会社員
5,500円 YES
男性
女性
ロイヤル= NO
ロイヤル= YES
新規顧客データ
ID
性別
前月請求額 ロイヤル
IF ( 前月請求額 >= 5000
AND 性別 = “女性” )
THEN
ロイヤル= YES
Probability = 0.77(信頼度)
Support = 0.250(組み合わせの出現率)
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
15
機械学習のビジネスへの有効性
機械学習を使用
ターゲット層へヒットする割合
100%
70%
ROI
50%
顧客をランダムで選択
20%
0%
20%
50%
100%
全体の何割にアプローチするか
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
16
機械学習が向いていること・いないこと
• 予測的分析が要件となっている
• 予測分析を必要としていない
• データ活用が重要視されている
• ビジネスルールが重要視される
• 過去データが大量に存在している
• 過去データがあまり存在しない
• 潜在的なパターンを持っている
• 予測可能なパターンを持たない
役に立てます!
役に立てません。
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
17
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
18
売上明細情報 (顧客別過去の購買状況など)から、
ある商品といっしょによく売れる商品を発見したい
アソシエーションモデル
・レシートID
・顧客ID
・商品コード
・数量
・売上金額
・・・
Apriori
アルゴリズム
• 同時に発生する確率は?
• その商品の購入にしめる
同時率は?
売上データ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
19
機械学習でバスケット分析
パソコンショップの売上明細データから、よく併売されている商品を抽出
商品
顧客ID
日時
数量
購入(A)
併売(B)
信頼度
支持度
CD-R
103
1/10/2010
1
CD-R
CDケース
90%
7%
CD-R
110
1/10/2010
2
マウス
マウスパッド
88%
3%
CD-R
121
1/11/2010
1
CD-R
マウスパッド
51%
2%
マウスパッド
103
1/10/2010
1
マウスパッド
115
1/11/2010
3
信頼度・・・A全体のうち、AかつBの割合
支持度・・・全ケースのうち、AかつBの割合
リフト・・・ルールの強さ(関係の確信度/全体に占めるBの発生率)
確信度
高い
低い
よくある組み合わせ
ごくまれな組み合わせ
サポート 全顧客に対するインパクトが 全顧客に対するインパクトが
大きい
小さい
リフト
組み合わせで購入されること 単品で購入されることが多い
が多い
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
20
Step1 データソースを選択
学習対象となる売上データを選択
ワークフロー・エディタより(データ)「データ
ソース」をワークフロー設計画面にドラッグ&ド
ロップ
「 売上データ 」を選択して
「終了」をクリック
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
21
Step2 モデルの作成(1/2)
アソシエーションモデルを作成し、入力データとして売上データをつかう
ワークフロー・エディタより(モデル)「アソシ
エーション」ノードをドラッグ&ドロップ
「 売上データ 」を右クリックし、「接続」を選択
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
22
Step2 モデルの作成(2/2)
学習の対象を指定し、モデル作成
トランザクションID:「顧客ID」(バスケットとして
識別する列)
アイテムID:「商品名」(併売をみる列)
値:「<存在>」
を選択
「相関構築」を右クリックし、
メニューから「実行」を選択
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
23
Step3 結果の確認
「相関構築」ノードを右クリックし、
「モデルの表示」→モデル名を選択
「O/S Documentation Set - English 」を購入して
いる顧客の 96.6667% は Mouse Pad を購入し
ている
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
24
バスケット分析(アソシエーションモデル)補足
• アソシエーションモデルのインプットは 2次元トランザクションデータ
– 一連のバスケットまたはトランザクションで販売された商品群
– ケースIDが1回の取引(トランザクション)を表し、トランザクションのデータは複数の行
に格納する
• ポイント
– 一番よく売れている商品は多くのバスケットに含まれる可能性が高いため除外を検
討する
• バスケット内個数との関連を検討
– Oracleの機械学習なら フィルタを追加することで簡単に実装可能
• マスター表と結合してIDを名前にして表示させるなども可能
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
25
顧客情報 (属性値や、過去の利用状況など)から、
その顧客が今後優良顧客になる可能性を算出したい
分類モデル
・顧客ID
・性別
・所在地
・継続期間
・前月請求額
・・・
・優良顧客フラグ
顧客データ
予測された優良顧客リスト
アルゴリズム
• 重回帰
• SVM
• 決定木
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
26
機械学習で優良顧客分析
顧客データを元に、保険の加入/非加入はどのようなグループに分けられるのか分析
顧客ID
性別
年齢
職業
保険加入
全体
101
男性
31
会社員
Y
Y:30人
N:25人
102
女性
28
主婦
N
103
女性
36
主婦
N
104
男性
43
会社員
Y
105
女性
47
自営業
N
年齢≧30
年齢<30
Y:24人
N:9人
性別=男性
Y:20人
N:2人
Y:6人
N:16人
性別=女性
Y:4人
N:7人
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
職業=会社員
Y:4人
N:6人
職業=その他
Y:2人
N:10人
27
Step1 データソースを選択
学習対象となる既存顧客表を選択
ワークフロー・エディタより(データ)「データ
ソース」をワークフロー設計画面にドラッグ&ド
ロップ
「 既存顧客表」を選択して
「終了」をクリック
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
28
Step2 モデルの作成(1/2)
分類モデルを作成し、入力データとして既存顧客表をつかう
ワークフロー・エディタより(モデル)「分類」ノー
ドをドラッグ&ドロップ
「 既存顧客表」を右クリックし、「接続」を選択
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
29
Step2 モデルの作成(2/2)
学習の対象を指定し、モデル作成
ターゲット:「保険加入」
ケースID:「CUSTOMER_ID」
を選択
デフォルトで分類モデルでは、4つのアルゴリ
ズムが実行される
「分類構築」ノードを右クリックし、メニューから
「実行」を選択
(完了すると右上に緑のチェックが入る)
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
30
Step3 予測モデルの予測精度を確認
「分類構築」ノードを右クリックし、
「テスト結果の比較」を選択
各アルゴリズムごとの予測精度をグラフで表
示
(決定木(DT)アルゴリズムが一番予測信頼度
が高い)
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
31
Step4 予測モデルの確認
作成、選択したモデルをクリック
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
32
Step5 スコアリング結果を表に格納
スコアリング対象の表(見込み顧客)をデータ
ソースとして追加し、「適用」ノードに接続
(評価と適用)「適用」ノード
分類構築から接続する
「表またはビュー」ノードを追加(出力ノード)し
適用から接続する
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
33
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
34
機械学習の特長
データ量を増やすことによって、予測精度を上げる
ビッグデータ(例えば数百の属性
からなる入力)で生成されたモデル
• 統計データ
• POSトランザクションデータ
• テキストやコメント
• 位置情報
• 過去データと直近の行動データ
• ウェブログデータ
• センサーデータ
etc.
ターゲット層へヒットする割合
100%
0%
ランダム
250の属性からなるモデル
75の属性からなるモデル
20の属性からなるモデル
全体の何割にアプローチするか
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
100%
35
機械学習の特長
• 大量のデータセット
– 100~1000超の属性
– 1000~何億のデータ・レコード
– 数値だけではなく文字列も対象
– データの整合性やコードの統一
• 手動でこのようなデータを扱うことは
困難
→ITのパワーをフルに活用
– Database
• モデルを算出するためのデータを蓄積
– マイニング・アルゴリズム
• 最適なモデルを算出するための
ロジック
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
36
典型的なデータ解析基盤の課題
データの
取得依頼
意思決定の遅延
解析結果の
格納依頼
対象データの
エクスポート
マーケティング担当
性能問題
PC内でデータ
解析を実施
ビジネス部門
販売情報
+
顧客情報
インフラ担当
情報漏えいリスク
解析結果の
インポート
情報システム部門
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
37
データは増加するが、IT予算は増えないというジレンマ
コスト
予算
データ
コスト/テラバイト
年間IT予算の増加率
企業が保有する
データ量の増加率
$7,500-$9,000
10%
4%
モバイル
リテール
IT予算に占める
ストレージ費用の割合
毎年4%の上積みが
IT予算に求められる
イノベーション
イノベーション
Internet of
Things
40%
1-2%
オムニチャネル
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
Big Data
Management
38
Oracleのクラウド環境での機械学習
クイック・スモールスタート
オンプレミスにも移行可能な
ハイブリッドクラウド
クラウド環境に
データをクローン
マーケティング担当
データ解析のフローを設計
処理はクラウド側で実施
解析結果の格納も
フローとして設計
販売情報
+
顧客情報
インフラ担当
暗号化・権限分掌による
高セキュリティレベル
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
39
Oracle Database Cloud Service (DBCS)
No.1データベースをそのままクラウド上で利用可能
すぐに使える
データベースが使えるまで、わずか5画面
すぐに拡張できる リソースが足りなくなったら、すぐに拡張できる
Database
Cloud Service
使った分だけ
お支払い
費用は従量制
サーバーもソフトウェアライセンス(オプション含)も
エンター
プライズ対応
定番機能から機械学習まですぐ使える形で提供
最高のデータベース基盤である Exadata を選択可能
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
40
参考コストイメージ
動作検証(1週間=30時間)+2か月間(3時間×40営業日)利用
• 動作検証期間コスト
– 1 OCPU 15GBメモリのマシンパワーで実施
– 環境設定(10時間)
• 分析ユーザ作成/設定
• 150GBのストレージ容量1年分保持
– 操作確認(10時間)
– データロード(10時間)
• 120時間利用コスト
– 2 OCPU 15GBメモリのマシンパワーで実施
– 分析PDCAサイクル(120時間)
動作検証期間コスト 120時間利用コスト
(2か月間)
DBCS
Storage
合計
24,797円
198,374円
21,600円
46,397円
198,374円
※分析実行回数・ユーザー数に関して
制約なし(金額への影響はなし)
• 日々3時間 x 20日 x 2か月間
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
41
Oracle Database Cloud Service でここまでできる!
Oracle Application Express
https://
Data Miner GUI
Oracle SQL Developer
Oracle Advanced Analytics
(Oracle Data Mining)
Mobiles
Oracle REST Data Services
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
42
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
43
一般的な機械学習アプローチ
機械学習
業務データ
①サンプルデータの取り出し
②サンプルデータの加工
③モデルの作成
⑤本番データの加工
④本番データの取り出し
データベース
⑥本番データに
⑦適用結果のロード
モデルを適用
機械学習サーバ
⑧適用結果の活用
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
44
一般的な機械学習アプローチの課題
データベースと分析サーバ間のデータのやり取りが発生
・データベースからのアンロード
・データベースから取り出したデータを分析サーバへ転送
・分析サーバでモデリングしたデータをDBへ転送
・モデリングデータをDBへローディング
データやり取りの工数が増大
特にデータ量が増えるほど大きな影響
分析作業を高速化するため、高スペックな分析サーバが必要
分析サーバの高コスト化
分析サーバ上でのデータセキュリティ対策が別途必要
H/W、運用管理面でコストが増加
データベースの管理、分析処理、セキュリティの管理ごとにイン
ターフェースや処理方式が異なるため、作業の標準化が困難
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
45
Oracleのアプローチ
データベース内で分析が動く分析エンジン
• データの移動が必要ない
– データ移動コスト(工数/時間)の削減
– データベースのパワーを使った大規模な分析が可能
– セキュリティの確保
• アプリケーションへの組み込みが容易
– Oracle Databaseにつなげられれば、
マイニング機能を利用可能
– SQL, PL/SQLから利用可能
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
46
Oracleのアプローチのメリット
•10-100x パフォーマンス
– Databaseの機能との統合
– Database内で分析を行うことでデータの移動の必要がない
• より早く分析結果にアクセスできる: 日単位、週単位  分単位、時間単位
•10x TCOの削減
– 旧来の統計/マイニングパッケージの高価な年単位の利用料金を削減
– Oracle Database, DWHのプラットフォームを活用
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
47
Oracle Databaseの機械学習機能の進化
アナリティクスSQLをデータベースに、そしてクラウドへ
Oracle Data Mining
“PL/SQL”
Oracle R Enterprise Oracle Data Miner
Thinking Machines Oracle Data Mining Oracle Data Miner
Corporation “Darwin”
“Java API”
“Classic”
1998
2002
2004
Oracle
Oracle Advanced Oracle R Advanced
Analytics
Analytics for Hadoop Analytics Cloud
2009
2012
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
2015
48
高度な機械学習エンジンをデータベースに内包
Oracle Advanced Analyticsライセンスとして2つのコンポーネントを提供
Oracle Data Mining
Oracle R Enterprise
• データベース内部でマイニング処理
• 12のin-databaseデータマイニングアルゴリズム
• Predictive analytics アプリケーションを
開発するための環境
• SQL Developer/Oracle Data Minerによる
GUIによる開発
• PL/SQL APIとJava API
• Exadataのパワーを利用したモデルの適用
•
•
•
•
•
•
•
利用者の多いOSSの統計言語/環境
拡張性を得るためにデータベースに統合
広範な統計、高度な分析のための関数を用意
Rの機能をアプリケーションや OBIEEに統合
探索的なデータ分析
すぐれたグラフ描画機能
Open source R (CRAN) パッケージ
R
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
49
機械学習アルゴリズムと活用例マッピング
テーマ
イメージ図
アルゴリズム
応用範囲の例
分類
Logistic Regression (GLM)
Decision Trees
Naïve Bayes
Support Vector Machines (SVM)
ロイヤルカスタマーの予測
稼働会員から外れる会員の予測
優良商品へ成長する製品の予測
インバウンドニーズのある店舗の予測
回帰
Linear Regression (GLM)
Support Vector Machine (SVM)
特定商品の売り上げを予測
特定顧客の消費金額を予測
異常検出
One Class SVM
突発的な商品需要の検知
機器の異常値検知
属性重要度
Minimum Description Length (MDL)
Principal Components Analysis (PCA)
属性の絞り込み、ノイズの低減
相関ルール
Apriori
バスケット分析/ NBO(Next Best Offer)分析
クラスタリング
Hierarchical k-Means
Hierarchical O-Cluster
Expectation-Maximization Clustering (EM)
製品のグルーピング/ テキストマイニング
遺伝子-タンパク質分析
特徴抽出
Nonnegative Matrix Factorization (NMF)
Singular Value Decomposition (SVD)
テキスト分析 / 因子分析
A1 A2 A3 A4 A5 A6 A7
F1 F2 F3 F4
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
50
GUIによる操作で分析フローを設計が可能
• フローをイメージで保存可能
• クライアントツールから
データベースを操作
• 複雑な機械学習の処理を
自動で同時実行
• モデリングに適したデータに
自動変換
• ETL処理も実行可能
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
51
Oracle Advanced Analyticsのインタフェース
データサイエンティスト
+ ビジネスユーザー
SQL Developer
Rプログラマー
R Enterprise Client
ビジネスユーザー
(マネージャーレベル)
エンドユーザー
Oracle BI
HCM, CRMなど
Oracle Database Enterprise Edition
Oracle Advanced Analytics
並列実行のためのSQLデータ・マイニング/分析関数
スケーラブルな分散、高性能のRとの統合
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
52
機械学習機能のオラクル・アプリケーションへの組込み
アプリケーション
機能
業種別データモデル
•
•
•
•
支出分類
• 支出とパフォーマンスの可視性を改善(誤承認検出)
人材管理
• 労働力の予測(離職率とパフォーマンス予測)
CRM
• 販売計画—販売機会の予測(いつ、なにを、どのくらい)
ID管理
• ユーザログイン時のリアルタイムセキュリティ管理
イベント処理
• データモデルと統合されたイベント処理
カスタマーサービス
• ユーザへのインシデント予測管理サービス(障害未然防止)
小売顧客分析
• 併売分析・推奨
工場管理
通信業における顧客セグメンテーション、プロファイリング、離脱予測
小売業におけるバスケット分析、顧客ロイヤリティ予測
航空業における発着便数最適化、顧客生涯価値向上
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
53
Program Agenda
1
機械学習概要
2
実践!Oracle Databaseで機械学習
3
クラウド環境を使うメリット
4
Oracle Databaseの機械学習機能概要
5
まとめ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
54
データ活用におけるPDCAサイクル (CRISP-DM)
ビジネス
理解
データ
理解
データ
準備
展開
データ
モデリング
データ分析におけるPDCAサイクルを
クラウド・マシン・ラーニング
によって自動化・サポート
評価
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
55
データ活用におけるPDCAサイクル (CRISP-DM)
ビジネス
理解
ビジネス
理解
データ
理解
データ
準備
展開
データ
モデリング
評価
データ
理解
データ
準備
データ
モデリング
評価
展開
ビジネス
目的を
決定する
初期
データを
収集する
データを
選択する
モデリング
手法を
選択する
結果を
評価する
展開を
計画する
状況を
評価する
データを
記述する
データを
整理する
テスト
結果を
生成する
プロセスを
審査する
運用を
計画する
分析の
ゴールを
決定する
データを
調べる
データを
構築する
モデルを
構築する
次の
ステップを
決定する
最終
レポートを
作成する
プロジェクト計
画を建てる
データの
品質を
検証する
データを
統合する
モデルを
評価する
プロジェクトを
審査する
データを
設定する
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
56
包括的な分析環境をクラウドで提供
R
データ連携
データマネジメント
&
データ分析
データビジュアライズ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
57
Appendix
データマイニングの処理の流れ
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
58
データマイニングの処理の流れ
①データの
探索
②データの
収集・加工
③モデル
の作成
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
④モデル
の評価
59
データの探索
分析の目的を明確にする / データの特徴をつかむ
• データの可視化を通じて、分析の目
的を明確にする (どのデータを利用
して何を予測するのか?)
• データの特徴をつかむ
– マイニングを行うためには、どのように
データを加工しなければならないのか
を明確にする
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
60
データの収集・加工
アルゴリズムに適用できるようにデータを加工
• データの収集・加工
– データの収集
– データの粒度の調整
– 結合、フィルタリング
• データのマイニング用処理
– 欠損値の補完
– 外れ値の排除
– 階級値への変換
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
61
モデルの作成
アルゴリズムの利用
• 目的の明確化
– 分類?クラスタリング?回帰?
• アルゴリズムの選択
– 複数のアルゴリズムでモデルを生成することもある
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
62
モデルの評価
アルゴリズムの利用
• テスト用データによるモデルの正確さの評価
• 結果を踏まえて、利用データ・アルゴリズムの変更も検討
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
63
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
64
Copyright © 2016, Oracle and/or its affiliates. All rights reserved.
65
Fly UP