...

データ品質

by user

on
Category: Documents
5

views

Report

Comments

Transcript

データ品質
Gartner Symposium 2016
戦略的データ活用の勘所
~アナリティクスのためのデータマネジメント ~
2016/10/12
SAS Institute Japan株式会社
ソリューションコンサルティング本部 情報基盤イノベーショングループ
山本 慎一
Copyright © 2016, SAS Institute Inc. All rights
reserved.
会社概要
日本
Global
名称
SAS Institute Japan株式会社
SAS Institute Inc.
設立
1985年
1976年
所在地
東京、大阪
米国ノースカロライナ州キャリー
代表者
堀田 徹哉
Dr. James Goodnight
(CEO,創設者)
オフィス所在国
従業員数
日本
約257名
(2016年2月現在)
2015年売上高
31.6億米ドル
顧客満足度No.1
(外部評価)
業界トップのR&D投資率
59カ国
(米国、カナダ、中南米等)
約14,000名
SAS Institute Inc.の業績
ビジネス・アナリティクス(BA)ソフトウェアとサービスのリーディング・カンパニー
年間売上31.6億米ドル(2015年)
- 前年比2.3%増
1976年以来連続して増収増益を達成
R&D投資率:売上高の平均24%
※大手ソフトウェア企業平均の約2倍を継続投資
Copyright © 2016, SAS Institute Inc. All rights
reserved.
2
アジェンダ
0.はじめに
1.データマネジメントがボトルネック
2.アナリティクスのためのデータマネジメント
3.データマネジメントへの取り組み
4.データガバナンス
5.はじめの一歩
3
Copyright © 2016, SAS Institute Inc. All rights
reserved.
新たな競争原理
“In the new world, it is not the big fish which eats the
small fish, it’s the fast fish which eats the slow fish”
“世の中は、大きな魚が小さな魚を食べるのではなく、
動きの速い魚が遅い魚を食べる時代になった”
Klaus Schwab
Founder and Executive Chairman
世界経済フォーラム
迅速で的確な経営判断(意思決定)が求められる
4
Copyright © 2016, SAS Institute Inc. All rights
reserved.
情報資産であるデータを迅速に価値に変える下記ステップ
が必要
データを
準備
1 データマネジメント
結果の
適用
洞察
2
アナリティクス
3
ビジネス価値
5
Copyright © 2016, SAS Institute Inc. All rights
reserved.
データを価値に変える仕組み=“アナリティクスライフサイクル”
の確立、繰り返し運用が必要
発見
適用
一番のボトルネック 「データ準備」が成功の鍵を握る
Copyright © 2016, SAS Institute Inc. All rights
reserved.
6
本セッションのテーマ
昨今、ディープラーニング、AI、機械学習などのアナリティクスに関
心が持たれていますが、本セッションでは、
“アナリティクスは、ボトルネックであるデータ準備(データマネ
ジメント)の改善無しでは、本来の目的(迅速で的確な意思
決定)を達成することができない”
という地道なお話をさせて頂きます。
7
Copyright © 2016, SAS Institute Inc. All rights
reserved.
1.データマネジメントがボトルネック
8
Copyright © 2016, SAS Institute Inc. All rights
reserved.
例えば、分析レポートを依頼した場合を想像してください
• 迅速に結果を受け取れますか?
• その内容は納得できるものですか?
• 疑問点への柔軟な対応が可能ですか?
9
Copyright © 2016, SAS Institute Inc. All rights
reserved.
実際の依頼後のプロセス
ビジネス課題
分析結果
意思決定
課題解決のための準備時間
課題解決に
あてる時間
データ準備がなかなか進まない
Excelで無理やり加工するしかない。。。
10
Copyright © 2016, SAS Institute Inc. All rights
reserved.
なぜ、分析レポート作成に時間がかかるのか
Analytics
“分析作業の80%は、データマネジメント作業
に費やされる”と言われています。
20%
Data Management
80%
分散データ
低いデータ品質
コード体系不一致
・必要なデータは分散されている
・データ項目の定義が不明、あるいはメンテされていない
・コード体系が異なり結合できない
・・・
Copyright © 2016, SAS Institute Inc. All rights
reserved.
11
さらに、データマネジメントには様々な課題が存在
目に見える取り組み:
隠れている様々な課題:
(見たくない部分)
分析手法
アナリティクス
BI、分析ツール利用
散在したデータの統合
低いデータ品質
マスタ統合
データマネジメント
データ管理者不在
データ標準(ガイドライン)の策定
法規制の遵守
変更管理
12
Copyright © 2016, SAS Institute Inc. All rights
reserved.
皆さんの会社はいかがでしょうか?
世の中の企業のうち57%もの企業が、
自社の正確な顧客リストを作成するのに
まる2日間以上かかってしまう
米国調査会社Forrester Research
顧客の定義とは?
顧客マスタは複数ある?
メンテナンスされている?
13
Copyright © 2016, SAS Institute Inc. All rights
reserved.
2.アナリティクスのためのデータマネジメント
14
Copyright © 2016, SAS Institute Inc. All rights
reserved.
アナリティクスのためのデータマネジメントとは、
レポートのためのデータマネジメント
ビジネスユーザは、
仕様を決める
IT は、分析が行える
データ基盤を構築
ITは、仕様に従って
データを作成
ビジネスユーザは、分析への
必須作業として、反復型
データ加工が必要
ビジネスユーザ、IT間の
繰り返しが発生
Copyright © 2016, SAS Institute Inc. All rights
reserved.
アナリティクスのためのデータマネジメント
ビジネス(分析)ユーザが、セルフサービスで
試行錯誤的にデータ加工できる環境が必要
15
ビジネス(分析)ユーザが作成したいデータとは、
€
$¥
ビジネス(分析)ユーザが、試行錯誤的に上記のABT(Analytic Base Table)作成することが必要
Copyright © 2016, SAS Institute Inc. All rights
reserved.
16
データソース~分析まで
基幹側データマネジメント
高度な分析
ビジネスユーザ
業務、基幹
データソース
ETL
Data mart
EDW
収集/統合
IT
非構造データ
ウェブ &
ソーシャルメディア
品質
ストリーミングデータ
センサー,
スマートメーター
IoT
セルフサービス
分析のためのデータ準備
Hadoop
In-Hadoop Data Management &
Analytics
データ探索 と データ準備
ビジネスユーザ
Copyright © 2016, SAS Institute Inc. All rights
reserved.
分析
17
データ活用プラットフォームのイメージ
SASは、IT向けのデータマネジメント環境に加えて、分析ユーザ向けにもセルフサービスのデータマネジメント・テクノロジー
を提供します。
ユーザ部門
IT部門
アナリティクス / レポーティング
データマネジメント
1次ETL
品質
2次ETL
DM
データ加工
DWH/
統合DM
Copyright © 2016, SAS Institute Inc. All rights
reserved.
収集/統合
ユーザ
データ
DM
Excel
レポート作成
Excel
レポート
DM
商品データ
分析モデル
構築
分析
モデル
売上データ
顧客データ
ユーザ
データ
ユーザ
データ
データ準備
Web
レポート作成
Web
レポート
セルフ
サービス
18
3.データマネジメントへの取り組み
19
Copyright © 2016, SAS Institute Inc. All rights
reserved.
第1要素
“収集/統合”の考慮すべき点
品質
収集/統合
セルフサービス
分析
収集/統合
 ビッグデータへの対応
 分散されたデータ
 リアルタイムデータ
 パフォーマンス
 セキュリティ、コンプライアンス
など
Copyright © 2016, SAS Institute Inc. All rights
reserved.
20
一般的なビッグデータへのデータマネジメント戦略
ユーザ
“まず蓄積して、その後クエリ”
情報の価値はクエリー時に
はじめて判明します。
システム
クエリー
ビッグデータ時代においては、この
アプローチだけではやがて限界を
迎えるでしょう。
データ統合
データの変換
データの標準化
ビッグデータ
Copyright © 2016, SAS Institute Inc. All rights
reserved.
21
日常生活におけるデータ管理(少し見方を変えて。。。)
1. 受け取り
2. 必要かどうかを判断
3. 分別
ゴミ箱
一時置き場
よく使う場所
倉庫
22
Copyright © 2016, SAS Institute Inc. All rights
reserved.
ビッグデータの収集・管理・活用を支えるテクノロジー
DWH
アプライアンス
Hadoop
ローコストストレージを
生かして全てを蓄積
In-Database
アドホック・非定型処理
のための構造的管理
Data Federation
& Virtualization
データ移動の最適化
Event Stream
Processing
ストリーミング処理
•
多くの企業が、これらのテクノロジーが混在した環境と格闘しています
•
このような環境の中で、データガバナンス、データ品質やセキュリティの取り組みが見過ごされているケースもしばしば
見受けられます
•
SASは、お客様がこれらの異なる様々なテクノロジー環境においてもデータマネジメントプロセスを構築支援
23
Copyright © 2016, SAS Institute Inc. All rights
reserved.
データフェデレーション(仮想統合)
SAS® Federation Server
Data Federationとは、データ統合パターンの一つであり、異なる多様なデータソースを、それぞれのデータソースの独立性や
データソース間の整合性を保ちつつ、あたかも一つのデータソースであるかのように参照し操作することを可能にするテクノロジー。
 異種DBの仮想統合
(データソースから最小限の移動)
 データ管理、設定の集中化
 データ仮想層によるデータ要件変更への迅速な対応
/コスト削減
 セキュリティ、監査ログの集中化
 最適なパフォーマンス
 各アプリケーションへ統合された1データソースとして提供
24
Copyright © 2016, SAS Institute Inc. All rights
reserved.
SAS® EVENT STREAM
PROCESSING
ストリーミング処理
ストリーミングデータソース
ターゲットアプリケーション
SAS Event Streaming Process Server
Publish
ESP
Adapter
Publish
ESP
Adapter
SAS EVENT STREAM
PROCESSING ENGINE
ストリーミングデータのよ
うな高速で、膨大な
データを処理して、リア
ルタイムなアクションやア
ラートのトリガーになる
ESP
Connecter
Subscribe
アプリケーション
Subscribe
ESP
Adapter
各種デバイス
アプリケーション
データベース
Copyright © 2016, SAS Institute Inc. All rights
reserved.
Network
Publish
ESP
Connecter
ストリームデータに対して 検知、抽
出、 集計、 結合といった操作を通
じてノイズの中から信号を見つける
イベントに対する分
析処理、特にパ
ターンを識別し検
知する
Subscribe
ESP
Connecter
ESP
Adapter
各種SAS製品
Subscribe
Network
Publish
ESP
Adapter
25
第2要素
“品質”の考慮すべき点
品質
収集/統合
セルフサービス
分析
品質
 データプロファイリング
 データクレンジング
 名寄せ
 モニタリング
など
26
Copyright © 2016, SAS Institute Inc. All rights
reserved.
データ品質
SAS® Data Quality
顧客データやその他のデータに対して、プロファイリング、クレンジング、拡張や統合を実施し、データの品質を改善することで、
分析の精度や意思決定の精度を高めることができます。
主なタスク
データ品質改善プロセス
プロファイリング
•データ品質を定量的に評価し、改善を必要とする表記ゆれ、不整
合、不正確さを特定するために、データの値を網羅的に調査し特徴
付けるプロセス
クレンジング
•データの標準化を実施し、必要に応じてデータを取捨選択、修正、
補完を実施する。
統合(名寄せ)
•異なるシステム間で保持する同じ顧客データを識別し、1レコード
に統合する
モニタリング
•データ品質度合いを指標として設定し、レポート表示、アラートによ
る継続的なモニタリング可能
27
Copyright © 2016, SAS Institute Inc. All rights
reserved.
プロファイリング
値の分布リスト
テーブルプロファイリングとビジュアライゼーション
パターン分析
28
Copyright © 2016, SAS Institute Inc. All rights
reserved.
クレンジング
パース(データ分割)
入力データを意味のあるトークン(都道府県、市区町村、苗字などの単位)に分割
入力データ
不完全な住所データ
パース後のデータ
データ標準化(表記ゆれの補正)
あらかじめ定義されている標準化定義を使用して表記を統一
パース後のデータ
標準化後のデータ
Copyright © 2016, SAS Institute Inc. All rights
reserved.
29
統合(名寄せ)
曖昧マッチング
項目ごとの曖昧マッチングをSensitivity(感度)パラメータでコントロールします。初期設定の感度の定義をカスタマイズ可能
入力データ(氏名)
感度90-100
感度85-89
感度80-84
田中サチコ
1
1
1
田中サチコ
1
1
1
田中さちこ
2
1
1
斉藤二郎
3
2
2
斎藤二郎
4
2
2
伊藤三郎
5
3
3
伊東三郎
6
4
3
いとう三郎
7
5
3
Copyright © 2016, SAS Institute Inc. All rights
reserved.
感度90-100
カタカナの半角全角揺れは同一とみなす
感度85-89
上記に加え、旧字、カタカナ、ひらがな、ローマ字の揺れは同一とみ
なす
感度80-84
上記に加え、苗字について読みが同じ漢字の場合も同一とみなす
30
モニタリング
モニタリングレポート・アラート
PLANフェーズで定義あるいは、プロジェクト中に再定義されたビジネスルールを使用して、データ品質度合いを継続的にモニタリング可能
指標をレポート表示するだけでなく、ルール違反のレコードを記録したり、よりクリティカルなルールについては、担当者へメール送信など様々なアラート
方法を提供
31
Copyright © 2016, SAS Institute Inc. All rights
reserved.
第3要素
“セルフサービス”の考慮すべき点
品質
収集/統合
セルフサービス
分析
セルフサービス
 容易なデータアクセス
 GUIによるデータ加工
 試行錯誤
 加工後データに対する分析ツールとの連携
など
Copyright © 2016, SAS Institute Inc. All rights
reserved.
32
必要な条件を満たすセルフサービスツールとは、
分析ユーザは、ユーザ自身が様々なデータ加工処理に加えて、加工後データに対する分析(統計処理)、結果表示
としての集計表作成やグラフ作成などのレポーティングを実施します。
それら要件をカバーするアドホック性の高いセルフサービスツールが必要となります。
分析プロセスフロー図
分析フローの設計/管理及びストア
ドプロセスの登録
主な機能
SAS®
Enterprise Guide
•データ加工処理
•レポート作成
•アドホック・クエリ
•ストアドプロセス作成
•分析プロセスフロー共有
•統計手法を活用した高度分析
分析タスクリスト
クエリーや集計、予測などのSASの
高度な分析機能をメニューから選択
し実行
結果ウィンドウ
•予測シミュレーション
分析結果の表示やデータのレ
ビューの実施
•・・・
33
Copyright © 2016, SAS Institute Inc. All rights
reserved.
プロセスフロー
データ準備、分析プロセスは可視化されるため、処理が分かり易く、属人化を防止し、共有化を促進します。
プロセスフローは、どの中間データからでも派生してデータ加工できるため、試行錯誤にも適しています。
データ抽出
データ加工
高度な分析
レポーティング
34
Copyright © 2016, SAS Institute Inc. All rights
reserved.
Hadoop向けセルフサービスツール
ポイント &
クリック
Hadoopスキルが不要
SAS® Data Loader for Hadoop
セルフサービス型
Hadoop環境にあるデータ管理のセルフサービス化を実現
Copyright © 2016, SAS Institute Inc. All rights
reserved.
HTML 5 インターフェース
35
Hadoopデータの活用
定型レポート
SAS® Visual Analytics
様々な分析
Hadoop上のデータに対してメモリ(LASR)にロードすることでレポート、分析が容易に実現
Copyright © 2016, SAS Institute Inc. All rights
reserved.
36
4.データガバナンス
37
Copyright © 2016, SAS Institute Inc. All rights
reserved.
データマネジメントの課題として、「組織、ルールの問題」が
あります
分析に使用すべき/
使用できるデータは
どこにありますか?
データ品質に責任を持っ
ているのは誰ですか?
IT
OPERATION
S
BUSINESS
VENDORS
データをどのように
保護していますか?
データをセキュリ
ティを保持しな
がらどのように
チームで共有し
ていますか?
CUSTOMERS
過去の知見を再利
用する方法は?
REGULATOR
S
システムの責任者はいてもデータの責任者が不在
Copyright © 2016, SAS Institute Inc. All rights
reserved.
38
データガバナンス
「組織、ルール
の問題」
全部門を通じて、信頼できるデータであるという共通理解を確立
するために、組織とテクノロジーによって、構造化および非構造化
データ資産が定められたルールに基づいて管理され、保護される
プロセス
39
Copyright © 2016, SAS Institute Inc. All rights reserved.
必要な要素
データ資産の管理を統制
データマネジメントプロセス
ビジネスルール
・
・
・
・
データ資産の価値の把握
データに関する標準、ポリシー、手続きの評価
コンプライアンスの評価
リスクの管理 など
Consensus
Collaboration
役割と責任
オーナーシップ, スチュワードシップ
ビジネス用語定義
データ品質チェック
レポート&ダッシュボード
Transparency
業務
Copyright © 2016, SAS Institute Inc. All rights
reserved.
システム
40
業務部門とシステム部門の協力(スチュワードシップ)
エグゼクティブスポンサーシップ
データガバナンス
業務
と
システム部門
データスチュワードシップ
のコラボレーション
Copyright © 2016, SAS Institute Inc. All rights
reserved.
プログラムの監視、リスクの管
理、コンプライアンスの評価
業務部門:業務プロセスに
精通しており、業務ポリシー、
業務ルール、業務指針につい
て把握している
業務
システム部門:個別のソース
データシステムの知識
データマネジメント
データ
要件
ガバナンスプログラムと資産
を保護し、価値を高めリソー
スを割り当てる
データ
アーキテクチャ
メタデータ
管理
データ
品質
定められた指針と標準に基づ
いて資産を開発・管理する
データ
管理
セキュリティ
権限管理
システム
41
5.はじめの一歩
42
Copyright © 2016, SAS Institute Inc. All rights
reserved.
結果を分けるスタートライン
いきなり始めると失敗します。データマネジメント自身は目的にはなりません。
•
目的は何ですか?
•
誰・何のためですか?
•
ゴールはどこですか?将来のロードマップは?
•
経営戦略に直結したデータマネジメント戦略がありますか?
43
Copyright © 2016, SAS Institute Inc. All rights
reserved.
データ品質改善へのステップ
データ品質改善活動の計画を策定するために、まず業務データの分析、把握をすることが必要です。
•
•
定量的分析(プロファイリング)と類似性解析プロセス(マッチング)により発見したデータ品質の問題
データ品質改善のためのデータ変換やクレンジングの候補抽出
データ品質改善
計画の策定
データ品質課題定義
業務課題認識
•業務上の課題認識
•現状分析
•現状分析・課題定義に
基づく計画策定
•定性的定義
•定量的定義
【データ品質改善プロセス】
44
Copyright © 2016, SAS Institute Inc. All rights
reserved.
ご清聴頂きありがとうございました。
本セミナーに関するお問合せ:
SAS Institute Japan マーケティング本部 宛て
[email protected]
Copyright © 2016, SAS Institute Inc. All rights
reserved.
Fly UP