Comments
Description
Transcript
データ品質
Gartner Symposium 2016 戦略的データ活用の勘所 ~アナリティクスのためのデータマネジメント ~ 2016/10/12 SAS Institute Japan株式会社 ソリューションコンサルティング本部 情報基盤イノベーショングループ 山本 慎一 Copyright © 2016, SAS Institute Inc. All rights reserved. 会社概要 日本 Global 名称 SAS Institute Japan株式会社 SAS Institute Inc. 設立 1985年 1976年 所在地 東京、大阪 米国ノースカロライナ州キャリー 代表者 堀田 徹哉 Dr. James Goodnight (CEO,創設者) オフィス所在国 従業員数 日本 約257名 (2016年2月現在) 2015年売上高 31.6億米ドル 顧客満足度No.1 (外部評価) 業界トップのR&D投資率 59カ国 (米国、カナダ、中南米等) 約14,000名 SAS Institute Inc.の業績 ビジネス・アナリティクス(BA)ソフトウェアとサービスのリーディング・カンパニー 年間売上31.6億米ドル(2015年) - 前年比2.3%増 1976年以来連続して増収増益を達成 R&D投資率:売上高の平均24% ※大手ソフトウェア企業平均の約2倍を継続投資 Copyright © 2016, SAS Institute Inc. All rights reserved. 2 アジェンダ 0.はじめに 1.データマネジメントがボトルネック 2.アナリティクスのためのデータマネジメント 3.データマネジメントへの取り組み 4.データガバナンス 5.はじめの一歩 3 Copyright © 2016, SAS Institute Inc. All rights reserved. 新たな競争原理 “In the new world, it is not the big fish which eats the small fish, it’s the fast fish which eats the slow fish” “世の中は、大きな魚が小さな魚を食べるのではなく、 動きの速い魚が遅い魚を食べる時代になった” Klaus Schwab Founder and Executive Chairman 世界経済フォーラム 迅速で的確な経営判断(意思決定)が求められる 4 Copyright © 2016, SAS Institute Inc. All rights reserved. 情報資産であるデータを迅速に価値に変える下記ステップ が必要 データを 準備 1 データマネジメント 結果の 適用 洞察 2 アナリティクス 3 ビジネス価値 5 Copyright © 2016, SAS Institute Inc. All rights reserved. データを価値に変える仕組み=“アナリティクスライフサイクル” の確立、繰り返し運用が必要 発見 適用 一番のボトルネック 「データ準備」が成功の鍵を握る Copyright © 2016, SAS Institute Inc. All rights reserved. 6 本セッションのテーマ 昨今、ディープラーニング、AI、機械学習などのアナリティクスに関 心が持たれていますが、本セッションでは、 “アナリティクスは、ボトルネックであるデータ準備(データマネ ジメント)の改善無しでは、本来の目的(迅速で的確な意思 決定)を達成することができない” という地道なお話をさせて頂きます。 7 Copyright © 2016, SAS Institute Inc. All rights reserved. 1.データマネジメントがボトルネック 8 Copyright © 2016, SAS Institute Inc. All rights reserved. 例えば、分析レポートを依頼した場合を想像してください • 迅速に結果を受け取れますか? • その内容は納得できるものですか? • 疑問点への柔軟な対応が可能ですか? 9 Copyright © 2016, SAS Institute Inc. All rights reserved. 実際の依頼後のプロセス ビジネス課題 分析結果 意思決定 課題解決のための準備時間 課題解決に あてる時間 データ準備がなかなか進まない Excelで無理やり加工するしかない。。。 10 Copyright © 2016, SAS Institute Inc. All rights reserved. なぜ、分析レポート作成に時間がかかるのか Analytics “分析作業の80%は、データマネジメント作業 に費やされる”と言われています。 20% Data Management 80% 分散データ 低いデータ品質 コード体系不一致 ・必要なデータは分散されている ・データ項目の定義が不明、あるいはメンテされていない ・コード体系が異なり結合できない ・・・ Copyright © 2016, SAS Institute Inc. All rights reserved. 11 さらに、データマネジメントには様々な課題が存在 目に見える取り組み: 隠れている様々な課題: (見たくない部分) 分析手法 アナリティクス BI、分析ツール利用 散在したデータの統合 低いデータ品質 マスタ統合 データマネジメント データ管理者不在 データ標準(ガイドライン)の策定 法規制の遵守 変更管理 12 Copyright © 2016, SAS Institute Inc. All rights reserved. 皆さんの会社はいかがでしょうか? 世の中の企業のうち57%もの企業が、 自社の正確な顧客リストを作成するのに まる2日間以上かかってしまう 米国調査会社Forrester Research 顧客の定義とは? 顧客マスタは複数ある? メンテナンスされている? 13 Copyright © 2016, SAS Institute Inc. All rights reserved. 2.アナリティクスのためのデータマネジメント 14 Copyright © 2016, SAS Institute Inc. All rights reserved. アナリティクスのためのデータマネジメントとは、 レポートのためのデータマネジメント ビジネスユーザは、 仕様を決める IT は、分析が行える データ基盤を構築 ITは、仕様に従って データを作成 ビジネスユーザは、分析への 必須作業として、反復型 データ加工が必要 ビジネスユーザ、IT間の 繰り返しが発生 Copyright © 2016, SAS Institute Inc. All rights reserved. アナリティクスのためのデータマネジメント ビジネス(分析)ユーザが、セルフサービスで 試行錯誤的にデータ加工できる環境が必要 15 ビジネス(分析)ユーザが作成したいデータとは、 € $¥ ビジネス(分析)ユーザが、試行錯誤的に上記のABT(Analytic Base Table)作成することが必要 Copyright © 2016, SAS Institute Inc. All rights reserved. 16 データソース~分析まで 基幹側データマネジメント 高度な分析 ビジネスユーザ 業務、基幹 データソース ETL Data mart EDW 収集/統合 IT 非構造データ ウェブ & ソーシャルメディア 品質 ストリーミングデータ センサー, スマートメーター IoT セルフサービス 分析のためのデータ準備 Hadoop In-Hadoop Data Management & Analytics データ探索 と データ準備 ビジネスユーザ Copyright © 2016, SAS Institute Inc. All rights reserved. 分析 17 データ活用プラットフォームのイメージ SASは、IT向けのデータマネジメント環境に加えて、分析ユーザ向けにもセルフサービスのデータマネジメント・テクノロジー を提供します。 ユーザ部門 IT部門 アナリティクス / レポーティング データマネジメント 1次ETL 品質 2次ETL DM データ加工 DWH/ 統合DM Copyright © 2016, SAS Institute Inc. All rights reserved. 収集/統合 ユーザ データ DM Excel レポート作成 Excel レポート DM 商品データ 分析モデル 構築 分析 モデル 売上データ 顧客データ ユーザ データ ユーザ データ データ準備 Web レポート作成 Web レポート セルフ サービス 18 3.データマネジメントへの取り組み 19 Copyright © 2016, SAS Institute Inc. All rights reserved. 第1要素 “収集/統合”の考慮すべき点 品質 収集/統合 セルフサービス 分析 収集/統合 ビッグデータへの対応 分散されたデータ リアルタイムデータ パフォーマンス セキュリティ、コンプライアンス など Copyright © 2016, SAS Institute Inc. All rights reserved. 20 一般的なビッグデータへのデータマネジメント戦略 ユーザ “まず蓄積して、その後クエリ” 情報の価値はクエリー時に はじめて判明します。 システム クエリー ビッグデータ時代においては、この アプローチだけではやがて限界を 迎えるでしょう。 データ統合 データの変換 データの標準化 ビッグデータ Copyright © 2016, SAS Institute Inc. All rights reserved. 21 日常生活におけるデータ管理(少し見方を変えて。。。) 1. 受け取り 2. 必要かどうかを判断 3. 分別 ゴミ箱 一時置き場 よく使う場所 倉庫 22 Copyright © 2016, SAS Institute Inc. All rights reserved. ビッグデータの収集・管理・活用を支えるテクノロジー DWH アプライアンス Hadoop ローコストストレージを 生かして全てを蓄積 In-Database アドホック・非定型処理 のための構造的管理 Data Federation & Virtualization データ移動の最適化 Event Stream Processing ストリーミング処理 • 多くの企業が、これらのテクノロジーが混在した環境と格闘しています • このような環境の中で、データガバナンス、データ品質やセキュリティの取り組みが見過ごされているケースもしばしば 見受けられます • SASは、お客様がこれらの異なる様々なテクノロジー環境においてもデータマネジメントプロセスを構築支援 23 Copyright © 2016, SAS Institute Inc. All rights reserved. データフェデレーション(仮想統合) SAS® Federation Server Data Federationとは、データ統合パターンの一つであり、異なる多様なデータソースを、それぞれのデータソースの独立性や データソース間の整合性を保ちつつ、あたかも一つのデータソースであるかのように参照し操作することを可能にするテクノロジー。 異種DBの仮想統合 (データソースから最小限の移動) データ管理、設定の集中化 データ仮想層によるデータ要件変更への迅速な対応 /コスト削減 セキュリティ、監査ログの集中化 最適なパフォーマンス 各アプリケーションへ統合された1データソースとして提供 24 Copyright © 2016, SAS Institute Inc. All rights reserved. SAS® EVENT STREAM PROCESSING ストリーミング処理 ストリーミングデータソース ターゲットアプリケーション SAS Event Streaming Process Server Publish ESP Adapter Publish ESP Adapter SAS EVENT STREAM PROCESSING ENGINE ストリーミングデータのよ うな高速で、膨大な データを処理して、リア ルタイムなアクションやア ラートのトリガーになる ESP Connecter Subscribe アプリケーション Subscribe ESP Adapter 各種デバイス アプリケーション データベース Copyright © 2016, SAS Institute Inc. All rights reserved. Network Publish ESP Connecter ストリームデータに対して 検知、抽 出、 集計、 結合といった操作を通 じてノイズの中から信号を見つける イベントに対する分 析処理、特にパ ターンを識別し検 知する Subscribe ESP Connecter ESP Adapter 各種SAS製品 Subscribe Network Publish ESP Adapter 25 第2要素 “品質”の考慮すべき点 品質 収集/統合 セルフサービス 分析 品質 データプロファイリング データクレンジング 名寄せ モニタリング など 26 Copyright © 2016, SAS Institute Inc. All rights reserved. データ品質 SAS® Data Quality 顧客データやその他のデータに対して、プロファイリング、クレンジング、拡張や統合を実施し、データの品質を改善することで、 分析の精度や意思決定の精度を高めることができます。 主なタスク データ品質改善プロセス プロファイリング •データ品質を定量的に評価し、改善を必要とする表記ゆれ、不整 合、不正確さを特定するために、データの値を網羅的に調査し特徴 付けるプロセス クレンジング •データの標準化を実施し、必要に応じてデータを取捨選択、修正、 補完を実施する。 統合(名寄せ) •異なるシステム間で保持する同じ顧客データを識別し、1レコード に統合する モニタリング •データ品質度合いを指標として設定し、レポート表示、アラートによ る継続的なモニタリング可能 27 Copyright © 2016, SAS Institute Inc. All rights reserved. プロファイリング 値の分布リスト テーブルプロファイリングとビジュアライゼーション パターン分析 28 Copyright © 2016, SAS Institute Inc. All rights reserved. クレンジング パース(データ分割) 入力データを意味のあるトークン(都道府県、市区町村、苗字などの単位)に分割 入力データ 不完全な住所データ パース後のデータ データ標準化(表記ゆれの補正) あらかじめ定義されている標準化定義を使用して表記を統一 パース後のデータ 標準化後のデータ Copyright © 2016, SAS Institute Inc. All rights reserved. 29 統合(名寄せ) 曖昧マッチング 項目ごとの曖昧マッチングをSensitivity(感度)パラメータでコントロールします。初期設定の感度の定義をカスタマイズ可能 入力データ(氏名) 感度90-100 感度85-89 感度80-84 田中サチコ 1 1 1 田中サチコ 1 1 1 田中さちこ 2 1 1 斉藤二郎 3 2 2 斎藤二郎 4 2 2 伊藤三郎 5 3 3 伊東三郎 6 4 3 いとう三郎 7 5 3 Copyright © 2016, SAS Institute Inc. All rights reserved. 感度90-100 カタカナの半角全角揺れは同一とみなす 感度85-89 上記に加え、旧字、カタカナ、ひらがな、ローマ字の揺れは同一とみ なす 感度80-84 上記に加え、苗字について読みが同じ漢字の場合も同一とみなす 30 モニタリング モニタリングレポート・アラート PLANフェーズで定義あるいは、プロジェクト中に再定義されたビジネスルールを使用して、データ品質度合いを継続的にモニタリング可能 指標をレポート表示するだけでなく、ルール違反のレコードを記録したり、よりクリティカルなルールについては、担当者へメール送信など様々なアラート 方法を提供 31 Copyright © 2016, SAS Institute Inc. All rights reserved. 第3要素 “セルフサービス”の考慮すべき点 品質 収集/統合 セルフサービス 分析 セルフサービス 容易なデータアクセス GUIによるデータ加工 試行錯誤 加工後データに対する分析ツールとの連携 など Copyright © 2016, SAS Institute Inc. All rights reserved. 32 必要な条件を満たすセルフサービスツールとは、 分析ユーザは、ユーザ自身が様々なデータ加工処理に加えて、加工後データに対する分析(統計処理)、結果表示 としての集計表作成やグラフ作成などのレポーティングを実施します。 それら要件をカバーするアドホック性の高いセルフサービスツールが必要となります。 分析プロセスフロー図 分析フローの設計/管理及びストア ドプロセスの登録 主な機能 SAS® Enterprise Guide •データ加工処理 •レポート作成 •アドホック・クエリ •ストアドプロセス作成 •分析プロセスフロー共有 •統計手法を活用した高度分析 分析タスクリスト クエリーや集計、予測などのSASの 高度な分析機能をメニューから選択 し実行 結果ウィンドウ •予測シミュレーション 分析結果の表示やデータのレ ビューの実施 •・・・ 33 Copyright © 2016, SAS Institute Inc. All rights reserved. プロセスフロー データ準備、分析プロセスは可視化されるため、処理が分かり易く、属人化を防止し、共有化を促進します。 プロセスフローは、どの中間データからでも派生してデータ加工できるため、試行錯誤にも適しています。 データ抽出 データ加工 高度な分析 レポーティング 34 Copyright © 2016, SAS Institute Inc. All rights reserved. Hadoop向けセルフサービスツール ポイント & クリック Hadoopスキルが不要 SAS® Data Loader for Hadoop セルフサービス型 Hadoop環境にあるデータ管理のセルフサービス化を実現 Copyright © 2016, SAS Institute Inc. All rights reserved. HTML 5 インターフェース 35 Hadoopデータの活用 定型レポート SAS® Visual Analytics 様々な分析 Hadoop上のデータに対してメモリ(LASR)にロードすることでレポート、分析が容易に実現 Copyright © 2016, SAS Institute Inc. All rights reserved. 36 4.データガバナンス 37 Copyright © 2016, SAS Institute Inc. All rights reserved. データマネジメントの課題として、「組織、ルールの問題」が あります 分析に使用すべき/ 使用できるデータは どこにありますか? データ品質に責任を持っ ているのは誰ですか? IT OPERATION S BUSINESS VENDORS データをどのように 保護していますか? データをセキュリ ティを保持しな がらどのように チームで共有し ていますか? CUSTOMERS 過去の知見を再利 用する方法は? REGULATOR S システムの責任者はいてもデータの責任者が不在 Copyright © 2016, SAS Institute Inc. All rights reserved. 38 データガバナンス 「組織、ルール の問題」 全部門を通じて、信頼できるデータであるという共通理解を確立 するために、組織とテクノロジーによって、構造化および非構造化 データ資産が定められたルールに基づいて管理され、保護される プロセス 39 Copyright © 2016, SAS Institute Inc. All rights reserved. 必要な要素 データ資産の管理を統制 データマネジメントプロセス ビジネスルール ・ ・ ・ ・ データ資産の価値の把握 データに関する標準、ポリシー、手続きの評価 コンプライアンスの評価 リスクの管理 など Consensus Collaboration 役割と責任 オーナーシップ, スチュワードシップ ビジネス用語定義 データ品質チェック レポート&ダッシュボード Transparency 業務 Copyright © 2016, SAS Institute Inc. All rights reserved. システム 40 業務部門とシステム部門の協力(スチュワードシップ) エグゼクティブスポンサーシップ データガバナンス 業務 と システム部門 データスチュワードシップ のコラボレーション Copyright © 2016, SAS Institute Inc. All rights reserved. プログラムの監視、リスクの管 理、コンプライアンスの評価 業務部門:業務プロセスに 精通しており、業務ポリシー、 業務ルール、業務指針につい て把握している 業務 システム部門:個別のソース データシステムの知識 データマネジメント データ 要件 ガバナンスプログラムと資産 を保護し、価値を高めリソー スを割り当てる データ アーキテクチャ メタデータ 管理 データ 品質 定められた指針と標準に基づ いて資産を開発・管理する データ 管理 セキュリティ 権限管理 システム 41 5.はじめの一歩 42 Copyright © 2016, SAS Institute Inc. All rights reserved. 結果を分けるスタートライン いきなり始めると失敗します。データマネジメント自身は目的にはなりません。 • 目的は何ですか? • 誰・何のためですか? • ゴールはどこですか?将来のロードマップは? • 経営戦略に直結したデータマネジメント戦略がありますか? 43 Copyright © 2016, SAS Institute Inc. All rights reserved. データ品質改善へのステップ データ品質改善活動の計画を策定するために、まず業務データの分析、把握をすることが必要です。 • • 定量的分析(プロファイリング)と類似性解析プロセス(マッチング)により発見したデータ品質の問題 データ品質改善のためのデータ変換やクレンジングの候補抽出 データ品質改善 計画の策定 データ品質課題定義 業務課題認識 •業務上の課題認識 •現状分析 •現状分析・課題定義に 基づく計画策定 •定性的定義 •定量的定義 【データ品質改善プロセス】 44 Copyright © 2016, SAS Institute Inc. All rights reserved. ご清聴頂きありがとうございました。 本セミナーに関するお問合せ: SAS Institute Japan マーケティング本部 宛て [email protected] Copyright © 2016, SAS Institute Inc. All rights reserved.