Comments
Description
Transcript
ビッグテータ
用語解説 ビッグデータ エネルギア総合研究所 フィナンシャルテクノロジー担当 石河 孝明 最近よく耳にする「ビッグデータ」という用語に ついて,その特徴や活用方法を,この分野で先進的 なグーグルやアマゾン・ドット・コムのビッグデー タ戦略も交えて紹介する。 (1)ビッグデータとは何か ビッグデータの特徴としては,データ量の多さや データの種類の多さが挙げられる。データ量の多さ とは,典型的なデータベース・ソフトウェアの能力 を超えたサイズのデータのことを指している。また データの種類の多さに関しては,扱うデータにテキ ストデータ,画像データ,位置情報データ等多くの 種類があり,その中にはフォーマットがきちんと定 義されていないものも含まれている。 ビ ッ グ デ ー タ の 具 体 例 と し て は, オ ン ラ イ ン ショッピングサイトやブログサイトにおいて蓄積さ れる購入履歴やエントリー履歴,ウェブ上の配信 サービスで提供される音楽や動画等のマルチメディ アデータ,ソーシャルメディアにおいて参加者が書 き込むコメント等さまざまなものがある。 (2)ETLフレームワーク 膨大な量のデータの中からパターンを発見し,そ れをビジネスに役立てるためには,データのフォー マットを統一して分析の環境を整える必要がある。 そのためのプロセスがETLフレームワークであり, E(Extract) ,T(Transform) ,L(Load) で 構 成されている(図1参照) 。Eはデータの取得・抽出, Tは抽出したデータのビジネスニーズに応じた変換・ 加工,Lは変換・加工されたデータの書き込みを表 しており,最近のハードディスクの低コスト化が, ETLフレームワークの実現を可能にしている。 E(Extract:抽出) データを取得する T(Transform:加工) データを加工する ことが必要である。 E(Extract:抽出) T(Transform:加工) L(Load:ロード) そのための技術として,膨大な量のデータを処理 データを加工する データを格納する データを取得する するためのMapReduceによる並列分散処理がある (図2参照)。これは,大きな仕事を細かい仕事に分 解して,それらを別々のサーバが同時並行して処理 するという考え方に基づいている。 分割0 分割1 分割2 分割3 分割4 サーバ1 サーバ2 サーバ3 中間ファイル サーバ4 中間ファイル サーバ5 出力ファイル0 出力ファイル1 中間ファイル 図2 MapReduceの仕組み ※参考文献中の図を筆者が加工 ②マゾン・ドット・コム アマゾン・ドット・コムが掲げている目的は,世 界有数の大型書店でも店頭に置ききれないくらい膨 大な数の本の中から欲しい本を簡単に見つけて買え る場を提供することである。そのために,Data is King at Amazonという概念を掲げてデータ分析に よる顧客第一主義を実践している。その一例がレコ メンドであり,ある商品Xを買った場合に,商品X と似ている商品Yを薦める考え方である(図3参照)。 そのためには,大量の顧客データをリアルタイムで 精度よく処理する必要があり,ダイナモというデー タベース・ソフトウェアを独自開発している。 L(Load:ロード) データを格納する 図1 ETLフレームワーク ※参考文献中の図を筆者が加工 (3)各社のビッグデータ戦略 近年のウェブ業界のリーダー的存在であるグーグ 中間ファイル 分割0 ルとアマゾン・ドット・コムについて,それぞれの サーバ1 サーバ4 分割1 企業が目的として掲げていること,それを実現する 出力ファイル0 中間ファイル サーバ2 分割2 ためのビッグデータ戦略および技術について述べる。 出力ファイル1 分割3 サーバ5 ①グーグル サーバ3 分割4 中間ファイル グーグルは,できるだけ多くのユーザーにサービ スを提供するという「最大化戦略」を展開しており, そのために,Gメールやユーチューブなどほとんど のサービスについて基本的な部分を無料で提供して いる。一方で,グーグルの収益源は,検索したとき に表示される広告であり,そこから収益を上げるた めに,毎日急速な勢いで増加しているウェブページ について,鏡のように完全なコピーを作り,そこか らたくさんのパターンを発見し,収益機会を増やす Page 10 図3 レコメンドの例 ※アマゾン・ドット・コム インターネット画面より抜粋 (4)ビッグデータの課題 ビッグデータ戦略の推進には大量の顧客データの 収集が必要であり,プライバシーの問題が発生して くる。これはビッグデータの持つ大きな課題であり, 前述したグーグルでもストリートビューにからむプ ライバシーの侵害が話題となった。 今後,ビッグデータを活用したビジネスはますま す重要となってくるが,プライバシーと顧客情報の 折り合いをうまくつけながら進めていく必要がある。 [参考文献] (1) 長橋:“ビッグデータ戦略”,2012 (2) 海部:“ビッグデータの覇者たち”,2013 エネルギア総研レビュー No.34