...

ビッグテータ

by user

on
Category: Documents
14

views

Report

Comments

Transcript

ビッグテータ
用語解説
ビッグデータ
エネルギア総合研究所 フィナンシャルテクノロジー担当 石河 孝明
最近よく耳にする「ビッグデータ」という用語に
ついて,その特徴や活用方法を,この分野で先進的
なグーグルやアマゾン・ドット・コムのビッグデー
タ戦略も交えて紹介する。
(1)ビッグデータとは何か
ビッグデータの特徴としては,データ量の多さや
データの種類の多さが挙げられる。データ量の多さ
とは,典型的なデータベース・ソフトウェアの能力
を超えたサイズのデータのことを指している。また
データの種類の多さに関しては,扱うデータにテキ
ストデータ,画像データ,位置情報データ等多くの
種類があり,その中にはフォーマットがきちんと定
義されていないものも含まれている。
ビ ッ グ デ ー タ の 具 体 例 と し て は, オ ン ラ イ ン
ショッピングサイトやブログサイトにおいて蓄積さ
れる購入履歴やエントリー履歴,ウェブ上の配信
サービスで提供される音楽や動画等のマルチメディ
アデータ,ソーシャルメディアにおいて参加者が書
き込むコメント等さまざまなものがある。
(2)ETLフレームワーク
膨大な量のデータの中からパターンを発見し,そ
れをビジネスに役立てるためには,データのフォー
マットを統一して分析の環境を整える必要がある。
そのためのプロセスがETLフレームワークであり,
E(Extract)
,T(Transform)
,L(Load) で 構
成されている(図1参照)
。Eはデータの取得・抽出,
Tは抽出したデータのビジネスニーズに応じた変換・
加工,Lは変換・加工されたデータの書き込みを表
しており,最近のハードディスクの低コスト化が,
ETLフレームワークの実現を可能にしている。
E(Extract:抽出)
データを取得する
T(Transform:加工)
データを加工する
ことが必要である。
E(Extract:抽出) T(Transform:加工) L(Load:ロード)
そのための技術として,膨大な量のデータを処理
データを加工する
データを格納する
データを取得する
するためのMapReduceによる並列分散処理がある
(図2参照)。これは,大きな仕事を細かい仕事に分
解して,それらを別々のサーバが同時並行して処理
するという考え方に基づいている。
分割0
分割1
分割2
分割3
分割4
サーバ1
サーバ2
サーバ3
中間ファイル
サーバ4
中間ファイル
サーバ5
出力ファイル0
出力ファイル1
中間ファイル
図2 MapReduceの仕組み
※参考文献中の図を筆者が加工
②マゾン・ドット・コム
アマゾン・ドット・コムが掲げている目的は,世
界有数の大型書店でも店頭に置ききれないくらい膨
大な数の本の中から欲しい本を簡単に見つけて買え
る場を提供することである。そのために,Data is
King at Amazonという概念を掲げてデータ分析に
よる顧客第一主義を実践している。その一例がレコ
メンドであり,ある商品Xを買った場合に,商品X
と似ている商品Yを薦める考え方である(図3参照)。
そのためには,大量の顧客データをリアルタイムで
精度よく処理する必要があり,ダイナモというデー
タベース・ソフトウェアを独自開発している。
L(Load:ロード)
データを格納する
図1 ETLフレームワーク
※参考文献中の図を筆者が加工
(3)各社のビッグデータ戦略
近年のウェブ業界のリーダー的存在であるグーグ
中間ファイル
分割0
ルとアマゾン・ドット・コムについて,それぞれの
サーバ1
サーバ4
分割1
企業が目的として掲げていること,それを実現する
出力ファイル0
中間ファイル
サーバ2
分割2
ためのビッグデータ戦略および技術について述べる。
出力ファイル1
分割3
サーバ5
①グーグル
サーバ3
分割4
中間ファイル
グーグルは,できるだけ多くのユーザーにサービ
スを提供するという「最大化戦略」を展開しており,
そのために,Gメールやユーチューブなどほとんど
のサービスについて基本的な部分を無料で提供して
いる。一方で,グーグルの収益源は,検索したとき
に表示される広告であり,そこから収益を上げるた
めに,毎日急速な勢いで増加しているウェブページ
について,鏡のように完全なコピーを作り,そこか
らたくさんのパターンを発見し,収益機会を増やす
Page 10
図3 レコメンドの例
※アマゾン・ドット・コム インターネット画面より抜粋
(4)ビッグデータの課題
ビッグデータ戦略の推進には大量の顧客データの
収集が必要であり,プライバシーの問題が発生して
くる。これはビッグデータの持つ大きな課題であり,
前述したグーグルでもストリートビューにからむプ
ライバシーの侵害が話題となった。
今後,ビッグデータを活用したビジネスはますま
す重要となってくるが,プライバシーと顧客情報の
折り合いをうまくつけながら進めていく必要がある。
[参考文献]
(1) 長橋:“ビッグデータ戦略”,2012
(2) 海部:“ビッグデータの覇者たち”,2013
エネルギア総研レビュー No.34
Fly UP