Comments
Description
Transcript
講義資料はこちら
SASユーザー総会 平成24年8月3日(金) ビッグデータの活用における 落とし穴 樋口知之 (情報・システム研究機構 統計数理研究所) 1 1/26 人生をハードディスクに埋め込む 10分ごとに1枚写真をとると、 5MB×6×24×365×80 20テラバイト 2テラバイト 10,980円 11万円で一人のメモリーが記録可能 2/26 ゲノム解析を題材にとっても 理論・方法 ・情報量規準 ・時系列解析法 ・社会調査法 ・数量化理論 ・多変量解析 データ環境の変化と ともに変容 •ベイズ統計 •MCMC, 粒子フィルタ •アンサンブル学習器 •スパースモデリング •カーネル法 •メタアナリシス •データ同化 鎌谷先生@理研のスライドを改変 3/26 ビッグデータと創薬のかかわり 研究開発費: 製薬企業大手1社当り1,274億円 (1成分) 開発期間: 9年~17年 受容体や酵素の探索 化合物の設計/合成 臨床試験 Bioinformatics 分子動力学や量子化学計算 Biostatistics 統計科学・機械学習 ネットワーク工学・細胞運動・代謝工学に応用 吉田@統数研のスライドを改変 4/26 4 中抜き データをとりまく環境が激変 生命 地球 観測機器,計測装置,インターネット の著しい発達→情報を凝縮しない(中 抜き)時代 地球 生命 観測・計測システ ムのデザイン 社会 網は対象の捨象を 意味する 社会 データが土砂降り雨の状態 過度な情報集約を せざるを得なかった データが質,量 ともに不足 アルゴリズムモ デリング 知識発見,予測・制御能力の向上 5 5/26 ビッグデータとは? Researchers in a growing number of fields are generating extremely large and complicated data sets, commonly referred to as "big data." http://www.nsf.gov/news/news_images.jsp?cntn_id=123607 課題: 気象学、ゲノミクス、コネクトミクス、複雑な物理シミュレー ション、環境生物学、インターネット検索、経済学、経営情報学 データの源: モバイル機器に搭載されたセンサー、リモートセンシ ング技術、ソフトウェアのログ、カメラ、マイクロフォン、RFIDリー ダー、無線センサーネットワーク ウィキペディアより 6/26 データ中心主義の時代へ 100Gb/day /sequencer データ格納 データ処理 データ産出 角田先生@理研のスライドを改変 7 7/26 富を産む仕組みも変わった! 前世紀: 物質(「もの」)を均質に大量に生産 するシステム 21世紀: 個人化された情報サービスを提供 するシステム 個人をターゲットにした商品・サービスの提供を効率的に行えるシステム “コ”-個人,個性,個別,固有ーが大切! 8/26 ビッグデータは巨大なゴミ箱? ビッグデータの実際は、そのままだと単なる屑の山 1.マイニングは錬金術師でしょ? データ解析への懐疑的態度 生ゴミ プラスチ ック 新聞・紙 ビン、ア ルミ缶 分別、整理することで 2.砂金探しをいつまで続ける? エキスパートへの過度な依存 9/26 つなぐ:データ同化 今日はここの話 データ同化 (2011年9月刊行) 10/26 NSF Leads Federal Efforts In Big Data March 29, 2012 On March 29, the Federal Government held a webcast Federal government science leds from OSTP, NSF, NIH, DOE, DOD, DARPA and USGS outlined how their agencies are engaged in Big Data research, followed by a panel of thought leaders from academia and industry, moderated by Steve Lohr of the New York Times. About Big Data: Researchers in a growing number of fields are generating extremely large and complicated data sets, commonly referred to as "big data." A wealth of information may be found within these sets, with enormous potential to shed light on some of the toughest and most pressing challenges facing the nation. To capitalize on this unprecedented opportunity--to extract insights, discover new patterns and make new connections across disciplines--we need better tools to access, store, search, visualize and analyze these data. http://www.nsf.gov/news/news_images.jsp?cntn_id=123607 11/26 Big data techniques and technologies ・TECHNIQUES FOR ANALYZING BIG DATA 統計科学、数理工学 ・VISUALIZATION Tag Cloud Spatial Information Flow ・BIG DATA TECHNOLOGIES Big table, Business intelligence, Cassandra, Cloud computing, Hadoop, MapReduce, Relational database, Stream processing 計算機科学、情報工学 12/26 Big data techniques TECHNIQUES FOR ANALYZING BIG DATA A/B testing Association rule learning Classification Cluster analysis Crowdsourcing Data fusion and data integration Data mining Ensemble learning Genetic algorithms Machine learning Natural language processing Neural networks Network analysis Optimization Pattern recognition Predictive modeling Regression Sentiment analysis Signal processing Spatial analysis Statistics Supervised learning Simulation Time series analysis Unsupervised learning Visualization 統計 機械学習 データマイニング 最適化 計算科学その他 13/26 ビッグデータ環境下における研究開発推進の鍵 • 個人化技術 (Personalization) 落とし穴1: 新しい「NP問題」 (次元の呪い) 落とし穴2: 相関と因果 (超高次元の情報空間内の構造探索とモデル化) • 帰納的推論と機能のモデル化 落とし穴3: 物理帝国主義観からの脱却 (ニュートンパラダイムからのシフト) 14/26 落とし穴1:ビッグデータと新NP問題 ■ 1パラメータの値を、0~9の値から定める。 離散最適化問題 max . f ( ) 1 , , p パラメータ数が2個(p=2)なら、10 x 10 =100 通り計算すればよい。 p=10 p=15 p=20 10 1015 10 10 20 : 100億 (世界の人口が約70億人) : 1000兆 (「京」の計算速度は8000兆回/秒) : 1垓(がい) (ルービックキューブの全パターン数の約2倍) 10150 将棋のゲーム木の大きさ 10365 囲碁のゲーム木の大きさ Wikipediaより スパースなデータ空間を N(サンプル数) の増大だけでカバーする(埋める)のは 原理的に無理。データ空間の中で構造 を見つける方法が鍵。 15/26 データの有限性→情報の欠損 1 2 3 4 5 6 7 8 ケース(患者)番号,時系列 16/26 経度 緯度(時刻) 20 34 45 47 57 70 75 80 ・・・ 66 1 58 119 1,224 1,339 5,798 : 似た属性 7,301 1 2 3 4 5 6 : 100,00 条件付けすると, 情報がないところ だらけ.(原理的に は,データの個数 は常にひとつ) 特徴量(遺伝 ・・・ 100 子発現量,体 重,血糖値, 中性脂肪,) 20 34 45 47 57 1 58 119 1,224 1,339 5,798 : 7,301 70 75 80 ・・・ 66 ○ ○ ○ × × ○ ○ 薬が効く,効 かない 確率的に情報を埋 める(推測する) 16 落とし穴2:列挙処理、相関と因果 17/26 見えないものをビッグデータで推量する わからないもの,見えないもの • 人間・生活活動に関連する大量大規模データの出現 • 不十分ではあるが,一人一人の行動にいたる考え方 を間接的に捉えることが可能に. 構造が確認されている確率的な機構という特殊 な場合を除き、期待の構成の仕方は我々の持つ 知識や経験の使い方に大きく依存する。したがっ て、唯一無二の真の構造のようなものは存在しな い。…..したがって、我々はより良いモデルの探求 を通じて、常に未知の状態にある究極的な真理あ るいは真の構造に迫るのである。 赤池弘次 「時系列解析の心構え」、朝倉書店(1995) 18/26 知識循環と永続的なモデルの改良 知識発展の スパイラル 満足感 既存の知識 知識発見 直感やセレンディピティ リスク解析 制御 研究開発現場 予測 既存の知見 研究開発現場 シミュレーション 装置の性能 学習 検証 研究資源 実験・観測計画 調査法 データ設計 既存のモデルを 利用した分析 統計モデルの開発 19/26 ビッグデータ環境下における研究開発推進の鍵 • 個人化技術 (Personalization) 落とし穴1: 新しい「NP問題」 (次元の呪い) 落とし穴2: 相関と因果 (超高次元の情報空間内の構造探索とモデル化) • 帰納的推論と機能のモデル化 落とし穴3: 物理帝国主義観からの脱却 (ニュートンパラダイムからのシフト) 20/26 落とし穴3:内挿と外挿問題 データ無しの領域 データ 21/26 融合 超大量の データ 統計的データ解析 帰納的推論 トップダウン 逆問題(バックワード) 組み合わせ 基本方程式群 演繹的推論 数理的解析やシミュレーション 科学的思考スタイルの王道 とされてきた。 複雑な現象の理解 ボトムアップ・積み上げ方式 順問題(フォワード) 22/26 データ解析手法、機械学習法、 データマイニング手法 データ量の増大にと もない出番が日々が 増している。 帰納と演繹の両方が大切 ベイズの定理がなぜ今役立つのか?4つの理由 イギリスの牧師・数学者(1702 – 1761年) 1763年に発見 x : 興味のある対象 2.対象の特徴をとらえるセンサー性能の向上 高精度センサーのコモディティ(日用品)化 4.高速(無線)イン ターネット網の整備 y : データ ベイズの反転公式 p ( y | x ) p ( x ) p( x | y) p( y | x ) p( x ) 1.膨大な数の積分(和)操作 には高速な計算機が必要 コンピュータの性能向上 3.対象の細かい情報を不確 実性を含めて数値化。個人の 情報を網羅的に収集 ストレージの廉価化 23 23/26 ベイズの定理と情報循環 p( x | y) p( y | x ) p( x ) p( y | x ) p( x ) p( y) Posterior Likelihood Prior Improved knowledge Feasibility of realization of y for given x Belief about values of x xの空間 確率分布 24/26 尤度関数 about values of x 確率分布 ビッグデータをとりまく問題 ・人材育成 (人材争奪戦) ・法体系整備、プライバシー データリテラシーは大丈夫? 25/26 先進諸国で(統計学科を保持しない唯一の国が日本 たった一つしか • • • • データを分析(解析)し、意志決定を行うためのプロフェッショナルを系統的に育成する機関 が一つしかない。 第4の科学を研究する教育機関(組織)が統数研以外皆無 データ分析結果に裏打ちされた優れたビジネスモデルこそが国際競争力を産む 演繹至上主義(「真理の探究」)一本教育の弊害。 第2次世界大戦以降統計学科が配置: OECD諸 国、中国、韓国、台湾、香港、インド、バングラディシュ、シンガポール、南 アフリカなどの主要大学 米国: 統計学 科自体が分野別に細分されており、生物統計学科、医学統計学科 といった学科が存在 韓国: 統計関連学科としては、統計学科が16、情報統計学科が19、 応用統計ない しは応用統計情報学科が5、生物統計学科1、保険数理統計学科が1である。これ に加えて、統計関連学科として位置づけられている、Data Business学科、e-business 学 科なども存在 中国: 2000年以降積極的な統計家育成が興り、2005年 現在で統計学科の 数は161、学生総数2,5000人 であり、この他にも統計専門学校が300校設置 26/26 ISM 26