Comments
Description
Transcript
インターネット計測から見る 大規模データ処理とその進化
インターネット計測から見る 大規模データ処理とその進化 IIJ技術研究所 長 健二朗 1 最初のパケットスイッチングネットワーク ARPANET in 1969 2 4 年後のARPANET ARPANET in1973 3 最近のインターネット lumeta internet mapping http://www.cheswick.com/ches/map/ 4 インターネットと技術革新 • インターネットの技術革新 - • 通信、メディア、出版、音楽など産業や生活のあらゆる部分に インターネットの成功 - 1980年代には多くのコンピュータネットワークが存在 - インターネットのカルチャ:技術を越えた思想 • • • end-to-end: シンプルなネットッワーク、賢い端末 インターネットは自由な創造のためのプラットフォーム 制度と自由 - 既存の制度や産業構造との軋轢 - global vs. international 5 インターネットカルチャ • be conservative in what you send, be liberal in what you accept. - Jon Postel, 1980 • We reject kings, presidents and voting. We believe in rough consensus and running code. - David D. Clark, 1992 6 ビッグデータとインターネット計測 • ビッグデータ: 大量の非定型データから隠れた価値のある 情報を引き出す技術の総称 - 新たなビジネスモデルの構築や経営改革に繋げる - (ここではデータ量には拘らない) • 技術は以前から使われている - 検索ランキング、オンラインストアのお勧めシステム等 • インターネット計測:大量かつ不完全なデータからイン ターネットを把握する試み - 統計的な手法による推測 7 自動車のワイパー情報の例 • WIDE プロジェクトが2001 年に名古屋で行ったイン ターネット自動車実験 • 1570 台のタクシーから位置、速度、ワイパー稼働情報 を収集 • 図の青い部分がワイパー動作率が高い地域で、細かな降 雨状況が分かる 8 東日本大震災での活用 • 前述のシステムはITS の一部として利用中 - 地震の3日後に利用可能な道路情報が公開される - ホンダ(トヨタ, 日産) によるデータ提供 9 インターネット計測 • ネットワーク計測(工学的) - 比較的限定されたネットワークにおける計測 - ある時点のスナップショット • インターネット計測 - 大規模分散開放系であるインターネットにおける計測 - オープンシステム(常に変化し続ける) - インターネットで繋がった人の行動(社会科学的側面) 10 計測、データ解析の目的 • 運用面 - トラブルシューティング、性能向上・信頼性向上のチューニング、利 用状況の把握・レポート、回線容量や使用機器の中長期計画・コス ト評価 • 工学面(ソフトウェア、ハードウェア、プロトコル設計と実装) - 設計上のトレードオフ(バッファサイズとコストなど)、動作の検証、 予想外の現象の観測(複雑な挙動) • 研究面(理論化、モデル化、新規発見) - ネットワークの挙動の特徴、モデル化(web サービスの挙動など)、 複雑なシステムの挙動: 豊富なデータとツール • • 政策、投資計画等へのインプット 計測はすべての技術の基礎 11 掴みどころのないものを測る • インターネットにおける一般的な測定データの必要性 - • 例えば、一般的なパケットサイズ分布など インターネットは開いた系で、つねに変化、発展、拡大 - 中心も代表点もなく、測る場所や時間によって違う姿が観測さ れる - インターネットの一般性を求める:掴みどころのないものを測 る • 現実にインターネットを運用、プロトコルや機器を開発 - • その時点で最善の一般性を模索、将来予想し、常に見直す努力 人の行動が影響: 技術面だけでなく、社会的、政策的、経済的な 考慮も必要 12 ネットワークのデータや挙動の特徴 • • バラツキが大きく、偏った分布を持つ - パケットスイッチングの短時間にバースト的に転送する構造 - 利用の偏り: 少数の利用者が大半のトラフィックを占めるなど さまざなな異常が日常的に発生 - ソフトウェアのバグ、設定ミス、仕様の不整合、事故、メインテナン ス - さまざまな機能の相互干渉 • • 輻輳制御の例: イーサネットの衝突回避、パケットキューイング、 TCP の輻輳制御、回線容量設計 トラフィックやサービスの集約 - 無数の要素の相互作用の結果、全体としてみれば個別要素の総和以上 の独立な振舞い 13 インターネット計測が難しい理由 • 従来の計測は工学的に定義された測定基準(metric) の測定精度向上が中心 • インターネットの計測は、膨大でノイズの多いあい まいデータから統計的手法を使って知見を引き出す - 大量、多様、バラツキが大きい、動的なデータ - オープンな分散システムの複雑な挙動 - 適応的で障害に強いメカニズム - さまざなな異常が日常的に発生 14 インターネット計測の制約 • 多くの問題がネットワーク境界で発生 - • • 測定そのものが測定対象に影響を与える 運用者の理解と協力が不可欠 - • 運用の現状を理解して実情にあった測定方法を工夫する必要 測定にはあまりコストをかけられない実情 - • 組織間協調が必要だが簡単ではない 最新ルータを汎用PC で測定する測定精度の限界 データの解析とプライバシー、企業機密 - 外部の研究者がデータ利用する障壁 - 第三者が解析に使える汎用のデータを蓄積し公開する努力 15 計測対象 • インフラ - トラフィック、CDN - パケットロス、遅延、ジッタ - トポロジー、経路 - DNS • アプリケーション - Web、メール、P2P、ゲーム、SNS、ビデオ • セキュリティと異常 - 異常、攻撃、Flash Crowd 16 インターネット計測の変遷 • ARPANETからNSFNET時代 (-1995) - 学術系ネットワーク中心 - queueing theory, SNMP, ping/traceroute • インターネット普及期 (1995-2000) - 商用ネットへの移行、ドットコムバブル、高速ファイバー網 - Web/キャッシュ、フロー計測、NAT・Firewallなどのミドルボックス - QoS研究、TCP挙動解析、自己相似モデル、Zipfの法則、シミュレータ • ブロードバンド普及期 (2000-) - 多様な統計手法の適用、複雑系 - トラフィックモデル、トポロジー、P2P、CDN、WiFi - PlanetLab、クラウドソーシング • コンテンツ、データの時代 (2010-) - スマートフォン、SNS、 ハイパージャイアント、ネット広告 - ネットワークサイエンス、インターネットエコノミクス 17 データの収集と解析 • データ収集 - PCベース、共有プラットフォーム、ユーザによる計測 - クローリング、自動化による長期計測 • データ解析手法 - 統計的手法、機械学習 • データ解析プラットフォーム - あまり独自のものはない - コンピュータ屋なのでアルゴリズムを工夫して、必要ならC でガリガリコーディング - ビッグデータで使えるツールが増えた 18 アクティブ計測プラットフォーム • • • PCベースのプローブ (プロジェクトごと) - 測定精度は高い、観測点が少ない、学術系に偏る - PingER(1995-), CAIDA Skitter (1998-2008), NLANR AMP (1998-2006) 共有計測プラットフォーム - 観測点の増加、学術系に偏る、干渉問題、 学生も利用可能に - NIMI (1998-), PlanetLab(2002-), M-Lab(2009-) ユーザによる計測、クラウドソーシング - 多くの観測点の確保、個々のデータの精度は低い - DIMES(2004-), ONO(2007-), RIPE Atlas(2010-), BISmark/ SamKnows(2011-) 19 データ解析 • 不正確なデータ - • • たくさん集めて統計処理 データの偏り - データそのものが偏っている - サンプルが偏る 詳細情報がない場合、異なるデータの照合 - 複数のデータや手法を突き合わせ推測 • • - トラフィック量の変動原因をサンプルフローデータから推定 コントロールプレーンとデータプレーン 統計手法、機械学習 20 データ解析とモデル化 • • • • • • • • • トラフィック解析: パケット、フロー、無線 時系列解析 多変量解析、次元削減(PCA) ネットワークトモグラフィー、トラフィックマトリクス推測 トポロジ構造解析: ASレベル、ルータレベル GeoLocation サンプリング ネット中立性 ネット広告の計測利用 21 物理空間とのマッピング • • インターネットはサイバー空間だが インフラは物理的制約のもとで発展 - 通信回線、施設、電力供給、無線インフラ • リソースの集中(ハブ)とその脆弱性 - 国ごとの法制度の違い • 物理空間とのマッピングの必要性 - 対故障性、災害耐性 - インフラ計画、ボトルネックの把握 - 地域別サービス(法的制約) 22 トポロジと物理ランドマーク • 論理的なトポロジーを地理情報にマップする試み - IP GeoLocation:多くのアプリケーション • 精度向上手法 - 大学施設などをランドマークにする - DNS逆引き情報からISPのPOPを特定 - 遅延情報による三角測量的手法 - 同一ルータに属するアドレス特定 - ロードバランサなどによるマルチパス検出 23 トポロジと物理回線 • 光ファイバー網: 道路や鉄道に沿って敷設 国内のファイバー網 総務省 情報通信白書 2001 24 ニューヨークのファイバー網 http://nicolasrapp.com/?p=1180 ビッグデータのインパクト • あらゆる科学技術分野で、膨大なデータ解析 は欠かせない研究手法になった • データの充実 - センサーや利用者情報などのオンライン化 • ツールの充実 - 分散ストレージ、NoSQLデータベース、 MapReduce などの分散処理、データマイ ニング、機械学習、統計処理などのツール 25 フロー集約によるサマリ作成 • データ圧縮:画像圧縮との類似点 • 高解像度 (情報量大) 低解像度 (情報量小) • 情報量(エントロピー)の符号化 26 プライバシー • • 他人の干渉を許さない、各個人の私生活上の自由(広辞苑) プライバシーの見方はコンテキストや文化で大きく異なる - 基本的人権 - 財産権: 個人情報が商品価値を持つ。侵害されれば損害賠償 • インターネットが始まった時からの課題 - 始めは(あるいは今でも)研究者の紳士協定 - 法で縛るべきか、モラルでカバーできるか • 計測は法的にグレーな部分が多い - 計測に対する立場の違い、技術者の認識にも大きな温度差 27 通信の秘密と個人情報保護 • 憲法上の通信の秘密 - • 政府など公権力に対する義務 電気通信事業法第4 条第1 項で通信の秘密 - • 電気通信事業者の取扱中に係る通信の秘密は、侵してはならない 例外 - 当事者の同意がある場合 • - 違法性阻却事由が存在し、違法とはされない場合 • • • ウイルスチェックサービスや迷惑メールフィルタリングサービス 業務上必要な正当業務行為に当たる場合: パケット配送のためにヘッダ情報を見るなど 緊急避難に該当する場合: 他のサービスに支障が出ないよう対策をするなど 日本の個人情報保護法 2005 年に施行 - 5000 件以上の個人情報を扱う事業者が対象 - 利用目的の特定、制限、適切な取得、通知義務、苦情処理 28 データ分析はあくまで道具 • • 最近のビッグデータの話題はツールや手法が強調されがち データ解析はあくまでツール - 仮説を立てて、データで検証 - 結果が予想と異なれば、そこから新たな疑問へ - このプロセスの繰り返しから、役立つ情報や興味深い 事実の発見 • • 目的を持たずにデータを集めてCPUを回し解析してもムダ 逆にデータから何を得たいかがはっきりすれば、やるべき ことは見えてくる 29 思考プロセスの変化 • もちろん以前からデータを基に考えること は重要だった • 情報技術によって、データに基づいて考え、 考えをデータで検証する思考プロセスに変化 - 扱えるデータの量と質、その表現方法が桁 違いに - 文字通りデータと対話しながら考えること が可能に 30 今後の課題 • 人材育成 - その分野の専門知識を持った上で、既存の考えや解釈に疑問を持つ、統計 やデータ解析を道具として使いこなして問題解決する • • データの財産化 - 他社が持っていないような実データを持つ会社が強い - 同じデータなら、情報を引き出す能力で優劣 データの共有 - • データを共有できる、検証できることの社会的意義 プライバシーとのバランス: 社会的合意形成が大きな課題 - 組織がどこまで個人を追跡していいか - 個人の医療情報などをどのように共有して社会に役立てるか - 安全の代償 31 受け取り側のリテラシ • 受け取り側も、データを理解する、データに疑問を持つ必要 - 発信者のバイアスによる作為的な統計データや情報操作の 氾濫 • 我々は白黒の判定を求めがち - ほとんどの物事はグレー、白黒は便宜的にグレーに線を引 く行為 - 白黒を求めるのは、自ら判断することを避けて、発信者に 判断の責任を求める行為 - グレーはグレーとして受け取り、自分で判断することが必 要な社会になってきている 32 おわりに • • • インターネット計測とCPS - インフラの視点: クリティカルな部分では物理資源の把握が重要 - ユーザ挙動の視点: 実空間との関係 技術、企業を取り巻く環境の変化と速度 - 迅速な連携による対応が必要 - 国、組織•個人、分野をまたいだ連携 - 日頃からしておくべきこと インターネットの役割 - ユーザのためのプラットフォーム 33