...

インターネット計測から見る 大規模データ処理とその進化

by user

on
Category: Documents
18

views

Report

Comments

Transcript

インターネット計測から見る 大規模データ処理とその進化
インターネット計測から見る
大規模データ処理とその進化
IIJ技術研究所
長 健二朗
1
最初のパケットスイッチングネットワーク
ARPANET in 1969
2
4 年後のARPANET
ARPANET in1973
3
最近のインターネット
lumeta internet mapping http://www.cheswick.com/ches/map/
4
インターネットと技術革新
•
インターネットの技術革新
-
•
通信、メディア、出版、音楽など産業や生活のあらゆる部分に
インターネットの成功
-
1980年代には多くのコンピュータネットワークが存在
-
インターネットのカルチャ:技術を越えた思想
•
•
•
end-to-end: シンプルなネットッワーク、賢い端末
インターネットは自由な創造のためのプラットフォーム
制度と自由
-
既存の制度や産業構造との軋轢
-
global vs. international
5
インターネットカルチャ
•
be conservative in what you send,
be liberal in what you accept.
- Jon Postel, 1980
•
We reject kings, presidents and
voting. We believe in rough
consensus and running code.
- David D. Clark, 1992
6
ビッグデータとインターネット計測
•
ビッグデータ: 大量の非定型データから隠れた価値のある
情報を引き出す技術の総称
- 新たなビジネスモデルの構築や経営改革に繋げる
- (ここではデータ量には拘らない)
•
技術は以前から使われている
- 検索ランキング、オンラインストアのお勧めシステム等
•
インターネット計測:大量かつ不完全なデータからイン
ターネットを把握する試み
- 統計的な手法による推測
7
自動車のワイパー情報の例
•
WIDE プロジェクトが2001 年に名古屋で行ったイン
ターネット自動車実験
•
1570 台のタクシーから位置、速度、ワイパー稼働情報
を収集
•
図の青い部分がワイパー動作率が高い地域で、細かな降
雨状況が分かる
8
東日本大震災での活用
•
前述のシステムはITS の一部として利用中
- 地震の3日後に利用可能な道路情報が公開される
- ホンダ(トヨタ, 日産) によるデータ提供
9
インターネット計測
•
ネットワーク計測(工学的)
- 比較的限定されたネットワークにおける計測
- ある時点のスナップショット
•
インターネット計測
- 大規模分散開放系であるインターネットにおける計測
- オープンシステム(常に変化し続ける)
- インターネットで繋がった人の行動(社会科学的側面)
10
計測、データ解析の目的
•
運用面
-
トラブルシューティング、性能向上・信頼性向上のチューニング、利
用状況の把握・レポート、回線容量や使用機器の中長期計画・コス
ト評価
•
工学面(ソフトウェア、ハードウェア、プロトコル設計と実装)
-
設計上のトレードオフ(バッファサイズとコストなど)、動作の検証、
予想外の現象の観測(複雑な挙動)
•
研究面(理論化、モデル化、新規発見)
-
ネットワークの挙動の特徴、モデル化(web サービスの挙動など)、
複雑なシステムの挙動: 豊富なデータとツール
•
•
政策、投資計画等へのインプット
計測はすべての技術の基礎
11
掴みどころのないものを測る
•
インターネットにおける一般的な測定データの必要性
-
•
例えば、一般的なパケットサイズ分布など
インターネットは開いた系で、つねに変化、発展、拡大
-
中心も代表点もなく、測る場所や時間によって違う姿が観測さ
れる
-
インターネットの一般性を求める:掴みどころのないものを測
る
•
現実にインターネットを運用、プロトコルや機器を開発
-
•
その時点で最善の一般性を模索、将来予想し、常に見直す努力
人の行動が影響: 技術面だけでなく、社会的、政策的、経済的な
考慮も必要
12
ネットワークのデータや挙動の特徴
•
•
バラツキが大きく、偏った分布を持つ
-
パケットスイッチングの短時間にバースト的に転送する構造
-
利用の偏り: 少数の利用者が大半のトラフィックを占めるなど
さまざなな異常が日常的に発生
-
ソフトウェアのバグ、設定ミス、仕様の不整合、事故、メインテナン
ス
-
さまざまな機能の相互干渉
•
•
輻輳制御の例: イーサネットの衝突回避、パケットキューイング、
TCP の輻輳制御、回線容量設計
トラフィックやサービスの集約
-
無数の要素の相互作用の結果、全体としてみれば個別要素の総和以上
の独立な振舞い
13
インターネット計測が難しい理由
•
従来の計測は工学的に定義された測定基準(metric)
の測定精度向上が中心
•
インターネットの計測は、膨大でノイズの多いあい
まいデータから統計的手法を使って知見を引き出す
- 大量、多様、バラツキが大きい、動的なデータ
- オープンな分散システムの複雑な挙動
- 適応的で障害に強いメカニズム
- さまざなな異常が日常的に発生
14
インターネット計測の制約
•
多くの問題がネットワーク境界で発生
-
•
•
測定そのものが測定対象に影響を与える
運用者の理解と協力が不可欠
-
•
運用の現状を理解して実情にあった測定方法を工夫する必要
測定にはあまりコストをかけられない実情
-
•
組織間協調が必要だが簡単ではない
最新ルータを汎用PC で測定する測定精度の限界
データの解析とプライバシー、企業機密
-
外部の研究者がデータ利用する障壁
-
第三者が解析に使える汎用のデータを蓄積し公開する努力
15
計測対象
•
インフラ
- トラフィック、CDN
- パケットロス、遅延、ジッタ
- トポロジー、経路
- DNS
•
アプリケーション
- Web、メール、P2P、ゲーム、SNS、ビデオ
•
セキュリティと異常
- 異常、攻撃、Flash Crowd
16
インターネット計測の変遷
•
ARPANETからNSFNET時代 (-1995)
-
学術系ネットワーク中心
-
queueing theory, SNMP, ping/traceroute
•
インターネット普及期 (1995-2000)
-
商用ネットへの移行、ドットコムバブル、高速ファイバー網
-
Web/キャッシュ、フロー計測、NAT・Firewallなどのミドルボックス
-
QoS研究、TCP挙動解析、自己相似モデル、Zipfの法則、シミュレータ
•
ブロードバンド普及期 (2000-)
-
多様な統計手法の適用、複雑系
-
トラフィックモデル、トポロジー、P2P、CDN、WiFi
-
PlanetLab、クラウドソーシング
•
コンテンツ、データの時代 (2010-)
-
スマートフォン、SNS、 ハイパージャイアント、ネット広告
-
ネットワークサイエンス、インターネットエコノミクス
17
データの収集と解析
•
データ収集
- PCベース、共有プラットフォーム、ユーザによる計測
- クローリング、自動化による長期計測
•
データ解析手法
- 統計的手法、機械学習
•
データ解析プラットフォーム
- あまり独自のものはない
- コンピュータ屋なのでアルゴリズムを工夫して、必要ならC
でガリガリコーディング
- ビッグデータで使えるツールが増えた
18
アクティブ計測プラットフォーム
•
•
•
PCベースのプローブ (プロジェクトごと)
-
測定精度は高い、観測点が少ない、学術系に偏る
-
PingER(1995-), CAIDA Skitter (1998-2008), NLANR AMP
(1998-2006)
共有計測プラットフォーム
-
観測点の増加、学術系に偏る、干渉問題、 学生も利用可能に
-
NIMI (1998-), PlanetLab(2002-), M-Lab(2009-)
ユーザによる計測、クラウドソーシング
-
多くの観測点の確保、個々のデータの精度は低い
-
DIMES(2004-), ONO(2007-), RIPE Atlas(2010-), BISmark/
SamKnows(2011-)
19
データ解析
•
不正確なデータ
-
•
•
たくさん集めて統計処理
データの偏り
-
データそのものが偏っている
-
サンプルが偏る
詳細情報がない場合、異なるデータの照合
-
複数のデータや手法を突き合わせ推測
•
•
-
トラフィック量の変動原因をサンプルフローデータから推定
コントロールプレーンとデータプレーン
統計手法、機械学習
20
データ解析とモデル化
•
•
•
•
•
•
•
•
•
トラフィック解析: パケット、フロー、無線
時系列解析
多変量解析、次元削減(PCA)
ネットワークトモグラフィー、トラフィックマトリクス推測
トポロジ構造解析: ASレベル、ルータレベル
GeoLocation
サンプリング
ネット中立性
ネット広告の計測利用
21
物理空間とのマッピング
•
•
インターネットはサイバー空間だが
インフラは物理的制約のもとで発展
- 通信回線、施設、電力供給、無線インフラ
•
リソースの集中(ハブ)とその脆弱性
- 国ごとの法制度の違い
•
物理空間とのマッピングの必要性
- 対故障性、災害耐性
- インフラ計画、ボトルネックの把握
- 地域別サービス(法的制約)
22
トポロジと物理ランドマーク
•
論理的なトポロジーを地理情報にマップする試み
- IP GeoLocation:多くのアプリケーション
•
精度向上手法
- 大学施設などをランドマークにする
- DNS逆引き情報からISPのPOPを特定
- 遅延情報による三角測量的手法
- 同一ルータに属するアドレス特定
- ロードバランサなどによるマルチパス検出
23
トポロジと物理回線
• 光ファイバー網: 道路や鉄道に沿って敷設
国内のファイバー網
総務省 情報通信白書 2001
24
ニューヨークのファイバー網
http://nicolasrapp.com/?p=1180
ビッグデータのインパクト
• あらゆる科学技術分野で、膨大なデータ解析
は欠かせない研究手法になった
• データの充実
- センサーや利用者情報などのオンライン化
• ツールの充実
- 分散ストレージ、NoSQLデータベース、
MapReduce などの分散処理、データマイ
ニング、機械学習、統計処理などのツール
25
フロー集約によるサマリ作成
• データ圧縮:画像圧縮との類似点
• 高解像度 (情報量大) 低解像度 (情報量小)
• 情報量(エントロピー)の符号化
26
プライバシー
•
•
他人の干渉を許さない、各個人の私生活上の自由(広辞苑)
プライバシーの見方はコンテキストや文化で大きく異なる
- 基本的人権
- 財産権: 個人情報が商品価値を持つ。侵害されれば損害賠償
•
インターネットが始まった時からの課題
- 始めは(あるいは今でも)研究者の紳士協定
- 法で縛るべきか、モラルでカバーできるか
•
計測は法的にグレーな部分が多い
- 計測に対する立場の違い、技術者の認識にも大きな温度差
27
通信の秘密と個人情報保護
•
憲法上の通信の秘密
-
•
政府など公権力に対する義務
電気通信事業法第4 条第1 項で通信の秘密
-
•
電気通信事業者の取扱中に係る通信の秘密は、侵してはならない
例外
-
当事者の同意がある場合
•
-
違法性阻却事由が存在し、違法とはされない場合
•
•
•
ウイルスチェックサービスや迷惑メールフィルタリングサービス
業務上必要な正当業務行為に当たる場合: パケット配送のためにヘッダ情報を見るなど
緊急避難に該当する場合: 他のサービスに支障が出ないよう対策をするなど
日本の個人情報保護法 2005 年に施行
-
5000 件以上の個人情報を扱う事業者が対象
-
利用目的の特定、制限、適切な取得、通知義務、苦情処理
28
データ分析はあくまで道具
•
•
最近のビッグデータの話題はツールや手法が強調されがち
データ解析はあくまでツール
- 仮説を立てて、データで検証
- 結果が予想と異なれば、そこから新たな疑問へ
- このプロセスの繰り返しから、役立つ情報や興味深い
事実の発見
•
•
目的を持たずにデータを集めてCPUを回し解析してもムダ
逆にデータから何を得たいかがはっきりすれば、やるべき
ことは見えてくる
29
思考プロセスの変化
• もちろん以前からデータを基に考えること
は重要だった
• 情報技術によって、データに基づいて考え、
考えをデータで検証する思考プロセスに変化
- 扱えるデータの量と質、その表現方法が桁
違いに
- 文字通りデータと対話しながら考えること
が可能に
30
今後の課題
•
人材育成
-
その分野の専門知識を持った上で、既存の考えや解釈に疑問を持つ、統計
やデータ解析を道具として使いこなして問題解決する
•
•
データの財産化
-
他社が持っていないような実データを持つ会社が強い
-
同じデータなら、情報を引き出す能力で優劣
データの共有
-
•
データを共有できる、検証できることの社会的意義
プライバシーとのバランス: 社会的合意形成が大きな課題
-
組織がどこまで個人を追跡していいか
-
個人の医療情報などをどのように共有して社会に役立てるか
-
安全の代償
31
受け取り側のリテラシ
•
受け取り側も、データを理解する、データに疑問を持つ必要
- 発信者のバイアスによる作為的な統計データや情報操作の
氾濫
•
我々は白黒の判定を求めがち
- ほとんどの物事はグレー、白黒は便宜的にグレーに線を引
く行為
- 白黒を求めるのは、自ら判断することを避けて、発信者に
判断の責任を求める行為
- グレーはグレーとして受け取り、自分で判断することが必
要な社会になってきている
32
おわりに
•
•
•
インターネット計測とCPS
-
インフラの視点: クリティカルな部分では物理資源の把握が重要
-
ユーザ挙動の視点: 実空間との関係
技術、企業を取り巻く環境の変化と速度
-
迅速な連携による対応が必要
-
国、組織•個人、分野をまたいだ連携
-
日頃からしておくべきこと
インターネットの役割
-
ユーザのためのプラットフォーム
33
Fly UP