...

ビックデータ 将来性と危険性

by user

on
Category: Documents
5

views

Report

Comments

Transcript

ビックデータ 将来性と危険性
あるtwitterから
ビックデータ
将来性と危険性
名古屋⼯業⼤学
松尾啓志
現在の計算機の能⼒
 スマートフォン
スーパーコンピューターTOP500の速度向上
GFlops
1秒間に 1000000000(10億、1ギガ)回の命令実⾏
 最近はマルチコア(4コア以上)が載っているので4倍

 ⼀般的なNOTE PC
(5万円程度)
1秒間に 30000000000(30億、3ギガ)回の演算
 マルチコア(4コア)の場合は4倍

 スーパーコンピュータ京
1秒間に 1000000000000000(1京、10ペタ)回の演
算
 現在(2014年11⽉現在)の最速は3.3京回の演算



Xeon 300万個
17800KW (cf 京
12600KW)
いわゆるムーアの法則が成⽴
http://ja.wikipedia.org/wiki/TOP500#/media/File:Supercomputers-history.svg
Tポイントカードお持ちですか︖
いくらあっても⾜りない演算能⼒
 ちょっと前までは、コンピュータは計算をするもの
(当たり前)だった
 インターネットの時代になるとともに、モバイルデバイス
(スマホ)から発⽣する膨⼤なデータを蓄積し、利⽤する
世界になった。

1⽇で処理する必要のあるデータ量





CCC(カルチャ・コンビニエンス・クラブ)が展開するマーケッ
ティングシステム

有効会員数(名寄せ後)約5400万⼈。20代では70%の普
及率。利⽤回数20億回/年

使える店舗
FACEBOOKでは1⽇10TB(1兆⽂字)
Googleでは⼀⽇100PB(1000兆⽂字)

– 世界で消費する電⼒の0.01%
顔認識
 ⾃動運転
– 2040年
ト)
実店舗6万件、Yahoo!ショッピング25万店舗
外⾷産業、スポーツクラブ、住宅ローン、住宅賃貸仲介、コンビニ、
スーパー
 「何がいくつ売れた(POSシステム)」から「誰が何を買っ
たか︖」へ
世界で1⽇に⽣成されるディジタルデータは
3000000000000000000⽂字(3エクサバイト)
処理が多様化、複雑化

 Tポイントカードって︖

⾃律⾛⾏⾞が社会における主要な交通⼿段(マッキンゼーレポー
利⽤者のプロファイリング

⼀度XXを購⼊した後、1ヶ⽉利⽤がない顧客がもう⼀度購⼊に復帰す
る確率はYY%
– サンプリングをしてDMしてみる=>結果を解析 PDCAモデル
個⼈が発⽣するディジタルデータ
個⼈が発⽣するディジタルデータ
すべてのデータを解析し
•
マーケッティング
• ⾏動ターゲッテイング広告
• 未来予測
•
⾏動履歴を⽤いて、⾃動⾞保険の査定
•
気象センサーによる農業の最適化
• 道路センサーからのデータによる渋滞予測
しかもこれらのデータはすべて“クラウド”上へ蓄積
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/image/n2104010.png
より
しかもこれらのデータはすべて“クラウド”上へ蓄積
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/image/n2104010.png
より
ビックデータってどれくらい“ビック”か︖
 Facebookの利⽤者

13.5億⼈(2014/10)︓DAU(Dayly Active Users) 2015/11/04

誰がログインしているかの表⽰

ダイレクトメッセージング

友達の⾏動

“いいね”ボタンの伝播
 Twitterのつぶやき数

50京ツイート(2014/11現在)


全て保存してあり、検索可能
6000件/秒(バルス祭り 25088ツイート/秒)

つぶやきはハッシュタグだけでなく、単語検索も可能
 Amazonのレコメンド機能

XXを買った⼈はYYも買っています

最近チェックした商品の履歴
情報爆発の時代へ
 世界を流通している情報量は5年で10倍と⾔われている。

IDCレポートでは 2011年 ディジタル化されたデータは
1.8ZB(1GBの1,000,000,000,000倍)

次の10年間で

サーバ数10倍

データセンターで管理されるデータ量50倍

ITの専⾨家はたった1.5倍

1つの1MBのメールを4⼈に送ると50MBに膨らむ
– 明⽰的なバックアップや複製
 90%が⾮構造化データー
– テキストデータ(つぶやきやFacebook、ブログ)
– 画像データや動画データ
M2M(Machine to Machine)
⽌まらないITの進化
IoT(Internet of Things)


インターネットは今までは ⼈対⼈、サーバー対⼈の
間の情報伝達が⼤部分
今後は”もの対もの”が爆発的に増加
インダストリ4.0

⼯場内、⼯場が受け⼊れる部品、⼯場から出荷する部
品、物流⼯程、販売ネットワーク、顧客、すべてを通
信ネットワークで結び、その間に⼈間が関与するこ
となく、機械(ロボット/⼈⼯知能)が全体(⽣産、
物流、顧客対応)を最適化すること。

3Dプリンタ、ロボット、⼈⼯知能、インターネット、
クラウド、ビックデータ解析、センサー、無線通信
(WiFi,Bluetooth)などの巨⼤エンジンが回り始める。
ビックデータと巨⼤計算パワーによる最近の進化
 将棋電王戦 2014年 プロ vs コンピュータ 1勝4敗
 IBM⼈⼯知能ワトソン クイズ番組で⼈間のチャンピオ
ンに勝つ

“⽶国が外交関係を持たない世界の四カ国のうち、最も北にあ
る国は”
 グーグルの⾃動運転⾞

161万キロで事故11件。全てもらい事故
 猫の認識(google 2012)
現在は、家族写真のように限定されていれば、誰・何が写っ
ているか理解可能
 http://www.clarifai.com/#demo

 プログラミングの⾃動化
ニューラルチューリングマシンによる⾃動プログラミング
スマホとIoT(M2M)からのビックデーター収集

ディープラーニングによる解析ブレークスルー
着実な半導体の進歩(計算・記憶)
ムーアの法則
 ブログやフェイスブック等のソーシャルメディアデータ
 オフィスで作成される電⼦メールや⽂書データ
 CRMシステムで管理されているDM⽤販促データ等のカスタ
マーデータ
 Webの配信サイトから提供される⾳声・映像等のマルチメ
ディアデータ
 販売管理システムにおけるPOSデータなどのオペレーション
データ
 ICカードやRFID、温度/湿度、加速度などのセンサーデータ
 ECサイトなどにおける購⼊履歴などのWebサイトデータ
 Webサーバで⾃動的に⽣成されるアクセスログ等のログデー
タ
今まで、独⽴に収集し、その⽬的だけのために利⽤してい
たデータを、全て集めて解析し、
を得る
Deep Learning による猫認識
google 2012
 YouTubeにアップロードされている動画から、ランダム
に取り出した200x200ピクセルサイズの画像を1000万
枚⽤意し、これを⽤いてDeep Learning を⾏った

3%前後の画像に⼈間の顔が含まれていた。猫が含まれる画
像もたくさんあった
 ニューラルネットワークの最初の層の⼊⼒は各画素
(200x200=40,000)のRGBの値で、9階層
 1000台のコンピュータで3⽇間かけて学習を⾏った。
 その結果、⼈間の顔、猫の顔、⼈間の体の写真に反応す
るニューロンができた
所謂教師なし学習でもここ
までできるようになった
http://itpro.nikkeibp.co.jp/atcl/column/15/061500148/122400043/?top_pu&rt=nocnt
シンギュラリティ(特異点)は近い
シンギュラリティは近い(2)
 2020年代

AI が ⼈間並みになる
 2030年代


ナノ単位の⼩ささのロボットで体内から
多くの病気を治せる
同じくナノボットで脳内から
ヴァーチャル環境に完全没⼊できる
 2040年代


⼈間の脳の構造が研究しつくされ、コン
ピュータは超⾼性能になる
その結果、⼈間の脳内の情報を
コンピュータにコピーできるようになる
23
第3章
まずエネルギーがフリーになる
第4章
⽣活のために働く必要がない社会の出現
第5章
⼈類が「不⽼」を得る⽇
24
リアルな話(私失敗しないので)
近い未来
 スーパーコンピュータ京の2400倍の計算速度があれば、
ヒトの全脳をリアルタイムでシミュレーション可能
(「京(けい)」を使い10兆個の結合の神経回路のシミュレー
ションに成功
http://www.riken.jp/pr/topics/2013/20130802_2/)
 次期スーパーコンピュータの性能は京の100倍の予定
 問題点
 京を動かすために必要な電⼒ 10MW(10000000W)
 次期スーパーコンピュータは30MWを想定
 つまり電⼒性能⽐33倍
1)電⼒⽐性能は50倍
2)京はアクセラレータなし
3)性能のチューリングレベルであ
り、ブレークスルーではない
淡路島で使われている電力を超える
アクセラレータ―
なし
あり
レースコース&プロドライバ⽤F1
余談
京スーパーコンピューターの2400倍の計算速
度があれば、⼈の脳をリアルタイムでシミュレー
ション可能
では⼈間の脳の消費電⼒は︖
約20W
Vs10000000w(京)
オートマチック付きランドクルーザー
もう⼀つの“⽇本の”問題点
ビックデータの利活⽤





Google: DeepMind ⼈間の短期記憶を再現
IBM: Watson 知識の学習
Microsoft: Skype Translator リアルタイム翻訳
Amazon: Echo ノークリック購⼊
Facebook: Deep Learning、売り上げの1/3を研究
開発資⾦に投⼊
ビックデータの危険性
ビックデータの収集、活⽤のエコシステムを持たな
い⽇本は、ビックデータによるイノベーションのス
タート点にも⽴てないかも
⽇本の最⼤の問題かも
マイナンバー制度に対する誤解
 1962年から「住⺠登録番号」という国⺠背番号制度を導
⼊している韓国

07年から15年1⽉までの間で2億数千万件もの不正アクセス
と内部からの個⼈情報流出が発⽣
 韓国ではクレジットカードのカード番号も住⺠登録番号で⼀
元管理
昨年1⽉、クレジットカード会社3社や銀⾏⼝座関連の個⼈情報
約1億400万件が流出し
 預⾦の無事を確認しようと顧客が銀⾏に殺到する騒ぎ

 アメリカでは、36年から「社会保障番号」が導⼊
パソコンの普及した90年代後半以降になって、なりすまし犯罪
が激増
 06年から08年の3年間だけで約1170万件、被害額は約1
兆7300億円にも上る

http://news.livedoor.com/article/detail/10131463/
先⼈の轍を踏まない⼯夫
 ⽇本では「分散管理⽅式」の採⽤により、個⼈情報の集中化による情報漏
えいリスクを回避
さらに下記のような保護措置を講じて安全性に配慮
いずれ⽬的は増えます(笑い)
 個⼈番号の利⽤範囲や情報連携の範囲を法律で限定し、⽬的外の利⽤を禁⽌。罰
則はかなりの厳罰(やり過ぎ感あり)
個⼈番号のみでは
 なりすまし防⽌のため、個⼈番号のみでの本⼈確認を禁⽌
認証できない
法律で認められている範囲外での、個⼈番号を含む個⼈情報の収集・保管等の
いままでゆるゆるだった情報保
禁⽌
厳しすぎるくらいの
護に関する意識改⾰に\(^o^)/
チェック体制
 システム上情報が保護される仕組みかを、事前に評価する制度を実施
 第三者機関(特定個⼈情報保護委員会)による監視・監督
 特定個⼈情報保護委員会による情報システムに関する総務⼤⾂等への措置の要求

 ⾏政機関等による個⼈情報へのアクセス記録を、国⺠⾃らが確認する仕組み
 報提供記録等開⽰システム(通称マイポータル)の構築
縦割り⾏政の
 国⺠への⽤意かつ安全な個⼈認証を提供(個⼈番号カード)
排除へ
http://www.cas.go.jp/jp/seisaku/bangoseido/pdf/250409kanrihou.pdf より
特定個⼈情報保護評価制度
http://www.soumu.go.jp/main_content/000314021.pdf
p.5
マイナポータル
⽇本版PIA
(PIA=プライバシーインパクトアセスメント)
個⼈番号を取り扱う事務に対し


そのワークフローや情報システムがどのように管理さ
れているか評価
第三者評価を受けた上で、特定個⼈情報保護委員会に
報告
国の機関に関しても承認も受けなくてはならない
結果は「マイナンバー保護評価Web」で公表
結果的に
1)公共機関での効率化が進む
2)個⼈情報がより適切に管理される
内閣官房社会保障改⾰担当室「社会保障・税番号制度
概要資料」P7
より
個⼈番号カードによる2種類のサービス
基本4情報(⽒名、⽣年⽉⽇、性別、住所)を利⽤
する署名⽤電⼦証明書


e-Taxによる確定申告、⽂書を伴う電⼦申請
基本4情報は、暗号化の上、送信
利⽤者証明⽤電⼦証明書


性質︓インターネットを利⽤する際に、基本4情報を
⽤いずに、利⽤者本⼈であることのみを証明するしく
み(公開鍵暗号⽅式)
初期段階では、マイナポータルへのログインにのみ⽤
いられるが、利⽤範囲が広がっていく
決してアクセス情報などの情報が⼀元管理される訳ではな
いし、名寄せもほぼ不可能
http://www.soumu.go.jp/main_content/000314021.pdf
p.20
余談
法⼈番号の利⽤の可能性



情報漏えいではなく、名寄せのコストが劇的に下がるため危険
内閣官房社会保障改⾰担当室「社会保障・税番号制度
概要資料」P27より
法⼈番号のデーターベースが提供
電⼦的にダウンロード可能
WebAPIも提供される(予定)
取引先コード、債権コードなど、会社
内で利⽤されている法⼈情報が共通化
できる可能性
では⽋点は︖
 マイナンバー(だけ)は、漏洩は起こることを覚悟

個⼈情報保護法
読んだことあります︖
ちゃんとしたセキュリティ、プライバシーに関する啓
蒙活動が重要

 しかも利⽤⽬的の変更にあっては、通知、公表で⾜りる
ビックデーター時代のプライバシーとセキュリティ対策
 公務員もしくはそれに準ずる職の場合︓これらの職にある
者が、正当な理由がない場合に、業務上取扱い知り得た秘
密を漏らしたときは、刑法134条2項の秘密漏⽰罪が成⽴す
ることがある。
もっと致命的な⽋点
膨⼤な構築コスト(市町村による国からの
委託事業)なのに、仕様がころころ変わ
り、システム開発が遅れに遅れている
システム開発を急かすとろくな事はない。バグや致命
的なセキュリティフォールが混⼊する可能性が上がる
個⼈情報と匿名化のおさらい
個⼈情報とは


指名を特定するのではなく、個⼈を特定可能なものが
個⼈情報。
指名だけを抜けば個⼈情報であるという考え⽅はおか
しい
連結不可能匿名化

該当者とかかわりのない新たな符号(番号)を付すこ
と。
第3者提供
 ⼀番気をつけなければならないのは
41
個⼈情報保護法改正(案)
匿名化すれば、本⼈の同意がなくても第三者提供可
能に


k-匿名化

同じ属性データーがk個以上になる匿名化
l-多様性

属性にl種類以上の多様性があるかの指標
世界的流れ
相変わらず⽇本のマスコミの批判キャンペーン(>_<)
海外への個⼈情報の第三者提供(どちらかが満たさ
れること)

 提供者と新たな符号の対応表を残さない(もしくは他組織で
管理)
個⼈情報保護法上、同意を得なければならない場合
は、利⽤⽬的の範囲を超えて利⽤する「⽬的外利⽤」
の場合や第三者提供する場合

⽇本と同等の⽔準で個⼈情報が保護されている、と認
められた国にある(⽶国、EUを想定)
⽇本の個⼈情報取扱事業者と同じような個⼈情報保護
の体制を整備している
 ちょっと曖昧
 アジアに拠点のある多国籍企業の場合問題となる可能性
本当に怖いのは、⺠間による情報収集
匿名化とFTC3要件
(ビックデータを安全に利⽤するために)
 なぜ1ポイント1円を業者側は払わなければならないサービ
スを、しつこく要求してくるのか︖考えたことがあります
か︖
 有効会員数(名寄せ後)約5400万⼈。20代では70%
の普及率。利⽤回数20億回/年
 使える店舗 実店舗6万件、Yahoo!ショッピング25万店舗
 Tポイントのパートナーは外⾷産業、コンビニ、スーパー、住
宅ローン、カラオケ店、ドラッグストア、図書館(武雄
市)。
ビックデータの時代、データを使わないと国際競争
に間違いなく負ける
安全に使うためには、匿名化に関するFTC3要
件が重要
事業者は、⾮識別化を確保するために合理的な措置を
講ずる
 事業者は、そのデータを、⾮識別化された形態で保有
及び利⽤し、そのデータの再識別化を試みないこと
を、公に約束
 他社にデータを提供する際は、その提供された事業者
がデータの再識別化を試ることを契約で禁⽌
Tポイントカードお持ちですか︖、、、
の危険性を理解してますか︖

http://japan.zdnet.com/cio/sp_bigdata2011/35018019/ 46
でもあなたは既に認めている(>_<)
⾏動ターゲッティング広告の危険
(実話)
http://www.frantech.biz/article/14487743.html
Tサイトサービス利⽤規約


http://tsite.jp/pc/r/kiyaku/
12条 個⼈情報の利⽤と提供︓T会員が本サイトをご
利⽤になったことに伴い当社が取得した利⽤者の個⼈
情報は、「T会員規約」に従い取り扱うものとします。
T会員規約
http://www.ccc.co.jp/member/agreement/
47
48
ビックデータとプライバシー
グレーマーケットの存在

オープンAPIの公開
 必ずしも利⽤規約に従っているのか︖
 彼らも商売
匿名の嘘


匿名Twitterの発⾔が、2chで炎上
様々な公開情報から推測
個⼈情報保護法におけるオプトアウト
個⼈情報保護法では、個⼈情報の第三者提供を⾏う
際には、本⼈の同意を得なければならない
“ただし”、本⼈の同意を得ずに第三者提供を⾏い、
本⼈からの要求があった場合は、第三者提供を停⽌
する⽅法がとれる。=>“オプトアウト”
つまり、デフォルトは“オプトイン”
 位置情報が危険(ジオタグ)
ではどうすれば︖

“オプトアウト”という⾔葉知っていますか︖
IDとパスワードについて
なぜICカードによる認証は、ID+パスワード認証に
⽐べて安全なのか︖ 答え2つ
ID+パスワードさん
さようなら
PINさん こんにちは

物理的に存在する=>紛失するとわかる vs ID,PASS
 PINは必ずしも⻑くなくてよい。(誤⼊⼒制限あり)
 磁気ストライプ付きのカードでも同じ︖

複製不可能
 磁気ストライプの場合スキミング可能
52
IDの使い回しの危険
 IDの使い回し
合

楽天、アマゾン
特に電⼦メールアドレスをIDにする場
同じIDとパスワード使っていませんか︖
 誰が運営しているかわからないWEBサービスで、クレ
ジットカードと紐付いたIDを使い回しする危険
 ではどうすればいいのか︖
パスワードは8⽂字以上+数字+記号を⼊れること。それだけ
でOK
 WEBサービスへの登録はパスワードの使い回しはできるだけ
避ける。特にクレジットと紐ついているのはできる限り独⽴に




と⾔っても無理な場合は
重要なサイト(クレジットと紐づいている)サイトのパスワードは、
楽天とアマゾン
xxxxxx=raku, xxxxxx=ama のように
万が⼀漏れても何とかなる場合は、メールID+同⼀パスでもい
いけど、そのリスクは覚ること
パスワードは定期的に変えた⽅がいいの︖
パスワードに関する誤解(よく考えればわかる)

パスワードを定期的に変更すること(きっぱり)︖
 シンプルな使い回し
 メモ書き=>⾯倒
パスワードがもし破られた、漏洩した場合は、瞬時
に被害が発⽣する。犯⼈は待ってくれない。
パスワードが破られる危険より、パスワードが他の
組織から漏洩する可能性の⽅がかなり⼤
定期的な変更よりも、⻑いパスワードとWEBサービ
ス毎の使い分けを
– 本⼈を装ったfacebook , gmail,twitter は結構被害がある
54
PINさん こんにちは
クラウド時代の認証 FIDO
復習 なぜICカード+PINによる認証は安全なの
か︖


理由1 物理的に存在するカードに紐付いたPIN
理由2 スキミング(情報コピー)不可能
これをPCの認証にも応⽤




まずはPCそのものを、サービス業者に認証してもらう
物理的に存在するPC(内に存在する秘密鍵)による認証。
つまりPCがICカード代わり
疑問︓最初のアカウント作成時の認証は
答え︓多要素認証(知識、所有、固有、場所要素)
 アカウント作成時に指定した携帯電話番号にSNS経由で情報
確認。
 もしくは他の経路(メールアドレス)で情報確認
将来的には個⼈番号カードと結合するような気がします
来的
個
結
気が
が、
世界の流れは、携帯による⽣体認証+FIDO
⾃分を守るには
クラウドとセキュリティ
 おいしい話はない。只でもらえるものはない。何かを売っ
ている
 Webのビジネスモデル
クラウド型ディスクサービス


Dropbox,Evernote,Google Drive, Microsoft Live
特にOFFICE2013はクラウドサービスと密接に結合
毎⽉課⾦モデル
Freemiumモデル(アイテム販売、いいとこからは有料ね︕)
 CM
⾏動
 個⼈情報

利便性 vs セキュリティ



只のサービスを使うときには、なぜ只かをちゃんと考
えること
Google Drive の規約読んだことあります︖
 http://www.google.com/policies/terms/
 ユーザーがコンテンツをアップロードすると
例
ターゲッティング
広告

ツールバー︓Tポイントツールバー
クレディセゾン 永久不滅プラスツールバー

LINE

Googleに対
して、
使⽤、保存、複製、変更、派⽣物の作成、送信、出版など
を⾏うための全世界的なライセンスを付与することになる
 このライセンスは、ユーザーが本サービスの利⽤を停⽌し
ても継続


http://itpro.nikkeibp.co.jp/article/NEWS/20120906/421121/
LINEは初期の頃から⽐べるとすこしまともになったけど、本質的
な危険性は変わっていない。
Facebook,Gmail

海外サービスは個⼈情報保護に関しては、かなりまとも
57
よもやま話
 BYOD (bring your own device)

スマホ、タブレットのアプリ
LINEの危険性(だいぶましになったけど)
 危険なアプリの存在(太陽光発電ソフト ちょっと考えたらわか
ると思うけど)
 インストールする際は、そのソフトがどのような権限を要求し
ているかちゃんと⾒ること(Android)
 ちなみにLINEが必要とする権限
https://play.google.com/store/apps/details?id=jp.naver.li
ne.android
まとめ
 ビックデータは、次世代の産業の⽶



 パスワード付きのPDFをメールで送り、その後にパ
スワードを同⼀メールで送る。どこが安全なのか不明
(苦笑)
 メールの差出⼈は詐称できることを知っていますか︖

電⼦署名のみが差出⼈を確認することができる
プライバシーを確保した上で積極的に使う“しかない”

国際的な産業競争⼒の確保のために
プライバシーに関しては世界的な基準に準拠していく必要あ
り


⽇本だけ緩い規制、厳しい規制は危険
現在のマイナンバーはEUをお⼿本にしているのでよくできている
 問題は、⺠間によるビックデーター収集にあり

主に⽇本発ソーシャルネット、ゲーム会社、インターネット
通販は、構造的な問題が多い
 今後、最低限の個⼈情報(特にマイナンバー、基本4情
報)は、漏れていることを前提に⾏動
インターネットやマイナンバーの有無にかかわらず、うまい
話は絶対にないこと、冷静に⾏動することは、肝に銘じる
Fly UP