Comments
Description
Transcript
講演の流れ センサネットワーク センサネットワークが抱える センサ
講演の流れ スマートフォンによるモバイルセンシング モバイルセンシングによるパーソナルデータの 収集 アプリ作成事例とその課題 ソーシャルメデイアを利⽤した⾏動履歴をセンシ ングの可能性 スマートフォンで広がるICT スマートフォンで広がる スマ トフォンで広がるICTの世界 トフォンで広がるICT の世界 〜 発展の背景と研究事例 〜 パーソナルデータを利⽤した⼈間⾏動マイニン グの研究事例 パーソナルデータ取得における現状と課題 まとめ ⽯塚宏紀 東京⼤学 ⼤学院 情報理⼯学系研究科 Research Intern, Bell labs, Alcatel-lucent センサネットワーク センサネットワークが抱える課題 センサネットワークが抱える 課題 学術系でよくある定義 「おびただしい数のセンサノードが相互に無線通信でつ ながり,⾯的に情報を収集する」 この見方では, センサネットワークの理解が限ら れたものになってしまう... センサデバイスの設置密度 センシングの質は,センサデバイスの設置密度に大きく依存 構築コストによってセンサデバイス数が決定 米国の研究プロジェクト 「Smart Dust」 の影響 センサネットワークの新たな定義 センサネットワ クの新たな定義 センサの数に限らず,その規模に応じて正しくネットワー クを設計し,実世界から情報を遍く収集する技術 - センサネットワークの最大の利点 - いままで隠れていて見えなかったものが見えるようになる!! ままで隠れて て見えなか たものが見えるようになる!! 設置センサデバイスのメンテナンス センサデバイスはバッテリー駆動のため,電池交換が必要 センサデバイス管理は,現場での保守運用が必要 センサデ イス管理は,現場での保守運用が必要 ネットワークインフラ センサデータ収集用のネットワークインフラの整備コスト サデ タ収集 ネ ク 整備 無線センサデバイスによる通信の品質保証や電力消費の抑制 ヒューマンプローブの概念 センサデバイスを設置することなく,観測領域を動きまわる サデ イ を設置する なく,観測領域を動きまわる “人”にセンサデバイスを装着することで観測を行う概念 Burke, J., D. Estin, Hansen, M., Parker, A., Ramanathan, N., Reddy, S., Srivastava, M. B. "Participatory S i “ WSW'06 Sensing.“ S '06 at S SenSys. S Boulder: ld AC ACM, 2006. 2006 Campbell, A. T., Eisenman, S. B., Lane, N. D., Miluzzo, E., Peterson, R. A. "People-Centric Urban Sensing." WICON'06: The 2nd Annual International Wireless Internnet Conference. Boston: ACM, 2006. ヒューマンプローブの利点と⽋点 利点 センサデバイスの設置,メンテナンスが不要 データ収集のためのネットワークインフラが不要 デ タ収集のためのネットワ クインフラが不要 センサデバイスを持ったユーザ自身のデータも利用可能 欠点 センサデバイスの密度は,センシング領域内の参加者 (分布)に依存 センシング値の精度保障が困難 各参加者が持つセンサデバイスの種類は統 できないため 精度保障不 各参加者が持つセンサデバイスの種類は統一できないため,精度保障不 可 センサデバイスを持った参加者の確保が必要 既存のセンサネットワーク ヒューマンプローブ ヒューマンプローブの救世主 ヒューマンプローブの問題 モバイルセンシングによる パーソナルデータの収集事例 パ ソナルデ タの収集事例 ユーザはセンシングデバイスを持っていなければならない 収集⽬的: 集 的 Smart Phone Phoneには には既にたくさんの 既にたくさんのセンサデ センサデ バイスが搭載されている 収集データ ヒューマンプローブの共通インフラとして活躍が期待 特にAndroid端末は扱えるセンサの幅が非常に広い GPS受信機 温度センサ 電子コンパス ジャイロセンサ 加速度センサ 照度(輝度)センサ 集音センサ 個々⼈の⾏動予測を⾏うための⾏動履歴を収集 Communication trails Co u cat o t a s In‐coming and Out In‐ coming and Out‐‐going Calls and going Calls and SMSs SMSs log and Its diversity Location trails Location information from GPS and WiFi and Cell tower Location information from GPS and WiFi information i f i ⾏動履歴収集アプリ : B2B2 After starting up Menu of the main screen データ収集フレームワークの概要: B2B2 Android アプリ ⾃動的な位置情報の収集 (30 (30秒単位 秒単位)) 発信・着信時での情報収集 発信 着信時での情報収集 B2B2 クラウド Go to 4sq setting page 各アプリからの⾏動履歴情報をクライド内のデータベースで 管理 Loc and comm trails The Internet B2B2 app B2B2 cloud server Readme page モバイルセンシングの課題 収集データ詳細 userinfo userid androidid macadder firstname lastname email emailandroid1 emailandroid2 email4sq twittername time sex job Loc trails Comm trails Social check‐in trails call_trail gps_trail celltower_trail ‐ socialcheckin_trail ‐ userid androidid state number time userid androidid alt accuracy speed bearing time lng lat userid androidid time cellid lac userid userid_4sq firstname lastname checkin time checkin_time checkin_unixtime email venuename lat lng catid catname parent1 parent2 parent3 venueid sms_trail userid androidid state number time network_trail userid androidid time lng lat 実験参加ユーザ数:: apx 70 users 実験参加ユーザ数 実験期間: 実験期間: 2011/09/09 – 2011/11/18 (we keep collecting still right now) ⾏動履歴の取得には,継続的な位置情報の取得 ⾏動履歴の取得には, 継続的な位置情報の取得 が必須となるため,限られた電源資源を浪費す が必須となるため 限られた電源資源を浪費す ることになる. 実験協⼒者によるアンケート結果から 実験協⼒者によるアンケ 実験協⼒者によるアンケート結果から5 ト結果から5時間 – 8 ト結果から5 時間で電池レベルが残り1 時間で電池レベルが残り 1つになることが判明 位置情報は 各位置 意味情報を含まない 位置情報は,各位置の意味情報を含まない 位置情報は,各位置の 意味情報を含まな 既存の位置システムは屋内では機能しない.. 既存の位置システムは屋内では機能しない indoor Just lat, lng, time Just at, g, t e ソーシャルメデイアを利⽤した ⾏動履歴をセンシング gg q Geo-tagged Geotweetや tweetやFoursquare Foursquareなど位置情 など位置情 報を伴ったソーシャルサービスが急速に発展・ 報を伴 たソ シ ルサ ビスが急速に発展 普及している. 特定の意味を持った場所にチェックインという 形である個⼈がそこに存在したことの⾜跡を残 すことができる. すことができる ソーシャルチェックインデータの利点 GPSで取得された位置情報より,予め精度の⾼い位置 GPSで取得された位置情報より, 予め精度の⾼い位置 情報がクライド側に登録された場所へのチェックイン 情報 がクライド側に登録された場所へのチェックイン データの⽅が デ タの⽅が,⾏動履歴として有効である. ⾏動履歴として有効である チェックインデータには,その場所のセマンティック チェックインデータには,その場所の セマンティック 情報が含まれている. 情報 が含まれている. ソーシャルチェックインデータ の収集事例 30 km ソーシャルチェックインデータは,継続的な でデータが限 GPSによる位置情報よりも GPS による位置情報よりも断⽚的 断⽚的でデータが限 定される. 定される <課題> 断⽚的なデータから如何に有効なデータを引き出 し,⾏動を予測するかが問題 Sample of raw check‐ins data of a single user : 2010‐11‐04 21:42:50 35.661975 139.729899 2010‐11‐05 07:52:32 35.44003284543569 139.65509176254272 2010‐11‐05 08:07:49 35.46591305255379 5 7 49 35 4 59 3 5 55379 139.622004032135 39 4 3 35 2010‐11‐05 08:10:44 35.46411077511426 139.6202740073204 2010‐11‐06 01:08:42 35.44240818472106 139.65046763420105 2010‐11‐06 13:04:43 35.44252618502922 139.6358871459961 2010‐11‐06 14:08:55 35.44568 2010 11 06 14 08 55 35 44568 139.63579 139 63579 2010‐11‐07 18:13:45 35.438409183131306 139.63568329811096 2010‐11‐07 21:40:44 35.43299 139.65719698245104 9 35.660678517911784 35 7 5 79 7 4 139.72909927368164 39 7 9 99 73 4 2010‐11‐08 10:00:29 2010‐11‐08 22:35:33 35.662014 139.730048 2010‐11‐09 09:34:50 35.661516 139.729539 2010‐11‐09 09:53:52 35.660678517911784 139.72909927368164 3 3 2 2 2 収集データ概要 実験において, 約3000 3000ユーザの ユーザのGeotagged ザのG ザの G Geotagged d tweets 約800 800ユーザの ユーザの Foursquare checkcheck-ins i T in Tokyo, k N New Y York, k and dL London. d 収集期間は,約1年半 Foursquare API 今現在 – 2010年7⽉ 2010年7⽉ Server Twitter API ソーシャルチェックインデータの⽋点 チェックインデータの総数は,2011 チェックインデータの総数は, 年8⽉現在 チェックインデ タの総数は,2011 タの総数は,2011年 で,120000 で, 120000チェックイン チェックイン チェックインデータの解析 解析目的 : チェックインの軌跡は,とても断片的であり,行動にとってノイ ズとなるデータも含まれている. ノイズを除去し,断片的なデータから意味のあるものを引き出 ノイズを除去し 断片的なデ タから意味のあるものを引き出 すことを目的にして処理する チェックインデータの解析 時空間クラスタリング処理 断⽚的なデ タからより意味のあるデ タ集 断⽚的なデータからより意味のあるデータ集 合を⾒つけるためにクラスタリング処理をお こなった チェックインデータの解析 Data preprocessing ほとんどチェックインしないようなユーザの⾏動予測 は到底不可能なので,週に1度はチェックインを⾏ なっているユーザを826 なっているユーザを 826⼈選出した ⼈選出した.. 平⽇,週末,祝⽇,祭⽇によって⾏動がことなること 平⽇ 週末 祝⽇ 祭⽇によ て⾏動がことなること を確認し,データを分割して処理. チェックインデータの解析 時系列クラスタリング 時系列におけるチェックインの密度によってクラス タリングを⾏う. 時系列クラスタリングの⼿法としてDBSCANと 時系列クラスタリングの⼿法としてDBSCAN と OPTICSを⽤いて⾏った OPTICS を⽤いて⾏った.. 空間クラスタリング 時系列クラスタリング処理 空間クラスタリング処理 Spatial‐Temporal clustering 時系列クラスタリングを終えた後,各時間クラ スタに対して空間クラスタリング処理を⾏う.. スタに対して空間クラスタリング処理を⾏う 空間クラスタリングの⼿法として,X 空間クラスタリングの⼿法として, X-means meansと と DBSCANの2つの⼿法を適応した. DBSCAN の2つの⼿法を適応した. チェックインデータの解析 A sample result of a temporal clustering 20:30_20 :58 19:05_19 :19 15:13_18 :51 11:54_12 :09 21:14_23 :57 チェックインデータの解析 A sample result of a spatial clustering 0:05_0:51 1:10_1:21 12:23_14:53 15:13_18:51 20:30_20:58 21:14_23:57 8:39_9:10 11:54_12:09 19:32_20 :11 12:23_14 :53 8:39_9: 10 19:05_19:19 19:32_20:11 0:05_0: 51 1:10_1: 21 min of a day (0 ‐1440) チェックインデータの解析 チェックインデータの解析 A result of the simple prediction based one A result of the simple prediction based one‐‐order M k h i Markov chain Number of temporal clusters Prediction accuracy of Apx 90% users is around 50% ‐ 55%. Prediction accuracy is still not so good. According to the number of temporal clusters, the accuracy is going better. 最後に パーソナルデータを利活⽤することで,まだ まだモバイルアプリには可能性がある. まだモバイルアプリには可能性がある パーソナルデータを利⽤することは,決して “悪”ではなく ユーザに新しい体験を提供で 悪 ではなく,ユーザに新しい体験を提供で きる新しいアプローチである. <パーソナルデータ利活⽤に向けた課題> <パ ソナルデ タ利活⽤に向けた課題> ⼀部の不誠実なアプリの取締. ユ ザの情報リテラシ 向上 ユーザの情報リテラシー向上.