Comments
Description
Transcript
技術検討ワーキンググループ報告書
資料2-1 技術検討ワーキンググループ 報告書 2013/12/10 技術検討ワーキンググループ 12/10 第 5 回パーソナルデータに関する検討会の後、一部修正。(2013/12/16 更新) 1 技術検討ワーキンググループにおける検討事項 技術検討ワーキンググループ報告の要約(Executive Summary) 1. はじめに 技術検討ワーキンググループ(以下「本WG」という。)は、パーソナルデータに関する検討会(以下「親会」 という。)の下に「匿名化されたパーソナルデータの扱い」について検討するために設置された。 親会からの依頼事項<本文1.1節参照> 合理的な水準まで匿名化されたパーソナルデータは、第三者提供における本人同意原則の例外として、 通常の個人情報とは異なる取扱いができるのではないか、との問題提起により、(1) 個人情報保護法(以 下「現行法」という。)において導入可能な「再識別不可能データ」化(提供事業者において容易照合性の ない技術的匿名化)措置の内容、及び(2) 新たな立法措置を前提とした「合理的な技術的匿名化措置」 の内容の検討を、米国FTCが公表したFTCスタッフレポート「急速な変化の時代における消費者プライバシー の保護」匿名化に関する三要件(いわゆる「FTC3要件」)他を念頭において行った。 本WGでの検討に当たっての前提となる考え方<本文1.2節参照> 現行法における「個人情報」等の用語の定義は、技術的観点からは明確であるとは言えないことから、本 WGでは個人情報に関して下記のような整理をした上で検討した。 (1)現行法の「容易照合性」については、①現行法の解釈が明確ではないこと及び②現行法制定時 よりも、技術の進展によりプライバシー侵害をもたらす可能性のある他の情報との照合可能性が高まって いることから、現行法の「容易照合性」の要件とは独立に検討を行った。 (2)個人情報に関するいわゆる個人識別性については、「特定」と「識別」に分けて議論した。ここで 「特定」とは、「ある情報が誰の情報であるかが分かること」である。一方、「識別」とは、「ある情報が誰か 一人の情報であることが分かること」(ある情報が誰の情報であるかが分かるかは別にして、ある人の情 1 報と別の人の情報を区別できること)である 。 また、上記の「特定」及び「識別」の定義を踏まえ、個人情報を加工することにより作成される情報を下記 の3つのカテゴリーに分けて議論した。 No 用語 用語の説明 個人が(識別されかつ)特定される状態の情報 1 識別特定情報 (それが誰か一人の情報であることがわかり、さらに、その一人が誰であるか がわかる情報) 一人ひとりは識別されるが、個人が特定されない状態の情報 2 識別非特定情報 (それが誰か一人の情報であることがわかるが、その一人が誰であるかまで はわからない情報) 3 非識別非特定情 報 一人ひとりが識別されない(かつ個人が特定されない)状態の情報 (それが誰の情報であるかがわからず、さらに、それが誰か一人の情報であ ることが分からない情報) 1 「特定」と「識別」を分けた理由は、識別は必ずしも個人を特定しているわけではないが、インターネットをはじめとして、情報通信技術の進展等に より、他の情報との突き合わせによる特定が行われ易くなっているという背景がある。 1 1 技術検討ワーキンググループにおける検討事項 2.現行法における技術的課題の検討 匿名化に関わる技術と限界<本文2.1節参照> いわゆる匿名化と考えられていたもの(本WGでは識別特定情報(個人情報)を識別非特定情報ま たは非識別非特定情報への加工すること)の技法は多種多様である。例えば、個人を特定し得る情報の 削除(属性削除)、氏名等のユニークな番号への変換(仮名化)、住所などを広いエリアに置き換える (あいまい化)、希少な情報の削除等があり、通常は、それらを組み合わせて用いる。ただし、一般的には、 個人情報を匿名化することにより情報の利活用における有用性は低下することになる。 さらには、一般的にインターネット等に公開されている外部情報との突き合わせによって識別非特定情報か ら個人を特定できることや、非識別非特定情報からは当初想定できなかった特定の個人の情報が抽出され る可能性が排除できない。すなわち、いかなる個人情報に対しても、識別非特定情報や非識別非特定情 報となるように加工できる汎用的な方法は存在しない。従って、検討事項(1)に対しては、第三者提供を念 頭に一定の匿名化措置(個人情報をある定められた手順で加工)を行っても、必ず識別性または特定性 を無くせるわけではなく、また、そうした匿名化の措置に対して一般的な水準を作ることもできない。 ケースバイケースの対応が必要<本文2.2節(1)参照> 汎用的な匿名化方法は存在しないものの、ケースバイケース、つまり個人情報の種類・特性や利用の目 的等に応じて技術・対象を適切に選ぶことにより、識別非特定情報や非識別非特定情報に加工することは 不可能ではない。乗降履歴情報の例では、仮名化によりその情報単体における個人の特定を無くせたとして も、外部情報との突き合わせにより特定の個人が分かる可能性は必ずしもゼロとはいえない。ある経路の利 用者が一人であればその時点で識別される状態となり、それを避けるためには多くの希少な経路の情報を捨 てることが求められる。また、どの経路を捨てるかは各経路の日々の乗車数に依存し、経路を捨てることで情 報の有用性が下がる可能性もあるため、ケースバイケースの対応が必要である。 外部情報との突き合わせ技術<本文2.2節(4)参照> 一方で、外部情報との突き合わせの可能性は広がっている。インターネットの発展により外部情報は増える と共に、情報を突き合わせるための技術が進展している。例えば、顔認識技術を利用することにより、二つの 情報に含まれた異なる写真でも同一人物の写真であればその同定は容易になっており、突き合わせることが 可能な範囲は拡大していることに留意すべきである。 3.新たな法的措置を前提とした技術的課題への対応 非特定化、非識別化または非識別非特定化の措置を行った個人情報は、元の個人情報と比較して特定 化または識別化の困難性は高まっている。こうした情報については、制度的な制約により安全性を確保されるの であれば、例外的に流通を容易にすることが認められる可能性があり、それを想定した技術的な検討を行った。 上述のように匿名化を行っても、個人の特定が不可能になるとは限らないことを勘案し、個人情報の第三者 提供に関する同意原則の例外規定と位置づけられる新たなカテゴリーとして「(仮称)法第23条1項適用除 外情報」の導入を検討した。具体的には個人情報の第三者提供において、提供者・受領者(第三者)による 特定化・識別化が禁止されることを前提に、ある範囲で個人の特定性・識別性を低減している個人情報を第 三者に提供することを可能とする方法である(下図)。 2 1 技術検討ワーキンググループにおける検討事項 個人 個人情報取扱事業者(提供者) 個人 情報 加 工 第三者提供 (販売等) (仮称)法第23条1 項適用除外情報 第三者(受領者) (仮称)法第23条1 項適用除外情報 第三者に提供する場合、個人の特定性また は識別性が低下した情報に加工すること 情報利用(個人の特定化・識 別化を行わない) 特定他者に提供する場合は、非識別非特定 情報に加工すること 図「(仮称)法第23条第1項適用除外情報」を前提にした個人情報利用 「(仮称)法第23条第1項適用除外情報」の提供者及び受領者に課せられる制約< 本文3.2(1)(2)参照> 提供者が個人情報を第三者(受領者)に提供する場合、受領者において特定化、識別化または識別 特定化を禁止するにしても、個人の特定性または識別性が低下した情報(「(仮称)法第23条第1項適 用除外情報」)に加工すべきである。また、受領者は個人情報の特定化、識別化または識別特定化を行 なわないことが求められる。さらに、突き合わせられる外部情報が予測できないことから、「(仮称)法第23 条第1項適用除外情報」の不特定多数への公表は禁止されるべきである。 「(仮称)法第23条第1項適用除外情報」の規律に関する予備的議論<本文3.2 (3)(4)参照> 「(仮称)法第23条1項適用除外情報」に関わる特定化、識別化または識別特定化を制限する規律 に関しては親会での議論が必要であるが、本WGではFTC3要件を念頭に予備的な議論を行った。 1.提供者は「(仮称)法第23条第1項適用除外情報」となるための措置を施すこと。 2.提供者は「(仮称)法第23条第1項適用除外情報」の特定化、識別化または識別特定化をしな いことを約束・公表等すること。 3.提供者と受領者(第三者)との間の契約において、受領者が「(仮称)法第23条第1項適用除 外情報」の特定化、識別化、または識別特定化することを禁止すること。(または、受領者(第三者) が「(仮称)第23条第1項適用除外情報」を特定化、識別化または識別特定化しないで取扱うもの であることを条件とすることを制度化。) ただし、我が国においては、2.については、このような約束を守らせる法的手段がないため新たな立法措 置が必要である。また、3.については、契約による禁止の履行を提供者が求めることが期待できるのか疑問 が残る。代替的措置として、契約上の義務ではなく法制度上の義務とすることについても検討が必要である。 さらに、「(仮称)法第23条第1項適用除外情報」の定義については、新たな法的措置が定まっていない 現時点で明確に規定することは困難である。 なお、受領者が、受領した「(仮称)法第23条1項適用除外情報」またはそれを元に作成した情報を別 の第三者に提供する場合、提供先である別の第三者にも「(仮称)法第23条1項適用除外情報」に関わ る同様の規律が及ぶべきである。 3 1 技術検討ワーキンググループにおける検討事項 4.今後の検討課題について 本節では、親会にて方針を決定した後に議論すべきと考える事項や、当該WGでは時間的制約から議論し きれていない事項等の今後の検討課題を、以下のとおり整理している。今後の本分野に関する詳細かつ具体 的な検討の際の一助として頂きたい。 新たな類型としての「(仮称)法第 23 条第 1 項適用除外情報」について ・ 制度的枠組みにより提供者及び受領者が個人情報及びプライバシーの保護を実現することが前 提であるが、現時点では、制度的枠組みが不明確。 ・ 更なる制度的枠組みを踏まえ、類型の範囲やそのための技術的要件等についての具体的な議 論が可能と思料。 立法措置を前提とした「合理的な技術的匿名化措置」について ・ 親会の依頼をもとに、いわゆる「FTC3要件」を念頭にした検討の詳細化。 ・ 仮に「FTC3要件」類似の制度を採用する場合には、提供者の約束や受領者の契約上の義 務が実効的に実施される担保的な措置等の技術的な検討が必要。 ユースケースなどを想定した詳細検討 ・ 取り扱う個人情報に含まれる属性情報の種類や利用の目的等を個別に判断することで、個別の 事情に見合った合理的な匿名化の措置を行うことは不可能ではないが、詳細は議論できなかった。 これは第三者提供される情報の種類や利用の目的等を明確ではなかったためである。今後、これ らの情報が明確になった後に詳細な議論が必要であろう。 4 1 技術検討ワーキンググループにおける検討事項 目次 1. 技術検討ワーキンググループにおける検討事項................................................................. 6 1.1. パーソナルデータに関する検討会(親会)からの依頼事項 .............................................. 6 1.2. 技術検討ワーキンググループでの検討に当たっての前提となる考え方 .................................... 9 (1) 主要な事項・用語の考え方 .............................................................................. 9 (2) その他の検討の前提条件 .............................................................................. 12 1.3. 技術検討WGが取り組んだ検討事項.................................................................... 13 2. 現行法における技術的課題の検討........................................................................... 14 2.1. 識別非特定情報または非識別非特定情報に加工する技術 .......................................... 14 2.2. 技術的観点からの考察 ................................................................................... 15 (1) 乗降履歴による考察 .................................................................................... 15 (2) 購買履歴、視聴履歴による考察 ....................................................................... 15 (3) 統計データにおける考察 ................................................................................ 17 (4) 画像、映像、音声、文章などのデータとインターネットの考察 .......................................... 18 2.3. 小括........................................................................................................ 20 3. 新たな法的措置を前提とした技術的課題への対応 ......................................................... 22 3.1. パーソナルデータの保護に配慮しつつ個人の特定性が低減された個⼈情報の有用性 ................ 22 3.2. 個人の特定性が低減された個人情報の個人情報及びプライバシーの保護への影響に留意した取扱い に関する提案 ................................................................................................... 22 (1) 新たなカテゴリーの定義.................................................................................. 22 (2) 「(仮称)法第23条第1項適用除外情報」の第三者提供に関する考え方 ....................... 23 (3) 「(仮称)法第23条第1項適用除外情報」の範囲 ................................................. 24 (4) 「(仮称)法第23条第1項適用除外情報」の第三者提供に際して提供者及び受領者に課せられ る制約 ........................................................................................................ 24 (5) 専門的知見・技術を有する者による識別非特定情報または非識別非特定情報の取扱いについて ................................................................................................................ 26 3.3. 小括........................................................................................................ 26 4. 今後の検討課題 ............................................................................................... 27 5. 補足説明 ....................................................................................................... 29 5.1. 識別特定情報、識別非特定情報、非識別非特定情報の範囲とリスクに関する補足説明 .......... 29 5.2. 識別非特定情報・非識別非特定情報に加工する技術の代表的な技法例 .......................... 30 5.3. 個人が識別された事例 ................................................................................... 31 (1) マサチューセッツ州が公開した医療データから州知事の情報を特定(1997年米国) .............. 31 (2) 米国インターネットサービス企業AOL、検索履歴の公表中止(2006年米国) ................... 31 (3) 映画レンタル・サービスのNetflix、映画推薦アルゴリズムコンテストを中止(2006年米国)....... 32 5.4. 乗車履歴の識別性分析.................................................................................. 33 5.5. 有効とされている事例 ..................................................................................... 34 (1) カーナビゲーションシステムにおける走行経路収集(欧州) .......................................... 34 5 1 技術検討ワーキンググループにおける検討事項 1. 技術検討ワーキンググループにおける検討事項 1.1. パーソナルデータに関する検討会(親会)からの依頼事項 技術検討ワーキンググループ(以下「本WG」という。)は、パーソナルデータに関する検討会(以下 「親会」という。)の下に、検討すべき論点のうち、次に示す「(2)パーソナルデータの利活用ルールの在り方」 として、特に「②匿名化されたパーソナルデータの扱い」について検討するために設置されたものである。 2.検討すべき論点 (2)パーソナルデータの利活用ルールの在り方 <検討の視点> ②匿名化されたパーソナルデータの扱い 保護されるべきパーソナルデータの範囲を詳細に定義しても、「どの水準まで匿名化すれ ば、特定の個人を識別することができない情報となるか」といった点については、ケースバイ ケースで判断せざるを得ない面が存在する。このため、合理的な水準まで匿名化を施され たパーソナルデータについて、法的に通常の個人情報とは異なる取扱い(例:第三者提 供に関する同意を不要とする一方、提供先事業者に対して法的な責任を課す等)とす ることの可否について検討すべきではないか。 ※規制改革会議では「合理的な匿名化措置の内容を明記したガイドラインを策定する (平成26年上半期措置)」としている。 <具体的な検討事項> ・合理的な匿名化の水準について ・合理的な水準まで匿名化を施されたデータ(適正な暗号化技術・匿名化技術を適用し 運用する場合のデータ)の取扱について <出典:第1回パーソナルデータに関する検討会 図1.親会における検討すべき論点のうち、本WGに関する事項 「【資料3-2】 パーソナルデータの取扱いルール整備に向けて検討すべき論点」より抜粋> ここで、「合理的な水準まで匿名化を施されたパーソナルデータについて、法的に通常の個人情報とは異 なる取扱い(例:第三者提供に関する同意を不要とする一方、提供先事業者に対して法的な責任を 課す等)とすることの可否について」とは、FTC(Federal Trade Commission 米連邦取引委員会) が公表した、FTCスタッフレポート「急速な変化の時代における消費者プライバシーの保護」(Protecting Consumer Privacy in an Era of Rapid Change:2013年3月)における匿名化に関する三要件 (いわゆる「FTC3要件 2」)、及び「パーソナルデータの利用・流通に関する研究会」報告書(総務省: 2 (原文)First, the company must take reasonable measures to ensure that the data is de-identified. This means that the company must achieve a reasonable level of justified confidence that the data cannot reasonably be used to infer information about, or otherwise be linked to, a particular consumer, computer, or other device. Consistent with the Commission’s approach in its data security cases, what qualifies as a reasonable level of justified confidence 6 1 技術検討ワーキンググループにおける検討事項 2013年6月12日)における匿名化の3要件(いわゆる「総務省3要件 3」)の検討を念頭に置かれてい る。また、親会第2回会合資料2-1において、これらの考え方に沿って、技術的観点から次の2項目に ついて具体的な検討依頼が挙げられている。 (1)現行法の解釈論として導入可能な「再識別不可能データ」化(提供事業者において容易照合 性のない技術的匿名化)措置の内容について (2)新たな立法措置を前提とした「合理的な技術的匿名化措置」の内容について なお、親会の本WGに対する依頼は、以下の2点を踏まえたものである。 depends upon the particular circumstances, including the available methods and technologies. In addition, the nature of the data at issue and the purposes for which it will be used are also relevant. Thus, for example, whether a company publishes data externally affects whether the steps it has taken to de-identify data are considered reasonable. The standard is not an absolute one; rather, companies must take reasonable steps to ensure that data is de-identified. Depending on the circumstances, a variety of technical approaches to de-identification may be reasonable, such as deletion or modification of data fields, the addition of sufficient “noise” to data, statistical sampling, or the use of aggregate or synthetic data. The Commission encourages companies and researchers to continue innovating in the development and evaluation of new and better approaches to deidentification. FTC staff will continue to monitor and assess the state of the art in de-identification. Second, a company must publicly commit to maintain and use the data in a de-identified fashion, and not to attempt to re-identify the data. Thus, if a company does take steps to re-identify such data, its conduct could be actionable under Section 5 of the FTC Act. Third, if a company makes such de-identified data available to other companies – whether service providers or other third parties – it should contractually prohibit such entities from attempting to re-identify the data. The company that transfers or otherwise makes the data available should exercise reasonable oversight to monitor compliance with these contractual provisions and take appropriate steps to address contractual violations. * * To the extent that a company maintains and uses both data that is identifiable and data that it has taken steps to de-identify as outlined here, the company should silo the data separately. (和訳)第一に企業はデータの匿名化を確保する合理的な手段を講じなければならない。このことは企業が、データが特定の消費者、コンピ ュータその他のデバイスに関する情報を推測させまたは他の形でリンクするために使われることがないという、正当化される合理的な信頼のレベル を達成しなければならないことを意味する。委員会のデータセキュリティ事案におけるアプローチとの整合の観点から、正当化される合理的な信 頼のレベルの決定は、利用可能な手法や技術を含む特定の環境に依存する。加えて、データの性質やそれがどのような目的で用いられるかも 関係する。たとえば企業がデータを外部に提供するかどうかは、匿名化のために取られた措置が合理的と判断されるかどうかに影響する。その基 準は絶対的なものではなく、企業はデータの匿名化を確保するための合理的な段階を踏まなければならない。環境に応じて、匿名化のための 様々な技術的アプローチが「合理的」でありうる。たとえば、データフィールドの削除または変更、十分な「ノイズ」をデータに加えること、統計的な サンプリング、集計値や合成データの使用などである。委員会は、企業や研究者が、匿名化の新たなより良いアプローチに関する開発と評価を 継続することを推奨する。FTCスタッフは、匿名化技術の状況を観察し評価することを続けていく。第二に、企業は、データを匿名化状態で管 理・利用し、データの再識別化を試みないことを公式に約束しなければならない。これにより、企業がデータの再識別化の手段を採る場合には、 その行為はFTC法5条による提訴の対象となる。第三に、企業がそのような匿名化データを他の会社等に提供する場合には、それがサービスプ ロバイダであるか他の第三者であるかを問わず、企業は、その提供先がデータの再識別化を試みることを、契約によって禁止すべきである。データ について譲渡その他の提供を行った企業は、契約条項が守られていることの監視と、違反があった場合に適切な措置を取ることについての、合 理的な監督を行うべきである。* *事業者が、識別可能なデータとこのように非識別化されたデータの双方を保持・使用する場合は、これらのデータは別々に貯蔵すべきである。 3 次のような条件をすべて満たす場合は、実質的個人識別性はないといえるため、保護されるパーソナルデータには当たらないとして、本人の同意 を得なくても、利活用を行うことが可能と整理できると考えられる。 ①適切な匿名化措置を施していること。 ②匿名化したデータを再識別化しないことを約束・公表すること。 ③匿名化したデータを第三者提供する場合は、提供先が再識別化をすることを契約で禁止すること。 7 1 技術検討ワーキンググループにおける検討事項 第一に、上記規制改革会議は、規制改革実施計画(平成25年6月14日閣議決定)において、 「内閣官房及び消費者庁が、『ビッグデータ・ビジネスの普及(匿名化情報の取扱い)』のため、個人情 報の保護を確保しつつ、ビッグデータ・ビジネスの普及を図る観点から、各省庁が策定している事業等分野 ごとのガイドラインで活用できるよう、どの程度データの加工等を行えば、『氏名、生年月日その他の記述等 により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個 人を識別することができることとなるものを含む。)』には当たらない情報となるのか等、合理的な匿名化措 置の内容を明確化したガイドラインを策定する」ことを平成26年上期までに措置する」ことを要請しているこ と。 第二に、規制改革会議の創業等ワーキンググループ報告(平成25年6月5日公表)において、下記 のような「問題意識」が示されていること。 【問題意識】 米国FTCは、事業者が、①データに合理的な非識別化措置を講じること、②非識別化されたデ ータを再識別化しないことを公に約束すること、③非識別化されたデータを第三者に提供する場合、 提供先が再識別化することを契約で禁止すること、の3要件を満たせば、合理的に連結可能なデー タには当たらないとしている。 我が国でも、ある事業者(X)が、もともと保有するデータ(元データ)と、加工等により特定の個人を 識別できなくなったデータ(新データ)の両方のデータを保有し、新データのみを第三者(Y)に提供す る場合において、X・Y間の契約でYによる再識別化が禁止されているときは、個人の権利利益の侵害 のおそれはないのであるから、新データは「個人情報」には該当しない旨を明確化すべきではないか。 <出典:規制改革会議「創業等ワーキング・グループ報告」より抜粋> 規制改革会議における問題意識 8 1 技術検討ワーキンググループにおける検討事項 1.2. 技術検討ワーキンググループでの検討に当たっての前提となる考 え方 (1) 主要な事項・用語の考え方 現行法の解釈における個人情報の定義は、技術的観点からは明確なものでないとの印象を拭い難い。 そのため、本WGでは、個人情報の定義をはじめとする主要な事項の概念を以下のように整理したうえで、 検討を行なっている。 ア. 「個人情報」と「非個人情報」の解釈について (ア) 現行法の一般的な解釈 現行法の一般的な解釈では、個人情報取扱事業者がその保有する個人情報を、特定の個人が識 別される可能性が無い状態へ加工した場合、当該加工した情報は「個人情報に当たらない情報(以 下「非個人情報」という。)」となり、現行法の規制の外で第三者への提供等が自由に行えるとされてい る。 しかしながら、特定の個人が識別される可能性が無い状態が具体的に何を指すのか、必ずしも明確 ではない。また、「個人情報」に該当するための要件には、「(他の情報と容易に照合することができ、そ れにより特定の個人を識別することができることとなる[もの]を含む。)」が付け加えられている(以下 「容易照合性」という。)。この要件については、容易照合性が認められない場合として、「他の事業者 の照会を要する場合のほか、内部でも取扱部門が異なる等の事情により照合が困難な場合がこれにあ たる 4」、或いは「他の事業者に通常の業務では行っていない特別な照会をし、当該他の事業者におい て、相当な調査をしてはじめて回答が可能になるような場合、内部組織間でもシステムの差異のため技 術的に照会が困難な場合、照合のため特別のソフトを購入してインストールする必要がある場合 5」など の解釈がなされている。このように現行法の「容易照合性」については様々な解釈があり、また、現行法 制定時よりも照合対象の情報及び技術が進展したことにより、「容易照合性」の範囲が拡大していると も考えられることから、本WGでは、現行法の「容易照合性」の要件とは独立して、プライバシー侵害をも たらす可能性のある他の情報との照合について検討している 6。 (イ) 情報通信技術の進展に伴う個人の権利利益を侵害する可能性 情報通信技術が急速に進展している現代において、一旦「非個人情報」に加工されたとしても、高 度な情報通信技術の活用により「他の情報と容易に照合して特定の個人を識別することができる」ことと なる可能性が大いに高まっている。 海外においては、マサチューセッツ州が医療情報から氏名等を削除して公開した情報に対し、既に公 開されている他の情報と突き合わせることにより州知事の医療情報として特定された事例など(他の事 例含め、詳細は5.3を参照)が発生している。このように、非個人情報へ加工されたとしても、インターネ 4 第2回パーソナルデータに関する検討会 資料1-2より引用 5 宇賀克也著「個人情報保護法の逐条解説[第4版]」より引用 6 本報告書で扱う「個人情報」は、個人情報保護法第2条1項の個人情報の定義とは異なる。また、個人情報保護法第2条に定義されている 「個人データ」と「個人情報」を分けて記載すべきであるが、分かりやすさのため、「個人情報」と記載している。 9 1 技術検討ワーキンググループにおける検討事項 ット等に公開されている情報や、受領者がもつ他の情報と照合することによって特定の個人を識別するこ とが可能となっている。さらには、そもそも提供者自身も想像もしなかった実際とは全く異なる個人情報 (人物像)が浮かび上がる可能性も否定できない。それらによって個人の権利利益が侵害されるよう な事態が生じる可能性が増大していることに、特に留意すべきである。 そのため、非個人情報が受領者側に提供された後に生じる個人の権利利益の侵害に関する問題も 認識して検討することが必要である。 イ. 「匿名化」を非特定化、非識別化、非識別非特定化等とすること 「匿名化」は個人情報から特定の個人の識別性を無くす方法として注目を集めており、本WGはその 匿名化に関して広範な議論を行っている 7 。しかしながら、「匿名化」という用語は、無名化、仮名化、 属性削除、一般化といったものから、同じレコードが複数存在し一意に個人(Aさん)であることをも識 別できないような状態(k-匿名性)にすることまで含む幅広い概念であり、単に「匿名化」と表現した場合 に人によって受け取るイメージが異なってしまうと考えられる。このように安易に「匿名化」という用語を用い ることにより議論があいまいになることを極力避けるため、本WGでは「特定」と「識別」に分けて議論して いる。 ここで「特定」とは、「ある情報が誰の情報であるかが分かること」である。一方、「識別」とは、「ある情 報が誰か一人の情報であることが分かること」である。つまり、ある情報が誰の情報であるかが分かるかは 別にして、ある人の情報と別の人の情報を区別できることである 8。このうち、特定の誰かの情報であるこ とが分かる場合が、特定といえる。 なお、本WGにおいて「特定」と「識別」を分けて議論をしている理由は、識別は必ずしも個人を特定 しているわけではないが、従前に比べ情報通信技術の進展等により、他の情報との突き合わせによる特 定が行われ易くなっているからであり、特に、インターネットをはじめとして、突き合わせられる他の情報は 飛躍的に増加している状況を踏まえ、単に特定だけでなく、識別も留意する必要があるためである。 また、本WGでは、いわゆる「匿名化」技術を適用することにより加工される情報を前述の「特定」及び 「識別」の定義を踏まえ、次の3つのカテゴリーとして定義している(表1参照)。 表1.いわゆる「匿名化」技術により加工・作成される情報のカテゴリー No 用語 用語の説明 個人が(識別されかつ)特定される状態の情報(すなわち「個人情 1 識別特定情報 報」) (それが誰か一人の情報であることがわかり、さらに、その一人が誰であるか がわかる情報) 一人ひとりは識別されるが、個人が特定されない状態の情報 2 識別非特定情報 (それが誰か一人の情報であることがわかるが、その一人が誰であるかまで はわからない情報) 7 この他、端末やユーザの行動などの周辺情報を加味した上で識別性を定義するケースもあるが、ここでは検討対象としない。 8 「特定」と「識別」を分けた理由は、識別は必ずしも個人を特定しているわけではないが、インターネットをはじめとして、情報通信技術の進展等に より、他の情報との突き合わせによる特定が行われ易くなっているという背景がある。 10 1 技術検討ワーキンググループにおける検討事項 No 用語 用語の説明 一人ひとりが識別されない(かつ個人が特定されない)状態の情報 3 非識別非特定情報 (それが誰の情報であるかがわからず、さらに、それが誰か一人の情報であ ることが分からない情報) なお、非識別非特定情報は、個人の識別化の困難性という指標において、低い程度ものから高い程 度ものまで、非常に幅広い状態を含んでいることに留意が必要である。 また、識別非特定情報には、無名化された情報だけでなく仮名化された情報までも含むため、例えば、 仮名の付与方法や運用方法によっては、ある情報と他の情報が同じ人の情報であることがあり、その取 り扱いに留意する必要が生じる場合がある。仮名化された情報の典型的なものは、IDと呼ばれるユニ ークな文字列を持つものである。IDがある場合、同じIDを持つ他の識別非特定情報と結びつける (リンクする)ことによって、より属性項目の多い識別非特定情報を作成することができることに留意する 必要がある。また、リンクの例としては、同一のサービスからの情報(例えば、時系列に整理されている情 報)、異なるサービスからの情報(例えば、同一のIDが共用されている情報)などがある。さらに、I Dを持たない場合でも、例えば、年齢・性別・職業といった個人の属性の組み合わせ、顔写真、移動に 関する履歴、スマートフォンや家庭のコンピュータの識別子など情報に含まれる記述自体がIDと同様の 性質を持つことがある(詳細は、5.1を参照)。 上記の各情報のカテゴリーについて、その状態の遷移を的確に表現するため、下記のとおり、各情報 のカテゴリーの遷移に関する用語を定義する(表2参照)。 表2.各情報のカテゴリーの遷移に関する用語 用語の説明 No 用語 1 非識別非特定化 「識別特定情報」 を「非識別非特定情報」に加工すること 2 非識別化 「識別非特定情報」を「非識別非特定情報」に加工すること 3 非特定化 「識別特定情報」を「識別非特定情報」に加工すること 4 識別化 「非識別非特定情報」を「識別非特定情報」に加工すること 5 特定化 「識別非特定情報」 を「識別特定情報」にすること 6 識別特定化 「非識別非特定情報」を「識別特定情報」に加工すること 以上を踏まえ、図1は、本WGにおいて定義した用語の関係性を図示したものである。 11 1 技術検討ワーキンググループにおける検討事項 高 (個人が特定できず、 一人ひとりが識別できない情報) 非識別非特定化 低 識別化 識別非特定情報 (個人が特定できないが、 一人ひとりが識別できる情報) 非特定化 特定化の困難性 識別化の困難性 非識別非特定情報 非識別化 高 人によって様々 な状態をイメー ジしてしまう 匿名化 (匿名化措置) 識別特定化 低 特定化 識別特定情報 (個人情報) 図1.匿名化に関する本WGで定義した用語の関係性 (2) その他の検討の前提条件 第三者提供における本人同意原則の例外規定として第三者に提供するこ とを可能とするモデルの検討 現行法においては、個人情報の利活用の原則として「本人同意に基づく第三者提供」等が規定され ており(表3)、これらの規定を活用することで、現行法において個人情報そのものを利活用することが 可能である。 表3.現行法における個人情報の利活用の原則 分類 現行法の条項 概要 同意原則 第23条第1項 あらかじめ本人の同意を得れば、第三提供は可能 第23条第1項 同意の例 第23条第2項 法令に基づく場合等、本人同意を得ないで個人データの第三者提供 は可能 目的・手段の明確化、オプトアウトの提供等により、個人データの第三 者提供は可能 委託(個人情報取扱事業者が利用目的の達成に必要な範囲内に 外規定 第23条第4項 おいて個人データの取扱いの全部又は一部を委託)、合併等の事業 継承、共同利用(個人データを特定の者との間で共同して利用する 場合)など第三者に該当しないスキーム 12 1 技術検討ワーキンググループにおける検討事項 なお、表3における「個人データ」は、個人情報保護法第2条4項 9で定義されている「個人データ」を 指している。 このうえで、本WGにおいては、個人が特定される可能性を低減した個人情報(以下「加工情報」と いう。)を、第三者提供における本人同意原則の例外規定として本人の同意を得ることなく第三者に 提供することを可能とする新たな枠組みを設定することを検討している。 なお、本WGでは、当該例外的措置を検討するにあたっては、最も基本と考えられるものとして、個 人情報取扱事業者が自ら個人情報を当該情報単独では個人が特定される可能性を無くなるよう加 工し、この加工情報を第三者へ提供するモデルを対象としている。 1.3. 技術検討WGが取り組んだ検討事項 本WGでは、これまで述べてきた前提条件等を踏まえ、①個人情報を「識別非特定情報」または「非 識別非特定情報」に加工できる合理的な匿名水準を汎用的に達成可能な技術があるか、②新たな立 法措置(FTC3要件を念頭)を前提とした「識別非特定情報」または「非識別非特定情報」を作成 するにあたって施すべき措置の技術的条件はあるか、について検討した。 9 この法律において「個人データ」とは、個人情報データベース等を構成する個人情報をいう。 13 2 現行法における技術的課題の検討 2. 現行法における技術的課題の検討 2.1. 識別非特定情報または非識別非特定情報に加工する技術 識別非特定情報または非識別非特定情報に加工する技術は、以下のとおりである(詳細については 5.2を参照)。 属性情報の削除(属性(列)削除、仮名化、等) 属性情報の一般化(一般化、あいまい化、等) 属性情報の加工技法(ミクロアグリゲーション、ノイズ付加、データ交換、疑似データ作成、等) その他の技法(レコード削除、セル削除、サンプリング、等) なお、「属性情報」とは、ある情報に対して備わっているとされる性質や特徴に関する情報のことである。 識別非特定情報または非識別非特定情報に加工する技術である非特定化、非識別化または非識 別非特定化技術の技法は上記の通り多種多様であり、通常は、元の個人情報の種類・特性や分析した い内容を考慮して、これらの技術を単独で又は複数組み合わせて利用されるものである。 14 2 現行法における技術的課題の検討 2.2. 技術的観点からの考察 本節は、WG構成員により提出された乗降履歴、購買履歴、統計データ、画像や映像などのデータ等 の例をサンプルとして考察したものである。 (1) 乗降履歴による考察 鉄道の乗降履歴をサンプルデータとして、乗降履歴が高々一人の個人と結びつけられる条件を検討 した(詳細については、本報告書の付録及び第2回技術検討WG資料2を参照)。各駅の乗降客 数は発表されているが、各経路(つまり乗車駅と降車駅の組合せ、または乗換駅を加えた組合せ)の 利用者数は発表されていない場合において、対象となる全駅について、乗車と降車が、各駅の乗降者 数に応じてそれぞれ独立に生じることを仮定した。また、氏名などの個人を特定しうる属性情報は削除、 乗降時間なども削除している。 この場合について検討した結果、駅数や乗降者数によっては、大多数の経路を削除しないと非識別 非特定情報にならないこととなった。例えば、関東地方の住民数を、関東地方の各駅に乗降客数に応 じて移動経路に配分した場合、大部分の経路データを捨てないと、各乗車履歴が一人の利用者による ものと推定されることになり、比較的乗降者数が多いと考えられる山手線内の駅間の経路であっても利 用者が一人となる可能性がある(5.4を参照)。また、乗車駅と降車駅の2駅の組み合わせよりも、3 駅の組み合わせの方が、マイナーな駅を経由する組み合わせが増えることになり識別化の確率が高まる。 これらにより以下の技術的な留意事項が明らかとなる。 氏名の削除を行い、個人を特定しうる属性情報を削除する一方で、仮名化により個人を識別で きるようにし、その利用者の移動経路実績や他のサービスの利用履歴と照合可能な場合は、誰か は分からないにしてもその利用者の行動を捕捉できる恐れが残る。外部情報により利用者が特定 されるリスクは否定できない。 直接個人を特定しうる情報を削除し、仮名化を行わない場合でも、利用者が一人しかいない経 路がある場合、乗降記録からその利用者は識別される。 識別化の可能性を低減する方法として、乗降者数が少ない駅や乗降者数が少ない経路の情報 を捨てることが考えられる。しかし一方で、経路情報を削除するなど識別化の困難性を高める措置 を行うと、情報としての有用性が低下することとなる。なお、鉄道の利用者数は日々変わることか ら、識別化の可能性を低減する方法や対象もそうした日々の変動を考慮して変更していくことが必 要である。 また、乗降履歴による識別性を定量化するには、各経路の乗降客数がわかっていることが望ましい。 これは仮に第三者が個人情報の識別性を判定するには、こうした識別性を評価に必要な基礎情 報がわかっていることが前提となることを意味している。しかし、現行法では当該情報の開示や公表 は義務づけられておらず、適切に識別性が低減されているかを評価するのに限界がある。 (2) 購買履歴、視聴履歴による考察 購買履歴等をサンプルデータとして、非特定化、非識別化または非識別非特定化の状態を満足す るように情報を加工することが可能か、及び非識別非特定情報(ここではk-匿名性を満足するよう加工 した情報)を他の公開情報(個人を識別できる情報を含む)と組み合わせることで、個人を特定又は 15 2 現行法における技術的課題の検討 識別することが可能か、という観点で考察した結果の概要は、以下のとおりである(詳細については、第 2回技術検討WG資料3を参照)。 非特定化の状態を満足するように加工された情報であっても、インターネット等に公開されている 外部情報と合わせて用いることで、特定できる(加工された情報に含まれる個人を表す情報と特 定の個人が結びつく)可能性がある(識別推定される)。これは、個人と結びついた外部情報を手 がかりにすることで、加工された情報の中から特定の個人に関する情報を発見できる場合があるた めである。 非識別非特定情報(ここではk-匿名性を満足するように加工された情報)単体では、当該加 工情報に含まれる任意の個人は特定できない(識別推定されない)。 一方、非識別非特定情報(ここではk-匿名性を満足するように加工した情報)であっても、イン ターネット等に公開されている外部情報と合わせて用いることで、識別を経ずに、特定の個人に関 する情報を推定できる可能性がある(属性推定される)。これは、個人と結びついた外部情報と一 致する情報を加工情報の中から選び出すことができた場合、たとえ情報が非識別非特定化の状 態を満足していても、そこから外部情報に含まれない未知の特定の個人に関する情報を抽出でき ることがあるためである。これを防ぐには、k-匿名性のみならず、属性値の多様化が必要である。 以上より、個人情報取扱事業者(情報の提供者)側で、非特定化の状態を満足するように情報を 加工しても、加工された情報単体で個人が特定される場合がある。また、非識別非特定化の状態(こ こではk-匿名性を満足するように情報)に加工した場合には、加工された情報単体では個人(又は特 定の個人)が特定されることを防ぐことができる。 10 さらに、個人情報取扱事業者側においてk-匿名性を満足するように情報を加工した場合であっても、 受領者側で、その加工された情報を外部情報と組み合わせることによって、個人(又は特定の個人) に関する情報を推定できる場合がある(属性推定される)。あるいは、特定の個人について提供者が、こ れまで提供者が知り得なかった個人についての新しい情報を受領者が得ることができる可能性がある。 よって、個人が識別される(又は個人が特定される)情報が一切推定されない合理的な匿名化水 準を汎用的に達成可能にすることは不可能である。 10 匿名化が生み出す、新たな問題についても考慮すべきである。例えばk-匿名性のある個人情報では、複数個人をグループ化することがあるが、 そのグループに含まれる誰かの属性(例えば債務不履行などのネガティブな情報)により、そのグループ全体が不利益を受けることがあることを指 摘する研究もある。 16 2 現行法における技術的課題の検討 (3) 統計データにおける考察 我が国においては、多種多様な統計データが作成されているが、政府統計データに関しては、我が国 の統計制度の下で、数多くの統計表(集計結果表)が公表されている 11だけでなく、(統計法における) 「匿名データ」が提供されている。そうした状況を踏まえた上で(統計法における)「匿名データ」の特徴、 政府統計の匿名データの作成において適用されている措置、さらには政府統計の匿名データと統計表 の関係を考察した結果の概要は、以下のとおりである(詳細については、第2回技術検討WG資料5 を参照)。 我が国の統計制度において、「匿名データ」は統計法及び「『匿名データ』の作成・提供に係るガイ ドライン」に基づいて作成されている。また、行政機関が、(統計法における)「匿名データ」を作成す る際は、統計委員会へ諮問を行い、「匿名データ」の作成方法の妥当性について、統計委員会か らの答申を受けることとされている。なお、(統計法における)「匿名データ」は、学術研究目的や高 等教育目的等の利用に限定されている 12。 政府統計の匿名データについては、様々な法制度的措置及び技術的な措置をとることによって、 個人の特定の可能性が十分に低く、匿名性が確保されていると判断された場合に、政府統計の 匿名データの作成・提供が可能になる。 (統計法における)「匿名データ」の作成において適用される技術的な措置の概要は、統計委員会 への諮問の際に公開されているが、統計委員会の匿名データ部会における「匿名データ」の審議資 料や議事内容の詳細については、調査客体の特定のリスクを減らすために、非公開になっているこ とがある。 我が国の統計制度の下で公表される統計表は、一般に、低次元の集計表として(統計法におけ る)「調査票情報(個別データ)」をもとに作成されるのに対し、(統計法における)「匿名データ」は、 「調査票情報」の一種と考えられる。その意味では、(統計法における)「匿名データ」と統計表は、 作成方法の点で基本的に異なる。一方、データ構造の観点から見れば、政府統計の匿名データ に含まれるレコードと統計表の中のセルが1対1で対応する場合があるため、データ構造の点から、 政府統計の匿名データと統計表を明示的に区別するのは困難である。 我が国の統計制度の下で公表される統計表は、統計表の集計事項として用いられる属性の数だ けでなく、属性の種類や分類区分の制約を受け、さらにセルに含まれる結果数値(度数、平均値、 比率、重みづけ度数等)にも依存する。 以上より、統計データにおいては、統計制度の下での「匿名データ」と統計表の作成・提供の観点から 考察した結果、合理的な匿名化の水準を汎用的に示すことは困難であることが明らかになった。 11 基幹統計(行政機関が作成する統計のうち特に重要な統計として指定されたもの)については、統計調査の実施前の段階で、調査方法・調 査事項や集計事項について、統計委員会への諮問及び総務大臣の承認が必要となっている。(統計法9条) 12 統計委員会への諮問等が必要となるのは、基幹統計(行政機関が作成する統計のうち特に重要な統計として指定されたもの)に係る「匿名デ ータ」に限られる。(平成25年12月現在までに提供が開始されている「匿名データ」については、全て基幹統計に係るものとなっている。)(統計 法35条、36条、統計法施行規則15条) 17 2 現行法における技術的課題の検討 統計は、一定の条件(時間・空間・標識・単位 13)で定められた集団について調べた(あるいは集 めた)結果を集計・加工して得られた数値とされており、過去の実績・経験等も考慮すると、統計にお いては個人が特定される(又は個人が識別される)可能性は非常に低くなっているものの、さらに必要 に応じて統計に加工が施されることもある。また、可能性という観点からいえば、他の多種多様なデータと 組合わされる可能性があるという現状においては、どういったデータとの照合も一切不可能であると理論 的に証明できるものではないが、統計における個人の特定化又は識別化は、極めて困難であると言え る。 (4) 画像、映像、音声、文章などのデータとインターネットの考察 画像、映像、音声や、ソーシャルメディアも含む表形式になっていない文章などの非定型なデータにつ いて、それらのデータによる個人の特定又は個人の識別の可能性を考察した結果は、以下のとおりであ る(詳細については、第3回技術検討WG資料1を参照)。 ア. インターネットに存在するアクセス可能な大量データと削除不可能な大量 のコピーの存在 インターネットは専用回線接続とは違い、複数の事業者のサーバを経由してデータが送受信される ものであり、経由するサーバ等でデータが保持されてしまう可能性がないとは言いきれない。また、検 索エンジンはインターネットに公開されたデータを常時高速で巡回して複製を作っている。この結果、 一度、流出した個人情報を削除するのは難しくなっている。 データストレージ及びデータベースの高容量に伴い、長期にわたって各種情報も保持している事業 者は珍しくなく、その情報には個人情報が含まれることもある。さらに事業者によっては取得した個 人情報を削除する規則をもっていないケースもある。この結果、短期間の情報では特定の個人に 絞り込めない情報であっても、長期間にわたって収集・保持する情報から、個人の行動の特徴が明 確になり、その特徴的な行動から個人の特定されるリスクは高まっている。 また、インターネットでは様々なデータの組合せを利用した分析が広く行われている。例えばネット広 告などでは、ある個人のWebページの観覧履歴や購買履歴から広告内容を変えることがあるが、 個人の特定、例えば個人の氏名などが分かれば、氏名を通じてその個人のソーシャルネットワーク 上での書き込みやブログなどの情報を調べて、広告内容を選んでいることは少なくない。また、Web 検索技術・サービスが進んでおり、ある情報に対して組み合わせるべき情報も容易に見つかるように なっている。 イ. 画像・映像の持つ多くの情報 画像分析について、画像情報や映像情報には個人の氏名など直接的に個人を特定または識別 できる情報は含まないとしても、画像情報や映像情報そのものに個人に関わる多数の固有情報を 含んでいる。 例えば、人の頭の一部の曲線だけ でも正確に識別または特定が可能な 場合がある。その他、目鼻の位置、 13 統計単位や調査単位がこれに該当する。 18 2 現行法における技術的課題の検討 色の変化や分布、部品の形、シルエット、手足の比率など多くの識別可能情報・特定可能情報が 存在する。 図2.画像における個人の特定及び識別方法 テキストについて、自然言語を取り扱う技術が進んでおり、ソーシャルネットワークを含む、各種テキ ストデータからも、ある程度の文章などの意味を加味しながら、各種情報が詳細に抽出し、表形式 などの定型データとして表す、つまり一般の属性情報として扱えるようになっている。 テキストへのリンクについて、画像や映像には説明が付随していることが多く、例えば顔写真の場合、 付随情報として氏名が記載されていることもある。また、Webコンテンツ等では画像や映像との直 接的に付随していないとしても、テキスト分析等を利用することにより、画像や映像と、コンテンツの 文章中の氏名が関連づけられることもある。 自動記録メタデータについて、デジタル画像、映像、音声ファイルの多くは、撮影時に位置情報や 作成者、作成時間等のメタデータが自動的に生成され、画像データと同時に保管される。つまり画 像データ単体で識別・特定が可能な場合が多い。また、その事実を知らずに画像を送ってしまう利 用者が多いのも事実である。 ウ. 顔認識と個人情報への紐つけ容易性の危険 顔認識技術は発展しており、独立した複数のデータセットに同一人物に関する顔写真が含まれて いる場合、同技術を利用すると、顔の表情等が異なった写真でもあっても、同一人物と判定するこ とは極めて容易になっていきている。つまり、顔写真が複数のデータセットを繋ぐ鍵となり、同一個人 に関わるデータとして紐付けができてしまうことになる。テキストや表形式のデータを識別不可能に加 工しても、顔データが含まれていれば、これを分析することで様々なデータがリンクされ情報を復元で きてしまうリスクが高くなる 14。 エ. 音声データに関する特徴 音声に関しては、声紋や抑揚、話し方によって個人の識別が可能である。その処理と分析には時 間とIT資源、人間の判断を要するが、音声の発話内容自体は音声認識システムなどで音声を一 度テキスト文章化してしまうと、テキストと同様に取り扱う事ができる。 以上より、非特定化・非識別化技術を施された情報であっても、ある属性値から、インターネットに公 開されている情報等を突き合わせることで個人が特定化されることがある。この際、突き合わせる対象と なる情報は増えていること、画像や映像、音声、テキストから情報を抽出する技術は進んでいることに留 意すべきである。 14 個人の特定を介することなく、相違なデータセットが同一人物に関する個人情報であることがわかる。また、該当するデータセットに含まれる属性 を組み合わせることで、個人が特定される可能性も大きくなる。なお、実際に起きている議論の例として、以下が挙げられる。 ・2012年8月、ドイツの情報保護当局が「ユーザの許可を得ずにユーザの写真の膨大なデータベースを不法に作成した」としてフェイスブックを非 難し、顔認識技術に基づいたファイルのアーカイヴを破棄するよう同社に求めた。 ・2013年5月、米国上院で始まった移民法改革法案、実質米国成人の全員のバイオメトリックデータベースが作成される事で大きな議論にな っている。 19 2 現行法における技術的課題の検討 特に専用通信路や専用システムではなく、インターネットのような共有の通信路や共有システム上で 個人情報を取り扱う場合は、個人情報の識別非特定化や非識別非特定化を含む、十分なセキュリテ ィ施策や情報保護対策と管理の仕組みが必要である。 2.3. 小括 (1) 識別非特定情報または非識別非特定情報に加工する技術 識別非特定情報または非識別非特定情報に加工する技術は多種多様であり、通常は、元の個人情 報の種類・特性や分析したい内容を考慮して、これらの技術を単独で又は複数組み合わせて利用される ものである。 属性情報の削除(属性(列)削除、仮名化、等) 属性情報の一般化(一般化、あいまい化、等) 属性情報の加工技法(ミクロアグリゲーション、ノイズ付加、データ交換、疑似データ挿入、 等) その他の技法(レコード削除、セル削除、サンプリング等) (2) あらゆる情報について、識別非特定情報または非識別非特定情報への加工 を実現する汎用的な技術・手法は存在しない いかなる個人情報に対しても、識別非特定情報や非識別非特定情報に加工できる合理的な匿名水 準を汎用的に達成可能な技術は存在しない。ケースバイケースで識別非特定情報や非識別非特定情 報に加工すること(個人情報の種類・特性や利用目的等に応じて技術・対象を選ぶこと)が必要である (工夫された事例は、5.5を参照)。 また、個人情報にある定められた手順で非特定化、非識別化または非識別非特定化技術を組み合わ せて加工しても、必ず識別非特定情報または非識別非特定情報となるとは限らない。つまり、加工に利用 した技術ではなく、加工された情報について、識別非特定情報または非識別非特定情報になっているかを 個別に確認することが必要である。これは、非特定化、非識別化または非識別非特定化という情報の加 工に対して一般的な水準を作ることができないことを示している。 さらに、個人情報取扱事業者側で識別非特定情報や非識別非特定情報に加工できたとしても、他の 情報との突き合わせ等により、再び識別特定情報(個人情報)となる可能性がある。これは、広く情報 が拡散してしまった後に個人が特定され、何らかの個人の権利利益が侵害されるような事態が生じる可能 性があることを示している。 前記のとおり、規制改革会議の創業等ワーキンググループ報告(平成25年6月5日公表)において、 規制改革実施計画(平成25年6月14日閣議決定)の要請に関する以下のような「問題意識」が示さ れている。 「ある事業者(X)が、もともと保有するデータ(元データ)と、加工等により特定の個人を識別できなく なったデータ(新データ)の両方のデータを保有し、新データのみを第三者(Y)に提供する場合におい 20 2 現行法における技術的課題の検討 て、X・Y間の契約でYによる再識別化が禁止されているときは、個人の権利利益の侵害のおそれはな いのであるから、新データは「個人情報」には該当しない旨を明確化すべきではないか」(前記 1.1.(1)) しかしながら、以上に検討したとおり、「個人の権利利益の侵害のおそれ」がなくなるような汎用的な「加 工等」の技術は存在せず、ここにいう「新データ」を個人情報に該当しないものとすることは困難であると考 える。 (3) 特定の情報について、識別非特定情報または非識別非特定情報への加工 を実現する技術・手法の適否については、ケースバイケースで判断すべきで ある あらゆる情報について、非識別非特定情報または識別非特定情報への加工を実現する技術・手法が 存在しない一方で、情報の内容や類によっては、非特定化、非識別化または識別非特定化を実現する 技術・手法は存在し得る。しかしながら、データの種類によっては、識別非特定情報または非識別非特定 情報に加工する技術は簡単とはいえない。そのため、個人情報保持者(現行法での個人情報取扱事業 者)が第三者提供を希望しても、その事業者が識別非特定情報または個人情報を非特定非識別情報 に適切に加工できない場合もあり得る。また、非識別非特定情報(例えば、k-匿名性などを満足するよう に加工された情報)となっているかを確かめるには膨大な計算時間を要するなどといった問題もある。 一方、第三者(受領者)が分析等を行う事業者である場合は、非特定化、非識別化または非識別 非特定化に関わる技術・経験があるのであれば、受領者に非特定化、非識別化または非識別非特定化 の措置の一部を任せた方が良い場合も想定される。このような場合には、提供者に求められる非特定化、 非識別化または非識別非特定化の措置は比較的簡易なものとすることが合理的であると考えられる。 しかしながら、この場合、第三者(受領者)において、確実に①適切な非特定化、非識別化または識 別非特定化が行われることや②加工後の情報について、特定化、識別化または識別特定化が行われな いこと等が担保される必要がある。このような担保については、新たな法制度上の工夫に待つ他はないと考 えられる。 なお、非特定化、非識別化又は非識別非特定化措置の状態について確認、公表、検証等をするため に広く事業者が参照できるサンプルを作成する等、非特定化、非識別化又は非識別非特定化措置の透 明化を高め、個人情報の本人及び事業者の双方の不安を取り除くための措置等について、引き続き検討 を進めることも必要である。 21 3 新たな法的措置を前提とした技術的課題への対応 3. 新たな法的措置を前提とした技術的課題への対 応 3.1. パーソナルデータの保護に配慮しつつ個人の特定性が低減された 個⼈情報の有用性 これまで述べてきたように、非特定化、非識別化または非識別非特定化の技術は、対象とする個人情 報の性質や解析の目的によって、様々な技術を個別に選択し組み合わせて適用するものである。そのこと から、どのような個人情報をも完全に個人を特定又は個人を識別できないようにする合理的な匿名化水 準を汎用的に達成可能な非特定化、非識別化または非識別非特定化技術は存在しない。個人情報の 種類・特性や利用目的に応じて非特定化、非識別化または非識別非特定化の措置を行う必要がある。 一方で個人情報の流通・利活用を期待する声も大きい。また、非特定化、非識別化または非識別非 特定化の措置を施した個人情報は、元の個人情報と比較して特定化または識別化の困難性が高まって いるが、こうした加工情報の利活用においては、必ずしも特定の個人と結びつかなくともデータとしての有用 性は高く、様々な利活用が促進されることで新サービスや新事業の創出に寄与することが期待されるとの 意見がある。 こうしたことから、非特定化、非識別化または非識別非特定化の措置を施した個人情報については、個 人情報保護法の趣旨・目的に反することなく、個人情報の本人への影響に配慮しつつ適切に取り扱うこと で、有効に利活用することが求められる。 もっとも、非特定化、非識別化または非識別非特定化の措置を施したのみでは必ず現行の個人情報 保護法における第三者提供の適用外になると確定できるものではないことも考慮し(特に①加工前の情 報や②加工前の情報のデータベースとの対応テーブルの取扱いにも留意が必要)、こうした非特定化、非 識別化または非識別非特定化措置を施したデータの取扱いについては、流通を容易にする一方で、安全 性を確保するための措置を講じることも必要である。よって、これらを実現するためには、法改正を含む新た な制度的な措置が必要であると考えられる。 3.2. 個人の特定性が低減された個人情報の個人情報及びプライバシ ーの保護への影響に留意した取扱いに関する提案 (1) 新たなカテゴリーの定義 下図に示す通り、個人情報に非特定化、非識別化または非識別非特定化の措置を施した場合、個 人の特定化の可能性が低減することによるプライバシーに関する安全性(特定化の困難性)と情報の有 用性はトレードオフの関係にあると言え、適用する技術の別により、個人の特定化の困難性の程度が高い と情報の有用性は低下することになる。 22 3 新たな法的措置を前提とした技術的課題への対応 個人情報の本人のプライバシーに 関する安全性(特定化の困難性) 低 高 VS 高 情報の有用性 低 図3.非特定化、非識別化または非識別非特定化の措置を施した情報の安全性と有用性 また、非特定化、非識別化または非識別非特定化措置を施しても必ず現行の個人情報保護法の適 用外になると確定できるものではないことも勘案し、この加工情報を、本人のプライバシーへの影響に配慮 しつつ、様々な有用な利活用を促進する観点から、新たなカテゴリーとして「(仮称)法第23条1項適用 除外情報」と定義し、個人情報の第三者提供に関する同意原則の例外規定として、その類型を位置づ けることが、適当であると考えられる。 これは個人情報における本人の権利利益の保護と情報の有用性とのバランスを考慮したものであり、個 人情報の第三者提供において、受領者(第三者)による特定化・識別化が禁止されることを前提に、個人 特定性を低減している個人情報を第三者に提供することを許す方法である。 個人 個人情報取扱事業者(提供者) 個人 情報 加 工 第三者提供 (販売等) (仮称)法第23条1 項適用除外情報 第三者(受領者) (仮称)法第23条1 項適用除外情報 第三者に提供する場合、個人の特定性また は識別性が低下した情報に加工すること 情報利用(個人の特定化・識 別化を行わない) 特定他者に提供する場合は、非識別非特定 情報に加工すること 図4.「(仮称)法第23条1項適用除外情報」を前提にした個人情報利用 なお、特定の第三者に提供する場合と比較し、非常に広範で予測不可能な情報との突合が生じること 等による個人情報の本人のプライバシーへの影響を考慮し、 「(仮称)法第23条第1項適用除外情 報」の不特定多数への公表は禁止されるべきであろう。 (2) 「(仮称)法第23条第1項適用除外情報」の第三者提供に関する考え方 「(仮称)法第23条1項適用除外情報」に関わる特定化または識別化を制限する規律に関しては、 親会での議論が必要であるが、本WGにおいても予備的な議論を行った。なお、冒頭で紹介した規制改 革会議の問題意識は、「(仮称)法第23条第1項適用除外情報」のようなものの第三者提供を、提供 者と受領者のそれぞれに対して一定の制約を課することを条件に例外的に認めようとするものである。この 点については、前述のとおり、FTC(Federal Trade Commission 米連邦取引委員会)が公表した、 FTCスタッフレポート「急速な変化の時代における消費者プライバシーの保護」(Protecting Consumer 23 3 新たな法的措置を前提とした技術的課題への対応 Privacy in an Era of Rapid Change:2013年3月)における匿名化に関する三要件(いわゆる 「FTC3要件」)も同様の考え方をとっている。また、「パーソナルデータの利用・流通に関する研究会」報 告書(総務省:2013年6月12日)における匿名化の3要件(いわゆる「総務省3要件」)も同じであ る。そこで、本WGにおいても、これらの検討結果が示す考え方に沿って、「(仮称)法第23条第1項適 用除外情報」の範囲や、提供者と受領者に課せられるべき制約について検討している 15。 (3) 「(仮称)法第23条第1項適用除外情報」の範囲 「(仮称)法第23条第1項適用除外情報」の定義については、現時点で明確に規定することは困難 である。なぜなら、第一に、前記のとおり、情報やデータベースの性質・状態によって、非特定化、非識別化 または非識別非特定化の措置は千差万別である。また第二に、「(仮称)法第23条第1項適用除外 情報」の第三者提供については、新たな法的措置による提供者及び受領者の双方に対する制約が必要 と解されるところ、そのような法的措置の内容が未だ定まっていないからである。 (4) 「(仮称)法第23条第1項適用除外情報」の第三者提供に際して提供者 及び受領者に課せられる制約 「(仮称)法第23条第1項適用除外情報」の第三者提供に際して、提供者及び受領者に課せられ る制約について、本WGでは、規制改革会議の問題意識、「FTC3要件」「総務省3要件」の考え方に沿 った検討を行った。 なお、検討にあたっては、議論を単純化するため、提供者(現行法の個人情報取扱事業者)が自ら 個人情報に非特定、非識別化または非識別非特定化措置を施し、かつ自らが特定の者へ第三者提供 するケースを想定した。 提供者が個人情報を第三者(受領者)に提供する場合、受領者において特定化、識別化、識別特 定化を禁止するにしても、少なくとも個人の特定性または識別性が低下した情報(「(仮称)法第23条 1項適用除外情報」)に加工すべきである。また、受領者における制約としては個人情報の特定化、識 別化または識別特定化を行なわないこととなるが、仮に受領者がその情報を利用(例えば分析)して他 の情報(例えばその分析の結果)を作り、それを他者に提供する場合は、その提供できる情報は非識別 非特定情報に限定されるべきである。 ア. 提供者は「(仮称)法第23条第1項適用除外情報」となるための措置を 施すこと。 FTC3要件や総務省3要件の提案するものである。提供者(現行法の個人情報取扱事業者)が 「(仮称)法第23条第1項適用除外情報」を作成するにあたって施すべき措置の技術的条件につい て検討が必要とされており、本WGが考える技術的条件は、前記2.3のとおりである。 イ. 提供者は「(仮称)法第23条第1項適用除外情報」の特定化、識別化 15 本WGはFTC3要件のような考え方だけが「(仮称)法第23条1項適用除外情報」を実現する手法であるとは考えていない。 24 3 新たな法的措置を前提とした技術的課題への対応 または識別特定化をしないことを約束・公表等すること。 FTC3要件や総務省3要件の提案するものである。米国においては、一旦このような約束・公表等を しながらこれを守らない場合、FTC法第5条による法執行が行われる。我が国には同様の制度がないた め、現行法では、この制約に実効性を持たせることはできない。新たな法制度の創出が必要であり、かつ その制度はFTC法第5条と同程度の法執行の効果を持つものであることが望ましい。 ウ. 提供者と受領者(第三者)との間の契約において、受領者が「(仮称) 法第23条第1項適用除外情報」の特定化、識別化、または識別特定化 することを禁止すること。(又は、受領者(第三者)が「(仮称)第23 条第1項適用除外情報」を特定化、識別化または識別特定化しないで取 扱うものであることを条件とすることを制度化。) FTC3要件や総務省3要件の提案するものである。我が国においては、契約による禁止の履行を提 供者が求めることを期待できるのか疑問である。そのため代替的措置として、契約上の義務ではなく法 制度上の義務とすることについても検討が必要である。 エ. その他の条件 (ア) 元の個人情報の取扱い 「(仮称)法第23条第1項適用除外情報」の取扱条件の検討において、提供者(現行法の個 人情報取扱事業者)が、「(仮称)法第23条第1項適用除外情報」を作成した後に、元の個人 情報を破棄せずに継続保有している場合があり、そこでは両情報を容易に照合できる場合とそうでな い場合が存在するが、容易に照合できる場合においては、容易照合性に関する例外規定の設定や この場合の特別な運用・管理に関する規定の整備等について検討が必要である 16。 (イ) センシティブデータ等の取扱い 識別化による個人情報の本人に与えるプライバシー侵害の可能性を考慮し、センシティブ情報の 取扱いについては、制度見直し方針の議論も踏まえる必要がある。 また、顔の画像情報等については、他の情報と比較し、何らかの非特定化、非識別化または非特 定非識別化の措置を施したとしても個人が特定される可能性が極めて高いと指摘されていることや、 セキュリティ分野での活用とのバランス等を考慮し、その取扱については慎重に検討すべきであると考え られる。 16 FTC3要件は、注記において、To the extent that a company maintains and uses both data that is identifiable and data that it has taken steps to de-identify as outlined here, the company should silo the data separately.(事業者が、識別 可能なデータとこのように非識別化されたデータの双方を保持・使用する場合は、これらのデータは別々に貯蔵すべきである。)としている。 25 3 新たな法的措置を前提とした技術的課題への対応 (ウ) イとウの実効性の確保について 法的・制度的仕組みである前記イとウについては、その実効性を確保するための検討が必要であ る。提供者の約束や受領者の契約上の義務が、現実に履行されるための担保的な措置が必要であ り、これがない場合には、イ、ウのそれぞれに代わる立法的措置について検討すべきである。 (エ) 下流の受領者について 受領者が、受領した「(仮称)法第23条1項適用除外情報」またはそれを元にした情報を別の 第三者に提供する場合にも、再度、同様の制約の下で、第三者提供が認められてよいであろう。す なわち、最初の受領者は、第三者に提供しようとする情報について、前記アのとおり「(仮称)法第 23条1項適用除外情報」となるための措置を行い、次いで前記イのとおり、それを特定化等しないこ とを約束・公表し、さらに前記ウのとおり、受領者と提供先である第三者の間の契約において、第三 者が「(仮称)法第23条1項適用除外情報」の特定化等をすることを禁止することを要する。 2番目の受領者以降の第三者提供についても同じである。 (5) 専門的知見・技術を有する者による識別非特定情報または非識別非特定 情報の取扱いについて 専門的知見・技術を有する事業者が非識別非特定化の措置を施したデータが、外部情報との突 き合わせなどによる特定や識別の可能性が十分に低いと評価し得る場合は、「(仮称)法第23条 1項適用除外情報」に関する上記の要件よりも緩やかな要件での流通を認めることも考慮に値する。 ただし、ユースケースに依存するために、親会における議論が必要であり、本WGではこの点についての 十分な議論はできていない。 3.3. 小括 「(仮称)法第23条第1項適用除外情報」の第三者提供の枠組みについては、親会での制度見直 し方針の議論と合わせて設定する必要がある。 本WGとしては、本報告も踏まえた親会での更なる制度的な検討を期待するとともに、その検討結果に 基づいて改めて技術的課題を整理し、より詳細な検討を進めることとしたい。 26 4 今後の検討課題 4. 今後の検討課題 本節では、親会にて方針を決定した後に議論すべきと考える事項や、当該WGでは時間的制約から議論し きれていない事項等の今後の検討課題を、以下のとおり整理している。今後の本分野に関する詳細かつ具体 的な検討の際の一助として頂きたい。 ・ 個人情報の利活用が求められている一方、情報の提供者や受領者の要求(例えば、どのような情報を 提供可能なのか、反対にどのような目的に情報を利用したいのか)が明確になっていないと考えられる。本 WGで議論した識別非特定情報や非識別非特定情報への加工については、ケースバイケースで考える必 要があるため、第三者提供される情報の種類、特性、利用する目的等が明確にすることでより詳細に議 論が可能となる。そのため、今後は対象となる個人情報やその利用する目的に応じて、識別非特定情報 や非識別非特定情報の要件を定義すべきであり、また現在親会で検討されている第三者機関においてそ れを判定する方法などを議論すべきである。 ・ 本報告書では、情報の利活用における有用性を全く失うことなく、いかなる個人情報をも対象にした汎用 的な匿名化手法はないと結論づけている。一方で、取り扱う個人情報に含まれる属性情報の種類や利 用の目的などを個別に判断することで、個別の事情に見合った合理的な匿名化の措置を行うことは不可 能ではない。ただし、その検討には具体的な情報と利用の目的等が明確であることが前提となることから、 その点について、本WGでは具体的な検討をしていない。 ・ 情報収集のプロセスや情報収集に用いた機器・サービス等によっては、個人の特定を可能にする情報が意 図せず含まれてしまう可能性があり、慎重に考慮する必要がある。今回は、個人の行動や携帯端末やP C等からの特定については検討の対象としなかったが、技術や環境の変化に応じてどのようなケースで特定 が起きるか、継続的な検討が必要である。 ・ 「(仮称)法第23条第1項適用除外情報」の範囲は現状では未確定とするしかなかった。これは同範囲 が制度的な補完、つまり規律により個人情報及びプライバシーの保護が実現できることが前提になっており、 範囲はその規律に依存するためである。今後の親会における制度的な検討を受けて、再度、「(仮称) 法第23条第1項適用除外情報」の範囲や規律に関する技術的な検討が必要となるであろう。 ・ 情報の利活用のケースやビジネスモデル(例えば、受領先(第三者)自身がその情報を利用する場合 や、分析などを行った結果を他の事業者への提供する場合等)に応じて、「(仮称)法第23条第1項 適用除外情報」の範囲も違ってくることも予想される。個人情報及びプライバシーの保護、並びにパーソナ ルデータの利用・流通の具体的な要件を考慮しながら、同範囲の更なる検討が必要である。この他、個人 情報をインターネット等の通常はセキュアとはいえない環境で取扱う場合に求められる安全管理措置や、 画像や音声などの情報の種別に応じた「(仮称)法第23条第1項適用除外情報」の範囲の検討も考 慮すべきである。 ・ 非識別非特定情報の具体的な作成方法に関して、例えば、非識別非特定情報には、複数の個人に対 応する(複数の個人の情報であること以下には絞り込むことができない)ように加工された場合(k-匿名 性を満足する場合)や、ランダムにサンプリングされた場合がある。本WGでは、こうした非識別非特定情 報であることの詳細の基準について議論はしていない。このため、個人情報やその利用の目的等に応じた 要件の定義や第三者機関における判定についての議論が必要である。 27 4 今後の検討課題 ・ 政府統計データについては、様々な法制度的及び技術的な措置をとることによって、政府統計の匿名デー タが作成されていることが知られているが、このような事例は個人情報の第三者提供における個人情報の 非特定化や非識別化においても有用だと思われることから、引き続き調査を行うとともに、こうした政府統 計の匿名データ作成に関する事例を参考にすることが望ましいと考えられる。 ・ 本WGでは、個人の特定性を軽減することについて、元の情報を加工する技術的な観点での考察を主と して行ったところであるが、この他、外部情報等との突き合わせを制限する方策についても検討する必要が ある。残念ながら、本WGでは時間的な制約もあり、本件に関する検討には至っていないが、連結可能性 の観点等ともに引き続き検討する必要がある。 28 5 補足説明 5. 補足説明 5.1. 識別特定情報、識別非特定情報、非識別非特定情報の範囲と リスクに関する補足説明 (1) 識別特定情報 識別特定情報はある情報が誰の情報であるかが分かる性質(特定性)を持つ。個人情報とみなされ る。 現行法において個人情報であるかどうかの判断は、当該情報に含まれる氏名、生年月日その他記述 等により特定の個人を識別できるもの、もしくは当該情報と他の情報と容易に照合することができ、それによ り特定の個人を識別できることとなるもの(いわゆる「容易照合性」がある場合)によるものとされている。 その解釈は本報告の対象に含んでいない。何が個人情報に該当するのかの判断は、技術の進歩や社会 環境の変化に応じてなされることが重要であると考えられる。 (2) 識別非特定情報 識別非特定情報は、それが誰の情報であるかは分からないとしても、誰か一人の情報であることがわかる 性質(識別性)を持つ。 識別性を持つ情報の典型的なものは、IDや仮名(以下「ID」という。)と呼ばれるユニークな文字 列あるいは番号を持つものである。 IDがある場合、同じIDを持つ他の識別非特定情報と結びつける(リンクする)ことによって、より項 目の多い識別非特定情報を作成することができる。 リンクの例としては、同一のサービスからの情報(例えば、時系列に整理されている情報)、異なるサー ビスからの情報(例えば、同一のIDが共用されている情報)などがある。 このことから、IDの命名や利用に関して、同一IDが継続して使われるか否か、或いは異なるサービス 間で共有して使われるか否か等に関して、個人情報の種類や特性、利用の目的等に応じた検討が必要 である。 なお、リンクには元の個人情報と結びつけて再度個人情報を作成する用途(連結可能匿名性)があ るが、本検討では対象としていない。 一方、IDを持たない場合でも、情報に含まれる記述自体がIDと同様の性質を持つことがある。例 えば、年齢・性別・職業といった個人の属性の組み合わせ、顔写真、移動に関する履歴、スマートフォンや 家庭のコンピュータの識別子などといったものである。こうした情報の記述がどのような場合にIDになり得る のかは、ケースバイケースである。IDと同様のリンクに機能するような情報の記述が存在する場合には、上 記のIDの命名や利用に関する検討が必要である。 (3) 非識別非特定情報 非識別非特定情報は、それが誰の情報であるかは分からず、かつ誰か一人の情報であるかどうかも分か らない。 29 5 補足説明 このような性質を持つ情報は、特定性がなくIDやIDと同様に機能する情報の記述を持たない上に、 元の個人との関係を推定することが困難な状態になっていることで実現できる。 例えば、当該情報が複数の個人に対応する(複数の個人の情報であること以下には絞り込むことがで きない)ように加工された場合(k-匿名性)や、ランダムにサンプリングされた場合がある。 本検討では、k-匿名性のkの値(何人以上であればプライバシーが保たれるか)などの詳細の基準の 議論は対象としていないため、実際にどのような程度で非識別非特定情報が作成されたかに関して、別途 検討が必要である。 5.2. 識別非特定情報・非識別非特定情報に加工する技術の代表的 な技法例 識別非特定情報・非識別非特定情報に加工する技術の代表的な技法例を下表に示す(第1回技 術検討WG資料2-3を元に加工)。 表4.識別非特定情報・非識別非特定情報に加工する技術の代表的な技法例 No 1 2 代表的な 属性(列) 属性情報 の削除 概要 技法例 技法例 削除 仮名化 直接個人を特定可能な属性(氏名等)を削除すること 直接個人を特定可能な属性またはその組み合わせ(氏名・生年 月日)を符号や番号等に置き換えること。例えば、ハッシュ関数 ・属性の値を上位の値や概念に置き換えること。例えば、10歳刻 み、キュウリ→野菜 3 属性情報 一般化 Local Recodingと呼ぶ の一般化 4 6 属性情報 の可能技 7 法 数値属性に対して、特に大きい、もしくは小さい属性値をまとめる。 例えば、100歳以上の人は「100歳以上」とする ミクロアグリゲ 元データをグループ化した後、同じグループのレコードの各属性値 ーション を、グループの代表値に置き換えること ノイズ(誤 数値属性に対して、一定の分布に従った乱数的なノイズを加えるこ 差)の付加 と データ交換 カテゴリー属性に対して、レコード間で属性値を(確率的に)入れ 替えること 疑似データ作 元のデータと統計的に疑似させる人工的な合成データを作成するこ 成 と その他技 レ コ ー ド 特に大きい等、特殊な属性(値)を持つレコードを削除する。例 法 (行)削除 えば、120歳以上のレコードは削除する 8 9 ・四捨五入や二捨三入などを丸め法(Rounding)と呼ぶ あいまい化 5 ・データ全体に行うものをGlobal Recoding、局所的に行うものを 30 5 補足説明 No 代表的な 技法例 概要 技法例 10 セル削除 11 サンプリング センシティブな属性値等、分析に用いるべきでない属性値を削除す る 元データ全体から一定の割合・個数でランダムに抽出すること 匿名性の定義としてよく知られるk-匿名性とは、単独では個人を識別できないが、複数を組み合わせることで 個人を高い確率で識別することが可能な属性(ex. 性別、年齢、居住地、職業等)について、どの属性値の組 み合わせでも、対象とするデータ中に必ずk件以上存在する状態を意味する。k-匿名性を満足する状態にデー タを加工することをk-匿名化と呼ぶ。k-匿名化を達成するための技法は一通りではなく、様々な技法がある。そ の多くは、上記に挙げた、一般化、あいまい化、ミクロアグリゲーション、レコード削除、セル削除等の技法の組み 合わせによって構成される。 5.3. 個人が識別された事例 (1) マサチューセッツ州が公開した医療データから州知事の情報を特定(1997 年米国) マサチューセッツ州は医療データから氏名等を削除して公開。その中には性別、生年月日、郵便番号 が含まれていた。 既に公開(販売)されている投票者名簿とマッチングしたところ、州知事と同じ生年月日のレコードが 6人おり、うち3人が男性で、郵便番号から1人に特定された。 図5 マサチューセッソ州の事例 (2) 米国インターネットサービス企業AOL、検索履歴の公表中止(2006年米 国) アカデミックな研究に資することを望んで、AOL(America Online)のサーチエンジンにおける65万人 のユーザの3か月の検索履歴のリスト2,000万件を公表。ユーザネームとIPアドレスを匿名化していたが、ユ ーザネームは有用性の確保のため、特定の識別子(番号)に変換していた。 31 5 補足説明 New York Timesの記者2名が、ユーザ“No.4417749”の検索履歴「ジョージア州リルバーンの造園 士」、アーノルドというラストネーム、「ジョージア州のグウィネット村のシャドー湖区で販売されている住宅」等 から、このユーザが識別されたと報道した。 翌週、AOLは公表を中止し謝罪。公表した研究者とその上司が解雇され、CTO(最高技術責任 者)が辞任した。 ユーザネーム IPアドレス ・・・・・・ ユーザーネームを 置き換えて公表 特定の識別番号 IPアドレス ・・・・・・・ 検索履歴2,000万件/65万人 <検索履歴やその他情報> ・ジョージア州リルバーンの造園士 ・ジョージア州のグウィネット村のシャドー湖区 で販売されている住宅 ・ラストネーム=アーノルド 個人 特定 図6 AOLの事例 (3) 映画レンタル・サービスのNetflix、映画推薦アルゴリズムコンテストを中止 (2006年米国) オンライン映画レンタル・サービスのNetflixは、顧客の嗜好に合った映画をお勧めするアルゴリズムのコン テストを開催し、匿名化したユーザの視聴履歴データ(特定のユーザ識別子、ユーザによる映画の評価、 評価した日時のデータベース)をコンテスト参加者に提供した。 テキサス大学のグループがNetflixtの視聴履歴データと、映画情報サイトIMDb(Internet Movie Database)で公開されているユーザレビューとを結びつけ、一部の個人を特定した。 連邦取引委員会(FTC)が「プライバシーに関する懸念」を指摘し、第2回コンテストは中止となった。 <視聴履歴データ> 公表 映画情報サイトIMDb ユーザーレビュー 図7 Netflixの事例 32 <視聴履歴データ> 特定のユーザー識別子 ユーザー映画評価 評価日時 ・・・・・・・ 個人 特定 5 補足説明 5.4. 乗車履歴の識別性分析 疑似的な乗降履歴をサンプルデータとして、個人を特定ができないデータを作成することが可能かとい う観点で考察を行った。検討の概論と結果は、以下のとおりである(詳細については、第2回技術検討 WG資料2を参照)。 仮定: 利用者数:4千万 (首都圏の人口),乗降駅数:2千5百 (関東地方の総駅数)、 JRの乗車人員データに基づく乗降数分布(パレート分布)に従う。各レコードには個人に対応する 仮IDが振られている。 レコード削除によるk-匿名性の確保を検討する。 図8の例では、仮IDについての乗降駅から成るデータを一レコードとする。(1)識別特定化は、レコードか ら個人が特定できる脅威である。 (2) 仮ID=7の利用者は、「信濃町」を使った経路の唯一の利用者であ り、個人の識別が可能であることになる。一方、他のユーザは個人が識別されることはない。 また、これらの識別の水準は独立ではなく、(1)識別特定化が可能な攻撃者ならば、(2)個人の識別も 可能であるという関係がある。この対偶は「(3)個人の識別が可能な攻撃者に対しても安全ならば、(1)個 人の特定の観点でも安全である。」ということになる。従って、十分に安全な技術的な措置としては、(3)識 別化の可能性について検討しなくてはならないことを意味している。 (1) 特定できる (レコードから個人の 仮ID 名前が特定可能) 検討太郎 3 駅1 駅2 3 新宿 中野 4 新宿 中野 5 中野 御茶ノ水 6 中野 御茶ノ水 7 新宿 信濃町 (2) 一意に識別できる (その駅を含む経路利 用が一人しかいない) 図8. 個人識別の種類 個人の識別を不可能にするためには、模式的に作成した図9に示される「マイナーな経路のレコード」を 削除しなくてはならない。ここで、xは経路レコードを利用数の多い順に並べた時の順位であり、Y軸はx位に おけるレコードの出現確率を表している。図9の右下の斜線の部分が一意に識別できるレコードであり、k匿名性を確保するためにはこれらを削除する。 しかし、削除しなくてはならないレコードの数は、観測期間が長くなるほど、またレコード内のデータの数が多 くなるほど、増すこととなる。例えば、乗客が乗降数分布に応じて下車駅を選択する仮定のもとで、一レコー ドあたりの乗降駅数を増していく場合、識別化の可能順位は上がる。2駅分の乗降履歴が記録されたレコ ードを仮定すると、全体の約7%のレコードを削除しなければならない。 以上の様に、現在の識別特定化・非識別非特定化技術で個人識別ができない状態とすることは可能で ある。ただし、その時は、多くのデータを削除するなどの措置をする必要があり、データの有用性が損なわれる ことになる。 33 5 補足説明 識別可能 順位 x* P(x) 識別可能 レコード 行削除しないと 危険なデータ 識別可能 確率 k/n 第x位 図9. 乗降履歴のk-匿名性の確保 5.5. 有効とされている事例 (1) カーナビゲーションシステムにおける走行経路収集(欧州) 一部の欧州カーナビゲーションシステム会社では、リアルタイム渋滞情報・ルート再探査・交通規制情 報等サービスを提供する事を目的に、走行中の端末から位置情報群(走行経路)を時間情報(タイ ムスタンプ)付きで収集している。その際、出発地及び目的地を含む一連の位置情報を継続的に分析 することで、容易に個人の自宅等を同定可能であることから、位置情報群が個人情報と判断され得る為、 以下の措置を施している。 端末からサーバに情報をアップロードする際、サーバ側で出発地点近傍と到着地点近傍の情報を (ある所定時間ないしある距離の範囲で)削除する 出発地点近傍と到着地点近傍を外した位置情報群(走行経路)は、個人IDも外し、過去 の走行経路情報とのひも付けできない形で記録する さらに、各種サービスを行うために取得している端末からアップロードされる情報についても、利用目 的を明確にして収集するとともに、その目的以外で収集・加工・利用しないことを表明している。 情報が個人を同定可能である限りにおいて、そうした個人情報の取り扱いには欧州各国の承認が必 要であり、本事例もそれに則っている。 34 5 補足説明 自動車の位置情報群(走行経路:出発地から目的地まで) 時間 自動車位置情報 乗り始め の所定時間 または距離を 削除 残すデータ (個人特定につながりにくい) 図10.カーナビゲーションの事例 35 乗り終わり の所定時間 または距離を 削除 5 補足説明 (参考)技術検討ワーキンググループにおける検討経緯等 1.【検討経緯】 ◆第1回(平成25年9月27日(金)) WGでの検討項目(技術面、制度面)について、等 ◆第2回(平成25年10月17日(木)) 匿名化の分類、参考事例の整理、医療等分野の考察、政府統計について、等 ◆第3回(平成25年11月1日(金)) 非定型データの取扱い、「FTC3要件」、報告書の取りまとめの方向性、等 ◆第4回(平成25年11月8日(金)) WG報告書案について ※会議資料 http://www.kantei.go.jp/jp/singi/it2/pd/index.html 36 5 補足説明 2.技術検討ワーキンググループ構成員(敬称略、五十音順) い と う し んすけ おかむら ひさかず き く ち ひろあき 伊藤 伸介 明海大学 経済学部 准教授 岡村 久和 日本IBMスマーター・シティー事業・部長 菊池 浩明 明治大学 総合数理学部 教授 さ く ま じゅん 佐久間 淳 筑波大学 システム情報工学研究科 准教授 さ と う いちろう ◎佐藤 一郎 国立情報学研究所 アーキテクチャ科学研究系 教授 さ と う よしひろ たかはし か つ み まつもと やすし 佐藤 慶浩 日本ヒューレットパッカード 個人情報保護対策室長 高橋 克巳 NTTセキュアプラットフォーム研究所主幹研究員 松本 泰 セコム株式会社IS研究所 コミュニケーションプラット フォームディビジョンマネージャー もり りょうじ ○ 森 亮二 英知法律事務所 弁護士 ◎は主査、○は主査代理 37