Comments
Description
Transcript
政府統計における匿名化 ミクロデータの特徴
パーソナルデータに関する検討会 第2回技術検討ワーキンググループ 資料5 政府統計における匿名化 ミクロデータの特徴 2013年10月17日(木) 明海大学経済学部 伊藤 伸介 1 1.統計法と政府統計ミクロデータ ・ 諸外国では、政府統計の個別データから 作成した匿名化ミクロデータが提供されている。 ・ わが国においても、統計法(平成19年法律第 53号)の全面施行に伴い、平成21年4月より、 政府統計(公的統計)のミクロデータの提供が進 められてきた。 *本報告では、政府統計の個別データに匿名化処理を適用す ることによって作成されたミクロデータを「匿名化ミクロデータ」と 呼ぶことにする。 2 わが国の統計法におけるミクロデータの定義 ・「調査票情報」・・・統計調査によって集められ た情報のうち、文書、図画又は電磁的記録に よって記録されているもの(統計法第2条第11 項) ⇒個別データ(他にも、個票データ、生データなど) ・「匿名データ」・・・一般の利用に供することを 目的として調査票情報を特定の個人又は法 人その他の団体の識別ができないように加 工したもの(統計法第2条第12項) *匿名データは統計法の規定に基づいて作成 3 統計法におけるミクロデータの提供 (調査票情報の提供) 第三十三条 行政機関の長又は届出独立行政法人等は、 次の各号に掲げる者が当該各号に定める行為を行う場合 には、その行った統計調査に係る調査票情報を、これらの 者に提供することができる。 一 行政機関等その他これに準ずる者として総務省令で 定める者 統計の作成等又は統計を作成するための調査 に係る名簿の作成 二 前号に掲げる者が行う統計の作成等と同等の公益性 を有する統計の作成等として総務省令で定めるものを行う 者 当該総務省令で定める統計の作成等 4 (匿名データの作成) 第三十五条 行政機関の長又は届出独立行政法人等は、その行っ た統計調査に係る調査票情報を加工して、匿名データを作成するこ とができる。 2 行政機関の長は、前項の規定により基幹統計調査に係る匿名 データを作成しようとするときは、あらかじめ、統計委員会の意見を聴 かなければならない。 (1)行政機関は、統計委員会へ匿名データ作成について諮問を行う。 (2)統計委員会内に設置されている匿名データ部会において、基幹統計調査 の匿名データに関する匿名性の検討が行われる。匿名データ部会の審議 内容は、統計委員会に報告される。 (3) 統計委員会において基幹統計調査の匿名データの作成に関する答申が 出されると、行政機関は匿名データの作成・提供を行う。 (匿名データの提供) 第三十六条 行政機関の長又は届出独立行政法人等は、学術研究 の発展に資すると認める場合その他の総務省令で定める場合には、 総務省令で定めるところにより、一般からの求めに応じ、前条第一項 の規定により作成した匿名データを提供することができる。 ⇒調査票情報や匿名データの適正管理(第四十二条)、守秘義務(第 四十三条)、罰則規定(第六十一条)あり。 5 わが国で現在作成・提供されている匿名データ 1.総務省統計局 住宅・土地統計調査(平成5年、10年、15年) 全国消費実態調査(平成元年、6年、11年、16年) 就業構造基本調査(平成4年、9年、14年) 社会生活基本調査(平成3年、8年、13年、18年) 労働力調査(平成元年1月~平成20年12月) 2. 厚生労働省 国民生活基礎調査(平成13年、平成16年) 6 匿名データの作成・提供に関するガイドライン (総務省政策統括官(統計基準担当)決定) (以下『ガイドライン』) (1)匿名データ提供の申出者および利用者の範囲(12頁) ・自ら責任を持って学術研究の発展に資すると認められる利用を行い 得る者 ・高等教育の発展に資すると認められる利用を行い得る者 ・国際比較統計利活用事業を行い得る者 ⇒学術研究や高等教育の発展に資すると認められる場合に限り、 匿名データの提供が認められる。 (2)匿名データの申出者は、利用申出の際に、匿名データの利用期間、 利用場所・保管場所を明示する必要がある。 *わが国の匿名データは、Public Useな匿名化ミクロデータではない。 7 2. 政府統計ミクロデータにおける匿名化措置 ・政府統計ミクロデータに関する秘匿性(confidentiality) →諸外国では、主としてミクロデータに含まれる個体識別リス クの評価として議論が展開 参考 個体識別(identification)(Marsh et al.(1991), Müller et al.(1995)) *識別の対象となる特定の個体について侵入者(intruder)が把握している情 報(事前情報(a priori knowledge))を含むファイル(識別ファイル)とミクロ データファイルを想定 1)識別ファイルに含まれるレコードとミクロデータファイルに含まれるレコード がキー変数(key variable)を通じて1対1のマッチング(matching)がなされる こと 2)対応関係にあるレコードが特定の個体のものであることが確認されること ↓ 個体識別が成立 8 参考 個体識別のイメージ(伊藤(2010)) 侵入者 個人A 性別が男 年齢が85歳 8人世帯 農林漁業従事者 政府統計のミクロデータのイメージ 一連番号 (世帯主) 性別 (世帯主) 世帯人員 区分 年齢 25 1 36 4 (世帯主) 職業 年間収入 (万円) 9 200 1 800 00001 00002 2 1 00003 1 85 8 7 6000 00004 00005 ・ ・ ・ 2 1 45 70 ・ ・ ・ 3 2 5 5 400 300 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 性別 1: 男 2:女 職業 1:専門的・技術的職業従事者 2: 管理的職業従事者 3:事務従事者 4:販売従事者 5: サービス職業従事者 6:保安職業従事者 7: 農林漁業従事者 8: 運輸・通信従事者 9: 生産工程・労務作業者 侵入者が個人Aの属性値について情報を持っていた場合 侵入者がミクロデータを手に入れると、ミクロデータに含まれる属性群と個人Aに関して 持っている情報に関して、キー変数(この場合は、性別、年齢、世帯人員区分、職業)に よるマッチングを行うことによって、ミクロデータの中から個人Aに関する情報を特定しよ うとする。 9 匿名データにおける匿名化処理の考え方(『ガイドライン』別紙1) 匿名化処理:「基本的には、調査単位とミクロデータの対応関 係を特定されないようにする」こと ⇒主要国でも用いられている匿名化技法を組み合わせる(『ガ イドライン』別紙2)。 非攪乱的な手法 ・ 識別情報の削除 ・ 匿名データの再ソート(配列順の並べ替え) ・ 識別情報のトップ(ボトム)・コーディング ・ 識別情報のグルーピング(リコーディング) ・ リサンプリング 攪乱的な手法 ・ スワッピング *主として外観識別性の高い属性に対して、匿名化処理が適用されると考 10 えられる。 参考 匿名データ提供の対象となる主な統計調査の匿名化措置の一覧 全国消費実態調査 社会生活基本調査 就業構造基本調査 住宅・土地統計調査 労働力調査 (共通事項) リサンプリング率 80% 80% 80% 10% 80% ※沖縄以外:80%、沖縄:20% 地理区分 3大都市圏か否か 3大都市圏か否か 3大都市圏か否か 都道府県 なし 年齢階級 5歳階級(リコーディング) (子供の年齢は15歳未満は各歳) 5歳階級(リコーディング) (子供の年齢は10歳未満は各歳) 5歳階級(リコーディング) (子供の年齢は15歳未満は各歳) 5歳階級(リコーディング) (子供の年齢は15歳未満は各歳) 5歳階級(リコーディング) (15歳以上) 年齢区分 85歳以上トップコーディング 85歳以上トップコーディング 85歳以上トップコーディング 85歳以上トップコーディング 85歳以上トップコーディング 世帯人員 8人以上世帯削除 8人以上世帯削除 8人以上世帯削除 8人以上世帯削除 8人以上世帯削除 子ども 三つ子(同一年齢3人)以上世帯削除 三つ子(同一年齢3人)以上世帯削除 三つ子(同一年齢3人)以上世帯削除 三つ子(同一年齢3人)以上世帯削除 同一年齢階級3人以上世帯削除 (調査別) 住宅規模等 一定水準未満ボトムコーディング 一定水準以上トップコーディング - - 年間収入等 一定金額以上トップコーディング 内訳削除 - - 一定水準未満ボトムコーディング 一定水準以上トップコーディング - 出所 http://rcisss.ier.hit-u.ac.jp/Japanese/micro/anonym02.html - - 11 参考 イギリスおける政府統計の匿名化ミクロデータの作成 ―人口センサスを例に― イギリスでは、人口センサスが10年ごとに実施されており、1991年人口セ ンサスより匿名化標本データ(Samples of Anonymised Records=SARs)が 作成・提供されている。 1991年人口センサスの匿名化標本データの提供においては、ミクロデータ の提供に伴う露見リスク(disclosure risk)を定量的に評価するための体系 的な研究を行った上で、リスクは極めて低いと結論付けた(Marsh et al. (1991))。 SARsにおける個体情報の露見リスクについてのTim Holt教授による議会答弁 (1992年3月11日) 「しかるべき統計的検定の結果、露見のリスクは大多数の人口について無視できる程 度のものであり、その他の者についても極めて小さいものと考えることができる。国際 的な経験の示すところによれば、リスクのレベルは、SARの提供に踏み切る決断を行う のにふさわしいものであり、私はこのように助言する」と回答している(森(2000,54頁)) 12 SARsに適用された匿名化技法 1991年SARsにおける匿名化技法 1)レコードの標本抽出 2)データの削除(suppression) 3)地域属性の制限 4)個人・世帯属性の分類区分の統合 *2001年SARsの作成においては、攪乱的手法(perturbation)として、 PRAM(Post Randomization Method)が適用されている(De Kort and Wathan(2009))。 13 ・イギリスの場合、人口センサスのSAR等のセンサスミクロデー タに関しては,End User Licenseを取得することによって,(イギ リス国内の教員・学生は)無料でダウンロードを行うことが可能 である(ライセンス型ミクロデータ(End User License data))。 ↓ ライセンス型ミクロデータは、イギリス統計法における「個人情報(personal information)」の対象外であって、個体情報が露見しないように十分な匿名 化処理を行い、露見の制御(disclosure control)を行うことによって、提供可 能 ⇒「disproportionate effort」ルールに基づく匿名化処理(伊藤(2012)) 「disproportionate effort」ルール 「データの利用者(intruder)が、公表された情報を利用して、ある統計単位が 誰なのかを特定するか、あるいは、公共の場(public domain)では入手できな い統計単位に関する情報を暴露するには見合わない(disproportionate)ほど の時間、労力と専門的技術を必要とすることをデータの提供者が保証すべ きだということである。」 出所 GSS Disclosure Control Policy for Microdata Produced from Social Surveys 14 「disproportionate effort」ルールは、ドイツにおける「事 実上の匿名性」概念に類似しているようにも思われる。 事実上の匿名性:「著しく大きな時間、経費および労力 の支出によってしか個別データから回答者を突きとめる ことができない」こと → 1987年ドイツ連邦統計法には、ミクロデータが「事実上匿名」 であれば、政府統計ミクロデータが学術研究のために提供され てもよいことが、明記されている(濱砂(2000))。 15 3.匿名化ミクロデータと統計表 公表される統計表(あるいは集計結果表)は、一般的に基本的と考えら れる調査事項をクロスさせた集計表であり、低次元の集計表として調 査票情報から作成される (山口他(2013, 5~6頁))。 統計表:いくつかの変数値区分の組み合わせの各セルごとに、対応する観測単 位数、あるいは観測単位のもつ値の平均値や比率などの統計量を表示した、表 形式の集計データ(竹内啓編(1989)『統計学辞典』, 284頁) *集計結果表≠調査票情報 匿名データは、統計法36条によれば調査票情報を加工したものと規 定されているから、調査票情報の一種と考えられる。 ↓ 統計制度の下で作成された集計結果表と匿名データは、作成 方法の点で基本的に異なる。 16 *データ構造の観点から見れば、集計結果表 と匿名化ミクロデータが対応関係を持つ場合 がある。 Ex. 個別データとミクロアグリゲートデータ(個別データ にミクロアグリゲーションを適用することによって作 成されたデータ) 17 参考 個別データとミクロアグリゲートデータとの関係(伊藤(2009)) (1)個別データ(属性群として性別,雇用形態,週間就業時間と 年間収入のみが配列されていると想定) 一連番号 性別 雇用形態 週間就業時間 年間収入(千円) 1 1 1 4 1500 2 1 1 2 2300 3 1 1 4 2100 4 1 3 1 1500 5 1 3 2 2700 6 1 3 3 1800 7 2 2 3 3600 8 2 4 4 4000 9 2 2 3 2800 (2)性別,雇用形態と週間就業時間に関する同質属性値 レコード群 一連番号 性別 雇用形態 週間就業時間 年間収入(千円) 2 1 1 2 2300 1 1 1 4 1500 3 1 1 4 2100 4 1 3 1 1500 5 1 3 2 2700 6 1 3 3 1800 7 2 2 3 3600 9 2 2 3 2800 8 2 4 4 4000 性別 1: 男 2:女 雇用形態 1:正規の職員・従業員 2:パート 3:アルバイト 4:派遣社員 週間就業時間 1:35時間未満 2:35~48時間 3:49~59時間 4:60時間以上 対応関係 (3)性別,雇用形態,週間就業時間別クロス集計表 性別 男 雇用形態 正規の職 パート アル 週間就業時間 員・従業員 バイト 35時間未満 0 0 35~48時間 1 0 49~59時間 0 0 60時間以上 2 0 計 3 0 派遣 社員 1 1 1 0 3 女 正規の職 パート アル 員・従業員 バイト 0 0 0 0 0 0 0 0 2 0 0 0 0 0 2 計 派遣 社員 0 0 0 0 0 0 0 0 1 1 1 2 3 3 9 18 (3)性別,雇用形態,週間就業時間別クロス集計表 性別 男 雇用形態 正規の職 パート アル 週間就業時間 員・従業員 バイト 35時間未満 0 0 35~48時間 1 0 49~59時間 0 0 60時間以上 2 0 計 3 0 派遣 社員 1 1 1 0 3 女 正規の職 パート アル 員・従業員 バイト 0 0 0 0 0 0 0 0 2 0 0 0 0 0 2 計 派遣 社員 0 0 0 0 0 0 0 0 1 1 1 2 3 3 9 (4)ミクロアグリゲートデータ 性別 週間就業 時間 雇用形態 1 1 1 1 1 2 2 1 1 3 3 3 2 4 総数(N) 2 4 1 2 3 3 4 年間収入の総計 1 2 1 1 1 2 1 2300 3600 1500 2700 1800 6400 4000 ミクロアグリ ゲーション後 の一連番号 性別 1 2 3 4 5 6 7 8 9 週間就業 年間収入 時間 雇用形態 1 1 1 1 1 1 2 2 2 クロス集計表についてはn次元に拡張することが概念的には可能 1 1 1 3 3 3 2 2 4 2 4 4 1 2 3 3 3 4 2300 1800 1800 1500 2700 1800 3200 3200 4000 19 図 超高次元クロス集計表のイメージ (世帯主の)就業・非就 性別 業の別 企業規模 1 ― ― 2 ― ― ― 1 ― ― 2 ― ― 3 ― ― 4 ― ・ ・ ・ ・ ・ ・ (世帯主の) 職業符号 ― ― ― ― ― ― ・ ・ (世帯主の)就業・非就 性別 業の別 企業規模 1 1 ― 1 2 ― 性別と就業・ 1 3 ― 非就業の別 1 4 ― を選択 2 1 ― 2 2 ― 2 3 ― 2 4 ― ・ ・ ・ ・ ・ ・ ・ ・ ・ (世帯主の) 職業符号 ― ― ― ― ― ― ― ― ・ ・ 性別を選 択 1つの属性を選択 すべての属性にかんするクロス集計表 就業・非就 性別 業の別 企業規模 職業符号 1 1 1 1 1 1 1 1 1 1 1 2 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 1 4 5 12 1 4 5 12 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 2 1 1 1 2 1 1 1 2 1 1 2 2 1 1 3 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 就業・非就 業の別を選 択 ・・・ ・・・ ・・・ ・・・ 総数(N) 1 1 2 ・ ・ ・ 2 1 ・ ・ ・ 1 1 2 3 ・ ・ ・ 2つの属性を選択 ・ ・ ・ 性別 すべての属性を選択 超高次元クロス集計表:個別データが有するすべ ての属性群を集計事項の対象とした上で作成され るn次元の多重クロス集計表(伊藤(2009)) 1 1 1 ・ ・ ・ 1 1 ・ ・ ・ 2 2 2 2 ・ ・ ・ 就業・非就 業の別 企業規模 職業符号 1 1 1 1 1 1 1 1 2 ・ ・ ・ ・ ・ ・ ・ ・ ・ 4 5 12 4 5 12 ・ ・ ・ ・ ・ ・ ・ ・ ・ 1 1 1 1 1 1 1 1 2 1 1 3 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 総数(N) 50664 4392 40783 1895 11721 657 ・ ・ 総数(N) 38578 908 10644 534 2205 987 1077 123 ・ ・ 総数(N) 1 1 2 ・ ・ ・ 2 1 ・ ・ ・ 1 1 2 3 ・ ・ ・ 20 ・公表される統計表は、統計表の集計事項として用い られる属性の数だけでなく、属性の種類や分類区分の 制約を受ける。 ・さらに、統計表の秘匿性の担保は、セルに含まれる 結果数値(度数、平均値、比率、重みつきの度数等)に も依存している。 →パーソナルデータにおいて統計データを位置付ける 場合、こうした条件も考慮することが必要だと思われる。 21 4.まとめ ・わが国の匿名データは、統計法および匿名データの作成・提 供に関するガイドラインに基づいて作成され、統計委員会にお いて秘匿性に関する検討が行われた上で提供されている。 ・ミクロデータにおける秘匿性を確保するために、様々な匿名化 技法が適用されるだけでなく、匿名化ミクロデータの提供に関し て法制度的措置がとられている。 ・個体識別リスクがきわめて低く、秘匿性が担保されていると考 えられる場合、匿名化ミクロデータの作成・提供が可能 →パーソナルデータにおいて、「再識別不可能」ではなく、 「再識別が事実上困難」という考え方は成立するか。 ・匿名化ミクロデータと統計表においてデータ構造の観点から 明示的な線引きを行うのは困難である。 →パーソナルデータにおいても、属性の数と種類、属性の分類 区分の数、さらにはセルに含まれる結果数値を考慮すること によって、パーソナルデータから作成された統計データの提 供可能性を議論することができると思われる。 22 主要参考文献 De Kort, S., and Wathan, J.(2009) “Guide to Imputation and Perturbation in the Samples of Anonymised Records”. http://www.ccsr.ac.uk/sars/resources/imputation.doc. GSS Disclosure Control Policy for Microdata Produced from Social Surveys http://www.ons.gov.uk/ons/guide-method/best-practice/disclosure-control-policy-for-socialsurvey-microdata/index.html. 濱砂敬郎(2000)「事実上の匿名性の原則」松田芳郎・濱砂敬郎・森博美編『講座ミクロ統計分析① 統計調査制度とミクロ統計の開示』日本評論社, 109~128頁 伊藤伸介(2009)「匿名化技法としてのミクロアグリゲーションについて」熊本学園大学『経済論集』第 15巻第3・4号合併号, 197~232頁 伊藤伸介(2010)「ミクロデータにおける秘匿性の評価方法に関する一考察」,明海大学『経済学論 集』Vol.22, No.2, 1~17頁 伊藤伸介(2012)「政府統計ミクロデータの提供における匿名化措置―イギリス統計法における法制 度的措置と攪乱的手法の適用可能性を中心に―」,明海大学『経済学論集』第24巻第3号, 1~14頁 Marsh, C., Skinner, C., Arber, S., Penhale, B., Openshaw, S., Hobcraft, J., Lievesley, D., Walford, N. (1991) “The Case for Sample of Anonymized Records from the 1991 Census”, Journal of the Royal Statistical Society, Series A, Vol. 154, No.2, pp.305-340. 森 博美(2000)「イギリスにおけるミクロデータの提供」 松田芳郎・濱砂敬郎・森博美編『講座ミクロ統 計分析① 統計調査制度とミクロ統計の開示』日本評論社, 48~83頁 Müller, W., Blien, U., Wirth, H.(1995) “Identification Risks of Micro Data: Evidence from Experimental Studies”, Sociological Methods and Research, Vol.24, No.2, pp.131-157. 山口幸三・伊藤伸介・秋山裕美(2013)「教育用擬似ミクロデータの作成―平成16年全国消費実態調 査を例として―」,『統計学』104号,1~15頁 23