...

公正配慮型データマイニングのサーベイ資料

by user

on
Category: Documents
32

views

Report

Comments

Transcript

公正配慮型データマイニングのサーベイ資料
公正配慮型データマイニング
Fairness-aware Data Mining
神嶌 敏弘
http://www.kamishima.net/
Release: 2015-10-13 00:14:54 +0900
3
目次
第1章
はじめに
1
第2章
応用タスク
3
2.1
社会的差別への配慮 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2
情報中立推薦 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3
関心のない情報の排除 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.4
法・規制・契約による情報利用の制限 . . . . . . . . . . . . . . . . . . . . . .
7
第3章
表記
9
第4章
公正性指標
13
4.1
分布の一致性・独立性に基づく公正性 . . . . . . . . . . . . . . . . . . . . . .
13
4.2
その他の要因 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
4.3
公正性指標間の関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
第5章
公正配慮型データマイニングの形式的問題
25
第6章
公正配慮型データマイニングの手法
27
6.1
不公正検出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
6.2
公正配慮型分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
6.3
公正配慮型回帰 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
6.4
公正配慮型クラスタリング . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
関連研究
33
7.1
プライバシ保護データマイニング . . . . . . . . . . . . . . . . . . . . . . . .
33
7.2
因果推論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
7.3
その他の関連分野 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
議論とまとめ
37
8.1
今後の研究分野 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
8.2
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
第7章
第8章
参考文献
39
索引
53
i
1
第1章
はじめに
本稿では,公正配慮型データマイニング (fairness-aware data mining) と呼ばれる分析手法
を概観する.公正配慮型データマイニングとは,公正性,差別,中立性,独立性などの潜在的
な問題を考慮にいれたデータ分析のことである.この分野で今までに提案された概念や手法を
紹介するとともに,それらの手法間の関係,および他の技術との関連について述べる.
これらの手法は,当初はマイニング結果が差別的にならないようにするために開発された.
具体的には,与信,保険,採用などの重要な決定にもデータマイニング技術が利用されるよう
になり始めているが,これらの決定が人種,性別,信仰などに基づく先入観や差別のないよう
に行われることを保証することを目的とする.こうした分析における公正性の確保の他にも,
利用者が指定した特定の観点については個人化をせず中立性を維持するようなフィルタリング
や,利用が制限された情報に依存しない分析など,公正配慮型データマイニングにはいくつか
の応用分野がある.
当初は,差別配慮型データマイニング (discrimination-aware data mining) という名称で提
案された [Pedreschi 08] が,ここでは公正配慮型データマイニングと呼ぶ.その理由は,上記
のように差別解消以外の目的にもこの技術は適用できるからであり,英語の discrimination と
いう語は,機械学習の文脈では『判別』や『識別』の意味で使われ誤解が生じやすいためでもあ
る.それに合わせ,
『差別的な (discriminative / discriminatory) / 非差別的な (non-discriminative
/ non-discriminatory)』 の代わりに,『公正な (fair) / 不公正な (unfair)』の用語を用いる.
2 章では公正配慮型データマイニングの応用分野を挙げる.3 章では,表記をまとめた.4
章では,今までに提案された公正性の概念を挙げ,それらの間の関連について論じる.5 章で
は,公正配慮型データマイニングの形式的タスクを紹介し,次の 6 章で各タスクの手法を紹介
する.7 章では,プライバシ保護データマイニングや因果推論など他の研究分野との関連を論
じる.8 章では,今後研究すべき問題などを挙げ,まとめとする.
3
第2章
応用タスク
社会的差別,公正性,中立性,独立性に対して配慮したマイニング手法の応用タスクを例示
する.
2.1
社会的差別への配慮
2.1.1 差別的要因に配慮した決定
社会的差別の回避をできるマイニング手法の提案 [Pedreschi 08] は,公正配慮型データマイ
ニングの最初の適用分野である.デモグラフィック情報,金融取引履歴,通信履歴,税務記録
など膨大な個人データが集積され,またデータマイニングが容易に利用できる環境が整備が進
んでいる.それに従い,与信,採用,保険などの重要な決定にもデータマイニング技術が利用
されるようになり始めている.このとき,社会的・法的な公正さに配慮した,すなわち,性別,
信仰,人種,ハンディキャップ,政治的信条などに基づく先入観や差別のない判断がなされる
ようなマイニング手法が利用されるべきである.
こうした差別的な扱いに関する法令・規則は以下のようなものが挙げられる [Pedreschi 09].
例 2.1 (法令・規則で定められた保護されるべきグループ)
(a) 豪クイーンズランド州:Anti-Discrimination Act
a person treats, or proposes to treat, a per-
son with an attribute less favorably than another person without the attribute
(ある属性を持たない人と,ある属性を持つ人の間格差)
(b) EU:Racial Equality Directive
… shall be taken to occur where one person is treated less
favorably than another is in a comparable situation on grounds of racial or ethnic origin
4
(ある属性を持つ人と,別の属性を持つ人の間の格差)
(c) 米:Uniform Guidelines on Employee Selection Procedure
a selection rate for any race, sex,
or ethnic group which is less than four- fifths (or eighty percent) of the rate for the group
with the highest rate will generally be regarded as evidence of adverse impact
(最も優遇された属性をもつ人に対して 80% までが許容範囲)
一見すると,これらの差別的な情報や特徴を分析で利用しなければ十分に思えるが,それらの
情報や特徴の間接的な影響を排除できないことが報告されている.例えば,特徴『人種』を利用
せずに与信の識別を行っても,ある人種が特定の地区に集まっていると,特徴『住所』を利用す
ることで差別的な決定がなされてしまう.これは red-lining 効果 (red-lining effect) [Calders 10]
や間接差別 (indirect discrimination) [Pedreschi 08] などと呼ばれている. この例では,差別的
な情報・特徴との相関は明確だが,名前・性別・年齢・住所など対象者個人を特徴づける個人
属性情報 (demographic information) に関する特徴などは,複数の情報が複雑に組み合わされ
て抽出できる場合もある.そうした例を示す.
例 2.2 (Web クエリログからの個人属性情報の抽出)
Web 検索エンジンへに入力されたクエリ語の存在を特徴量とし,SVM で分類したところ,性別
は 83% の正解率で推定でき,65% で年齢を誤差 7 歳以内で推定でき,さらに,住所の 3 桁郵
便番号は 35% の正解率で推定できた [Jones 09].
これらの場合のように,利用者の配慮が必要な情報が多くの情報が複合的に関連している場
合においても,差別的な決定を回避できるようなマイニング手法が必要となる.
2.1.2 Web 上での差別的な決定
就職や与信などの明示的で,重大な決定の他にも,データマイニング技術は利用されている.
特に Web 上では,データの取得が容易で,利用し易いためデータマイニング技術の利用は活
発である.その一方で,意図的ではないのだが,閲覧者や利用者のフィードバックによって,
差別的ともとれる事例が報告されている.
例 2.3 (アドネットワークによる個人属性情報の推定事例)
ブラウザのクッキー機能などを利用し広告のクリック履歴などを収集し利用するアドネッ
トワーク [Wha] 企業の一つ [x+1] (X plus one) は,履歴情報からサイト閲覧者の個人属性
情報を推定し,サイト運営企業に提供.オンラインのクレジットカード・バンキングの企業
CapitalOne は,このデモグラフィック情報を利用して,顧客に最初に提示するクレジットカー
ドのグレードをこの情報に基づいて決定していた [Steel 10].
例 2.4 (人名で検索した場合の広告)
ある人について調べるとき,その人の姓名で検索する場合があるだろう.そうした検索語に対
し,公的な公開情報を検索するサービス instantcheckmate.com などの企業は,広告を出してい
る.その広告の広告文には,“名前, Truth” という中立的な表現のものも,“名前, arrested?” と
いう負のイメージのあるものもある.Sweeney らの調査 [Sweeney 13] によれば,黒人に多い
名前で検索した方が,白人に多い名前で検索した場合より,より頻繁に負のイメージのある広
告文が現れれたとのことである.しかも,この広告文は,実際の記録自体や,逮捕歴の有無と
は関連なく現れるので,誤解を生じる可能性があると指摘している.企業側は,人種に関連し
た『名』は利用せず,『姓』しか利用していないとのことであったが,AB テストやバンディッ
トなどの技術の利用し,フィードバックを利用してクリック率を向上させる過程で,このよう
な不均衡が意図せず生じていた.
2.2
情報中立推薦
公正配慮型データマイニングは,Pariser が主張するフィルターバブル問題に対し,利用者が
指定した視点に関して中立性を保つ目的でも利用できる.
例 2.5 (フィルターバブル問題)
フィルターバブル (Filter Bubble) [Pariser 11, パリサー 12] とは,推薦を含めた個人化技術に
よって,利用者が接する情報の話題の範囲が狭められたり,偏ったりすることが,利用者が
知らないうちに行われるという問題である. この問題に関する TED Talk [Pariser] などで,
Facebook の友人推薦で推薦される利用者の政治的立場の偏りや,2011 年のエジプトの政変と
いう重大な事件であっても個人の嗜好によっては Google 検索の検索結果から除外される事例
を示している.このフィルターバブルによって生じると主張されている問題は,利用者が多様
な情報に接する機会が少なくなることと,各人がそれぞれ異なる限られた情報にのみ接してい
5
6
て,社会の中で供給される情報が減ってしまうことの二つに要約できるだろう.
この問題について,推薦システムの国際会議 RecSys2011 では,以下のようなパネル討
論 [Resnick 11] が,問題として存在するか,問題の重大さ,この問題に対する推薦システム
の対処法の三つの点について議論がなされた.その中で,個人化が利用者の経験範囲を狭め
る問題は 1990 年代から Resnick らが指摘しており,フィルタリング技術で,ある情報を選
び出すことは,他の情報を隠すことに繋がり,本質的なトレードオフであるとの意見が述べ
られた.パターン認識・機械学習において原理的な問題を指摘するみにくいアヒルの子の定
理 [Watanabe 69] からも,分類対象の特定の特徴・側面・視点に注目することなく分類を実行
することは不可能なことが示されている.情報フィルタリングは,関心のあるものと,そうで
ないものとを識別する分類問題であるため,何らかの特徴や観点に注目することが不可欠とな
る.以上のことから,あらゆる観点を同等に扱う,絶対的に中立な推薦は原理的に不可能で
ある.
ここで,みにくいアヒルの子の定理に戻ると,分類には特徴や観点の重要性に差が必要にな
る.このことは,全ての観点ではなく,ある特定の観点に対する中立性であれば原理的には可
能なこと示唆している.そこで,利用者や他の主体が指定した観点に対して中立性を保証す
るのが情報中立推薦 (Information-neutral Recommendation) [神嶌 12c, Kamishima 12a] であ
る. Pariser の Facebook の場合を例にとれば,推薦される友人が保守派か革新派かという特定
の観点については中立性を保証するが,他の観点,例えば出身地などについては,個人の嗜好
を反映した偏りを許すような推薦を行う.この情報中立推薦では,利用者が指摘した情報に対
する中立性に配慮して,利用者の嗜好の予測を行うため,公正配慮型のマイニング手法が必要
となる.
この情報中立推薦は,利用者が中立的な情報を得るためだけではなく,推薦対象となるコン
テンツの提供者を公平に扱うためにも利用できる.情報推薦・検索の公平性が問題となった事
例を上げておく.
例 2.6 (検索順位の公平性)
Google の検索サービスにおいて,自社のサービスを,競合会社のそれよりも,検索結果のリス
ト中で上位に表示したとして,アメリカの連邦取引委員会 (Federal Trade Commission) の調査
を受けた [Forden 12]
このような場合,自社サービスか競合会社かのサービスかという観点に対し,中立な検索・推
薦をするような場合が想定できる.その他,不動産情報サイトなどは,自社のクライアント企
業である不動産会社を公平に扱う必要があるが,そうした目的にも利用できるだろう.
7
2.3
関心のない情報の排除
関心のない情報を分析結果から排除する目的としても公正配慮型データマイニング技術は利
用できる.ここでは,独立性に配慮したクラスタリング手法の適用事例を紹介する.非冗長ク
ラスタリング (non-redundant clustering) [Gondek 04, Gondek 05] は,特定の補助情報 (side
information) とは独立な分割を獲得するクラスタリング手法である.non-redundant clustering
例 2.7 (顔画像のクラスタリング)
単純にクラスタリングを適用すると,顔だけの画像と,肩から上の画像の二種類のクラスタに
分割されてしまうが,この結果は分析者にとっては無関心なものだったとしよう.そこで,こ
の分割結果を補助情報とし,この分割をはできるだけ無関係なクラスタを CCIB によって獲得
したところ,男女を分けるクラスタが得られた [Gondek 04].
他にも,文書分類や利用者のトランザクションのクラスタリングで,地理情報,性別,収入な
ど特定の情報を排除した分類の可能性を上げている.このように,分析者には関心のない情報
とは無関係な分析結果を得る目的でも公正配慮型データマイニングは利用できるだろう.
2.4
法・規制・契約による情報利用の制限
その他に,ある種の特徴・属性の取り扱いに注意すべき要因として,法・規制・契約による
制限がある.例えば,顧客の個人情報を推薦システムで利用する目的で収集したデータは他の
目的には利用できない.しかし,このデータを利用した推薦システムで商品を提示すると,提
示した商品の履歴データは間接的に影響を受ける.すると,この履歴データの推薦以外の目的
への利用には配慮が必要になる場合も考えられる.このようにプライバシーポリシーによって
制限される個人情報や,金融取引においてその利用が制限されるインサイダー情報など法や規
制によって制限された情報の利用を排除することも,公正配慮型データマイニングの応用分野
の一つである.
9
第3章
表記
公正配慮型データマイニングに関連する定式化で用いる表記を定義する.確率変数 S と
X は,それぞれセンシティブ特徴 (sensitive feature) と非センシティブ特徴 (non-sensitive
feature) を表す. 公正配慮型データマイニングでは,センシティブ特徴の表す性質に対して公
正性を保証しつつ分析する.2.1 節の差別配慮型タスクでは,社会的・法的な公正さを反映し
た性別・信仰・人種を表すセンシティブ特徴に,2.2 節の情報中立推薦では,センシティブ特
徴が示す情報に対して中立性を保証するフィルタリングをする.2.3 節の非冗長クラスタリン
グの例では,肩までか顔だけの写真をセンシティブ特徴で表し,2.4 節のタスクでは法・規制・
契約で利用を制限された情報をセンシティブ特徴で表す. S は,連続変数でも離散変数でもよ
いが,既存の研究では主に値域が {0, 1} の二値変数の場合が扱われている.値 0 と 1 をとる
ときを,それぞれそれぞれ保護状態 (protected status) と非保護状態 (non-protected status) にあ
るといい,あるデータ集合中で,保護状態ある事例の集合を保護グループ (protected group),
それ以外の事例集合を非保護グループ (non-protected group) という. 一方の非センシティブ
特徴は,対象を表す特徴の中で,上記のセンシティブ特徴以外全てである.X は, K 個の変
数 X (1), . . . , X (K ) で構成される確率変数ベクトルであり,各 X ( j ) は連続変数でも離散変数でも
よい.
確率変数 Y は目的変数 (target variable) で,分析者はこの変数の表す内容に関心がある.
目的変数は,差別配慮型タスクでは与信・採用・保険などの決定を表し,情報中立推薦では評
価スコアや適合不適合の決定を表し,そして非冗長クラスタリングの例では潜在的なクラスタ
を表す.差別配慮型タスクの場合では,Y は,与信などで有利な決定をする場合を正クラス 1
で,不利な場合を負クラス 0 で表す二値変数となる.文献 [神嶌 12c, Kamishima 12a] の情報
中立推薦の実装では,評価スコアを表す Y は実数変数である.
ある対象は,X と S の具現値 x と s で表され,真の分布 Pr[X, S] に従って生成される.こ
の対象について目的変数は真の分布 Pr[Y |X, S] に従い,この分布は対象についての決定を形式
的に表すものである.この分布は,潜在的に不公正な決定をもたらす場合がある.この二つの
10
分布を合わせた真の同時分布 Pr[Y, X, S] = Pr[Y |X, S] Pr[X, S] に Y ,X, S は従う.この真の分
布そのものは知ることができないが,この真の分布から得た標本は得られるものとする.真の
分布 Pr[Y, X, S] から N 回サンプリングを繰り返してデータ集合 D = {(yi , xi , s i )}, i = 1, . . . , N
を得る.
このデータ集合を用いて真の分布を推定するのが,通常の統計的推定の問題である.ま
ˆ
ず,真の分布 Pr[X, S] の推定結果として Pr[X,
S] を用いる.さらに,パラメータ Θ で表さ
ˆ |X, S; Θ] を導入する.このパラメータは,推定分布 Pr[Y,
ˆ
れるモデルの集合 Pr[Y
X, S; Θ] =
ˆ |X, S; Θ] Pr[X,
ˆ
Pr[Y
S] が,真の分布 Pr[Y, X, S] をできるだけ近似するように決める.
以上の通常の統計的推定を,公正性に配慮したものに変える.実際に生成されるデータは真
の分布 Pr[Y |X, S] に従って生成されるが,上記のようにこれは不公正な決定をしている可能性
がある.仮に,そのような不公正のないあるべき公正な決定があるとして,その決定を導く
ような公正な真の分布 (fair true distribution) Pr† [Y |X, S]. この公正な真の分布は,真の分布
Pr[Y |X, S] とできるだけ類似した決定をすると共に,何らかの公正性の制約を満たす.これを
対象の真の生成分布 Pr[X, S] と併せて,公正な真の同時分布 Pr† [Y, X, S] = Pr† [Y |X, S] Pr[X, S]
を得る.
真の分布 Pr[Y, X, S] からの標本を得ることはできるが,公正な真の分布 Pr† [Y, X, S] は仮
想の決定過程を含むため,この分布からの標本を得ることさえできない.そこで,真の分布
Pr[Y, X, S] からのデータ集合 D を用いて公正な真の分布を推定する.この目的のため,通常の
ˆ |X, S; Θ] の代わりに,公正な真の分布に仮定した公正性の制約を満たしている
モデル集合 Pr[Y
ˆ † [Y |X, S; Θ] を用いる.このモデルと Pr[X,
ˆ
公正モデル集合 Pr
S] を併せることで,公正推定分
ˆ † [Y, X, S; Θ] = Pr
ˆ † [Y |X, S; Θ] Pr[X,
ˆ
布 (fair estimated distribution) Pr
S] を得る. この公正推定
分布が,仮想的な公正な真の分布 Pr† [Y, X, S] を近似するようにパラメータ Θ を推定するのが,
公正な統計的推定問題の目標である.以上のモデルと分布の表記を図 3.1 にまとめておく.
11
true distribution
estimated distribution
Pr[Y, X, S]
P̂r[Y, X, S; ⇥]
=
=
approximate
Pr[Y |X, S] Pr[X, S]
P̂r[Y |X, S; ⇥] P̂r[X, S]
sample
fairness
constraint
learning
fairness
constraint
D = {yi , xi , si }
data set learning
Pr† [Y, X, S]
P̂r† [Y, X, S; ⇥]
=
=
approximate
Pr† [Y |X, S] Pr[X, S]
P̂r† [Y |X, S; ⇥] P̂r[X, S]
fair true distribution
fair estimated distribution
図 3.1
A summary of notations of models and distributions
13
第4章
公正性指標
既存の公正性の指標や概念を俯瞰し,それらの間の関連について論じる.
4.1
分布の一致性・独立性に基づく公正性
分布の一致性や独立性に基づいて定義された公正性の指標を列挙する.これらの指標は,真
の分布での性質や,推定モデルや推定公正モデルの特性を調べるために利用される.しかし,
真の分布は参照できないため,そこからサンプリングされたデータ集合 D に対して公正性指
標を計算する.一方,推定モデルや公正推定モデルの特性を調べるときには,このデータ集合
ˆ |X, S] や公正推定分布 Pr
ˆ † [Y |X, S] で
から対象の特徴 x と s を取り出し,学習した推定分布 Pr[Y
目標変数の実現値を決めたデータ集合についても同様に計算できる.
4.1.1 拡張リフトと α 保護
最初に提案された差別配慮型データマイニングは,差別的な相関ルールを検出する問題を
扱った [Pedreschi 08, Ruggieri 10a]. 相関ルールは,対象に関連するある変数がある特定の値
をとっていいる条件を考え,左辺の前提部 (antecedent) の条件が成立するとき,右辺の結論部
(consequent) の条件が成立することを表す [Agrawal 94, Han 11].次の例のルール (a) では,対
象者が住んでいる市を表す変数 city が値 NYC であるとき,ローンを認めるかどうかを表す変
数 credit が値 bad をとることを示す.ルール (a) の最後の conf を確信度 (confidence) と呼
び,これは左辺が成立するとき右辺が成立する条件付き確率を表す.
(a) city=NYC ==> credit=bad -- conf:(0.25)
(b) race=African, city=NYC ==> credit=bad -- conf:(0.75)
14
差別配慮型データマイニングでは次のような相関ルールを扱う.右辺の結論部は,与信の判
断など 3 節の目的変数 Y に対する条件である.3 節の S や X ( j ) に関連した条件は左辺の前庭
部のみに現れる.対象が保護状態であることを示す,すなわち条件 S=0 を前提部にもつルー
ルを潜在差別的 (potentially discriminative),それ以外のルールを潜在非差別的 (potentially
non-discriminative) であるという. 上の例では, S=0 に相当するルール city=NYC を含むの
はルール (b) なので,ルール (a) は潜在非差別的で,ルール (b) は潜在差別的.なお 3 節では S
が 1 種類の場合のみを考えたが,ここでは複数ある場合を認める.
ここで,結論部が不利な結果,すなわち Y =0 に該当する条件 C であるルールを考え,A を潜
在差別的な条件,B を潜在非差別的な条件とする.拡張リフト (extended lift; elift) を次式で
定義する.
elift(A, B → C) =
conf(A, B → C)
conf(B → C)
(4.1)
前提部に条件 S=0 を持つあるルールに対する,拡張リフトは,このルールから条件 S=0 を除
去したルールに対する確信度に対する,元のルールの確信度の比である.elift が 1 であれ
ば,センシティブ特徴によって目的変数の分布は影響されないため完全に公正であるが,その
値が増加するとともに不公正の度合いは強まる.拡張リフトが α 未満であることを α 保護的
(α-protective),そうでないとき α 差別的であるという.
さらに,結論部が有利な結果,すなわち Y =1 に該当する条件 C̄ であるルール A, B → C̄ を考
える.このルール確信度については conf(A, B → C̄) = 1 − conf(A, B → C) の関係が成立する.
すると,たとえルール A, B → C が明示的に抽出されていなくても,確信度の方程式と,ルール
A, B → C̄ から,α 保護的でないルール A, B → C が暗黙的に存在する場合が考えられる.このよ
うな場合も考慮しても α 保護的であると,強 α 保護的 (strongly α-protective) であるという.
これまでに述べた α 差別的なルールは前提部に潜在差別的な条件を含んでおり,このような
場合を直接差別的 (directly discriminative) であるという. 一方で,前提部は全て潜在非差別
的な条件しかないにもかかわらず,他の背景ルールと組み合わせることで差別的な決定となる
場合がある.この場合を間接差別的 (indirectly discriminative) であるという. 次のルールは,
居住地区が 10451 で,ニューヨーク市居住である場合にローンが拒否されることを示す.
(c) neighborhood=10451, city=NYC ==> credit=bad -- conf:(0.95)
前提部のどちらの条件も潜在非差別的であるため,直接差別的ではない.しかし,次のような
背景ルールにより,居住地区が 10451 かつニューヨーク市居住者のグループと,人種がアフリ
カ系かつニューヨーク市居住者のグループが一致していることが示された場合.
(d) neighborhood=10451, city=NYC ==> race==African -- conf:(0.80)
ルール (c) と (d) から次のような差別的なルールが導かれる場合がありうる.
15
(e) race=African, neighborhood=10451, city=NYC ==> class=bad
このように,ルールの組み合わせによって導かれる間接差別的なルールをも見つける必要があ
ることが,この差別的な相関ルールの抽出タスクを困難なものにしている.
指標の拡張
文献 [Pedreschi 09] では,拡張リフト以外の指標を提案し,また α 保護の概念に統計的有意
性の考えを導入した.なお,ルール A, B → C に関し次の標本確率を定義しておく.
ˆ
p1 = Pr[C|B,
A],
ˆ
p2 = Pr[C|B,
Ā],
ˆ
p = Pr[C|B]
確信度などの比で定義される指標を比率型指標 (ratio measure) と呼ぶ. elift も,この比
率型指標に該当し,式 (4.1) は p1 /p に等しくなる.
elift は全体と保護グループとを比較する指標だが,非保護グループと保護グループを比較
するのが選択リフト (selection lift; slift) である. これは例 2.1(a) の法令を反映したもので,
形式的には次式で定義される.
slift(A, B → C) =
conf(A, B → C)
p1
=
p2
conf(Ā, B → C)
(4.2)
この選択リフトは A と Ā の条件が S=− と S=+ の二値ではなく,値 v1, v2, . . . をとる多値の
場合に一般化できる.これを対照リフト (contrasted lift; clift) と呼び,次式で定義される.
clift(A, B → C) =
conf(S=v1, B → C)
conf(S=v2, B → C)
(4.3)
確信度ではなく,確信度のオッズの比率を用いるのがオッズリフト (odds lift; olift) で
ある.
olift(A, B → C) =
odds(A, B → C) slift(A, B → C)
p1 (1 − p2 )
=
=
p2 (1 − p1 )
odds(Ā, B → C) slift(A, B → C̄)
(4.4)
ˆ
ˆ
ˆ
ただし,odds(e) はオッズで,事象 e が確率 Pr[e]
で生じるとき,= Pr[e]/(1
− Pr[e])
で定義さ
れる.
なお同一のルールに対する,これらの比率型指標の間には次の二つの不等式のいずれかが成
立する.
{olift, clift} ≥ slift ≥ elift ≥ 1
{olift, clift} ≤ slift ≤ elift ≤ 1
確信度などの差で定義される指標をと呼ぶ.elift と slift に対応し次の eliftd と
sliftd が定義されている.
eliftd (A, B → C) = conf(A, B → C) − conf(B → C) = p1 − p
(4.5)
sliftd (A, B → C) = conf(A, B → C) − conf(Ā, B → C) = p1 − p2
(4.6)
16
これらの指標は [−1, +1] の範囲の値をとり,次のいずれかの不等式が成立する.
sliftd ≥ eliftd ≥ 0
sliftd ≤ eliftd ≤ 0
最後に,ルール A, B → C の相補的なルール A, B → C̄ について考える.差別的扱いか,優遇
的な扱いのいずれか影響の大きな方を評価するために,これら二つのルールに対する指標の大
きな方を採用するのが最大値型指標 (maximum measure) である. なお,これらのルールの確
信度には conf(A, B → C) = 1 − conf(A, B → C̄) の関係が成立するので,一方のルールに対して
指標をを計算すると,もう一方のルールに対する指標も決まる.
4.1.2 Calders-Verwer の差別スコア
次に,Calders と Verwer が,文献 [Calders 10] で導入した CV スコア (Calders-Verwer’s
discrimination score; CV score) について述べる. この CV スコアは,非保護グループであると
きに有利な決定がされた標本確率から,保護グループであるときに有利な決定がされた標本確
率を引いたもので,形式的には次式で定義される.
ˆ =0|S=1] − Pr[Y
ˆ =1|S=0]
CVS(D) = Pr[Y
(4.7)
ただし,これらの推定分布には,単純なデータ集合 D の度数比を用いたり,推定モデルを用
いた推定方法を用いて求めたりする.このスコアは大きいほど,非保護グループに有利な決定
がされ,保護グループが不公正に扱われることを示す.式 (4.6) と似ているが,非センシティ
ブ特徴に関連した条件がないことと,不利な決定ではなく有利な決定を考慮する点が異なる.
この CV スコアを用いて,差別配慮型データマイニングの困難さを示す例を紹介する.国勢
調査データ収入が 5 万ドルかを識別する問題を扱う.センシティブ特徴 S は性別で,正値は
Male に,負値は Female に対応するとする.目的変数 Y は収入を表し,正クラスは High で,
負クラスは Low である.Female である事例は全体の 1/3 であり, Male である事例よりずっ
と少ない.元のデータ集合 D では,High–Male である事例は,High–Feale である事例の 5.5
倍である.Male データの約 30% は High クラスだが,Female データでは 11% だけなので,
Female データは Low に分類されやすく不公正が生じやすい.
このデータ集合で,Female 事例が不公正に Low クラスに,どのようにして分類されやすく
なるのかについて述べる.まず,D 中の Y と S についてその度数比を求めることで推定分布
を求めると,CV スコアを計算すると CVS = 0.19 となる.
ˆ |X, S; Θ] を学習させる.
次に,この D を訓練事例として,単純ベイズ法で推定モデル Pr[Y
そして,Y の値に,元の D 中の値の代わりに,この学習した推定モデルを用いた推定値を使
い,その分布について CV スコアを求めると CVS = 0.34 と増加した.これは, Male の事例よ
り,Female の事例の方がより頻繁に Low クラスに分類され,Female–High な個人は不公正な
扱いを受けていることを示す.この現象は,多くの分類器が従うオッカムの剃刀の原理により
生じる.低頻度で特殊なパターンは,観測データを一般化する過程で取り除かれやすいため,
少数派の事例は不公正な扱いを受けやすい.
ˆ |X; Θ]
さらに,D から単純ベイズで学習するときに,センシティブ属性を使わないモデル Pr[Y
を学習させ,Y のラベル値を決めるすると,CV スコアは CVS = 0.28 となり, S を用いたモ
デルよりは公正だが,依然として元の D に対する結果よりは不公正である.この不公正さの
原因は,センシティブ特徴が,非センシティブ特徴を通じて与える間接的影響である.このこ
とを,少数派が住む地区を赤線で囲み不公正な扱いをした過去の事例にならい red-lining 効果
(red-lining effect) と呼ぶ. よって,単にセンシティブ属性を取り除くだけでは不十分で,より
積極的な対策により不公正を修正する方法が必要になる.
4.1.3 説明可能性と Situation Testing
Žliobaitė らは,条件付き差別 (conditional discrimination) の概念を提案した [Žliobaitė 11].
CV スコアが正の場合でも,差別的でないとの説明が可能であれば,許容され差別的な扱いに
はならないことを示した.文献 [Žliobaitė 11] の入試における例に付いて述べる.目的変数 Y
は 1 と 0 をとり,それぞれ合格と不合格を表す.センシティブ特徴 S は非保護状態の 1 が男
性,保護状態の 0 が女性を表す.非センシティブ特徴は X (p) と X (s) の二つがあり,それぞ
れ受験科目と得点を表す. X (p) の値域は医学 med とコンピュータ科学 sc で,得点の値域は
[1, 100] の整数である.これらの変数の同時分布は次式で表される.
Pr[Y, S, X (p), X (s) ] = Pr[Y |S, X (p), X (s) ] Pr[X (p) |S] Pr[S] Pr[X (s) ]
ここで,ここであるデータ集合 D の標本分布を推定分布として用いると,学科 med の方が
ˆ = + |X (p) =med] = 0.2 と Pr[Y
ˆ = + |X (p) =med] = 0.4 であったとする.ま
合格率は低く,Pr[Y
ˆ (p) =med|S=−] = 0.8 であり,男性は学科 med を
た,女性は学科 med を受ける割合が高く Pr[X
ˆ (p) =med|S=+] = 0.2 であったとする.すると,合格率の低い med を
受ける割合が低く Pr[X
受ける女性が多いため,全体の合格率より女性の合格率は低くなってしまう.しかし,受験
学科の違いによる差は合法なものであり,説明可能であるという.このように,CV スコアに
より測った全体の差別のうち,このような公正性を損なわない説明が可能な部分を説明可能
差別 (explainable discrimination),その残りを悪性差別 (bad discrimination) と呼ぶ. どの特
徴が説明可能かは,専門家がその変数のセマンティクスを考慮して判断する.また,センシ
ティブ特徴 S と相関はあるが, X (p) のように説明可能な非センシティブ特徴を説明可能特徴
(explainable feature) *1と呼ぶ.
説明可能性を導入していない文献 [Calders 10] の考えでは,真の公正モデルによる分布の
CV スコアは 0 となり,Pr† [Y =1|S=1] = Pr† [Y =1|S=0] が成立する.一方,説明可能性の概念
*1 原文では explanatory variable だが統計の用語との混乱を避けるため explainable の語を用いる
17
18
を導入した真の公正モデルでは,学科を表す説明可能特徴 X (p) で条件付けたとき,性別を表
すセンシティブ特徴の値によって目的変数の分布が変化しないようにする.形式的には次式が
成立するようにする:
Pr† [Y =1|X (p), S=1] = Pr† [Y =1|X (p), S=0]
(4.8)
ˆ † [Y =1|X (p), S=1] と
この真の公正モデルの推定モデルでもこの条件が成立するように,Pr
ˆ † [Y =1|X (p), S=0] が同じ値 Pr
ˆ † [y=1|X (p) ] となるようにする.ここでは,Pr
ˆ † [y= + |X (p) ] を
Pr
次の標本分布の算術平均とする.
ˆ † [Y =1|X (p) ] = 1 (Pr[Y
ˆ =1|X (p), S=1] + Pr[Y
ˆ =1|X (p), S=0])
Pr
2
ˆ =1|X (p), S] をこの推定公正分布と置き換えて計算した,次の CV スコア
そして,標本分布 Pr[Y
を説明可能差別量と定義する.
De x pl =
∑(
X ( p)
=
∑(
ˆ (p) |S=1] Pr
ˆ † [Y =1|X (p), S=1] − Pr[X
ˆ (p) |S=0] Pr
ˆ † [Y =1|X (p), S=0]
Pr[X
)
ˆ (p) |S=1] − Pr[X
ˆ (p) |S=0] P̂r† [Y =1|X (p) ]
Pr[X
)
(4.9)
X ( p)
悪性差別量 Dbad の量は,式 (4.7) の全体の差別量から,この式 (4.9) の説明可能差別量を引い
た値と定義する.CV スコアの全てが説明可能であるときこの悪性差別量は 0 となる.このよ
うにして,説明可能な要因を考慮しつつ公正性を評価できる.
Luong ら が 提 案 し た Situation Testing も ,こ の 説 明 可 能 性 と 関 連 し た 概 念 と い え る
[Luong 11].例えば,職能に関する特徴は全て同じ値であるにも関わらず,センシティブ特徴
の値によって採用されるかどうかが分かれていれば差別的であるといえる.そこで,上記の説
明可能特徴に相当する legally-grounded 特徴の概念を導入し,この特徴の値が同じ場合に,式
(4.1) などの指標に差が生じているかを検証する方法を提案した.
4.1.4 差分公正性
Dwork らは,データの利用者に公正な決定させるようなデータの公開について検討した
[Dwork 11].元データを管理するデータ所有者と,そのデータを利用する利用者がいる状況を
想定する.所有者の元データをそのまま公開すると,利用者は不公正な決定をしてしまう可能
性があるので,元データを archetype と呼ぶ形式に写像してから公開する.しかし,利用者の
目的に関連した情報が archetype から失われてしまっていては有用な分析はできない.そこで,
archetype を求める前に,利用者は所有者に対し予め利用目的に対する非有用性を表す損失関
数を渡しておく.まとめると,データ所有者は,公正な決定が行われる条件の下,利用者の損
失関数を最小化するようなデータ表現 archetype を計算し,それを利用者に送る.それを受け
取った利用者は,archetype 形式のデータを処理することで,公正性に配慮しつつデータを分析
する.
公正性に配慮するために,Lipschitz 条件と統計的一致性の二つの条件を archetype は満たす
ようにする.Lipschitz 条件 (Lipschitz condition) とは,直感的には元データの空間で近くに
あるデータ対は,写像後の archetype 上の空間においても近くに存在することである. 形式的
には,元データから archetype への写像を f ,元データ対の距離を d ,archetype の空間中での
データの分布の距離を D としたとき, D( f (a), f (b)) ≤ d(a, b), ∀ a, b であること.ただし,元
データ D は非センシティブ特徴とセンシティブ特徴で構成されるデータ (X, S) の集合.統計
的一致性 (statistical parity) とは,直感的にはデータ全体から均一に選んだ要素を archetype 上
へ写像したものは,保護グループのデータから均一に選んだ要素を写像したものと一致するこ
とである. 形式的には,ある正定数 ϵ に対し, D( f (D), f (DS=1 )) ≤ ϵ が成立すること.ただ
し,DS=1 は D 中でセンシティブ属性が保護状態にあるもの全て,すなわち保護グループ全体
のデータ集合.損失関数,写像 f ,距離関数 d と D が全て線形であるとき,この Lipschitz 条
件と統計的一致性の二つを拘束条件とし損失関数を最小化する線形計画問題を解くことで,写
像 f の係数を計算できる.この概念は差分プライバシ (differential privacy) の一般化ともみな
せるため,ここでは差分公正性 (differential fairness) と呼ぶことにする.
Lipschitz 性と統計的一致性が満たされるとき,文献 [Dwork 11] の命題 2.1 と 2.2 は次の条
件が成立すると述べている.利用者が任意の archetype を二値分類する分類関数を g とする.
任意の a, b ∈ D と g について次式が成立する.
Pr[g(
ˆ
ˆ
f (a))=1] − Pr[g(
f (b))=1] ≤ d(a, b)
Pr[g(
ˆ
ˆ
f (a))=1|a ∈ DS=0 ] − Pr[g(
f (a))=1] ≤ ϵ
Pr[a
ˆ ∈ DS=0 |g( f (a))=1] − P̂r[a ∈ DS=0 ] ≤ ϵ
(4.10)
(4.11)
(4.12)
式 (4.10) は,元データの類似性しているほど,最終的に同じクラスに分類される確率も類似
することを示す.式 (4.11) は保護グループであるかどうかが分類結果に影響しないこと,式
(4.12) は分類結果からは保護グループであるかどうかは区別できないことを示している.
4.1.5 先入観
神嶌らは不公正な決定が生じる原因の一つとして先入観 (prejudice) の概念を提案した
[神嶌 11, Kamishima 12b].この先入観とは,目的変数,センシティブ特徴,非センシティブ特
徴の統計的独立性により定義され,直接先入観,間接先入観,および潜在先入観の三種類に分
けられる.先入観は真の分布についての性質であり,この先入観を取り除くことで真の公正分
布となる.
第一の直接先入観 (direct prejudice) では,センシティブ特徴を推定モデルで明示的に利用
する. 真の分類モデルが直接先入観をもつと,分類結果は明らかにセンシティブ特徴に依存す
19
20
る.真のモデルから直接先入観を取り除くには,真のモデルからセンシティブ特徴を除外すれ
ˆ |X, S] からセ
ばよい.この直接先入観と統計的独立性の関連について述べる.推定モデル Pr[Y
ンシティブ特徴を取り除いた公正推定モデルを用いると次のようになる.
ˆ † [Y, X, S] = Pr
ˆ † [Y |X] Pr[X,
ˆ
ˆ † [Y |X] Pr[S|X]
ˆ
ˆ
Pr
S] = Pr
Pr[X]
この式は,X が与えられたとき, S と Y が条件付き独立,すなわち Y ⊥
⊥ S | X であることに他
ならない.よって,真のモデルが直接先入観をもつとは,条件付き非独立性 Y ⊥
⊥
/ S | X と等価
である.
第二の間接先入観 (indirect prejudice) は,目的変数とセンシティブ特徴の間の統計的非独
立性 Y ⊥
⊥
/ S のことである. 真のモデルに直接先入観がない場合でも,間接先入観を含んでい
て不公正な決定がなされうる.簡単な例を示す.Y , X ,および S が全て実数のスカラー変数
であり,真のモデルは次式を満たすとする:
Y = X + εY
and
S = X + εS
ˆ
ˆ |X] Pr[S|X]
ˆ
ˆ
ただし,εY と ε S 互いに独立で,平均 0 の確率変数. Pr[Y,
X, S] = Pr[Y
Pr[X]
よ
り,これらの変数は Y ⊥
⊥ S | X の条件を満たすが,Y ⊥
⊥ S の条件は満たさない.よって,このモ
デルは直接先入観は含まないが,間接先入観は含んでいる.もし,εY と ε S の分散が小さけれ
ば,Y と S の相関は非常に高くなる.このとき,モデルに直接先入観がなくても,分類結果は
明らかにセンシティブ特徴に依存してしまう.こうして生じた不公正な分類結果が red-lining
効果 [Calders 10] である. この間接先入観を取り除くには,真のモデルが Y ⊥
⊥ S を満たすよ
うにしなければならない.
この間接先入観の度合いを測る尺度を提案する.これを,単純に Y と S の相互情報量で定義
するが,真の分布 Pr[Y, X, S] は観測できないため,この分布から生成されたデータ集合 D と
ˆ
推定分布 Pr[Y,
X, S] を利用する.
PI = I(Y ; S) =
∑
ˆ
Pr[y,
s]
ˆ
Pr[y,
s] ln
ˆ
ˆ
Pr[y] Pr[s]
(y, s) ∈ D
(4.13)
この尺度を(間接)先入観尺度 ((indirect) prejudice index; PI) と呼ぶ. 値域が有界である方
が便利であるので,文献 [Strehl 02] の手法を用いて正規化先入観尺度 (normalized prejudice
index; NPI) を定義する.
√
NPI = I(Y ; S)/( H(Y )H(S)),
ただし,H( A) はエントロピー関数で,−
∑
a ∈domA
(4.14)
ˆ
ˆ
Pr[a]
ln Pr[a]
で定義される.この指標の値
域は [0, 1] となる.
第三の潜在先入観 (potential prejudice) は,センシティブ特徴 S と非センシティブ特徴 X
の間の統計的非独立性 S ⊥
⊥ X である. 実スカラーの確率変数の真の分布は次の式を満たすと
する.
Y = X 1 + εY ,
X = X1 + X2,
and
S = X2 + ε S
ただし εY ⊥
⊥ ε S と X1 ⊥
⊥ X2 を満たす.明らかに,Y ⊥
⊥ S|X とY ⊥
⊥ S の条件を満たすが, X
と S は互いに独立ではない.この依存性によりセンシティブ特徴が最終結果に影響すること
はないが,センシティブ特徴に依存した非センシティブ特徴のデータを処理することになるた
め,このことが法令・規則・契約に違反する場合がありうる.2.4 節の最後の例のように,個人
情報に基づく推薦システムに購入履歴は影響されているので,たとえ顧客の最終的な選択が個
人情報と無関係なものであったとしても,目的外利用ということで顧客とのプライバシーポリ
シーに反することが考えられる.この潜在先入観を取り除くには,X と Y を同時に S とは独立
にする必要がある.先入観尺度と同様に,潜在先入観の度合いを測る尺度を,X と S の相互情
報量で測る.潜在先入観尺度 (latent prejudice index; LPI) と正規化先入観尺度 (normalized
latent prejudice index; NLPI) を次式で定義する.
LPI = I(X; S)
I(X; S)
NLPI = √
H(X)H(S)
(4.15)
独立性検定
以上,独立性を評価する指標を紹介してきたが,これらはすべてデータ集合 D から得られ
ˆ
た推定分布 Pr[Y,
X, S] に関する評価であり,真の分布 Pr[Y, X, S] についての議論はできない.
そこで,文献 [Pedreschi 09] は,α 保護の概念に,統計的独立性検定を導入している. α 保護
は,経験分布に対する elift などの指標が α 以下であれば差別的ではないと定義した.しか
し,たとえ経験分布に対する指標が α を超えたとしても,真の分布においてはそうではない場
合も,サンプリングに依存したランダム性によって生じる可能性がある.そこで,ある危険率
の下で,真の分布において指標が α であるとき,経験分布においてとりうる値の上限を求め,
標本分布に対する指標がその上限より大きい場合に α 差別的であるとみなす方法も提案した.
その他, χ 二乗統計量も [Sweeney 13] や [Berendt 12] などで利用されている.
4.2
その他の要因
神嶌らは,4.1.5 節の統計的独立性に基づいた先入観以外にも,不公正なマイニングが生じる
原因として,過小評価と負の遺産について考察した [神嶌 11, Kamishima 12b].
過小評価 (underestimation) とは,訓練データ集合の大きさが有限であるため,モデルの学
習が不十分な状態のことである. 間接先入観がない真の分布からサンプルされた訓練事例から
学習する場合,訓練事例数が無限であれば公正な決定がなされるだろう.しかし,もし訓練事
例集合の大きさが有限であれば,この集合で観測される標本分布より,学習された分類器がよ
り不公正な決定をする場合がありうる.こうした決定は意図的なものではないが,不公正な扱
いをされたとの疑念を引き起こすだろう.換言すれば,漸近的な収束の概念数学的には適切な
ものだが,社会的にはそうでない場合もありうる.この過小評価の度合いを定量化するため,
21
22
ˆ
D 上の標本分布を推定分布として用いた場合 Pr[·|D]
と,パラメトリックなモデルを用いた学
ˆ Θ̂] の間の差を調べる.この考えに基づき,ヘリンジャー距離を用いて過
習した推定分布 Pr[·;
小評価尺度 (underestimation index; UEI) を次式で定義する.
v
t
1
2
∑ (√
√
ˆ
Pr[y,
s|D] −
ˆ
Pr[y,
s; Θ̂]
)2
v
t
∑ √
ˆ
ˆ
Pr[Y,
S|D] Pr[Y,
S; Θ̂]
= 1−
y, s ∈D
(4.16)
y, s ∈D
なお無限大の値を取り得る点が評価尺度としては不便だったので KL ダイバージェンスを用い
ˆ † [·] が,普通の真のモデルからの訓練事例
なかった.また,もし推定公正モデルによる分布 Pr
集合から得られたものより不公正な判断をしてしまう場合なども考えられるだろう.
負の遺産 (negative legacy) は訓練データのサンプリングやラベル付けが不公正であった場合
である. 例えば,もし少数派の人々のローンを銀行が審査もせずに拒絶していたならば,少
数派の人々のデータでサンプリングされたものは少なくなってしまう.こうした標本の特徴に
依存して偏ったサンプリングにより,標本選択バイアス (sample selection bias) が生じる.あ
る種の分類アルゴリズムを採用することにより標本選択バイアスが回避できることは知られて
いる [Zadrozny 04].しかし,単に訓練データを観察しただけで標本選択バイアスがあるかど
うかを見極めるのは容易ではない.一方で,例えば,もし銀行がローンを許されるべき保護グ
ループ人に対しローンを拒絶していれば,訓練データのラベル付けは不公正なものとなるであ
ろう.また,保護グループの人のローンを拒絶したいいわけとするために,有利な条件の非保
護グループの少数の人のローンを拒絶する場合も考えられる.この問題は検出も修正も困難で
ある.しかし,他の情報,例えば公正にラベル付けされた真の公正分布に近い分布からの標本
が少数でも利用できれば,転移学習 [IT1 05] などの手法により修正できる可能性がある.
4.3
公正性指標間の関係
4.3.1 公正性指標と統計的独立性
ここでは,前節の既存の公正性の指標を俯瞰したが,ここではこれらの間の関連について
まとめる.公正性指標について統一的に議論するため,非センシティブ特徴 X を二つに分類
する.特徴のセマンティクスに基づいて,たとえセンシティブ特徴との相関や依存性がある
ため,目的変数に影響を与えたとしても,専門家や分析者が問題ないと判断したセンシティ
ブ特徴を説明可能 (explainable) と呼ぶ.これは文献 [Žliobaitė 11] の定義に従うもので,文献
[Luong 11] での法的根拠のある属性 (legally-grounded attribute) に該当する.この説明可能な
非センシティブ特徴を集めた確率変数を X (E ) で表し,それ以外の説明不可能な非センシティ
ブ特徴を集めた確率変数を X (U ) と表記する.
最初に,4.1.1 節の拡張リフトと α 保護について,完全に公正で理想的な状態である α = 1
の場合について考察する.この場合では α 保護と強 α 保護は同じものになる.このとき,α 保
護と強 α 保護での確信度の条件から,標本分布に関する次の関係を導くことができる.
conf(S=0, X=x → Y =0)
=1
conf(X = x → Y =0)
1 − conf(S=0, X=x → Y =1)
=1
1 − conf(X = x → Y =1)
⇐⇒
ˆ =0|X=x, S=0] = Pr[Y
ˆ =0|X=x]
Pr[Y
⇐⇒
ˆ =1|X=x, S=0] = Pr[Y
ˆ =1|X=x]
Pr[Y
これらの条件から,ある特定の条件 X=x が与えられたとき, S と Y とが条件付き独立であ
ることが容易に示せる.直接差別がない状態とは,強 α 保護が,D に現れる全ての条件 X=x
に対して成立する状況である.しかし,これは X の定義域 dom(X) の任意の値が与えられた
ときの条件付き独立性を意味するわけではない.よって,Y と S の条件付き独立性 Y ⊥
⊥ S|X
と密接な関連はあるが,この条件が常に満たされるわけではない.間接差別がない状態は,直
接差別がない状態よりは dom(X) のより多くの値が与えられたときの条件付き独立性が成立す
る.だがやはり,dom(X) の任意の値が与えられたときに条件付き独立となるわけではないの
で,Y ⊥
⊥ S | X は一般には成り立たない.
4.1.2 節の CV スコアについて検討する. Y と S が共に二値変数であるとき,CV スコア
ˆ
ˆ =1|S=0] が 0 であれば,容易に Pr[Y
ˆ ] = Pr[Y
ˆ |S],すなわち Y と S の独立
Pr[Y =1|S=1] − Pr[Y
性Y ⊥
⊥ S が成立することが示せる.よって CV スコアは,独立性 Y ⊥
⊥ S の評価指標といえる.
4.1.3 節の条件付き差別と situation testing について考察する. 条件付き差別は,CV スコア
の分布を X (E ) で条件付けた場合の CV スコアによって説明可能な差別の度合いを評価してい
る.すなわち,X (E) が与えられたときの Y と S の条件付き独立性 Y ⊥
⊥ S | X(E ) を測っている.
一方の situation testing も,X (E ) が同じ値をとるとき S の値によって Y の分布が変化しない,
すなわち条件付き独立性 Y ⊥
⊥ S | X(E) を検証しているといえる.
ˆ =1|S=0] = Pr[Y
ˆ =+] が,式 (4.12) は Pr[S=
ˆ
4.1.4 節の差分公正性において,式 (4.11) は Pr[Y
−
|Y =+] = P̂r[S=−] が archetype の空間で近似的に成立することを示している. Y と S が二値
変数の場合,これらの条件から Y と S の独立性 Y ⊥
⊥ S が成立することを容易に導くことがで
きる.
最後に 4.1.5 節の先入観に対し,説明可能性の概念を導入する,すなわち,説明可能な非セ
ンシティブ特徴に対する依存性は常に許すよう修正する.元の先入観は次のように説明可能性
の概念を加えると次のようになる:
元
説明可能
直接先入観:
Y⊥
⊥
/ S|X
Y⊥
⊥
/ S|X
間接先入観:
Y⊥
⊥
/ S
Y⊥
⊥
/ S | X(E )
潜在先入観:
S⊥
⊥
/ X
S⊥
⊥
/ X(U ) | X(E )
23
24
4.3.2 統計的独立性に対する制約
前節では公正性の指標から Y と S についての独立性を導くことができることを示したが,そ
の逆が成立しない指標もある.例えば,Y ⊥
⊥ S | X が成立しても,一般には α 保護的とはなら
ない.なぜなら,統計的独立性は Pr[Y, S] についての期待値について定義されるが,α 保護は
Y と S の全ての値について一様に elift が抑えられていることを要求しているからである.α
保護のような一様な制約を要求するものは,統計的独立性のような期待値についての制約を要
求するものより強い制約なので,前者が成立すれば後者も成立するが,逆は成立しない.一様
な制約を要求する公正性の概念としては,あとは差分公正性があり,他の公正性の概念は期待
値についての制約となる.
25
第5章
公正配慮型データマイニングの形式
的問題
ここでは公正配慮型データマイニングの形式的タスクを三つに分ける.
不公正検出 (unfairness detection)
(Y, X, S) の具現値であるデータ集合 D = {yi , xi , s i } N が与
えられたとき,Y ⊥
⊥ S | X = x といった公正性基準を満たさないパターンを検出する.こ
のタスクに対する手法は 6.1 節で述べる.
公正配慮型学習 (fairness-aware learning)
{yi , xi , s i
}N
(Y, X, S) の 具 現 値 で あ る デ ー タ 集 合 D
=
†
か ら ,公 正 な 真 の 分 布 Pr [Y, X, S] を 近 似 す る よ う な 公 正 推 定 分 布
P̂r† [Y, X, S] を学習する問題.Y がカテゴリ変数の場合は公正配慮型分類,Y が実数値変
数の場合は公正配慮型回帰と呼ぶ. さらに,データ集合には Y が与えられず X と S だ
けの場合に,潜在的に存在するカテゴリ値の変数の値 Y を推定する問題を公正配慮型ク
ラスタリングと呼ぶ. これらの手法については 6.2,6.3,および 6.4 節で述べる.
公正配慮型データ公開 (fairness-aware data publication)
形式的には,X と S の具現値である
データ集合 D = {xi , s i } N を,X ′ ⊥
⊥ S といった何らかの公正性が満たすような変換 f :
dom(X) → dom(X′ ) によって,D 中のデータを変換した D ′ を公開する.この D ′ は,
S に対する公正性を満たしているため,このデータ集合に対しては各種の分析を行っ
ても公正性が保たれる.[Dwork 11](4.1.4 節参照)や [Zemel 13] などの研究が挙げら
れる.
27
第6章
公正配慮型データマイニングの手法
これまでに提案された形式的タスクと,それに対する手法を列挙する.
6.1
不公正検出
過去の決定のデータベースから不公正な決定を検出する形式的なタスク.データ集合 D と
不公正性の指標が与えられたとき,データ集合全体や一部のデータについて不公正があるかど
うかを検出する.
6.1.1 相関ルールからの抽出
最初に提案された公正配慮型データマイニングの形式的タスクで,データ集合から抽出さ
れた相関ルールで,結論部が決定変数 Y に関する条件となっているものを扱う [Pedreschi 08,
Ruggieri 10a].直接差別の検出を,支持度の条件を満たす相関ルールの中から,4.1.1 節の
α 保護の条件を直接的に満たさないものを列挙することで行うことを提案.さらに,前提
部に S=0 の条件を含まない X (a) =x (a), X (b) =x (b) → Y =0 のようなルールが差別的になる
間接差別の検出についても考察した.そのために,conf(S=−, X (b) =x (b) → X (a) =x (a) ) と
conf(X(a) =x(a), X(b) =x(b) → S=0) の下限を決めるしきい値 β1 と β2 を導入し,間接差別とな
りうるルールを列挙する手法も提案した.文献 [Ruggieri 10b] は,これらの抽出アルゴリズム
を実装したシステムについて報告している.
28
6.1.2 situation testing での k 近隣の利用
文献 [Luong 11] では,4.1.3 節の situation testing の考えに基づいて,データ集合全体として
公正な決定がなされているかを検証する方法を提案.説明可能な特徴 X (E ) の空間における,
データ集合 D 中のある点からの k 近隣集合を,保護グループと非保護グループそれぞれにつ
いて求める. k 近隣法は入力空間が与えられたときのクラスの条件付き分布を求める方法な
ˆ |S, X(E ) ] を計算できる.この経験分布を D 中の全ての
ので,この集合から局所的な分布 Pr[Y
ˆ |S=0, X(E ) ] と Pr[Y
ˆ |S=1, X(E ) ] に差があれば不公正
データを起点として求め,全体として Pr[Y
であると判断した.
6.2
公正配慮型分類
公正配慮型分類とは,目的変数 Y の予測精度をできるだけ影響を与えずに,通常の分類器よ
り公正に予測が行われるようにする分類学習問題である.真のモデルに,公正性に関する制約
を加えた真の公正モデルの存在を仮定する.真の分布から得たデータ集合が与えられたとき,
この公正性に関する制約を用いて,推定公正モデルを学習する.
6.2.1 2-単純ベイズ
文献 [Calders 10] の,Calders-Verwer の 2 単純ベイズ法 (Calders-Verwer’s 2-naive-Bayes)
を紹介する.目的変数もセンシティブ属性も二値で,真の分布は次式とする.
Pr[Y, X, S] = Pr[Y, S]
∏
Pr[X (i) |Y, S]
(6.1)
i
ˆ
ˆ (i) |Y, S]
この仮定に従い,与えられたデータ D から,推定モデルのパラメータ Pr[Y,
S] と Pr[X
とする.この推定モデルでは Y と S は非独立ではないため,不公正な決定がなされることが
ありうる.通常の単純ベイズでは,各特徴は,クラスが与えられたときに条件付き独立だが,
CV2NB では,各非センシティブ特徴 X (i) は,Y と S の両方に依存する.よってあたかも, S
が 1 と 0 の各値について二つの単純ベイズを学習しているようなものなので,この方法を 2
単純ベイズ法と呼ぶ.真の公正分布では CV スコアが 0 以下との制約を考え,推定モデルの
ˆ
パラメータ Pr[Y,
S] を,図 6.1 のアルゴリズムにより修正して推定公正モデルのパラメータ
ˆ † [Y, S] とする.図中の N (Y =y, S=s) はデータ集合 D 中で,特徴の値がそれぞれ y と s であ
Pr
ˆ † [y, s] は N (y, s)/ ∑y ′, s′ N (y ′, s ′ ) で求めることができる.このアルゴリズム
る事例の数で,Pr
ˆ † [Y, S] を更新するように設計されている.なお,図 6.1
は,CV スコアが正である間,徐々に Pr
の 10 行には,アルゴリズムが停止しない場合を回避するため,N (Y, S) が非負であること保証
するように元のアルゴリズムを修正している.
29
1 Calculate a CV score, disc, of the predicted classes by the current model.
2 while disc > 0
3
numpos is the number of positive samples classified by the current model.
4
if numpos < the number of positive samples in D then
5
N (Y =1, S=0) ← N (Y =1, S=0) + ∆N (Y =0, S=1)
6
N (Y =0, S=0) ← N (Y =0, S=0) − ∆N (Y =0, S=1)
7
else
8
N (Y =0, S=1) ← N (Y =0, S=1) + ∆N (Y =1, S=0)
9
N (Y =1, S=1) ← N (Y =1, S=1) − ∆N (Y =1, S=0)
10
if any of N (Y, S) is negative then
cancel the previous update of N (Y, S) and abort
11
Recalculate Pr[Y |S] and a CV score, disc based on updated N (Y, S)
図 6.1 naïve Bayes modification algorithm
6.2.2 公正配慮型決定木
文献 [Kamiran 10] は,公正配慮型の決定木を提案している.最初に,決定木の推定モデルを
獲得する.ただし,通常の情報量ゲインではクラス Y のみについて考慮するが,センシティブ
特徴についての情報量ゲインも同時に考慮する点が異なる.こうして学習した推定モデルを,
推定公正モデルにするため,葉ノードのラベルを変更する.変更する葉ノードは,変更によっ
て変化する正解率に対する,CV スコアの変化の比が小さなものから順に変更し,CV スコア
が小さくなるようにする.
6.2.3 前処理による方法
条件付き差別の概念を示した文献 [Žliobaitė 11] では,条件付き差別を解消するように元デー
タを再ラベル付けしたり,再サンプリングすることで,推定公正モデルを学習する方法を提案
した.
30
6.2.4 先入観排除器
文献 [神嶌 11, Kamishima 12b] では,先入観排除器 (prejudice remover) と呼ぶ正則化項を導
入した.この正則化項は,推定公正モデルで推定した Y とセンシティブ特徴 S の相互情報量で
ある.ここでは,S の値それぞれに応じてロジスティック回帰モデルを導入し,この prejudice
remover と組み合わせることで,公正配慮型のロジスティック回帰を提案した.この正則化項
は,識別モデル一般に利用できる汎用性がある.さらに,他の公正配慮型分類では,公正配慮
型に修正するときに特徴ごとの差は考慮されないが,この方法では S への依存性が強く,予測
への寄与が低い特徴から優先的に排除できるという性質をもつ.例えば,保護グループの中で
も,非センシティブ特徴の値の違いによってローンのデフォルトの可能性は異なるが,そのよ
うな差を考慮することができるようになる.その代わりに, S への依存が小さく,Y の予測へ
の貢献が大きな都合の良い特徴がなければ,大きく予測精度を損なうことなく公正性を強化す
ることはできない点では劣っている.
6.3
公正配慮型回帰
2.2 節で述べた情報中立推薦システムを公正配慮型回帰によって実現する.評価値を予測す
る確率的行列分解 [Koren 09] を用いた評価スコアの回帰モデルに,6.2.4 節の先入観排除器を
導入した [神嶌 12c, Kamishima 12a].
6.4
公正配慮型クラスタリング
2.3 節で非冗長クラスタリングの手法である CCIB (conditioned conditional information
bottleneck) [Gondek 04] を紹介する. これは,公正配慮型データマイニングの手法としては提
案されていなかったが, S に対する中立性に配慮したクラスタリングの手法である.目的変数
Y は D 中の事例がどのクラスタに分類されるかを示すインデックスで,事例は確率的な写像
Y = f (D) によってクラスタに割り当てられる.このとき,CCIB は次式の変分最適化問題に
帰着される.
f ∗ = arg max I[Y ; X |S]
f
(6.2)
s.t. I(Y ; D) ≤ Cmax and I[Y ; X] ≥ Imin
ただし,特徴 X や S は離散値の確率変数である.目的関数は S が与えられたときの Y と X の
条件付き相互情報量を最大化するもので, S を知ったあとで非センシティブ特徴の情報ができ
るだけクラスタリングの結果に反映されるようにする.一つ目の条件は,D 中の対象のいずれ
かを指定する確率変数とクラスタの間の相互情報量で,クラスタへの割り当てのランダムさを
パラメータ Cmax によって制御する.目的関数では S が与えられたときの情報が保存されるよ
うにしたが,二つ目の条件は,S とは無関係な X の情報もクラスタに反映されるようにする条
件である.以上の変分最適化問題を解いて得られた確率的写像 f ∗ を用いると,事例をクラス
タに確率的に割り当てることができる.
その他, S に対応するクラスタをさらにクラスタリングし,それらをふたたびアンサンブル
する文献 [Gondek 05] の方法などもある.
31
33
第7章
関連研究
公正配慮型データマイニングと他の分野の研究との関連について論じる.
7.1
プライバシ保護データマイニング
公正配慮型データマイニングは,プライバシ保護データマイニング (privacy-preserving data
mining) [佐久間 09, Aggarwal 08] 関連がある. プライバシの保護度合いは,公開情報と秘密
情報の間の相互情報量で定量化できる [Venkatasubramanian 08].一方,4.3.1 節で議論したよ
うに,多くの公正性指標は Y と S の間の独立性の度合いを評価しており,独立性の度合いは相
互情報量で量ることができる.この両者の相互情報量の利用の類似点から,公正配慮型データ
マイニングの設計目標は,目的変数 Y の値を知られたときでも S の情報を秘匿するプライバシ
保護データマイニングと等価であるとも見なせる.
ここで,間接先入観の指標である正規化先入観尺度 (4.14) を再検討する.
I(Y ; S)
NPI = √
=
H(Y )H(S)
√
I(Y ; S) I(Y ; S)
H(Y ) H(S)
最初の係数 I(Y ; S)/H(Y ) の分母は Y エントロピーで,Y の値を知るのに必要な情報量である.
よって,この係数は,Y の予測に利用された S の情報の割合を示し,不公正の度合いを示すと
みなせる.二つ目の係数 I(Y ; S)/H(S) の分母は S のエントロピーで,S の値を知るのに必要な
情報量である.よって,この係数は,Y の値を知られたとき, S について暴露される情報の割
合を表すとみなせる.どちらの係数も相互情報量を小さくすることで小さくできるので,相互
情報量 I(Y ; S) を小さくすることで,公正性の強化とプライバシの保護が同時に両立できるこ
とが分かる.
情報の漏洩の度合いを相互情報量ではなく,他の規準で測ることも考えられる.差分プライ
バシ (differential privacy) [Nissim 08] の考えを,公正性の配慮に利用することは,[Dwork 11]
34
で検討されている.元のデータ集合において非常に近い事例の対それぞれに対するクエリの結
果の分布を得たとき,二つの非常に近ければ差分プライバシが成立する.元の事例とクエリ出
力が,元データと archetype に相当すると考えると差分公正性と類似していることが分かる.
差分プライバシでは,クエリ出力の歪みが小さいほど効用が高くなるが,このような効用関数
を採用した差分公正性を差分プライバシとみなすことができる.
一方で,公正性とプライバシ保護が異なる点もある.公正性では,採用やローンを申し込ん
でいる時点で個人は特定されているため,個人の特徴の保護だけが問題で,個人の特定自体は
問題にならない場合がある.また,プライバシ保護のためにランダム化は利用できるが,採用
や入試のような重要な決定で公正性のためにランダムな決定を多用すると,対象者に決定過程
を説明するのが難しくなるという問題も生じうる.
7.2
因果推論
公正配慮型データマイニングと因果推論 (causal inference) との関連について述べる. なお
定義や定理は,文献 [Pearl 09] のものである.ある集団について既に決定がなされ,Y と S に
関する標本分布が観測されているとする.このとき,非保護で有利な決定をされたグループ
Y =1, S=1 が,実際とは違って保護グループ S=0 であれば不利な決定 Y =0 をされる確率を計算
する.このような現実にはなかった事象は反事実 (counterfactual) と呼ばれ, S=− > Y =− と
表記する.
(定義 9.2.1) S=1 かつ Y =1 であったとき,反事実『 S=0 だったら Y =0 であった』が起きる次
の確率を必要性の確率 (probability of neccessity) と呼ぶ
PN = Pr[S=0 > Y =0|S=1, Y =1]
(定義 9.2.2) S=0 かつ Y =0 であったとき,反事実『 S=1 だったら Y =1 であった』が起きる次
の確率を十分性の確率 (probability of suficiency) と呼ぶ
PS = Pr[S=1 > Y =1|S=0, Y =0]
(定義 9.2.3, 補題 9.2.6)必要十分性の確率は次式で定義され,PN や PS と次の関係がある
PNS = Pr[S=0 > Y =0, S=1 > Y =1] = Pr[S=1, Y =1]PN + Pr[S=0, Y =0]PS
(定義 9.2.9)反現実での決定 Y が,条件 S=1 と S=0 に対してどう反応するかは,実際に観測
された S の値とは独立であるとき, S は Y について外生 (exogenous) であるという.
(定理 9.2.10)外生的であるとき,PNS の範囲は次式で表される:
max[0, Pr[Y =1|S=1] − Pr[Y =1|S=0]] ≤ PNS ≤ min[Pr[Y =1, X=1], Pr[Y =0, X=0]]
この定理 9.2.10 の下限を見ると,式 (4.7) の CV スコアに一致している.すなわち,CV ス
コアは S が Y の原因である確率の下限を表している.このように,因果推論と公正性には関連
があり,今後も研究が進められるべきだろう.
7.3
その他の関連分野
予測精度ではなく,公正性というコストを考慮する点において,公正配慮型データマイニン
グはコスト考慮型学習 (cost-sensitive learning) の一つともみなせる [Elkan 01]. ただし,コ
ストが全ての事例に対して均一ではなく,事例のセンシティブ特徴 S に依存して決まる点は異
なる.
公正性は,実世界で運用が可能であるという legitimacy の部分概念ともみなせる [Perlich 11].
特徴間の非独立性を扱う独立成分分析 (independent component analysis) も,公正性の強化
に利用できる可能性がある [Hyvärinen 01].
35
37
第8章
議論とまとめ
8.1
今後の研究分野
公正配慮型学習研究は初期の段階でまだ多くの課題がある.以下にそれらを列挙する.
• 公正性の概念の定義
• 公正性・中立性を扱う形式的タスク
• 新たな公正配慮型の分析・学習アルゴリズム
• 公正性と効率のトレードオフの理論
• プライバシや因果など他の研究分野との関連
8.2
まとめ
データマイニング技術の社会での利用は日々拡大しているが,残念なことに,しばしば人々
の生活に悪影響を及ぼす場合もある [Boyd 10].一方で,データ分析技術は,社会資本やエネ
ルギー利用の効率的な利用や,感染症,犯罪,災害などの各種のリスク管理に欠かせないもの
となり,その重要性は増してゆくだろう.今後は,人々の生活への影響に配慮した,プライバ
シ保護データマイニング,敵対的学習,そして公正・差別配慮マイニングのような社会責任的
マイニング (socially responsible mining) の概念が重要になるであろう.
39
参考文献
[Aggarwal 08] Aggarwal, C. C. and Yu, P. S. eds.: Privacy-Preserving Data Mining: Models and
Algorithms, Springer (2008)
[Agrawal 94] Agrawal, R. and Srikant, R.: Fast Algorithms for Mining Association Rules, in Proc.
of the 20th Very Large Database Conf., pp. 487–499 (1994)
[Berendt 12] Berendt, B. and Preibusch, S.: Exploring Discrimination: A User-Centric Evaluation
of Discrimination-Aware Data Mining, in Proc. of the IEEE Int’l Workshop on Discrimination
and Privacy-Aware Data Mining, pp. 344–351 (2012)
[Boyd 10] Boyd, D.: Privacy and Publicity in the Context of Big Data, in The 19th Int’l Conf. on
World Wide Web, Keynote (2010)
[Calders 10] Calders, T. and Verwer, S.: Three naive Bayes Approaches for Discrimination-free
Classification, Data Mining and Knowledge Discovery, Vol. 21, pp. 277–292 (2010)
[Dwork 11] Dwork, C., Hardt, M., Pitassi, T., Reingold, O., and Zemel, R.: Fairness Through
Awareness, arXiv:1104.3913 [cs.CC] (2011)
[Elkan 01] Elkan, C.: The Foundations of Cost-Sensitive Learning, in Proc. of the 17th Int’l Joint
Conf. on Artificial Intelligence, pp. 973–978 (2001)
[Forden 12] Forden, S.: Google Said to Face Ultimatum From FTC in Antitrust Talks, Bloomberg
(2012), ⟨http://bloom.bg/PPNEaS⟩
[Gondek 04] Gondek, D. and Hofmann, T.: Non-Redundant Data Clustering, in Proc. of the 4th
IEEE Int’l Conf. on Data Mining, pp. 75–82 (2004)
[Gondek 05] Gondek, D. and Hofmann, T.: Non-Redundant Clustering with Conditional Ensembles, in Proc. of the 11th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining,
pp. 70–77 (2005)
[Han 11] Han, J., Kamber, M., and Pei, J.: Data Mining: Concepts and Techniques, Morgan
Kaufmann, third edition (2011)
[Hyvärinen 01] Hyvärinen, A., Karhunen, J., and Oja, E.: Independent Component Analysis,
Wiley-Interscience (2001)
[IT1 05] NIPS Workshop — Inductive Transfer: 10 Years Later (2005), ⟨http://iitrl.
acadiau.ca/itws05/⟩
[Jones 09] Jones, R.: Privacy in Web Search Query Log Mining, ECMLPKDD, Invited Talk
40
(2009)
[Kamiran 10] Kamiran, F., Calders, T., and Pechenizkiy, M.: Discrimination Aware Decision Tree
Learning, in Proc. of the 10th IEEE Int’l Conf. on Data Mining, pp. 869–874 (2010)
[神嶌 11] 神嶌 敏弘, 赤穂 昭太郎:公正配慮型学習 — 正則化によるアプローチ, 人工知能学会
全国大会(第 25 回)論文集, 1D3-4 (2011)
[Kamishima 12a] Kamishima, T., Akaho, S., Asoh, H., and Sakuma, J.: Enhancement of the
Neutrality in Recommendation, in Proc. of the 2nd Workshop on Human Decision Making in
Recommender Systems, pp. 8–14 (2012)
[Kamishima 12b] Kamishima, T., Akaho, S., Asoh, H., and Sakuma, J.: Fairness-aware Classifier
with Prejudice Remover Regularizer, in Proc. of the ECML PKDD 2012, Part II, pp. 35–50
(2012), [LNCS 7524]
[神嶌 12c] 神嶌 敏弘, 赤穂 昭太郎, 麻生 英樹, 佐久間 淳:情報中立推薦システム, 人工知能学会
全国大会(第 26 回)論文集, 3E1-R-6-1 (2012)
[Koren 09] Koren, Y.: Collaborative Filtering with Temporal Dynamics, in Proc. of the 15th ACM
SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining, pp. 447–455 (2009)
[Luong 11] Luong, B. T., Ruggieri, S., and Turini, F.: k-NN as an Implementation of Situation
Testing for Discrimination Discovery and Prevention, in Proc. of the 17th ACM SIGKDD Int’l
Conf. on Knowledge Discovery and Data Mining, pp. 502–510 (2011)
[Nissim 08] Nissim, K.: Private Data Analysis via Output Perturbation, in Aggarwal, C. C. and
Yu, P. S. eds., Privacy-Preserving Data Mining: Models and Algorithms, chapter 16, Springer
(2008)
[Pariser] Pariser, E.: The Filter Bubble: ⟨http://www.thefilterbubble.com/⟩
[Pariser 11] Pariser, E.: The Filter Bubble: What The Internet Is Hiding From You, Viking (2011)
[パリサー 12] パリサー イーライ, 井口 耕二:閉じこもるインターネット — グーグル・パーソ
ナライズ・民主主義, 早川書房 (2012)
[Pearl 09] Pearl, J.: Causality: Models, Reasoning and Inference, Cambridge University Press,
2nd edition (2009)
[Pedreschi 08] Pedreschi, D., Ruggieri, S., and Turini, F.: Discrimination-aware Data Mining, in
Proc. of the 14th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining, pp.
560–568 (2008)
[Pedreschi 09] Pedreschi, D., Ruggieri, S., and Turini, F.: Measuring Discrimination in SociallySensitive Decision Records, in Proc. of the SIAM Int’l Conf. on Data Mining, pp. 581–592
(2009)
[Perlich 11] Perlich, C., Kaufman, S., and Rosset, S.: Leakage in Data Mining: Formulation, Detection, and Avoidance, in Proc. of the 17th ACM SIGKDD Int’l Conf. on Knowledge Discovery
and Data Mining, pp. 556–563 (2011)
[Resnick 11] Resnick, P., Konstan, J., and Jameson, A.: Panel on The Filter Bubble, The 5th ACM
Conf. on Recommender Systems (2011), ⟨http://acmrecsys.wordpress.com/2011/10/
25/panel-on-the-filter-bubble/⟩
[Ruggieri 10a] Ruggieri, S., Pedreschi, D., and Turini, F.: Data Mining for Discrimination Discovery, ACM Transactions on Knowledge Discovery from Data, Vol. 4, No. 2 (2010)
[Ruggieri 10b] Ruggieri, S., Pedreschi, D., and Turini, F.: DCUBE: Discrimination Discovery in
Databases, in Proc of The ACM SIGMOD Int’l Conf. on Management of Data, pp. 1127–1130
(2010)
[佐久間 09] 佐久間 淳, 小林 重信:プライバシ保護データマイニング, 人工知能学会誌, Vol. 24,
No. 2, pp. 283–294 (2009)
[Steel 10] Steel, E. and Angwin, J.: On the Web’s Cutting Edge, Anonymity in Name Only, The
Wall Street Journal (2010), ⟨http://on.wsj.com/aimKCw⟩
[Strehl 02] Strehl, A. and Ghosh, J.: Cluster Ensembles — A Knowledge Reuse Framework for
Combining Multiple Partitions, Journal of Machine Learning Research, Vol. 3, pp. 583–617
(2002)
[Sweeney 13] Sweeney, L.: Discrimination in Online Ad Delivery, Communications of the ACM,
Vol. 56, No. 5, pp. 44–54 (2013)
[Venkatasubramanian 08] Venkatasubramanian, S.: Measures of Anonimity, in Aggarwal, C. C.
and Yu, P. S. eds., Privacy-Preserving Data Mining: Models and Algorithms, chapter 4, Springer
(2008)
[Žliobaitė 11] Žliobaitė, I., Kamiran, F., and Calders, T.: Handling Conditional Discrimination,
in Proc. of the 11th IEEE Int’l Conf. on Data Mining (2011)
[Watanabe 69] Watanabe, S.: Knowing and Guessing – Quantitative Study of Inference and Information, John Wiley & Sons (1969)
[Wha] What They Know, The Wall Street Journal⟨http://blogs.wsj.com/wtk/⟩
[Zadrozny 04] Zadrozny, B.: Learning and Evaluating Classifiers under Sample Selection Bias,
in Proc. of the 21st Int’l Conf. on Machine Learning, pp. 903–910 (2004)
[Zemel 13] Zemel, R., Wu, Y., Swersky, K., Pitassi, T., and Dwork, C.: Learning Fair Representations, in Proc. of the 30th Int’l Conf. on Machine Learning (2013)
41
53
索引
Symbols
2-naive-Bayes ⇒ Calders-Verwer’s 2-naive-Bayes
2 単純ベイズ法 ⇒ Calders-Verwer の 2 単純ベイズ法
A
α-protection
association rule
14, 23
13, 27
fair true distribution
fairness-aware classification
fairness-aware clustering
fairness-aware data mining
fairness-aware data publication
fairness-aware learning
fairness-aware regression
filter bubble
C
I
Calders-Verwer’s 2-naive-Bayes
28
Calders-Verwer’s discrimination score
16, 23
Calders-Verwer の 2 単純ベイズ法
28
Calders-Verwer の差別スコア
16, 23
causal inference
32
CCIB ⇒ conditioned conditional information bottleneck
clift ⇒ contrasted lift
conditional discrimination
17, 23
conditioned conditional information bottleneck
30
confidence
14
contrasted lift
15
cost-sensitive learning
33
counterfactual
32
CV score ⇒ Calders-Verwer’s discrimination score
CV2NB ⇒ Calders-Verwer’s 2-naive-Bayes
CV スコア ⇒ Calders-Verwer の差別スコア
independent component analysis
indirect discrimination
indirect prejudice
information-neutral recommender system
10
25, 28
25, 30
1
25
25
25, 30
5
33
4, 14, 23
20
6
K
k-nearest neighbor method
k 近隣法
27
27
L
legitimacy
Lipschitz condition
Lipschitz 条件
33
19
19
M
D
maximum measure
data set ⇒ データ集合
decision tree
28
demographic information
4
difference measure
15
differential fairness
19, 23
direct discrimination
14, 23
direct prejudice
19
discrimination-aware data mining ⇒ fairness-aware data
mining
E
elift ⇒ extended lift
elift d ⇒ difference measure
estimated distribution ⇒ 推定分布
explainability
explainable feature
extended lift
N
negative legacy
NLPIseenormalized latent prejudice index
non-protected group
non-redundant clustering
non-sensitive feature
normalized latent prejudice index
normalized prejudice index
NPI ⇒ normalized prejudice index
22
21
9
30
9
21
20
O
17
17, 22
14
F
fair estimated distribution
16
odds lift
olift ⇒ odds lift
P
potential prejudice
potentially discriminatory
10
15
20
14
54
potentially non-discriminatory ⇒ potentially
discriminatory
prejudice index ⇒ normalized prejudice index
prejudice remover
preprocess
privacy-preserving data mining
protected group
さ
29, 30
29
31
9
R
ratio measure
red-lining effect
red-lining 効果
15
4, 17, 20
4, 17, 20
S
selection lift
sensitive feature
situation testing
slift ⇒ selection lift
slift d ⇒ difference measure
statistical independece test
statistical parity
strong α-protection
15
9
18, 23, 27
21
19
14
最大値型指標
16
差分型指標
15
差分型指標 (difference measure)
15
差分公正性
19, 23
差別配慮型データマイニング ⇒ 公正配慮型データマイ
ニング
条件付き差別
17, 23
情報中立推薦
6
真の分布
10
推定分布
10
正規化先入観尺度
20, 21
説明可能性
17
説明可能特徴
17, 22
潜在差別的
14
潜在先入観
20
潜在非差別的 ⇒ 潜在差別的
センシティブ特徴
9
選択リフト
15
先入観排除器
29, 30
先入観尺度 ⇒ 正規化先入観尺度
相関ルール
13, 27
た
T
target variable
true distribution ⇒ 真の分布
9
U
underestimation
underestimation index
unfairness detection
21
22
25, 27
あ
α 保護
因果推論
オッズリフト
14, 23
32
15
か
確信度
拡張リフト
過小評価
過小評価尺度
間接差別
間接先入観
強 α 保護
決定木
公正推定分布
公正な真の分布
公正配慮型回帰
公正配慮型学習
公正配慮型クラスタリング
公正配慮型データ公開
公正配慮型データマイニング
公正配慮型分類
個人属性情報
コスト考慮型学習
14
14
21
22
4, 14, 23
20
14
28
10
10
25, 30
25
25, 30
25
1
25, 28
4
33
対照リフト
直接差別
直接先入観
データ集合
統計的一致性
統計的独立性検定
独立成分分析
15
14, 23
19
10
19
21
33
は
反事実
非冗長クラスタリング
非センシティブ特徴
非保護グループ
比率型指標
フィルターバブル
不公正検出
負の遺産
プライバシ保護データマイニング
保護グループ
32
7, 30
9
9
15
5
25, 27
22
31
9
ま
前処理
目的変数
29
9
Fly UP