...

世論調査における 代替サンプル使用の問題点と検討 世論調査におけ

by user

on
Category: Documents
6

views

Report

Comments

Transcript

世論調査における 代替サンプル使用の問題点と検討 世論調査におけ
世論調査における
代替サンプル使用の問題点と検討
小野寺典子 を使用すると代表性が無くなってしまうことや,
1. はじめに
代表性が重要であるということそのものが理解
調査実 施の際,回答が 得られなかった調
されていないためである。また,代替サンプル
査相手(調査不能)の置き換えを行うことがあ
を安易に使用したときの問題点も理解されてい
り,このときに置き換える人の集まりを
“代替
ないように思われる。
サンプル
“という。
代替サンプルを使用すると,ランダムサンプ
日本の調査関係のテキストや文献で代替サ
ンプルについて書かれたものをみることはほと
1)
ルではなくなるため,母集団を推定できない。
したがって,国民や有権者などの母集団全体
んど無い 。使用しないことが当たり前である
の意向を調べる世論調査や社会調査などには,
ため取り上げられてこなかったのだと思われる。
代替サンプルを使用するべきではない。その理
しかし,そのために代替サンプルを使用するこ
解をはかるためにも,代替サンプルの問題点を
とに問題があることが広く理解されていないよ
整理して示す必要があると考える。
うに感じられる。
代替を行う単位は,調査地点,世帯,個人
現在,世論調査の調査有効率の低下が問題
の単位が考えられるが,本稿では,個人を単位
になっており,それによる偏りを補正するため
とした
“代替サンプル”について取り上げる。一
に,代替サンプルを用いたらどうかという声が
般的に補助サンプルや予備サンプルという用語
聞かれることが多い。また,すでに,その問
も使われるが,事前に用意した代替用のサンプ
題点を理解しないままに代替サンプルを安易に
ルに
“予備サンプル”という用語を使い,それを
2)
用いている場合も多いと思われる 。
最近は,インターネットなどで,母集団を代
含めた全般的な意味の用語として
“代替サンプ
ル”を使用することとした。
表しているとはいえない非 確率的抽出法によ
本 稿では,まず,代替サンプルについて説
る調査が,低コストで簡単に実施されるように
明を行う。次に,代替サンプルを用いるのに
なってきていることもあり,
「ランダムサンプリン
多くあげられると考えられる4 つの理由につい
グ
(確率的抽出)ではない」という説明のみでは,
て,それぞれの考え方の誤りや問題点を指摘
代替サンプルに問題があるとは,必ずしも理解
する。また,代替サンプルを用いると,調査実
されないようである。そもそも,代替サンプル
施管理手順や調査員の調査に向かう態度が変
48
DECEMBER 2007
わり,調査の質に影響することを考察する。さ
サンプルは正規サンプルと母集団が同じであるた
らに,日本では
「代替サンプル」を使用している
め,使用する効果は薄い。また,調査の実施管
ことを公表しない場合が多いが,国内外の公
理上のコストや問題点を十分検討したほうが良
表のルールや公表を実施している調査の例をあ
い。調査不能の代替が真に有用なのは,代替
げ,公表の重要性を示す。最後に,NHKが
サンプルを用いることによって調査不能による調
実施した過去の調査データを使用して,代替
査結果の歪みを小さくすることができる場合であ
のシミュレーションを行い,代替サンプルが調
る。もしも,調査不能と代替するサンプルの属性
査結果に与える影響を検討する。
分布や回答分布がほとんど同じであれば,調査
不能のバイアスを減少させることができる。しか
2.代替サンプルの使われ方
代替サンプルを用いる対象は,
「転居・死亡」
し, 無 作為 抽出による代 替 サンプルは, 正
規サンプルの調 査不能と同じ 特 性を持 つの
ではない。代 替サンプルの有 効は,母 集団
など調査対象外としたものを差し替える場合
が同じと考えられる正規サンプルの有効と同
と,調査不能すべてを差し替える場合とが考
じ特 性を持つはずである。したがって,よほ
えられる。調査不能すべてを差し替える場合
ど特殊な方法で,代替サンプルを選ばない限り,
には,正規の調査相手に対して,平日と土・日
調査不能のバイアスを減らすことはできない。
に時間を変えて 3 回訪問など,訪問条件をつけ
当然のことながら,単に地域特性・男女年層
ることが多い。海外の調査などで調査有効率
などの人口統計学的な属性を一致させて代替さ
100%となっている場合があるが,調査不能す
せれば良いというわけではない。同じ属性を持っ
べてを置き換えていると考えられる。
ていても,調査不能に特有の性質があれば,か
代替方法としては,事前に無作為抽出による
えって調査結果が歪んでしまう可能性が強い。
予備サンプルを調査地点ごとに用意しておく方
NHKでは,昭和 41・42 年に代替サンプルを
法と,調査員が同じ地域の中で決められた方
使用したことがある。調査範囲内か範囲外かを
式で選ぶ方法の大きく二つに分かれる。
訪問して調べ,調査範囲外を事前に正規サンプ
代替サンプルの選び方は,無作為抽出か,
代替対象となる調査不能の人と同一属性
(地
ルとともに抽出したサンプル
(予備サンプル)で代
替している。調査範囲外としたのは,
「一家転居」
域,男女年層など)の人を選ぶ方法をとること
「個人転居」
「長期不在」
「死亡」
「心身障害」
「該
が多い。無作為抽出の場合には,正規の調査
当者なし」
「場所不明」で,昭和 41年にはランダ
相手を抽出する際に,同一地点から代替用の
ムに抽出した予備サンプルとの差し替えを行い,
予備サンプルをランダムに抽出しておく。同一
昭和 42 年には男女年層の属性が一致する対象
基本属性で代替する場合には,どの属性でど
と差し替えたとしている。なお,この2 年で代替
のくらいの予備サンプルを準備するのかを判断
サンプルの利用は廃止になったのだが,その理
するのが難しいため,調査員が現地で選ぶ方
由として,
「①予備サンプルそのものがサンプル
法になると思われる。
理論上おかしい」
「②予備サンプルにより有効数
代替サンプルを無作為に選ぶとすると,代替
は増加,区市郡別の有効数は母集団に近づく。
DECEMBER 2007
49
ただし有効回答者の男女年層別の構成比はあま
抽出するべきである。すなわち,全地点にその地
り修正されない」と記録されている。
点に抽出する標本数を割り当てたときと同じ比率
の人数をランダムに追加抽出するべきである 3)。
②の調査有効率の確保については,実質有効
3.代替サンプルを使用する理由
率はむしろ下がるということを認識すべきである。
正規サンプルの大きさをそのまま分母として有効
代替サンプルが使用される理由は,主に次
の 4 種類であると考えられる。
率を計算すれば,確かに高くなったようにみえる。
①調査有効数を確保するため
しかし,正規サンプルすべてと,代替のために接
②調査有効率の確保のため
触した人すべてを含めた代替サンプルを足したも
③「死亡・転居」など母集団に含まれないと考え
のを分母として,有効率を計算した実質有効率
られるものを調査対象外として差し替えるため
は,代替サンプルを使用しない場合の有効率より
低い。すなわち,代替サンプルを用いることは,単
④調査不能によるバイアスを小さくするため
に見せかけの有効率を上げていることでしかない。
①については,原則として,事前に調査有効数
が確保できないことが想定される場合には,計
予備サンプルを使用し,その詳細を公表してい
画サンプルを増やすべきである。また,予定して
るJGSS(日本版総合的社会調査)の2000 年∼
いた調査有効数を確保できず,追加サンプルが
2003 年の回収結果から計算すると,実質有効率
必要な場合には,回答が得られなかった人の代
は明らかに低下している(表 1)
。なお,
「死亡・
わりに別の人で代替するという方法ではなく,当初
転居」は全体の4 ∼ 5%(
「住所不明」も含めると
のサンプルを抽出したのと同じ方法で,必要数を
6 ∼ 7%)
しかないため,
「死亡・転居」についての
表 1 JGSS 調査の有効率と実質有効率
有効・不能
アタック数
JGSS
2000
JGSS
2001
JGSS
2002
JGSS
2003
*1
*2
*3
*4
*5
50
正規
予備
正規
予備
正規
予備
正規
予備
4,498人
100.0%
221人
100.0%
4,498人
100.0%
324人
100.0%
5,000人
100.0%
354人
100.0%
7,200人
100.0%
883人
100.0%
有効
2,766
61.5
127
57.5
2,638
58.6
152
46.9
2,780
55.6
173
48.9
3,279
45.5
384
43.5
不能
合計
1,732
38.5
94
42.5
1,860
41.4
172
53.1
2,220
44.4
181
51.1
3,921
54.5
499
56.5
欠票(不能)理由
転居
178
4.0
19
8.6
232
5.2
17
5.2
232
4.6
25
7.1
251
3.5
45
5.1
住所
不明
53
1.2
3
1.4
70
1.6
14
4.3
90
1.8
9
2.5
135
1.9
22
2.5
死亡
5
0.1
0
0.0
14
0.3
2
0.6
11
0.2
1
0.3
16
0.2
0
0.0
長期
不在
76
1.7
1
0.5
62
1.4
3
0.9
71
1.4
3
0.8
170
2.4
22
2.5
一時
不在
320
7.1
23
10.4
424
9.4
38
11.7
459
9.2
42
11.9
806
11.2
141
16.0
拒否
948
21.1
44
19.9
940
20.9
85
26.2
1221
24.4
93
26.3
2,288
31.8
235
26.6
病気・ケ
入院中・
ガ,聴力・ その他
入所中
言語障害
57
88
7
1.3
2.0
0.2
1
3
0
0.5
1.4
0.0
36
72
10
0.8
1.6
0.2
5
7
1
1.5
2.2
0.3
28
102
6
0.6
2.0
0.1
3
3
2
0.8
0.8
0.6
88
149
18
1.2
2.1
0.3
13
20
1
1.5
2.3
0.1
実質
有効率
61.3% 64.3%
57.9% 62.0%
55.2% 59.1%
45.3% 50.9%
JGSS の 2000 ∼ 2003 年度の報告書より作成しなおした。有効率などの分母は通常の JGSS で公表している分母と異なる。
2000,2001 の各アタック数からは,年齢範囲外各 2 名が除かれている(JGSS 報告書より)
網掛けは,予備対象の対象項目(2003 のみ異なる)
。
予備サンプルは,正規サンプルと一緒にランダムに抽出されたもの。
2003 は,A 調査票(通常のテーマ)と B 調査票を併せたもの
A 調査票は有効率 48.4%
B 調査票は有効率 42.6%
DECEMBER 2007
見せか
けの
有効率
代替では見せかけの有効率もそれほど増えない。
亡・転居」を除いたものと定義すると,正規サ
③の
「死亡・転居」など母集団に含まれないと
ンプルから
「死亡・転居」を除いたものの母集
考えられるものを,調査対象外として差し替え
団が丁度この枠母集団にあたる。したがってこ
るということについては,正しいと考えられてい
の場合も代替サンプルは必要無い。
る場合も多い。
しかし,目標母集団と枠母集団
4)
を明確化すると,誤りであることがわかる。
④の調査不能によるバイアスを小さくするため
という理由については,確かに,代替対象の調
NHK で実施する全国視聴率調査の目標母
査不能サンプルと代替サンプルの属性分布や回
集団は,
「調査実施時点での全国の 7 歳以上の
答分布がほとんど同じ場合には,調査不能のバ
国民」である
(年齢については調査年度 12月末
イアスは減少する。しかし,それを可能にするの
の年齢)。そして,枠母集団
(標本枠)は,
“抽
は,ランダムサンプリングの方法では無理である。
出時点の住民基本台帳
(閲覧台帳)に掲載され
なぜならば,代替サンプルは調査不能サンプル
ている人”である。
よりも有効サンプルに近いからである
(Kish2))
。
この枠母集団には,調査のときには
「死亡・
また,ランダムな代替サンプルを使用すること
転居」となる人が抽出時の住所に入っており,
は,ランダムな Hot-Deck imputation を行うこと
さらに,抽出直前に転居して転居先の台帳と
と近い
(Lessler ほか 5))
。ランダムな Hot-Deck
更新されていない転居前の台帳に二重に入っ
imputation とは,事後補正の一方法で,欠損値
ている人や,逆に転居先の台帳のほうが更新
に対して,同一サンプルの中にある回答をランダ
されていないためにどちらにも入っていない人も
ムに選んで代入する方法である。
いる。このような,目標母集団と枠母集団のず
れをカバレッジ誤差という。
いずれにせよ,代替サンプルによって,調査
不能によるバイアスを小さくすることは,今の
調査相手
(正規サンプル)は枠母集団から抽
段階では不可能と思われる。事後層化による
出される。
「死亡・転居」も枠母集団に含まれて
ウェイト補正や欠損値の代入法
(imputation)な
おり対象外と考えることはできない。したがっ
どとともに,検討される課題であろう。
て代替サンプルは必要ない。
“枠母集団を目標母集団に近づけるために代
替サンプルを使用する”
(カバレッジ誤差を小さ
4.調査実施管理における問題点
くする)ために代替サンプルは利用できるだろう
実際の調査において,代替サンプルを用いる
か。同時期に抽出した予備サンプルを代替サン
場合には,通常の実施手順に代替の手順が加
プルとして使用すると,この予備サンプルも同
わる。個人面接法や配付回収法などの調査で
じ枠母集団から抽出されているため,枠母集団
は,実際に作業に関わる調査実施管理者や調
と目標母集団の間を埋めるサンプルとはならな
査員などが間違いなく正確に代替を行うように
い。枠母集団と目標母集団の間を埋めるサンプ
する必要がある。たとえ代替サンプルという考
ルは,その時点で名簿に含まれない人の集団で
え方そのものに問題が無いとしても,代替サン
あるから,抽出は不可能に近い。
プルを使用すると,調査実施時の負担が増え,
なお,枠母集団を閲覧台帳から調査時の
「死
そのためのバイアスが発生するリスクがある。
DECEMBER 2007
51
個人面接法や配付回収法などの調査で代替
査員の調査意欲や行動に影響を及ぼすおそれが
サンプルを用いる場合には,次の3 つの作業手
ある。NHKの調査員説明会では,
「正しい調査
順が加わる。
結果を得るために重要なことは,調査相手の変
①代替サンプルを選ぶ
更をしないことと可能な限りなるべく多くの調査
②発生した調査不能に対して,代替サンプルを使
相手に答えてもらうことである」と調査員に徹底
用するかどうかの判断をする
③代替サンプルが正しく使用されたかどうかの
する。しかし,代替サンプルを使用するというこ
とは,調査相手を変更してもかまわない場合が
点検を行う
あるということになる。したがって,回収するの
代替サンプルの選び方としては,事前に用意
が難しそうな場合には,代替によって有効数を
しておく場合
(予備サンプル)と,調査時にある
増やせばいいと考え,正規の調査相手から何が
決められた基準のもとに代替サンプルを選ぶ場
何でも回収しようという意欲が薄れる可能性が
合がある。調査時に選ぶ場合には,同一年層
ある。
「死亡・転居」のときのみに予備サンプルを
から選ぶ場合,ランダムに選ぶ場合,同一世帯
使用するという指示の場合には,
「長期不在」や
から選ぶ場合などの方法が使用されていると考
わかりにくい対象者宅を徹底的に探さないで
「転
えられるが,厳密な選び方の作業手順を決め,
居」として代替サンプルを使用するなど,次第に
調査員にそのとおりに守らせる必要がある。
代替の対象が拡大していく可能性がある。その
代替サンプルを用いるかどうかの判断は,調
査員が行う場合と,調査員の報告に基づいて
ため,全体の有効数が増えても正規サンプルの
有効数は減少してしまう。
実施管理者が行う場合が考えられる。調査員
さらに,予備サンプルを使用するのではなく,
が判断する場合には,安易な用い方や調査し
調査員が現地で代替サンプルを選ぶ場合には,
やすい代替サンプルを用いる可能性が強くな
接触しやすい相手が選ばれることになる。20 代
る。実施管理者が判断する場合には,調査員
の男性の代わりに中高年の女性などが選ばれる
とのやり取りなど,処理が複雑化するおそれが
ようになり,同一の男女年層から選ぶ場合でも,
ある。また,判断時期も重要である。判断時
一人暮らしの会社員よりは家族と暮らしている学
期を早めに設定すると正規サンプルの完了率に
生や自営業者などのほうが選ばれやすくなる。
影響し,遅めに設定すると調査が長期化する
ため,調査のコスト増につながる。
調査の実施管理者が代替を判断する場合で
も,あとで代替サンプルが使用されることがわ
さらに,代替サンプルを用いた場合には,正
かっていると,代替サンプルで埋め合わせでき
しい理由で代替を行ったか,指示通りの代替サ
ると考え,同じように調査員の意欲が低下する
ンプルを使用したかなどの点検を,通常の調査
可能性がある。
票の点検に加えて行う必要がある。この手順が
こうした調査員に起因する問題を無くすため
加わることによって,作業期間が長くなる。その
には,調査員には代替を知らせずに,正規サ
ためのコストも増える。短期間で集計して発表し
ンプルと一緒に予備サンプルの調査を実施し,
なければならない調査には向かない。
代替分のみ予備サンプルで補完,残りの予備
次に,代替サンプルを用いることによって,調
52
DECEMBER 2007
サンプルは後で取り除くなどの方法が考えられ
るが,無駄なコストがかかることになる。
用いられたにせよ,文書化されなければなら
なお,代替によって正規サンプルからの回収
ない。第二に,代替サンプルの数と種類が報
意欲が低下するのは調査員だけとは限らない。
告されなければならない。これらは世帯間の
調査実施管理者が,正規サンプルの有効率より
も全体の有効数をあげることを目的に考えるよう
になる可能性もある。また,調査企画者にしても,
ひとたび代替サンプルを導入すると,当初は
「転
居・死亡」にのみ用いることにしていても,調査
を重ねるたびに
「場所不明」や
「長期不在」など
に拡大しようと考えるようになるかもしれない。
代替と世帯内での代替を区別し双方をカバー
すべきである。第三に,置き換えられたケー
スはすべて最終処理コードに計上されなけれ
ばならない。例えば,もしある世帯が拒否し,
最初の代替世帯の誰にも接触できず,2 番目
の代替世帯で面接が完了した場合は,ケース
の合計が 2 増え,3 つのケースが 1 つは
「拒否」,
1 つは
「誰も居ない」,1 つは
「有効」として記録
されるだろう。加えて,これらのケースは代替
5.代替サンプルの公表
社会調査や世論調査を実施したときに,調
査の質に関わる情報を明らかにすることは,調
査結果を報告するものの義務である。調査結
果の二次利用の可能性も念頭におき,調査概
要を示すべきである。日本では,代替サンプ
ルを使用していることを公表している調査は少
ない。しかし,代替サンプルの使用は,調査
サンプルに関する別の報告に記録されるべき
である。同様に,世帯内の代替サンプルでは,
代替の手続きや数を別に文書化するだけでな
く,除いたケースと追加したケースも報告しな
ければならないだろう。
調査相手を選ぶ手順を明確に定義して,厳密
に従わなければならない。こういった定義された
手順の変更は,代替サンプルを構成する可能性
が高いため,すべて文書化されるべきである。
の質に関わる重要な情報である。必ず,方法
や件数を含めて公表すべきである。
“Standard Definitions”の代替サンプルにつ
AAPOR( アメリカ世 論 調 査 協 会)は, 有
いての実践としては,
ISSP(国際社会調査グルー
効 サンプル の 品 質 表 示 の 標 準 化 を目指し
プ)の取り組みをあげることができる。ISSP の
6)
“Standard Defi nitions” を 作 成 し て い る。
運営規約では
「成人の国民を代表するランダム・
2006 年版の
“Standard Defi nitions”では,代
サンプル」と,サンプルに関する規定があるが,
替サンプルについて,どのようなルールが用い
実際には割当抽出法や,代替サンプルの使用な
られたにせよ,すべて文書化して報告しなけれ
ど非ランダムサンプリングで調査相手を抽出して
ばならないとしている。代替サンプルについて
いる国がある。ISSP では,
そのような方法や国々
の全体の記述は,以下のとおりである。
に対しての取り組みを具体的に進めている。
ま ず,2002 年 の 総 会 で, 方 法 論 委 員 会
代替サンプル
(Substitutions)
代替サンプルの使用はどのようなものについ
ても報告しなければならない。
第一に,どのような代替サンプルのルールが
(Methodology Committee)が,いくつかの国が
割当法や代替サンプルなどのサンプリング方法を
使用していることについて懸念を表明した。2003
年総会では,代替サンプルや割当抽出を用いて
DECEMBER 2007
53
いる国に対して,説明を求めるために協議を申し
らに,その結果は,東京大学の社会調査研究
出た。2004 年総会では,方法論委員会がその
所や ICPSR(Inter- university Consortium for
後代替サンプルについての研究を進めることを決
Political and Social Research)などのアーカイ
定。2006 年総会で代替サンプルに関するプロジェ
ブに登録されている。登録データの予備サンプ
クトを設け,代替サンプルの利点および欠点につ
ルには標識変数がつけられており,正規サンプ
いて,文献のレビューを行い,結果を報告するこ
ルのみ取り出して集計することも可能とのことだ。
とになり,2007年総会前に配付されている。
代替サンプルの公表は,調査企画者の義務と
そして,2007年 9月に, アーカイブに報 告
考えられるが,さらに公表によって代替サンプル使
する調査 の概要の記入書 式が 変更されてい
用についての議論が広がり,安易な使用を再考す
る。その中で,回収状況の報告は AAPOR の
るなどの効用も見込める。本稿についても,JGSS
“Standard Defi nitions”に従うようにとあり,
の公表内容からアイデアを得た部分が多い。
代替サンプルを使用した場合には,計画サンプ
ルに加え,代替のすべてのケースとその内訳を
6.シミュレーションによる検討
記入するようにと特記されている。なお,この
NHK が実施した
「日本人の意識 2003」調査 9)
記入書式は,2006 年以降の調査の報告から使
用することになっている7)。
データを使用して代替サンプルの検討を行う。
日本では,JGSS が,予備サンプルを使用し
調査地点 1 地点あたりの調査相手数は12人
た 2000 年∼ 2003 年の調査で,その詳細を公
である。各地点の調査相手番号 1 ∼ 4 の 4 件
8)
表している 。
を正規サンプル,以降を予備サンプルとして,3
2003 年度調査のコードブックの調査概要をみ
ると,
「対象者の抽出方法」については,
「各地点
種類の代替のケースについて基本属性や回答
を集計して検討する。
において,等間隔抽出法により,正規対象者
(12
また,ランダムサンプリングによる予備サンプル
∼ 15 名)を抽出した。…各地点において,正規
については,正規の有効サンプルと同じ特性を持
対象に続いて,予備対象を5 名ずつ抽出した」と
つと思われ,地域によるウェイト補正を行った場
あり,
「予備対象の使用」については,
「予備対
合と属性分布や回答分布が近くなるはずである。
象は,正規対象が
『拒否』
『一時不在』以外の理
同様に,男女年層の一致しているサンプルで代替
由で欠票になった場合に使用する。正規対象と
する場合の属性分布や回答分布は,抽出方法に
予備対象の年齢の対応はとらずに,予備対象は
もよるが,男女年層別にウェイト補正した結果に
名簿の上から順番に使用する。予備対象が
『拒
近くなるはずである。そのため,男女年層と地域
否』
『一時不在』以外の理由で欠票になったとき
のウェイト補正のケースを比較用として作成した。
には,さらに次の予備対象を使用する。予備対
さらに,サンプリング誤差の影響をみるため
象を使用する場合には,飛込みではなく,調査
に,正規サンプルの調査相手番号 5 ∼ 8 番目
員があらかじめ依頼状を郵送した上で訪問する」
と9 ∼ 12 番目のケースを比較用として作成した。
と詳細に記されている。予備についての回収状
況に関する件数も詳細に記されている
(表 1)
。さ
54
DECEMBER 2007
各ケースの概要は次のとおりである。
A
正規サンプルのみ(調査相手番号 1 ∼ 4)
B
「死亡・転居」について,正規サンプルと
ウェイトに使用した地域の区分は,層化に
同一地点の予備サンプルを抽出順に使用
使用した地方区分と都市規模 10)で分けた
して代替
74 層
C 「死亡・転居」について,同一地点の同一
男女年層の予備サンプルで代替
D
X
調査相手番号 5 ∼ 8
Y
調査相手番号 9 ∼ 12 男女年層の区分は,男女それぞれ「16 ∼ 39
表 2 でみるように,A は,全体の有効数が
歳」
「40 ∼ 59 歳」
「60 歳以上」の合計 6 層
1,119 件
(62.2%)で,
「転居」は 69 件
(3.8%),
「死
すべての調査不能について,予備サンプ
亡」は 5 件
(0.3%)である。X や Y と比較すると,
ルを抽出順に差し替え
Xの有効が若干少ないが,ほとんど変わらない。
Cw1 男女年層を正規サンプルの構成に合わせ
B,C,D の代替サンプルは,その正規サン
てウェイト補正
プルであるケース A よりも有効率は低い。
「死
男女年層の区分はCと同じ
亡」
「転居」は 69 地点 74 件である。
Cw2 男女年層のウェイト補正
B では,
78 件の予備サンプルを使用したが,
「有
ウェイトに使用した男女年層の区分は,男
効」は42 件
(53.8%)
しかない。代替の内訳は,3
女それぞれ「16 ∼ 19 歳」
「20 代」
「30 代」
件が 1地点,2 件が 7地点,1件が 61地点である。
「40 代 」「50 代 」
「60 代 」
「70 歳 以 上」
C では,61件の予備サンプル使用中
「有効」
の 14 区分
は 35 件
(57.4%)であった。代 替の内訳は,3
Dw 地域のウェイト補正
件が 1 地点,2 件が 2 地点,1件が 54 地点で,
表 2 正規サンプル(A)と各ケースの代替の回収状況と不能理由
不 能 理 由
全体
有効
(率)
不能
合計
場 所
1年以 10 日以 10 日未 深 夜
自 宅
転 居
外 出
不 明
上不在 上不在 満不在 帰 宅
療 養
拒 否 その他 死 亡
A
(正規)
1,800件
1,119
681
16
69
24
52
78
72
94
41
215
15
5
100.0%
62.2
37.8
0.9
3.8
1.3
2.9
4.3
4.0
5.2
2.3
11.9
0.8
0.3
B
(代替)
78件
42
36
0
4
1
2
9
4
2
0
12
2
0
100.0%
53.8
46.2
0.0
5.1
1.3
2.6
11.5
5.1
2.6
0.0
15.4
2.6
0.0
C
(代替)
61件
35
26
1
2
0
2
2
6
3
1
7
1
1
100.0%
57.4
42.6
1.6
3.3
0.0
3.3
3.3
9.8
4.9
1.6
11.5
1.6
1.6
D
(代替)
1,177件
651
526
16
51
15
27
68
69
81
23
167
8
1
100.0%
55.3
44.7
1.4
4.3
1.3
2.3
5.8
5.9
6.9
2.0
14.2
0.7
0.1
1,800件
1,088
712
19
77
31
42
91
86
89
29
230
13
5
100.0%
60.4
39.6
1.1
4.3
1.7
2.3
5.1
4.8
4.9
1.6
12.8
0.7
0.3
1,800件
1,112
688
24
64
37
44
103
80
78
32
209
12
5
100.0%
61.8
38.2
1.3
3.6
2.1
2.4
5.7
4.4
4.3
1.8
11.6
0.7
0.3
5,400件
3,319
2,081
59
210
92
138
272
238
261
102
654
40
15
100.0%
61.5
38.5
1.1
3.9
1.7
2.6
5.0
4.4
4.8
1.9
12.1
0.7
0.3
参考
Ⅹ
Y
日本人の意識
2003
調査全体
DECEMBER 2007
55
表 3 D の代替件数別調査地点数
代替件数
0件
1件
2件
3件
4件
5件
6件
7件
8件
計
地点数
70 地点
104
106
48
28
34
16
13
31
450 地点
代替サンプルの足りなかった地点が全部で13
年層)の分布に代替の効果があるかをみるため
地点 14 件あった。
に,A の計画サンプル全体と構成比を比較した
D については,全体で1,117件の予備サンプ
のが表 4 である。Aの有効サンプルよりもAの
ルを投入して,
「有効」は 651件
(55.3%)であっ
計画サンプルに近づけば代替による効果がある
た。正規サンプルを合わせると2,977件に対して
ことになる。
「有効」は1,770 件
(59.5%)である。予備サンプ
Aの有効サンプルについては,都市規模別では,
ルの使用数の内訳は表 3 のとおりで,代替なし
「政令指定都市」が小さく
「町村」が大きく,地方
(0 件)が 70 地点,8 件すべてを代替したのが
別では,
「関東」で小さく
「甲信越」で大きく,
「男
31 地点だった。不足が 30 件
(20 地点)で1,800
女年層 6区分」では,男女「16 ∼ 39 歳」で小さく
件に満たない。不足の内訳は 3 件 1 地点,2 件
女性の「40 ∼ 59 歳」
「60 歳以上」
で大きくなった。
8 地点,1件 11 地点である。
B・C は,代替数が少なかったため,Aの有
各ケースの基本属性
(都市規模,地方,男女
効サンプルとほとんど変わらない。
表 4 基本属性の構成比の比較
A(計画
サンプル)
全体
A
B
C
D
CW1
CW2
DW
X
X(計画 Y(計画
サンプル) サンプル)
Y
1800 人
1,119
1,161
1,154
1,170
1,119
1,121
1,115
1,088
1,122
1,800
1,800
22%
19
19
19
22
19
19
22
18
19
22
22
18%
18
18
18
18
18
18
18
18
18
18
18
20%
20
21
21
21
21
21
21
22
20
20
20
17%
17
18
17
17
17
17
17
17
18
17
17
22%
25
25
25
22
25
25
22
25
25
22
22
北海道
5%
4
4
4
5
4
4
5
4
4
5
5
東北
8%
8
7
8
8
8
8
8
8
8
8
8
関東
32%
30
30
30
31
30
30
32
29
31
32
32
政令指定都市
都 30 万以上の市
市
10 万以上の市
規
模 10 万未満の市
町村
甲信越
地
中部
方
近畿
4%
6
6
6
5
6
6
4
5
5
4
4
14%
15
15
14
14
15
15
14
16
15
14
14
16%
15
15
15
16
15
15
17
15
15
16
16
中国
6%
6
6
7
6
6
6
6
6
7
6
6
四国
3%
4
4
4
3
4
4
3
4
4
3
3
九州
12%
13
13
13
12
13
13
11
12
12
12
12
男 16 ∼ 39 歳
19%
15
15
15
15
19
19
15
16
16
20
20
男 40 ∼ 59 歳
16%
16
16
16
17
16
16
16
17
16
17
16
12%
13
13
13
14
12
12
13
15
14
13
12
19 17
17
17
16
19
19
17
16
17
18
19
17%
19
20
19
19
17
17
19
19
18
16
16
17%
20
20
20
19
17
17
20
18
20
15
17
男
女 男 60 歳以上
年 女 16 ∼ 39 歳
層
女 40 ∼ 59 歳
女 60 歳以上
* 網掛けは,小数点第 1 位の A(計画サンプル)との差が 2.0 以上の場合
56
参考
有効サンプル
DECEMBER 2007
A
A
A
D
X
C
Y
X
C
A
Dw
Cw2
Cw1
A
A
Dw
Cw2
Cw1
A
D
B
C
図 各ケースの回答の比較(「日本人の意識 2003」全質問選択肢)
A
Y
DECEMBER 2007
57
当然のことであるが,Cw1,Cw2 の
「男女年
られる。リストの順番によって調査員の訪問の
層」はAの計画サンプルと一致,D,Dw の
「都
順や時間帯や回数が偏る可能性があるからで
市規模」
「地方」はAの計画サンプルに近い。し
ある。同様に,実際の調査に代替を導入すると,
かし,Cw1,Cw2 の
「男女年層」がAの計画サ
シミュレーションでは発生しないバイアスが加
ンプルと一致しても
「都市規模」や
「地方」につ
わることを考慮すべきである。
いてはAの有効サンプルとほとんど変わらない。
同様に,D,Dw の
「都市規模」
「地方」がAの
計画サンプルに近くても,
「男女年層」は,ほと
んどAの有効サンプルと変わらない。すなわち,
7.おわりに
代替サンプルは,有効数が足りない,調査
これらのケースでは,ウェイトや代替による補
の有効率が低いと結果が信頼されないので何
正は,補正に使用した属性に関係する属性分布
とかして高めたい,調査の質を上げたいなど
以外には効果がなかったということになる。
の切実な理由から使用されているように思われ
また,A,X,Yの差が,AとB・Cの差より
る。しかし,シミュレーションでは重大な影響
も大きく,
「死亡・転居」の代替よりも,サンプル
はみられなかったものの,調査実施の際のバ
誤差による変動のほうが大きいことがわかる。
イアスのおそれもあり,代替によって調査の
日本人の意識調査の全質問の選択肢につい
質が低下する可能性のほうが強い。
て,各ケースの回答を相互比較してみると,図
有効数が少ない,調査有効率が低いから代
のとおりである。Aとの比較では基本属性と同
替を使用しようというのは,サンプリング誤差
じようにB,C については,ほとんどAと一致し
や調査不能による誤差でしか調査の質をみて
ている。D,Cw1,Cw2,Dw についても,そ
いないということである。カバレッジ誤差や調
れほど大きな違いは無い。かろうじて,地域差
査実施のときに発生する誤差などもあわせて
よりは男女年層差のほうが差のある回答が多い
みなければ,実際の質はわからない。
ためか,Cw1・ Cw2 と A の違いのほうが若干
調査の有効率を上げることは,調査の質を
大きい。個別に回答をみても,男女年層差のあ
高めるために重要なことであるが,そのこと
る項目で違いが大きい。全体的にみると,A,
にとらわれすぎると,他のバイアスが発生し
X,Y相互の差が,他のケースと A との差より
て,かえって質の低い調査になってしまうの
も大きい回答が多く,基本属性と同様に回答属
である 11)。世論調査には,調査相手の抽出,
性についても,サンプルの代替は,サンプルの
調査票の作成,調査の実施,調査票の点検,
誤差よりも小さい。
データ入力,集計など,多岐にわたる処理があ
代 替とウェイトの違いをみるために,Cと
り,それらに多くの人が関わる。抽出員や調査
Cw1・Cw2,D と Dw の差もみたが,Aとの比
員,それを管理する人,点検者やデータ入力
較とあまり変わらない結果となった。
者など各段階で関わってくるのである。そのす
なお,A,X,Yの間にある違いの中には,
べてが調査の質に関わっていると考えなくては
単純なサンプリング誤差だけではなく,調査相
いけない。最近では,調査の質をサンプリン
手のリストの順番による誤差などもあると考え
グ誤差や調査不能誤差だけではなく,カバレッ
58
DECEMBER 2007
ジ誤差や測定誤差,調査後に発生する誤差な
どもあわせて総合的に測る総調査誤差
(Total
Survey Error)という考え方が広まりつつある。
なお,当然のことながら,代替を使用するべ
きでない最も重要な理由は,ランダムサンプリ
ングでないため母集団の推定ができないという
本質的な理由であることも忘れてはならない。
(おのでら のりこ)
注:
1)英語で書かれたサンプリング等のテキストの中
には,代替サンプルについての記述の入ってい
2)
5)
るものがある(Kish ,Lessler )など。
2) Kish, Leslie(1965). Survey Sampling. New
York: John Wiley & Sons, 558-559.
この本の Substitutions for Nonresponse の章の
冒頭には,次のように書かれている。
“Although
substitution is often proposed naively as a
solution, it generally is of little help and may
actually make matters worse.”
日本に限らず,かなり昔から代替サンプルは安
易に提案されてきたと考えられる。
3)世論調査の調査相手(サンプル,標本)は,多
段抽出という方法によって選ばれる(抽出され
る)。NHK では 2 段抽出であるが,字・町丁目
をいくつかの単位にまとめ(第 1 次抽出単位),
その第 1 次抽出単位の中から調査地点を抽出
し,各調査地点から調査相手を抽出する。1 調
査地点あたりの調査相手数は最終的に調査相手
が等確率に抽出されるように決めるが,調査地
点を選ぶ確率との関係で,調査相手数が各調査
地点で異なる場合と同数の場合がある。通常の
NHKの調査では,1 地点あたりの調査相手数
は同数の 12 人である。
4) 目標母集団は調査の目的から要求される調査
したい相手の集まり,枠母集団は,調査相手を
抽出するための台帳に記載された人達のこと,
標本抽出枠はその台帳のことである。例えば,
NHK の全国視聴率調査の場合は,7 歳以上の
国民が目標母集団,住民基本台帳に記載された
人が枠母集団,選挙調査の場合は有権者が目標
母集団,選挙人名簿に記載された人が枠母集団
である。
5) Lessler, Judith T. and Kalsbeek, William D.
(1992). Nonsampling Error in Surveys. New York:
John Wiley & Sons, 175-177.
6) Standard Definitions については,以下の
AAPOR のホームページからダウンロードできる。
http://www.AAPOR.org/
7)Study Description に つ い て は, ド イ ツ の
GESIS のウェブサイトにある ISSP のページか
らダウンロードできる。http://www.gesis.org/
en/data_service/issp/rules/requirements.htm
なお,各年度の調査の代替サンプルの使用国な
どが,同じウェブサイトの Study Monitoring
の結果報告でみられる。Study Monitoring は,
調査実施方法について 1995 年調査から行って
いる調査で,代替サンプルについての質問もあ
る。現段階最新の 2003 年調査の報告をみると,
6 か国が代替サンプルを使用していた。
8)大阪商業大学比較地域研究所,東京大学社会科
学研究所編集『日本版 General Social Surveys
基 礎 集 計 表・ コ ー ド ブ ッ ク 』(JGSS-2000,
JGSS2001,JGSS2002,JGSS2003,
JGSS2000-2003 累積)
9)「日本人の意識調査」2003 の調査概要
調査期間
2003 年 6 月 28 日(土)∼ 29 日(日)
調査相手
全国 16 歳以上の国民 5,400 人
(450 地点×12 人)
調査方法
個人面接法 有効数(率)
3,319 人(61.5%)
10)地方区分:
「道南」
「道北」
「東北の太平洋側」
「東
北の日本海側」
「東京」
「南関東」
「北関東」
「甲信越」
「東海」
「北陸」
「近畿」
「山陽」
「山陰」
「四国」
「北
九州」
「中九州」
「南九州」
「沖縄」の 18 区分
都市規模:
「政令指定都市」
「30 万以上の市」
「10
万以上の市」
「10 万未満の市」
「町村」の 5 区分
11)Herbert F. Weisberg.(2005). The Total Survey
Error Approach. The University of Chicago
Press, 191-193.
この本では,高い有効率の調査のほうが必ずし
も正確な結果を導き出すとは限らないという研
究成果が紹介されている。
DECEMBER 2007
59
Fly UP