平行測定を任意回実施した場合の真値のベイズ推定

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 平行測定を任意回実施した場合の真値のベイズ推定

Transcript

平行測定を任意回実施した場合の真値のベイズ推定

駒澤大学心理学論集，2009 ，第11号，9-16
原
2009, 11, 9-16
著
平行測定を任意回実施した場合の真値のベイズ推定
奥村太一
Bayesian estimation of true scores by parallel measurement on arbitrary frequency
Taichi OKUM URA (Department of Educational Psychology, The University of Tokyo / Japan Society for the
Promotion of Science)
ABSTRACT
In this article, the author proposes the fully Bayesian (FB)estimation method of true scores using Gibbs
sampler algorithm under the assumption of parallel measurement on arbitrary frequency. Two simulation
studies say that FB estimation enables us to estimate true scores more precisely and effectively compared
to well-known least squares estimation (LS;calculation of simple mean of the observations). Applications
of the obtained true score estimates by the proposed method to data analyses are remained as future tasks.
KEY WORDS:parallel measurement, true score, Bayesian estimation
Novick,Jackson,& Thayer（1971）は，真値の
漸近的な事後モードと事後散を回の平行測定
古典的テスト理論（Lord & Novick, 1968）に（n-split technique）を行うという状況の下で導出
おいては，測定された素点を用いて統計解析を行
している。しかし，この方法はすべての被験者に
う際には，測定において高い信頼性が維持されて
ついて測定回数が同じでなくてはならないという
いる必要性があることが強調される。測定の信頼
非常に強い制約を仮定している。
性が低い場合，素点を用いて統計解析を行うこと
本研究では，こうした制約を緩めて各被験者に
は様々な問題を引き起こす可能性がある。
例えば，任意回の平行測定を行って被験者の真値を数値的
相関の希薄化はもっともよく知られた現象の一つ
方法を用いてベイズ推定する方法を提案する。
である（Allen & Yen, 1979）
。
モデル
心理統計学者は，こうした問題について真値間
の関係をえることで対処しようとしてきた。例
を番目（＝1，
...，）の被験者の番目（
えば，Watanabe（1984）や Watanabe
（1993）は，＝1，...，）
の測定値とする。測定値
は，真値
折半法の下での真値間の単回帰の問題をえてい
とランダムな誤差
とからなっているとする。
る。これらの研究では，真値間のある種の単純な
また，ランダムな誤差
は独立に正規布に従
関係がモデルに組み込まれた形でえられている
うとする。すなわち，
が，真値の推定に関しては議論されていない。し
＝＋，
0，σ
⑴
かし，仮に真値の推定値が直接得られれば，単回
である。さて，番目の被験者の真値は，全体
帰にとどまらず一般的かつ複雑な統計解析にそれ
平 μとその個人の偏差からなっている。偏
を利用することができるとえられる。
差は，
独立に正規布に従うとする。
すなわち，
真値の推定に関しては，これまでにもいくつか
＝μ＋，
0，τ
⑵
の研究がある。Kelley
（1947）
は回帰析的に真値
である。式⑴と式⑵から，モデルは１つの式で次
の推定値を得る方法を提案している。しかし，こ
のようにあらわされる。
の方法を用いるには測定の信頼性が既知である必
μ，σ＋τ
⑶
要がある。そして現実的には測定の信頼性が既知
このモデルでは，同一被験者における測定は平行
であるような状況はほぼないといっていい。
であることが仮定されている。また，このモデル
問題と目的
9
は階層的線形モデルにおける一元配置散析モ
デルに相当する（Raudebush & Bryk, 2002）
。
Step ３：
真値のベイズ推定
本節では，上記のモデルにおいて被験者の真値
のベイズ推定を行う方法を提示する。事前布を
相互に独立であると仮定すると，ベイズの定理か
ら母数の同時事後布は以下のように表わされ
る。
，μ，σ，τ ∝ σ τ
μ，τ
，σ ⑷
ただし，＝，＝
，および＝
である。
ベイズ推定を実行するには，すべての未知母数
について事前布を設定する必要がある。ここで
は，散成 σ および τ については逆 χ 布
を，真値については正規布を仮定し，全体平
μは定数に比例するものとする。すなわち，
σ∝σ
exp −
τ∝ τ
exp −
μ ∝const.
2σ
2τ
2
＝
⑸
＋∑
−μ
μ，σ，τ，
，
ただし，
＝Λ
＋ 1−Λ μ
1
＝
σ
＋τ
τ
Λ＝
τ＋σ
および
＝
1
∑
とする。
Step 4： μ ，σ，τ，
μ
μ，
ただし，
∑ Δ
μ＝
∑ Δ
＝ ∑Δ
⑹
および
⑺
Δ＝τ＋
および
σ
とする。
1
1
exp −
−μ
⑻
τ
2τ
である。無情報事前布を設定したい場合は，
＝＝＝＝0とすればよい。本研究では，いず
れのシミュレーションや数値例においても無情報
事前布を設定することとする。
式⑷では，解析的に条件つき事後布を得るこ
とは可能であるが周辺事後布を直接算出するの
は困難であるため，ここでは Gibbs sampler
（Gelfand & Smith, 1990）を用いることにする。
Gibbs sampler では，条件つき事後布からの母
数値の標本抽出を条件づける母数の値を新しな
がら繰り返すことが必要になる。与えられた条件
の下で，条件つき事後布は以下のように導かれ
る。
Step 1： σ ，μ，τ，
1
＋
Γ ＝
，
σ
2
2
＝
⑼
＋∑ ∑
−
Step 2： τ ，μ，σ，
1
＋
Γ ＝
，
τ
2
μ，τ ∝
以上の４ステップを母数値を新しながら繰り
返すことで，周辺事後布からの母数値のサンプ
ルを得ることができる。
シミュレーション１
心理学の研究で実施される質問紙やテストは，
測定誤差の影響を少なくするために複数の項目を
用意したり，あるいは，生理的指標について反復
測定を行い，その平値を用いてその平を用い
て統計解析を行ったりすることが日常的に行われ
ている。これは，式⑶で表したモデルにおいては
真値の最小２乗推定を行っていることに相当す
る。
本節では，真値を上で示したベイズ推定で推定
した場合と，心理学の研究で現在一般的に行われ
ている最小２乗法で推定した場合とで推定精度が
どのように異なるのか，比較を行う。
100人の被験者が，ある心理特性を測る項目に
複数回回答することを求められたとする。データ
発生においては，測定の信頼性と測定回数を操作
10
した。Table 1において，データ発生において設定
した６つのデザインを示した。ここで，測定の信
頼性が τ σ＋τ で定義されることに注意され
たい。
各デザインについて，式⑵にもとづいて真値を
１セット発生させた。そののち，式⑴にもとづい
て 100個のデータセットを Table 1に示した測定
回数発生させ，真値を最小２乗推定（least
squares method; LS）とベイズ推定（fully
Bayesian method; FB）の２つの方法で推定し
た。後者については条件つき事後布から母数値
を 1000セットサンプリングし，その平をもって
ベイズ推定値とした。また，事前布としては無
情報事前布を採用した。各デザインの被験者に
ついて，推定された真値の平，標準偏差，平
２乗誤差（mean squared error; MSE）の３つを
計算した。
Figure 1に，真値とその推定値の平をデザイ
ンごとに示した。これを見ると，ベイズ推定は最
小２乗推定に比べて真値が極端に高かったり低
かったりする被験者においてバイアスが大きく，
推定値の不偏性という点では劣っていることが
かる。特に，最小２乗推定値がいずれのデザイン
においても不偏性を示しているのに対し，ベイズ
推定値は測定の信頼性が低い場合，平の方向
に縮約する傾向がある。
Figure 2に，真値とその推定値の標準偏差をデ
ザインごとに示した。これを見ると，ベイズ推定
値は最小２乗推定値に比べて観測された値に左右
されにくく，安定していることがわかる。特に測
定の信頼性が低く測定回数も少ない場合は，最小
2乗指定値の標準偏差はベイズ推定値のそれに比
べて非常に大きくなっている。
Figure 3に，真値とその推定値の平２乗誤差
をデザインごとに示した。ここから，２つの推定
値の性質をいくつか察することができる。まず
第１に，ベイズ推定値は最小２乗推定値よりも全
体的に平２乗誤差が小さい。特に，信頼性が低
く測定回数が少ない条件でこの特徴が顕著に表れ
ている。第２に，平２乗誤差は被験者の真値が
全体平から離れているほど大きな値を取る傾向
にある。第３に，その傾向はベイズ推定において
は信頼性が高く測定回数が多くなるほど顕著であ
る。最小２乗推定ではどのデザインでも平２乗
誤差の大きさに関して目立った変化は見られな
い。ベイズ推定が最小２乗推定に比べて推定精度
の点で勝っているのに対し，不偏性の点で劣って
いるというのは矛盾しているようにも思われる。
ここで，一般に母数 θに関する平２乗誤差は，
以下のように解される。ただし，θ は θの推定
値である。
θ−θ ＝
θ− θ
＋
θ −θ
これを上記にあてはめてえると，ベイズ推定の
方が最小２乗推定に比べて推定値の標準偏差がか
なり小さいことから，平２乗誤差も小さくなる
ものとえられる。
以上をまとめると，ベイズ推定は，特に信頼性
が低く測定回数が少ない条件の下で，不偏性とい
う条件は満たしていなくとも，最小２乗推定に比
べて安定した，また精度の高い推定を行うことが
できるということが明らかになった。
シミュレーション２
ここでは，前節で比較した２つの真値の推定法
（最小２乗推定とベイズ推定）
について，被験者に
よって測定回数が異なるというより一般的な場合
に真値の推定結果がどのようになるのかを比較検
討する。
真値が 10.00である被験者４人が任意の測定回
数で測定されるとする。Table 2に測定回数を操
作した 2つのデータ発生のためのデザインを示し
Table 1: Designs for data generation (1)
デザイン１Ａ
デザイン１Ｂ
デザイン２Ａ
デザイン２Ｂ
デザイン３Ａ
デザイン３Ｂ
μ
σ
τ
信頼性
測定回数
10.00
10.00
10.00
10.00
10.00
10.00
4.00
4.00
1.00
1.00
0.25
0.25
1.00
1.00
1.00
1.00
1.00
1.00
0.20
0.20
0.50
0.50
0.80
0.80
2
8
2
8
2
8
11
Figure 1: Means of the true score estimates
12
Figure 2: SDs of the true score estimates
13
Figure 3: M SEs of the true score estimates
14
の項目について測定を行ったり被験者内反復測定
を行ったりして得られたデータについて単純平
をとって統計解析にかけることが多い。本研究で
行ったシミュレーションにより，ベイズ的手法を
用いた方が単純平（最小２乗法）を用いた場合
に比べて全体的に，また測定回数が少なかった被
験者についても高い精度で真値を推定できること
が示された。
これら一連の結果は，先行研究で検討されてき
た真値間の単回帰析のような単純な統計解析法
から，さらに一般的・複雑な統計析に真値を用
いることの可能性および有用性を示唆している。
こうした複雑なデータ解析に実際に本研究で提案
した方法で推定された真値の推定値を用いること
が単純平を用いた場合に比べてどのような違い
をもたらすのかについては，今後検討していく必
要がある。また，平行測定はテスト理論の中でも
最も制約の厳しいモデルであり，現実的にこれが
満たされているとはえにくい。今後は，
（1999）で提案されているようなより制
McDonald
約の緩いモデルについても検討していくことが望
まれる。
Table 2: Designs for data generation (2)
測定回数／被験者
1
2
3
4
デザイン１
デザイン２
1
1
1
1
2
4
2
4
た。それぞれのデザインについて，＝10.00，σ＝
1.00として式⑴にもとづいて 1,000個のデータ
セットを発生させた。それぞれのデータセットに
ついて，最小２乗推定とベイズ推定で真値を推定
した。ベイズ推定においては，1,000個の母数値を
事後布から発生させ，事後平をもって真値の
ベイズ推定値とした。
Table 3: Mean squared errors
被験者
1
2
3
4
デザイン１ FB
LS
0.534
0.973
0.583
1.043
0.324
0.465
0.351
0.517
デザイン２ FB
LS
0.444
1.109
0.428
0.984
0.170
0.236
0.185
0.255
Table 3に，それぞれの推定法における真値の
推定値の平２乗誤差を示した。シミュレーショ
ン１と同じく，いずれのデザインにおいてもベイ
ズ推定の方が最小２乗推定よりも小さい平２乗
誤差を示している。また，デザイン１とデザイン
２を比較すると，１回しか測定を行っていない被
験者の真値のベイズ推定値の平２乗誤差が，他
の被験者の測定回数を増やしただけで大幅に減少
していることに注目する必要がある。こうした現
象は最小２乗推定では見られず，ベイズ推定法が
特定の被験者の真値の推定にデータ全体の情報を
っていることの証左となっているとえられ
る。
参
文献
Allen, M .J., & Yen, W. M. (1979). Introduction to
measurement theory. Long Grove, IL: Waveland
Press.
Gelfand, A.E.,& Smith,A.F.M.(1990).Samplingbased approaches to calculating marginal densities.Journal of the American Statistical Association. 85, 398-409.
Kelley, T. L. (1947). Fundamentals of statistics.
Cambridge, MA:Harvard University.
M cDonald, R. P. (1999). Test theory: A unified
approach. Erlbaum.
Lord, F. M., & Novick, M . R. (1968). Statistical
theories of mental test scores, with contributions
by Alan Birnbaum. Reading, MA: AddisonWesley.
Novick,M.R.,Jackson,P.H.,Thayer,D.T.(1971).
Bayesian inference and the classical test theory
model:Reliability and true scores.Psychometrika,
36, 261-288.
Raudenbush, S. W.,& Bryk,A.S.(2002).Hierarchical linear models: Applications and data analysis
methods. Thousand Oaks, Sage.
Watanabe, H. (1984). Regression between true
まとめ
本研究では，平行測定を被験者ごとに任意回実
施した場合の統計モデルを立て，数値的手法を用
いて真値のベイズ推定を行う方法を示した。１つ
目のシミュレーションから，真値のベイズ推定値
は最小２乗推定値よりも平２乗誤差が小さいこ
とがかった。２つ目のシミュレーションの結果
は，ベイズ推定法が最小２情報と異なりデータ全
体の情報を用いて真値の推定を行っていることが
示唆された。
心理学の研究では，同じ特性を測っている複数
15
scores. Japanese Psychological Research, 26,
154-158.
Watanabe, H. (1993). Bayesian regression between
true scores for pretest and posttest analysis.
Behaviormetrika, 20, 49-62.
16