Comments
Description
Transcript
平行測定を任意回実施した場合の真値のベイズ推定
駒澤大学心理学論集,2009 ,第11号,9-16 原 2009, 11, 9-16 著 平行測定を任意回実施した場合の真値のベイズ推定 奥村 太一 Bayesian estimation of true scores by parallel measurement on arbitrary frequency Taichi OKUM URA (Department of Educational Psychology, The University of Tokyo / Japan Society for the Promotion of Science) ABSTRACT In this article, the author proposes the fully Bayesian (FB)estimation method of true scores using Gibbs sampler algorithm under the assumption of parallel measurement on arbitrary frequency. Two simulation studies say that FB estimation enables us to estimate true scores more precisely and effectively compared to well-known least squares estimation (LS;calculation of simple mean of the observations). Applications of the obtained true score estimates by the proposed method to data analyses are remained as future tasks. KEY WORDS:parallel measurement, true score, Bayesian estimation Novick,Jackson,& Thayer(1971)は,真値の 漸近的な事後モードと事後 散を 回の平行測定 古典的テスト理論(Lord & Novick, 1968)に (n-split technique)を行うという状況の下で導出 おいては,測定された素点を用いて統計解析を行 している。しかし,この方法はすべての被験者に う際には,測定において高い信頼性が維持されて ついて測定回数が同じでなくてはならないという いる必要性があることが強調される。測定の信頼 非常に強い制約を仮定している。 性が低い場合,素点を用いて統計解析を行うこと 本研究では,こうした制約を緩めて各被験者に は様々な問題を引き起こす可能性がある。 例えば, 任意回の平行測定を行って被験者の真値を数値的 相関の希薄化はもっともよく知られた現象の一つ 方法を用いてベイズ推定する方法を提案する。 である(Allen & Yen, 1979) 。 モデル 心理統計学者は,こうした問題について真値間 の関係を えることで対処しようとしてきた。例 を 番目( =1, ..., )の被験者の 番目( えば,Watanabe(1984)や Watanabe (1993)は, =1,..., ) の測定値とする。測定値 は,真値 折半法の下での真値間の単回帰の問題を えてい とランダムな誤差 とからなっているとする。 る。これらの研究では,真値間のある種の単純な また,ランダムな誤差 は独立に正規 布に従 関係がモデルに組み込まれた形で えられている うとする。すなわち, が,真値の推定に関しては議論されていない。し = + , 0,σ ⑴ かし,仮に真値の推定値が直接得られれば,単回 である。さて, 番目の被験者の真値 は,全体 帰にとどまらず一般的かつ複雑な統計解析にそれ 平 μとその個人の偏差 からなっている。偏 を利用することができると えられる。 差 は, 独立に正規 布に従うとする。 すなわち, 真値の推定に関しては,これまでにもいくつか =μ+ , 0,τ ⑵ の研究がある。Kelley (1947) は回帰 析的に真値 である。式⑴と式⑵から,モデルは1つの式で次 の推定値を得る方法を提案している。しかし,こ のようにあらわされる。 の方法を用いるには測定の信頼性が既知である必 μ,σ+τ ⑶ 要がある。そして現実的には測定の信頼性が既知 このモデルでは,同一被験者における測定は平行 で あ る よ う な 状 況 は ほ ぼ な い と いって い い。 であることが仮定されている。また,このモデル 問題と目的 9 は階層的線形モデルにおける一元配置 散 析モ デルに相当する(Raudebush & Bryk, 2002) 。 Step 3: 真値のベイズ推定 本節では,上記のモデルにおいて被験者の真値 のベイズ推定を行う方法を提示する。事前 布を 相互に独立であると仮定すると,ベイズの定理か ら母数の同時事後 布は以下のように表わされ る。 ,μ,σ,τ ∝ σ τ μ,τ ,σ ⑷ ただし, = , = ,および = である。 ベイズ推定を実行するには,すべての未知母数 について事前 布を設定する必要がある。ここで は, 散成 σ および τ については逆 χ 布 を,真値 については正規 布を仮定し,全体平 μは定数に比例するものとする。すなわち, σ∝σ exp − τ∝ τ exp − μ ∝const. 2σ 2τ 2 = ⑸ +∑ −μ μ,σ,τ, , ただし, =Λ + 1−Λ μ 1 = σ +τ τ Λ= τ+σ および = 1 ∑ とする。 Step 4: μ ,σ,τ, μ μ, ただし, ∑ Δ μ= ∑ Δ = ∑Δ ⑹ および ⑺ Δ=τ+ および σ とする。 1 1 exp − −μ ⑻ τ 2τ である。無情報事前 布を設定したい場合は, = = = =0とすればよい。本研究では,いず れのシミュレーションや数値例においても無情報 事前 布を設定することとする。 式⑷では,解析的に条件つき事後 布を得るこ とは可能であるが周辺事後 布を直接算出するの は 困 難 で あ る た め,こ こ で は Gibbs sampler (Gelfand & Smith, 1990)を用いることにする。 Gibbs sampler では,条件つき事後 布からの母 数値の標本抽出を条件づける母数の値を 新しな がら繰り返すことが必要になる。与えられた条件 の下で,条件つき事後 布は以下のように導かれ る。 Step 1: σ ,μ,τ, 1 + Γ = , σ 2 2 = ⑼ +∑ ∑ − Step 2: τ ,μ,σ, 1 + Γ = , τ 2 μ,τ ∝ 以上の4ステップを母数値を 新しながら繰り 返すことで,周辺事後 布からの母数値のサンプ ルを得ることができる。 シミュレーション1 心理学の研究で実施される質問紙やテストは, 測定誤差の影響を少なくするために複数の項目を 用意したり,あるいは,生理的指標について反復 測定を行い,その平 値を用いてその平 を用い て統計解析を行ったりすることが日常的に行われ ている。これは,式⑶で表したモデルにおいては 真値の最小2乗推定を行っていることに相当す る。 本節では,真値を上で示したベイズ推定で推定 した場合と,心理学の研究で現在一般的に行われ ている最小2乗法で推定した場合とで推定精度が どのように異なるのか,比較を行う。 100人の被験者が,ある心理特性を測る項目に 複数回回答することを求められたとする。データ 発生においては,測定の信頼性と測定回数を操作 10 した。Table 1において,データ発生において設定 した6つのデザインを示した。ここで,測定の信 頼性が τ σ+τ で定義されることに注意され たい。 各デザインについて,式⑵にもとづいて真値を 1セット発生させた。そののち,式⑴にもとづい て 100個のデータセットを Table 1に示した測定 回 数 発 生 さ せ,真 値 を 最 小 2 乗 推 定(least squares method; LS)と ベ イ ズ 推 定(fully Bayesian method; FB)の2つの方法で推定し た。後者については条件つき事後 布から母数値 を 1000セットサンプリングし,その平 をもって ベイズ推定値とした。また,事前 布としては無 情報事前 布を採用した。各デザインの被験者に ついて,推定された真値の平 ,標準偏差,平 2乗誤差(mean squared error; MSE)の3つを 計算した。 Figure 1に,真値とその推定値の平 をデザイ ンごとに示した。これを見ると,ベイズ推定は最 小2乗推定に比べて真値が極端に高かったり低 かったりする被験者においてバイアスが大きく, 推定値の不偏性という点では劣っていることが かる。特に,最小2乗推定値がいずれのデザイン においても不偏性を示しているのに対し,ベイズ 推定値は測定の信頼性が低い場合, 平 の方向 に縮約する傾向がある。 Figure 2に,真値とその推定値の標準偏差をデ ザインごとに示した。これを見ると,ベイズ推定 値は最小2乗推定値に比べて観測された値に左右 されにくく,安定していることがわかる。特に測 定の信頼性が低く測定回数も少ない場合は,最小 2乗指定値の標準偏差はベイズ推定値のそれに比 べて非常に大きくなっている。 Figure 3に,真値とその推定値の平 2乗誤差 をデザインごとに示した。ここから,2つの推定 値の性質をいくつか 察することができる。まず 第1に,ベイズ推定値は最小2乗推定値よりも全 体的に平 2乗誤差が小さい。特に,信頼性が低 く測定回数が少ない条件でこの特徴が顕著に表れ ている。第2に,平 2乗誤差は被験者の真値が 全体平 から離れているほど大きな値を取る傾向 にある。第3に,その傾向はベイズ推定において は信頼性が高く測定回数が多くなるほど顕著であ る。最小2乗推定ではどのデザインでも平 2乗 誤差の大きさに関して目立った変化は見られな い。ベイズ推定が最小2乗推定に比べて推定精度 の点で勝っているのに対し,不偏性の点で劣って いるというのは矛盾しているようにも思われる。 ここで,一般に母数 θに関する平 2乗誤差は, 以下のように 解される。ただし,θ は θの推定 値である。 θ−θ = θ− θ + θ −θ これを上記にあてはめて えると,ベイズ推定の 方が最小2乗推定に比べて推定値の標準偏差がか なり小さいことから,平 2乗誤差も小さくなる ものと えられる。 以上をまとめると,ベイズ推定は,特に信頼性 が低く測定回数が少ない条件の下で,不偏性とい う条件は満たしていなくとも,最小2乗推定に比 べて安定した,また精度の高い推定を行うことが できるということが明らかになった。 シミュレーション2 ここでは,前節で比較した2つの真値の推定法 (最小2乗推定とベイズ推定) について,被験者に よって測定回数が異なるというより一般的な場合 に真値の推定結果がどのようになるのかを比較検 討する。 真値が 10.00である被験者4人が任意の測定回 数で測定されるとする。Table 2に測定回数を操 作した 2つのデータ発生のためのデザインを示し Table 1: Designs for data generation (1) デザイン1A デザイン1B デザイン2A デザイン2B デザイン3A デザイン3B μ σ τ 信頼性 測定回数 10.00 10.00 10.00 10.00 10.00 10.00 4.00 4.00 1.00 1.00 0.25 0.25 1.00 1.00 1.00 1.00 1.00 1.00 0.20 0.20 0.50 0.50 0.80 0.80 2 8 2 8 2 8 11 Figure 1: Means of the true score estimates 12 Figure 2: SDs of the true score estimates 13 Figure 3: M SEs of the true score estimates 14 の項目について測定を行ったり被験者内反復測定 を行ったりして得られたデータについて単純平 をとって統計解析にかけることが多い。本研究で 行ったシミュレーションにより,ベイズ的手法を 用いた方が単純平 (最小2乗法)を用いた場合 に比べて全体的に,また測定回数が少なかった被 験者についても高い精度で真値を推定できること が示された。 これら一連の結果は,先行研究で検討されてき た真値間の単回帰 析のような単純な統計解析法 から,さらに一般的・複雑な統計 析に真値を用 いることの可能性および有用性を示唆している。 こうした複雑なデータ解析に実際に本研究で提案 した方法で推定された真値の推定値を用いること が単純平 を用いた場合に比べてどのような違い をもたらすのかについては,今後検討していく必 要がある。また,平行測定はテスト理論の中でも 最も制約の厳しいモデルであり,現実的にこれが 満 た さ れ て い る と は え に く い。今 後 は, (1999)で提案されているようなより制 McDonald 約の緩いモデルについても検討していくことが望 まれる。 Table 2: Designs for data generation (2) 測定回数/被験者 1 2 3 4 デザイン1 デザイン2 1 1 1 1 2 4 2 4 た。それぞれのデザインについて, =10.00,σ= 1.00として式⑴にもとづいて 1,000個のデータ セットを発生させた。それぞれのデータセットに ついて,最小2乗推定とベイズ推定で真値を推定 した。ベイズ推定においては,1,000個の母数値を 事後 布から発生させ,事後平 をもって真値の ベイズ推定値とした。 Table 3: Mean squared errors 被験者 1 2 3 4 デザイン1 FB LS 0.534 0.973 0.583 1.043 0.324 0.465 0.351 0.517 デザイン2 FB LS 0.444 1.109 0.428 0.984 0.170 0.236 0.185 0.255 Table 3に,それぞれの推定法における真値の 推定値の平 2乗誤差を示した。シミュレーショ ン1と同じく,いずれのデザインにおいてもベイ ズ推定の方が最小2乗推定よりも小さい平 2乗 誤差を示している。また,デザイン1とデザイン 2を比較すると,1回しか測定を行っていない被 験者の真値のベイズ推定値の平 2乗誤差が,他 の被験者の測定回数を増やしただけで大幅に減少 していることに注目する必要がある。こうした現 象は最小2乗推定では見られず,ベイズ推定法が 特定の被験者の真値の推定にデータ全体の情報を っていることの証左となっていると えられ る。 参 文献 Allen, M .J., & Yen, W. M. (1979). Introduction to measurement theory. Long Grove, IL: Waveland Press. Gelfand, A.E.,& Smith,A.F.M.(1990).Samplingbased approaches to calculating marginal densities.Journal of the American Statistical Association. 85, 398-409. Kelley, T. L. (1947). Fundamentals of statistics. Cambridge, MA:Harvard University. M cDonald, R. P. (1999). Test theory: A unified approach. Erlbaum. Lord, F. M., & Novick, M . R. (1968). Statistical theories of mental test scores, with contributions by Alan Birnbaum. Reading, MA: AddisonWesley. Novick,M.R.,Jackson,P.H.,Thayer,D.T.(1971). Bayesian inference and the classical test theory model:Reliability and true scores.Psychometrika, 36, 261-288. Raudenbush, S. W.,& Bryk,A.S.(2002).Hierarchical linear models: Applications and data analysis methods. Thousand Oaks, Sage. Watanabe, H. (1984). Regression between true まとめ 本研究では,平行測定を被験者ごとに任意回実 施した場合の統計モデルを立て,数値的手法を用 いて真値のベイズ推定を行う方法を示した。1つ 目のシミュレーションから,真値のベイズ推定値 は最小2乗推定値よりも平 2乗誤差が小さいこ とが かった。2つ目のシミュレーションの結果 は,ベイズ推定法が最小2情報と異なりデータ全 体の情報を用いて真値の推定を行っていることが 示唆された。 心理学の研究では,同じ特性を測っている複数 15 scores. Japanese Psychological Research, 26, 154-158. Watanabe, H. (1993). Bayesian regression between true scores for pretest and posttest analysis. Behaviormetrika, 20, 49-62. 16