...

より適切なテスト得点の 解釈と使用を目指して: 妥当性と妥当

by user

on
Category: Documents
2

views

Report

Comments

Transcript

より適切なテスト得点の 解釈と使用を目指して: 妥当性と妥当
より適切なテスト得点の
解釈と使用を目指して:
妥当性と妥当性検証法
小泉利恵 (常磐大学)
[email protected]
JACET関東支部月例研究会
2007年4月21日 (土) JACET事務所にて
1
言語テスティング研究とは:目的

Bachman (1990,
(1990 p.
p 13):



(1) 言語テストを用いた解釈と使用が妥当で
あり、有用であるかどうかを確かめること
(2) 言語テストでのパフォーマンスの理論を作
り、検証すること ((言語能力とは何か?能力
以外の何にパフォーマンスは影響されるか?)
(3) 言語テストで見られるパフォーマンスと、
実世界での言語使用の関連を調べること
2
1
発表の概要







妥当性とは
妥当性の捉え方の変遷
Messick (1996) の妥当性の要素の枠組み
Kane (2006) の論証に基づくアプローチ
Bachman (2005) の論証法
各妥当性検証法の特徴
まとめ
3
妥当性とは




一般には:テストが測ろうと意図した能力
般には:テストが測ろうと意図した能力 (構成概念) を
測っている度合い (e.g., Henning, 1987)
厳密には:テスト得点に基づいた解釈と使用の適切さが、
実証的証拠と理論的根拠によって裏づけられる程度
または、その程度を統合的に評価した判断
(Messick, 1989)
言語テストを作り、使用する際に最も重要 (e.g., Bachman,
1990)
テスト作成・使用において常に検証すべき (e.g., Chapelle,
1999)
4
2
本発表で使用する例


発表語彙知識の広さテスト (Koizumi,
(Koizumi 2005a,
2005a 2005b)
 発表語彙知識:話す・書く際に使う語彙知識
 広さ:中核的な意味を知っている語の多さ
 対象:中学3年生~高校3年生 913人
 研究への使用、クラスの配置 (placement) を決める際
に使用 (仮想)
問題の例
 (
) 内に、日本語にあたる英単語を1語書いてくださ
い。はじめの文字は書いてあります。
53. ~に食べ物・えさを与える (f
)
 答:feed (平均的な難易度の問題)
5
妥当性の捉え方の変遷①
(Kane, 2006に基づく)


基準関連 (criterion-related)
(criterion related) 妥当性
妥当なテスト:外部基準 (criterion) との相関が
高いテスト



併存的 (concurrent) 妥当性
予測的 (predictive) 妥当性
問題点:適切な外部基準を見つけることが難しい。
問題点
適切な外部基準を見つけることが難しい
妥当な外部基準を探そうとすると、別な妥当な外
部基準を探す必要が出てくる
6
3
妥当性の捉え方の変遷②



内容妥当性 (content validity)
妥当なテスト:意図した領域と関連し、代表
的な能力を対象にし、代表的なタスクを用
いるテスト
問題点:主観的になりがち。妥当性を認め
る方向へのバイアス (confirmatory bias)
がかかる傾向がある
7
妥当性の捉え方の変遷③





構成概念妥当性 (construct validity)
 Cronbach & Meehl (1955) が提唱
妥当なテスト:測りたい能力を測っているテスト
理論から予測を立て、それを実証的に検証する
「基準関連妥当性と内容妥当性が見られない時
に見る妥当性」
→ 「妥当性の中での中心的な位置づけ」
 内容・基準関連的証拠、信頼性を含む
 Weir (2005):scoring validity
8
4
妥当性の捉え方の変遷④
構成概念妥当性 (続き)
「妥当性には3種類ある (trinitarian
view)」
→「妥当性は単一の概念」
「 3つの関係は考えず、1つの妥当性を見
ればいい」
ば
→「複数の妥当性の証拠を示すべき」
意図した解釈と使用を明示し、評価するこ
とが必要






9
妥当性概念の歴史的変遷
1950‘s (村山,
1955
2006, p. 5)
1980‘s
1959
1989
Cronbach
Campbell
& Meehl
& Fiske
収束的
構成概念 妥当性
妥当性
基準連関
妥当性
弁別的
妥当性
Trinitarian
View
Messick
構成概念
妥当性
内容的
妥当性
操作主義 論理実証主義 反証主義
実用論
10
5
妥当性の捉え方の変遷⑤








Messick (1989)
妥当性の概念をまとめた
価値・社会的な影響の側面も妥当性に含めた
妥当性の種類ではなく、妥当性の証拠・妥当性の要素
妥当性は、all or nothingではなく、程度問題
テストの妥当性 (テストの属性) ではなく、解釈・使用の
妥当性
妥当性検証は、テスト作成から使用を止めるまで続けて
いく必要がある
包括的に妥当性の要素を見ることが重要
11
Messick (1996) の妥当性の要
素の枠組み
(1) 内容的要素 (content aspect)
テストの内容と測定領域の内容が一致しているか
容 測定領域
容
致
(2) 構造的要素 (structural aspect)
仮定された構成概念の構造と、データの構造が一致するか
(3) 実質的要素 (substantive aspect)
理論的に予測されるプロセスが、実際のテスト中に見られるか
(4) 一般化可能性的要素 (generalizability aspect)
時間 グ
時間・グループ・受験状況・タスク・評価者の変化などにより、テストのプロセ
プ 受験状況 タ ク 評価者 変化などにより
ト プ セ
スと構造が変化するか
(5) 外的要素 (external aspect)
テスト得点とテストの別のテスト・変数との関係はどうか
(6) 影響的要素 (consequential aspect)
テスト得点を解釈・使用する際に社会的な影響があるか
12
6
Messick (1996) の妥当性の要素の枠組み
(1) 内容的要素 (content aspect)


テストの内容と測定領域の内容が 致しているかの検証
テストの内容と測定領域の内容が一致しているかの検証
 構成概念の定義が明確か
 構成概念とテスト項目・タスクが一致しているか
 内容が関連しているか、内容に代表性があるか
 技術的質が保たれているか (例:指示が明確か、適切
な難易度か)
分析手法の例:Bachman  Eignor (1997),
(1997) Banerjee &
Luoma (1997), Chapelle (1999), Hayes & Read (2004),
Messick (1989, 1996), Shohamy (2001), Watanabe (2004)
を基に作成
 タスク・カリキュラムの分析、専門家の判断、
 分析的枠組みの使用
13
Messick (1996) の妥当性の要素の枠組み
(2) 構造的要素 (structural aspect)


テストの内的構造 (タスク
(タスク・項目・設問間の関係)
項目 設問間の関係) の検証
 得点尺度や採点法・採点基準やテストの内的構造と、
構成概念の内的構造が一致しているか
 データの次元が、仮定された構成概念の次元と一致
(適合) するか
 技術的質が保たれているか (例:指示が明確か、適切
な難易度か)
分析手法の例
 項目応答理論、信頼性、因子分析、
 構造方程式モデリング
14
7
Messick (1996) の妥当性の要素の枠組み
(3) 実質的要素 (substantive aspect)


受験者が項目・タスクにどう反応しているかの検
証
 理論的に予測されるプロセスが実際のテスト
中に見られるか
 専門家でない人にとって、テストが意図した構
成概念を測っているように思えるか (Fulcher,
1999に基づき、ここに位置づけた)
づ
づ
分析手法の例
 観察・質問紙・面接・プロトコル分析による質
的分析、受験者が用いる方略・言語の報告、
 談話分析
15
Messick (1996) の妥当性の要素の枠組み
(4) 一般化可能性的要素 (generalizability
aspect)


時間・グル プ・受験状況・タスク・評価者の変化
時間・グループ・受験状況・タスク・評価者の変化
などにより、テストのプロセスと構造が変化する
かの検証
 得られた得点の解釈が、構成概念の領域に
一般化できるか
分析手法の例
 信頼性、一般化可能性理論、
 差異的項目機能 (DIF)
16
8
Messick (1996) の妥当性の要素の枠組み
(5) 外的要素 (external aspect)


テスト得点とテストの外的構造 (他の測定結果・
背景的変数) の関係の検証
 構成概念によって、相関の外的パターンを合
理的に説明できるか
 外的基準との関係 (関係のなさ) が得点の意
味と一致するか
分析手法の例
 相関、多特性・多方法の方法、因子分析、
 構造方程式モデリング
17
Messick (1996) の妥当性の要素の枠組み
(6) 影響的要素 (consequential aspect)


テスト得点を解釈・使用する際の社会的な影響の検証
 得点を解釈・使用する際に、意図した影響と意図しな
かった影響が短期的・長期的にあるか
分析手法の例
 教室での観察・インタビュー ・質問紙などの質的方法、
新聞などのメディアに現れる市民の意見を探す、対象
テストの記述、
ト 記述
 介入前と介入後のテスト得点の比較、
 指導用教材や記録の分析
18
9
Messickに基づいた妥当性検証①

Chapelle
Ch
ll (1999) :
 妥当性検証の3段階のステップ
 ①仮説を作る
 ②仮説を検証するための関連した証
拠を提示する
 ③証拠と理由づけを提示・統合するよ
うな妥当性に関する論証を行う
19
Messickに基づいた妥当性検証②

妥当性検証の原則



(1) 妥当性を調べる前に、意図した解釈を明
示すること
(2) 1回調べるだけでは不十分。分析を拡張し
て行うことが必要
(3) 意図した解釈に疑問を呈し、別な解釈も
考慮しながら行う
20
10
Pair work

Messickの枠組みを使った妥当性検証
M
i kの枠組みを使った妥当性検証
どんな仮説を立て、どんな分析法を使って
妥当性が検証できるでしょうか。

発表語彙知識の広さテストの得点の



(1) 解釈:テストは発表語彙知識を測ると解釈
(2) 使用:クラスの配置の決定のために使用
21
Messickに基づいた妥当性検証③

Koizumi (2005a, 2005b) の例
(1) 内容的要素 (content aspect)
仮説1:テストの内容と測定領域の内容が一致している
→専門家の判断を使用。支持
(2) 構造的要素 (structural aspect)
仮説2:テストは、1次元性を示す
→①項目応答理論のミスフィット項目が多いかの観点と、
②因子分析を使用。支持
仮説3:テストは、個人で見た場合、頻度がより高いレベルが難しい
仮説3:テストは
個人で見た場合 頻度がより高いレベルが難しい
→「Level 1の正答数が最も多く、Level 3が最も少ない
例:Level 1で15問正解>Level 2で8問正解>Level 3で3問正解ならば
仮説が満たされる。
→この仮説に一致した受験者は多かった
22
11
Messickに基づいた妥当性検証④
(3) 実質
実質的要素
要 (substantive aspect)
p
仮説4:「このテストは英語の単語力を見ていると思いますか?」と聞い
たとき、受験者のテストに対する反応は肯定的である
→アンケートを使用。支持
仮説5:テストで、知識として「ない」と判定された語が、実
際の話すパフォーマンスで使われ「ない」
→テストでの回答とスピーキングテストでの回答を比較。
ほぼ支持
(4) 一般化可能性的要素 (generalizability aspect)
仮説6:テストの信頼性は高い →支持
23
Messickに基づいた妥当性検証⑤
(5) 外的要素 (external aspect)
仮説7:英検取得級が上がると、本テスト得点は高くなる
(2級>準2級>3級>4級>5級)
→ 一部支持
仮説8:(語彙知識はコミュニケーション能力の一部であり、2つの関係はある
程度あると考えられるため、) 本研究での広さ・深さテストと「コミュニケーショ
ン能力を測る」CASECの総合得点は中程度以上の相関がある
→支持
仮説9:「語彙知識を測る」セクション1は、他の要素を測るセクション2と3より、
本研究での広さ・深さテストとの相関は高い
→相関係数で見ると一部仮説を支持。信頼区間を考慮すると全て支持され
ず
仮説10:(テスト方法が近いため、) セクション4はセクション2と3より、本研究
での広さ・深さテストとの相関は高い
→相関係数で見ると全て支持。信頼区間を考慮すると、支持されず
24
12
Messickに基づいた妥当性検証⑥
(6) 影響
影響的要素
要 (consequential
q
aspect)
p
仮説: 「このテストを受けて今後もっと英語の勉強をしようと思いま
したか?」と聞いたとき、受験者のテストに対する反応は肯定的であ
る
→アンケートを使用。支持
■まとめ
・仮説に一致しなかった点は、妥当性に対する否定的な証拠。今後更
に修正が必要
・仮説が支持された点は妥当性に関する肯定的な証拠。
・かなりの肯定的な証拠が見られた。
→本テストの妥当性はある程度あり、研究と配置で
使用する意味があると考える
25
Messick後の議論

妥当性検証の手続きの提案

Kane (1992, 2001, 2002, 2006)


Mislevy, Steinberg, & Almond (2002)


論証に基づくアプローチ (argument-based
approach)
証拠中心のデザイン (evidence
( id
centered
t d design)
d i )
Bachman (2005)

テストの使用の論証 (test utilization argument)
26
13
Kaneの論証に基づくアプローチ①

妥当性検証の手順



(a) テストの対象領域 (target domain) を決める
(b) 論証 (argument) を行う
論証の種類

((1)) 解釈的論証 ((interpretive
p
argument)
g
)

得点の意図した (proposed) 解釈と使用と、推論と前提を明
記する


(2) の妥当性の論証の枠組みとなる
(2) 妥当性の論証 (validity argument)
27
Kaneの論証に基づくアプローチ②

(2) 妥当性の論証



複数の分析と実証的研究を通し、解釈的論証
の評価を行う
意図した解釈と使用を支え、反駁する証拠を
複数挙げ、一貫して分析することで、テスト得
点の解釈と使用を全体的に評価する
できれば、想定可能な別の解釈と使用に関す
る証拠を挙げ、分析することが望ましい
28
14
Kaneの論証に基づくアプローチ③

解釈的論証で明示する、主な推論
解釈的論証で明示する
主な推論 (1) ~ (4)
 Observation (観測; テストでのパフォーマンス)
↓ (1) Scoring (採点)
 Observed score (テスト得点)
↓ (2) Generalization (一般化)
 Universe score (ある時間やタスクに限定されない得
点)
↓ (3) Extrapolation (外挿)
 Target score (構成概念を示す得点)
↓ (4) Decision (決定)
 Placement (決まった配置結果)
29
Kaneの解釈的論証の段階
(McNamara & Roever, 2006, p. 25)
30
15
Kaneの論証に基づくアプローチ④


解釈的論証の主な推論と前提の例
(1) Scoring





前提:
採点の規則は適切である
採点の規則は決められたとおりに運用された
採点
採点にはバイアスがかかっていない
バ
がかか
な
データは採点で用いた尺度のモデルに適合し
ている
31
Kaneの論証に基づくアプローチ⑤

(2) Generalization




前提:
得たパフォーマンスのサンプルは、一般化したい領域
( i
(universe)
) から代表的にとられている
得たパフォーマンスのサンプルは、ランダムな誤差を
コントロールするのに十分な大きさがある
(3) Extrapolation
前提:
 テストのタスクを解くためには、コースで伸ばし、必要と
される能力が求められる
が
 得点の解釈を深刻にゆがめる、スキルとは無関係の
ばらつきはない
☆2つの間にはtradeoffがある。


generalizationを高めようとすると、extrapolationが犠牲にな
る。2つが共に可能になる妥協点を見つけることが目標 32
16
Kaneの論証に基づくアプローチ⑥

(4) Decision



前受けたコースで伸ばしたスキルによって、後
のコースで見られるパフォーマンスが決まる
あるコースに必要なスキルが低い生徒は、そ
のコースで成功しにくい
あるコースで学習するスキルが既に高い生徒
は、そのコースからあまり利益を得にくい
33
Kaneの論証に基づくアプローチ⑦

解釈的論証を評価するための基準
 (1) 論証の明確性 (clarity):推論・結論・
決定・それを支える根拠を詳しく記述し
てあるか
 (2) 論証の一貫性 (coherence):論証が
一貫して、完全であるか
貫して 完全であるか
 (3) 推論と前提のもっともらしさ
(plausibility):疑念を挟む余地のある推
論と前提には、証拠が挙げられている
か
34
17
Kaneの論証に基づくアプローチ⑧

解釈的論証の妥当性の論証

(1) 開発段階 (development stage)



目的:意図した解釈と使用を支える評価プログラム
を開発する
この段階では、テスト開発者が妥当性を認める方
向へのバイアス (confirmanist bias) があるのは
適切で 避けられない
適切で、避けられない
(2) 評価段階 (appraisal stage)

目的:批判的立場で妥当性を見る
35
Kaneの論証に基づくアプローチ⑨


妥当性の論証方法の例
(1) Scoring:



専門家の判断
評価者間信頼性、モデル適合度等
(2) Generalization

内的一貫性などの信頼性

信頼性が低い場合:①測定の手順を変える、②測る特性を
修正する
36
18
Kaneの論証に基づくアプローチ⑩


(3) Extrapolation
 (a) 分析的 (概念的、判断が関わる) 証拠
 プロトコル分析
 現実世界でのプロセスとオーバーラップするか
 表面的妥当性
 推論の確信度を脅かすものを除外するため
 (b) 実証的証拠
 外的基準得点と比較
 収束的 (convergent)・弁別的 (discriminant) 妥当性の
証拠
 分析的・実証的証拠の両方が必要
注意点:構成概念の代表性が低い (underrepresentation) こと、構成
概念と無関係な分散が入っていないかを確認する
37
Kaneの論証に基づくアプローチ⑪

(4) Decision

決定により受ける、肯定的・否定的な結果・影響
(consequences)






肯定的影響 > 否定的影響 であるべき
結果に関係する価値
「真実か、正確か」でなく、「効果的か、成功したか」
意図した影響 意図していない影響
意図した影響、意図していない影響
結果を調べることで、①測定手順の問題点がわかる、
②目的にそった測定手順の適切さがわかる
(波及効果の研究方法が使えるだろう; e.g., Cheng &
Watanabe, 2004)
38
19
Kaneの論証に基づくアプローチ⑫




妥当性の論証のアプローチを用いた妥当性検証の手順
妥当性の論証のアプ
チを用いた妥当性検証の手順
(0) テストの対象領域を決める
 例:発表語彙知識の広さを測る
(1) 得点の意図した解釈と使用と、推論と前提を明記する
 解釈:発表語彙知識の広さを測る
 使用:placementで使う
 推論:例:extrapolation
 前提:得点の解釈を深刻にゆがめる、スキルとは無関係の
ばらつきはない
(2) 複数の分析と実証的研究を通し、その評価を行う
 外的基準得点と比較する → 相関が高かった
 プロトコル分析 → 意図したプロセスが見られた
 →extrapolationできる
39
Kaneの各推論とMessickの妥当性
の要素の関係
Kane (2006) の主な推論
Messick (1996) の6要素
(1) Scoring
(1) 内容的要素
(2) 構造的要素
(2) Generalization
(1) 内容的要素
(4) 一般化可能性的要素
(3) Extrapolation
(1)
(3)
(4)
(5)
(6)
(4) Decision

内容的要素
実質的要素
一般化可能性的要素
外的要素
影響的要素
証拠は多ければ多いほどいいというものではない。既に、ある推論
と前提はかなり筋の通っているとすると、その証拠をさらに追加して
も、論証を強めることにはならない
40
20
Kaneの論証に基づくアプローチ⑬


全体的な妥当性の論証においては、異な
全体的な妥当性の論証においては
異な
る情報源からの異なる種類の証拠を統合
することが求められる
もし、論証中の推論が証拠と照らし合わせ
て考えにくいものであれば、(a)
( ) 解釈的論
証を修正するか、 (b) 解釈的論証を放棄
するかの、どちらかが必要になる
41
Kaneの論証に基づくアプローチ⑭

最も提示すべき妥当性の証拠の種類


主な推論や前提を支える証拠の中でも、特に
最も問題となるもの
妥当性検証を「論証に基づくアプローチ」で
行う利点

どのように検証すればよいかの方向付けがさ
れ、進歩を測ることができる
42
21
Bachman (2005) の論証法①


Kaneの枠組みを用い、論証法を提示
Kaneの枠組みを用い
論証法を提示
Assessment use argument


①Assessment validity argument


①+②
Kaneのscoring, generalization, extrapolation
②Assessment utilization argument

Kaneのdecision
43
Bachman (2005) の論証法②
Assessment validity argument
Claim (universe score): Aさんの点数は高かった
Warrant 2
W
(generalization): テストの
内的一貫性の信頼性は高
かった (Backing:α = .9)
Warrant 1
(scoring): 採点の規
則は適切だった
Alternative
explanation: Aさん
はカンニングした
Rebuttal data
(reject): ビデオカメ
ラにはAさんの怪し
い行為は写っていな
かった
Data: Aさんは、テストでほとんどの問題で正解した
44
22
Bachman (2005) の論証法③
Assessment validity argument
Claim (target score): Aさんは語彙知識が多い
Warrantt 4 ((extrapolation):
W
t
l ti )
他の語彙テストとの関連が強
かった (Backing: r = .90)
Warrant 3 (extrapolation): テストで問
題を解くプロセスと 現実世界で語彙知
題を解くプロセスと、現実世界で語彙知
識を使うプロセスが近い
(Backing: プロトコル分析からの証拠)
Data: Aさんの得点は高かった
Warrant 6 (意図し
た結果): 語彙知
識が高い人が上
位クラスに入るこ
とで 動機付けが
とで、動機付けが
保たれる (Backing:
アンケート分析)
45
④ Assessment
utilization Claim (placement):
argument Aさんを語彙の上位
クラスに配置する
Warrant 5 (sufficiency): さ
らに情報を集める必要はな
い (Backing: 過去の経験
から)
Warrant 7 (utility):
このテスト得点は、語
W
Warrant
t 8 ((relevance):
l
)
彙 ク
彙のクラスを受ける
を受 る
のに必要な知識を十 語彙のクラスにおいて、語
彙知識の量は必要だ
分予測できる
(Backing: 過去の検
Data: Aさんは語彙知識が多い
証の結果から)
46
23
Messickの妥当性検証法の特徴



利点:大きな枠組みがあり、検証すべき6つの要素を包括
的に捉えられる (valueは抜けているが)
欠点①:6つの要素を、仮説を立て、証拠を出しながら、1
つずつ検証してけばいいと分かるものの、どの要素がよ
り重要で、どの順序で行うかのガイドラインがないために、
妥当性検証を行う者にとっては「仕事量と考えるべき点
が多く、大変すぎると感じられてしまう」 (Guion, 1995, p.
25)
欠点②: 6つの要素が、昔の3つの妥当性の種類のよう
に扱われる可能性がある (Guion, 1995, p. 25)
47
Kaneの妥当性検証法の特徴①



利点:各推論の順序があり、そのリンクをつなげられるよ
利点:各推論の順序があり
そのリンクをつなげられるよ
うにすることで、妥当性検証を進めていけるため、
Messickより行いやすい
欠点①:論証の仕方は述べられているものの、どう論証
するのかが分かりにくい
欠点②:対象領域の記述方法や、テストの細目との関連
の記述が不十分。文脈によって解釈などが変わる点は
指摘され
指摘されているものの、テストの目的が対象領域に入っ
るも
ト 目的が対象領域に入
ていず、その重要性があまり書かれていない
 言語テスティング研究の方がこの面では発達している


テストの細目の例:Bachman & Palmer (1996), Davidson &
Lynch (2002)
Read & Chapelle (2001) :テストの目的を、推論・使用・影響
48
の3観点で記述することを提唱
24
Kaneの妥当性検証法の特徴②


欠点③:解釈の論証と比べると、使用の論
欠点③
解釈の論証と比べると 使用の論
証をする方法が分かりにくい
特徴:受験者の反応 (表面的妥当性) が
妥当性の中に位置づけられた
49
Bachmanの妥当性検証法の特徴




利点:使用の論証方法がKaneよりは詳しく、系統
利点:使用の論証方法がKaneよりは詳しく
系統
的にできる
欠点①:どう論証するかの枠組みは示されてい
るが、受験者個人でなく、テスト全体の論証をど
う行うべきかが、分かりにくい
欠点②:Bachmanの提案をそのまま使うと、検討
す 妥 性 観点が
する妥当性の観点が限られる。Kaneと組み合わ
れ
組 合わ
せることで改善できる
特徴:validityとtest useを別に捉えている
(McNamara & Roever, 2006, p. 36)
50
25
妥当性に関するその他の議論

テストの社会的側面の強調:McNamara &
Roever (2006)

テストの公平さ (fairness):Kunnan (2004)






(1) validity
(2) absence of bias
(3) access (e.g., テスト内容を学ぶ機会があるか)
((4)) administration (e.g.,
( g 実施方法が均一か))
(5) social consequences (e.g., 波及効果)
妥当性の範囲を限定する提案:

社会的な影響は妥当性に入れるべきではない。妥当
性はテストの特性。因果関係の検証のみを妥当性検
証すべき (Borsboom, 2005; Borsboom,
51
Mellenbergh, & van Heerden, 2004)
まとめ

現在の妥当性の捉え方:
 推論と前提を明示し、それを支え・反駁する妥
当性の証拠を、様 な観点から挙げる き
当性の証拠を、様々な観点から挙げるべき
 テストの使用、特に社会的影響を考慮すべき


妥当性検証は、日本での言語テスト作成・使用の際にも重要であろう
妥当性概念やその検証法はかなり専門的になり、分かりにくく、言語テス
ティングが専門でないと扱いにいものになってしまっているのかもしれない。
しかし、 Borsboom et al. (2004) の言うように概念自体を狭めるべきとも考え
ない。以下3点を同時に探りつつ進める方向性が必要ではないか
 (1) 妥当性概念やその検証法を、理論的な整合性を保ちつつ、分かり
やすく提示する。最終的には、個々の文脈によって妥当性検証の方法
は変わるが、様々な例を公にすることにより、分かりやすさが増すので
はないか
 (2) 教師や言語テスティングの専門家、内容の専門家などが共同研究
でテストを開発・使用し、言語テスティングの専門家は、妥当性の重要
性を皆に伝えつつ、妥当性検証を中心に行い、妥当性の高いテスト解
釈・使用が行えるようにする。その中で概念や検証法も浸透していくか
もしれない
 (3) 日本やアジアなどの独自のテスト文化があり、それに対応した妥当
性の概念や検証法がもし必要なのであれば、その方向性も探り、発信
していく
52
26
References ①
Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford University Press.
Bachman, L. F. (2005). Building and supporting a case for test use. Language Assessment Quarterly, 2, 134.
Bachman, L. F.,  Eignor, D. R. (1997). Recent advances in quantitative test analysis. In C. Clapham, 
D. Corson (Eds.), Encyclopedia of language and education Vol. 7: Language testing and assessment
( 227-242).
(pp.
227 242) Dordrecht,
D d ht the
th Netherlands:
N th l d Kluwer
Kl
A d i
Academic.
Bachman, L. F.,  Palmer, A. S. (1996). Language testing in practice. Oxford University Press.
Banerjee, J., & Luoma, S. (1997). Qualitative approaches to test validation. In C. Clapham  D. Corson
(Eds.), Encyclopedia of language and education Vol. 7: Language testing and assessment (pp. 275287). Dordrecht, the Netherlands: Kluwer Academic.
Borsboom, D. (2005). Measuring the mind: Conceptual issues in contemporary psychometrics.
Cambridge University Press.
Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological
Review, 111, 1061-1071.
Chapelle, C. A. (1999). Validity in language assessment. Annual Review of Applied Linguistics, 19, 254272.
Cheng, L., & Watanabe, Y. with Curtis, A (Eds). (2004). Washback in language testing: Research
contexts and methods. Mahwah, NJ: Lawrence Erlbaum Associates.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin,
52, 281-302.
Davidson, F., & Lynch, B. K. (2002). Testcraft: A teacher’s guide to writing and using language test
specifications. New Haven: Yale University Press.
Fulcher, G. (1999). Assessment in English for academic purposes: Putting content validity in its place.
Applied Linguistics, 20, 221-236.
Guion, R. M. (1995). Commentary on values and standards in performance assessment. Educational
Measurement: Issues and Practice, 14(4), 25-27.
53
References ②
Hayes, B., & Read, J. (2004). IELTS test preparation in New Zealand: Preparing students for the IELTS
Academic Module. In L. Cheng, Y. Watanabe, with A. Curtis (Eds), Washback in language testing:
Research contexts and methods (pp. 97-111). Mahwah, NJ: Lawrence Erlbaum Associates.
Henning, G. (1987). A guide to language testing: Development, evaluation, research. Boston, MA:
Heinle  Heinle.
Kane M.
Kane,
M T.
T (1992).
(1992) An argument
argument-based
based approach to validity.
validity Psychlogical Bulletin,
Bulletin 12,
12 527
527-535
535.
Kane, M. T. (2001). Current concerns in validity theory. Journal of Educational Measurement, 38, 319342.
Kane, M. (2002). Validating high-stakes testing programs. Educational Measurement: Issues and
Practice, 21(1), 31-41.
Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 17-64).
Westport, CT: American Council on Education and Praeger.
Koizumi, R (小泉利恵). (2005a). 「日本人中高生における発表語彙知識の広さと深さの関係」. STEP
Bulletin, 17, 63-80.
Koizumi, R. (2005b). Relationships between productive vocabulary knowledge and speaking
performance of Japanese learners of English at the novice level. Unpublished Ph.D. dissertation,
University of Tsukuba,
Tsukuba Japan.
Japan
Kunnan, A. J. (2004). Test fairness. In M. Milanovic & C. Weir (Eds.), Studies in language testing 18:
European language testing in a global context: Proceedings of the ALTE Barcelona Conference July
2001 (pp. 27-48). Cambridge University Press.
McNamara, T., & Roever, C. (2006). Language testing: The social dimension. Malden, MA: Blackwell.
Messick, S. A. (1989). Validity. In R. L. Linn (Ed.). Educational Measurement (3rd ed., pp. 13-103).
New York: National Council on Measurement in Education/American Council on Education.
Messick, S. (1996). Validity and washback in language testing. Language Testing, 13, 241-256.
Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2002). Design and analysis in task-based language
assessment. Language Testing, 19, 477-496.
54
27
References ③
村山航. ((2006).
) 「妥当性概念の展開」. 日本テスト学会公開シンポジウム テストの妥当性
の概念および検証方法の新たな展開 発表資料. Retrieved April 21, 2007, from
www.p.u-tokyo.ac.jp/~murakou/validity.ppt
Read, J., & Chapelle, C. A. (2001). A framework for second language vocabulary
assessment. Language Testing, 18, 1-32.
Shohamy, E. (2001). The power of tests. Essex, U.K.: Pearson Education Limited.
Watanabe, Y. (2004). Methodology in washback studies. In L. Cheng & Y. Watanabe, with
A. Curtis (Eds), Washback in language testing: Research contexts and methods (pp. 1936). Mahwah, NJ: Lawrence Erlbaum Associates.
Weir C.
Weir,
C J.
J (2005).
(2005) Language testing and validation: An evidenced-based
evidenced based approach.
approach New
York: Palgrave Macmillan.
55
28
Fly UP