言語テスト

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 言語テスト

Transcript

言語テスト

第９章
9.1
評定
Assessment
はじめに
本章では、評定という用語を言語使用者の熟達度(proficiency)の評定の意味で用いている。
あらゆる言語テストは評定の一つの形式であるが、継続的な評定に使われるチェックリス
トやさりげない普段の教師の観察など、テストとはみなされない評定の形式もたくさんあ
るだろう。評価(evaluation)は評定より広い意味を持つ用語である。全ての評定は評価の
一部であると言えるが、言語学習のプログラムでは学習者の熟達度以外にも多くの観点が
評価される。これらの評価には、ある方法や言語教材の効率性、言語学習のプログラムで
実際に創造されたディスコースの種類や質、学習者/教師の満足度、教育の効率性などが含
まれる。本章は言語学習のプログラムの評価という広い問題ではなく、評定に関わる問題
を扱うことにする。
評定の議論には、伝統的に基本となる三つの概念がある。妥当性、信頼性、実行可能性
妥当性、信頼性、実行可能性
である。本章でこれらの用語がどのような意味で用いられ、どのように互いに関係してい
るのか、CEF との関連から概観しておこう。
妥当性(validity)は、CEF それ自体の関心事である。あるテストや評定の手法が、当該
の状況で、実際に測っているもの（構成概念 construct）と、測っているはずのものとが
一致しており、またそこで集められた情報が、当該の学習者の熟達度を正しく示している
場合に、そのテストや評定には妥当性があると言うことができる。
一方、信頼性(reliability)は、専門用語である。基本的には同じ評定が(実際に、または
仮定の上で)二回実施された場合、そこで評定された学習者の序列が同じになるかどうかの
蓋然性である。
実際に信頼性より重要なのは、測定基準との関連でなされる判定の精度である。評定結
果が合格/不合格や A2+/B1/B1+などのレベルとして報告される時、これらの結果の判定は
どのぐらい正確か。判定の精度は当該の状況に対する個々の基準(例：レベル B1)の妥当性
による。また、精度は判定規準の妥当性や、その規準が開発された方法の妥当性に左右さ
れる。
もし、二つの異なる組織や地域で同じ技能に対する評定のために同じ基準を使っていて、
基準自体もそれぞれの状況で妥当かつ適切である場合、またその基準が、評定課題の組み
立ての中で一貫して解釈され、そしてまた回答についても一貫して解釈されるならば、二
つのシステムの間で結果は相関することになる。同じ構成概念の評定と考えられている二
つのテストの相関関係は、伝統的に「併存的妥当性」(concurrent validity)として知られて
いる。
この概念は明らかに信頼性と関係がある。というのも、信頼性がないテストは相関しな
いからである。しかしながら、何が評定されているか、どのように言語運用が解釈されて
いるかについて、二つのテストの間でどの程度の一致があるかの方が、更に重要である。
- 187 -
CEF が取り上げるのはこの二つの問題である。次の節では CEF の三つの活用方法につ
いて概観する。
1. テストや試験の内容の詳細：
2. 学習目標の達成度を決める規準について述べる：
3. 既存のテストや試験での熟達度のレベルを記述することによって、
様々な資格制度の比較ができる：
評定対象
言語運用の解釈
比較方法
ここでの論点は、いろいろな評定方法にいろいろな形で関連する。伝統的な評定方法は
様々あるが、あるアプローチ(例：教師による評定)より、別のアプローチ(例：公共的な試
験)の方が、教育上の効果において絶対的に優れていると考えるのは間違いである。本書に
ある共通参照レベルのような、一連の共通基準の主要な利点は、まさにお互いに異なる評
定の形式でも関連づけが可能になることである。
本章の第 3 節では異なる評定間での選択について説明する。この選択は対照的なペアの
形式で示される。どの事例でも専門用語がそれぞれ定義され、教育上における評定の目的
という観点から、相対的な利点と不利な点についての検討がある。ある評定やその代りの
方法を実施することの意味や、その評定の形式と CEF との関連も指摘されよう。
評定の手順は、実際的でかつ実行可能(feasible) でなくてはいけない。実行可能性は特
に言語運用のテストに関係してくる。評定者は時間というプレッシャーの中で評定を行う。
言語運用の限られた事例しか観察できないし、規準として扱えるカテゴリーの数と形式に
は限りがある。CEF は実際の評定のための道具ではなく、参照点を示すものである。また、
CEF 自体は必然的に包括的になっているので、利用者は取捨選択をすることになる。その
選択によっては、より単純な実施形態もありうる。その結果として、CEF で分類されてい
るカテゴリーを統合することもあろう。例えば、第 4 章、第 5 章で本文に続く例示的尺度
記述文の中のカテゴリーは、本文自体で議論されているカテゴリーや典型例よりかなり単
純である。この章の最後の節では事例を挙げてこの問題を論じることにしたい。
9.2 評定課題作成のための資料としての CEF
9.2.1 テストや試験の内容の詳細
コミュニケーション能力評定のための課題を詳細に記述しようとすれば、第 4 章「言
語使用と言語使用者」、特に 4.4「コミュニケーション言語活動」で述べられていることが
参考になるだろう。評定が妥当性を持つためには主要な関連ディスコース・タイプの相当
数の事例収集が必要になる。このことは徐々に認識されてきている。例えば、スピーキン
グのテストについては、最近開発されたテストでこの点が具体的に明らかになっている。
まず、ウォーミングアップとして模擬的な会話例がある。それから受験者が関心を持って
いる話題のテーマについて自由討論(Informal Discussion)が行われる。その後、取引
(Transaction)の局面があり、一対一のやり取りか、模擬的な電話の情報のやり取りか、そ
のどちらかの形式で、情報を得ようとする活動が行われる。次には創造(Production)の段
階が続くが、それは学習者が自分の専門分野や研究計画を書いた報告(Report)に基づいて
行われる。最後には目的志向の協力(Goal-orientated Co-operation)、すなわち受験者同士
- 188 -
間の合意形成のための課題がある。
まとめるとコミュニケーション活動のための CEF のカテゴリーは次のようになる。
やり取り
話し言葉
創造
(自然発生的、短い発話)
(予め用意されたもの、長い発話)
会話
自分の専門分野の説明
自由討論
目的志向の協力
書き言葉
自分の専門分野の報告/記述
課題作成法の詳細を作り上げるにあたって、4.1 「言語使用のコンテクスト」(領域、条
件と制約、心的コンテクスト)、4.6「テクスト」、第 7 章「言語教育における課題とその役
割」
、特に 7.3「課題の難易度」を参考にすると良いだろう。
5.2「コミュニケーション言語能力」はテスト項目の構築、もしくは口頭でのテストの諸
段階を説明し、必要とされる言語的能力、社会言語能力、語用論的能力の証しを検証でき
るようになっている。ヨーロッパの 20 以上の言語用に作られた Council of Europe の
Threshold Level (参考文献表を参照)、英語の Waystage Level と Vantage Level､他の言
語やレベル用に開発された詳細な内容説明は、CEF の補助資料とみなすことができる。そ
れらは、A1、A2、B1、B2 のようなレベルのテストをつくりだすためのより詳細な事例を
示している。
9.2.2
学習目標の達成度のための規準
本書で挙げてある尺度は、評価尺度規準の開発のためにあり、それによってある特定の
学習目的の達成度を評定することができる。また、能力記述文は規準を言語化するときに
は参考になるだろう。目標は共通参照レベル(Common Reference Level)(例：B1)で表現さ
れているように広く一般的な言語熟達度のこともあるだろう。また、目標は 6.1.4「CEF
のさまざまな目標」で論じられた活動、技能、能力の特別の組み合わせのこともあるだろ
う。このようなモジュール的な目標は図 2 で示された、レベルごとのカテゴリーの表とし
て描くことができるだろう。
能力記述文の利用を論ずる際に次の区別をしておくことが必要である。
1. コミュニケーション活動の能力記述文（第 4 章）
2. 特定能力に関係する熟達度の諸側面の能力記述文（第 5 章）
前者は現実世界での課題に関して、教師もしくは自分自身による評定に適している。この
ような教師や自分自身による評定は、授業コースの中で作り上げられた学習者の言語能力
全体の詳しい輪郭像がもとになっている。このような測定の魅力的な点は、学習者や教師
- 189 -
の目を活動中心のアプローチに向けさせることができる点である。
しかしながら、もし到達した熟達度レベルの報告に関心があるのなら、ある特定のスピ
ーキングとライティングのテストで言語運用を評価するために、コミュニケーション活動
の能力記述文を規準の中に加えることは、評定者に必ずしも勧められない。それは、熟達
度を報告するための評定は、ある特別の言語運用に依拠するべきではなく、運用面にはっ
きり出た一般化可能な能力を探し出すことによって行なわれるべきだからである。与えら
れた課題をうまくやりおおせたどうかに焦点を置くことは、特に年少の初級学習者(Level
A1、A2)には、もっともな教育的理由があるだろう。その結果は一般化されにくいが、普
通言語学習の初期段階では、評定結果が一般化できるかどうかはさほど重要ではないので
ある。
このことは、評定に多くの異なる役割がありうるという事実を裏打ちしている。ある評
定の目的にかなっているものが、ある別の評定の目的には不適切なこともある。
9.2.2.1 コミュニケーション活動の能力記述文
コミュニケーション活動の能力記述文(第 4 章)は達成すべき目標に応じて 3 つの別々の
方法で使うことができる。
1. テスト課題作成 (Construction): 9.2.1 で取り上げたコミュニケーション活動の尺度は
評定用の課題を作るための具体的な定義として役立つ。
2. 報告 (Reporting): コミュニケーション活動の尺度は評定の結果報告に有効である。雇
用主のように、教育システムの成果を用いる者は、能力の細かい側面よりも総合的な
成果に関心がある。
3. 自己評定、もしくは教師による評定 (Self(Self- or teacherteacher-assessment): コミュニケーシ
ョン活動の能力記述文は、自己自身、もしくは教師による評定のために様々な方法で
用いることができる。次に挙げるのはその１例である。
・
チェックリスト：継続的評定や授業コース終了時の総括的評定に、それぞれのレ
ベルの能力記述文を列挙できる。もしくは、能力記述文の内容を「分解」するこ
ともできる。例えば、
「個人的な情報を求めたり、与えたりすることができる」と
いう能力記述文は次の内包されている構成要素に分解できる。
「私は自己紹介でき
る」
「どこに住んでいるか言うことができる」
「フランス語で住所を言うことがで
きる」
「何歳か言うことができる」等や、
「誰かに名前を尋ねることができる」
「誰
かにどこに住んでいるか尋ねることができる」
「誰かに何歳かを尋ねることができ
る」など。
・
表: 継続的評定、総括的評定のために、細かい側面を異なるレベル(B１+、B2、
B2+)で定義されたカテゴリー (例：会話、議論、情報の交換) の表に照らし合わ
せて能力の輪郭(profile)を描き出す。
このような能力記述文の利用はこの 10 年間でより一般的になってきた。能力記述文が、
学習者が「何」をできるのかだけではなく、
「どのぐらいうまく」できるのかまでも記載し
ていれば、教師も学習者も能力記述文を解釈する一貫性が高まるはずであるということは
- 190 -
経験上明らかである。
9.2.2.2 特定の能力に関する熟達度の能力記述文
熟達度の能力記述文は達成すべき目標に応じて主として二つの方法で用いられる。
1. 自己による、もしくは教師による評定
自己による、もしくは教師による評定:
よる評定: 能力記述文が肯定的でそれぞれが独立した表
現であるなら、自己、もしくは教師による評定のためのチェックリストに入れてよい。
しかし、初級レベルでは能力記述文が否定的表現になり、中級レベルあたりでは規範
に準拠する傾向があるが、これは現存するほとんどの測定尺度の弱点である。隣接す
る能力記述文の間で、レベルを区別するのが一、二語の置き換えだけということがよ
くあるが、それではこうした評定尺度が当該文脈を離れるとほとんど意味がない。付
録 A では、これらの問題を避けるための能力記述文の開発の方法が検討される。
2. 運用の評定：第 5 章で取り上げた能力に関する記述文の尺度の、より明確な使用法は、
評定規準開発の出発点とすることである。個人的な、体系的ではない印象を、熟慮し
た判断へ引き上げることによって、このような能力記述文は評定者間で共通参照枠を
作る一助となろう。
能力記述文を評定の規準として使うには、基本的には下記の三つの方法がある。
・
第一に、能力記述文は尺度として示され得る。異なるカテゴリーの能力記述文を
レベルごとに編纂して一つのまとまり(holistic paragraph)にする。これは非常に
一般的なアプローチである。
・
第二に、能力記述文はチェックリストとして示され得る。普通、関連するレベル
ごとに一つのチェックリストがあり、能力記述文は、見出し、つまりいわゆるカ
テゴリーごとにまとめられていることが多い。チェックリストはその場で行われ
る能力測定にはあまり使われない。
・
第三に、カテゴリーを選択して表にする、つまり、個別に諸カテゴリーを並列さ
せた形で示され得る。このアプローチは実力分析のための輪郭図(profile)の作成を
可能にする。ただし、評定者が対応できるカテゴリーの数には限りがある。
下位尺度の表を作るには二つのはっきり異なった方法がある。
熟達度の尺度(Proficiency Scale)：あるカテゴリーについて、例えば A2 から B2 ま
でのレベルについて、それぞれに属するものを定義することによって全体の表を示
す。その上で、評定は直接それらのレベルについて行われ、必要ならば二次的な数
字や＋などに、さらに細かい区別を加え、より詳しく測る。このようにすれば、B1
レベルを対象とした運用のテストで、学習者の誰も B2 レベルに達しなくても、学
- 191 -
力のある学習者には B1＋、B1＋＋、B1.8 と成績を出すことが可能であろう。
検定算出スケール(Examination Rating Scale)：各重要カテゴリー別に、そのカテ
ゴリーの特定モジュールや試験に合格するための標準的要求を示す能力記述文を選
択あるいは定義しておく。そしてこの記述文を「合格」あるいは「3」と位置付け、
そのカテゴリーでは、この標準値を基準とする尺度を用いることになる（標準的要
求を示す能力記述文に照らして、運用面で非常に劣るなら「1」
、よくできているな
ら「5」を与える）。何を｢1｣、何を｢5｣とするかは、他の能力記述文に依ってもよ
いし、または第 5 章の当該節で述べた尺度上の隣接レベルを援用した能力記述文で
あってもよい。あるいはその能力記述文は｢3｣と位置付けられた記述文の表現との
関係で表わされてもよい。
9.2.3 比較を容易にするためのテストや試験における熟達度レベルの記述
共通参照レベルの尺度は、既存の資格認定で得られた熟達度レベルの能力記述を容易にす
ることを意図しており、従って既存の資格認定システム間の比較も可能にすることを意図
しているのである。測定関係の文献は別個の評定を関係づける五つの古典的方法を認めて
いる。
(1)等式化
(2)換算 (3)統計的調整
(4)標準化
(5)社会的調整。
最初の三つは伝統的な方法である。(1)同じテストの書き換え版の作成＝等式化
るテストの結果を同じ尺度で計り直す=換算
(2)異な
(3)テストの難しさや試験官の厳格さを補正
すること＝統計的調整。
後半の二つの方法では、(4) 標準化された定義や例に照らして作業用のサンプルの比較
を行う＝標準化
(5)議論によって共通理解を作り出す＝社会的調整、を意味する。こう
した共通理解を形成する過程の支援は CEF のねらいの一つである。そのため、測定のた
めに使う能力記述文の尺度が方法論的に厳格に標準化されているのである。教育界では、
このやり方は標準準拠型の評定と呼ばれることが多くなっている。この標準準拠型のアプ
ローチの実現には時間がかかることが一般的に認められているが、それは、当事者同士が
基準の意味を感覚的につかむには、例証化や意見の交換などの過程が必要だからである。
このアプローチは別々の尺度を関連付ける最も強力な方法になる可能性がある。という
のも、評定対象になる構成概念について共通の視点を作り、その確認を行うからである。
伝統的なやり方で統計の魔法を使って処理しても、言語評定を相互に関連づけるのが困難
な根本的理由は、同じ領域の評定を意図するときでも、一般的に言って、実は極端に異質
のものを評定しているからである。この理由の一部は a) 評定対象の構成概念の不十分な
概念化と不十分な操作性にあり、一部は b) 測定方法自体から生じる干渉のせいでもある。
本書は、ヨーロッパというコンテクストで現代語を学習するという観点から、上に述べ
た第一の問題、基礎的問題を、根本方針をうちたて、それに則って解決を図ろうとする試
みである。第 4 章から第 7 章までで、記述方針を詳述し、言語使用、能力、教育と学習の
過程を現実的な形で概念化しようとした。これによって、われわれが伸ばしたいと考えて
- 192 -
いるコミュニケーション言語力が具体的に扱い易くなるであろう。
能力記述文の尺度は概念表になっており、その使い道は：
a) CEF という仲介を通して、国家的な枠組みと制度的な基本方針を互いに関連させ
る。
b) 尺度のカテゴリーとレベルを用いて、特定の試験や授業コースモジュールの目標
を示す。
付録 A では、読者は能力記述文の尺度開発の諸方法を概観し、それを CEF の尺度と関連
づけて見ることができる。
ALTE（Document CC-Lang(96) 10 rev）による検定者のための手引き書も、テストの
構成概念の操作に関して、またテスト方法によって結果に不必要な歪みが出ないようにす
るための、詳しい助言を与えている。
9.3 評定の種類
評定については幾つかの重要な区別がある。次のリストは決して網羅的なものではなく、
ある用語が右に置かれるか、左に置かれるかも大して重要ではない。
図 7：評定のタイプ
1
達成度評定 Achievement assessment
熟達度評定 Proficiency assessment
2
標準準拠(NR)Norm-referencing
規準準拠(CR)Criterion-referencing
3
合格・不合格型規準準拠 Mastery leaning
CR
連続型規準準拠 Continuum CR
4
継続評定 Continuous assessment
定点評定 Fixed assessment points
5
形成的評定 Formative assessment
総括的評定 Summative assessment
6
直接評定 Direct assessment
間接評定 Indirect assessment
7
運用評定 Performance assessment
知識評定 Knowledge assessment
8
主観的評定 Subjective assessment
客観的評定 Objective assessment
9
チェックリスト評価 Checklist rating
尺度評価 Performance rating
10 印象 Impression
指針に基づいた判断 Guided judgment
11 全体的評定 Holistic assessment
分析的評定 Analytic Assessment
12 シリーズ評定 Series
分野別評定 Category assessment
assessment
13 他人による評定 Assessment by others
自己評定 Self-assessment
9.3.1 達成度評定/熟達度評定
達成度評定は、特定の目的の達成の度合いを評定し、学習したことを評定する。
それゆえ、当該の週や学期にした勉強、教科書、シラバスに関連する。達成度評
定は各々の授業に基づいた、内部の見方を反映している。
- 193 -
一方、熟達度評定は、実世界の問題に対して、学習者が、何ができるか/何を知っ
ているかの評定である。これは外部からの見方を反映している。
教師は教育へのフィードバックを得ようとして達成度評定の方に自然に関心を向
けがちである。雇用者、教育行政の管理者、大人の学習者は熟達度評定、つ
まり、成果や、何ができるようになったかの方に、より関心があるだろう。
達成度評定の利点は学習者の経験との差が少ないことである。熟達度評定の
利点は誰でもその学習者のいる位置が分かることであり、結果が明確なこと
である。
必要性重視の教育と学習が行われる状況でのコミュニケーション・テストは、達成度評
定(授業の内容に基づく)と熟達度評定(実世界での力量の延長上にある)の違いは理想的に
は小さいはずだと言えよう。達成度評定がある状況下での実際の言語使用をテストし、テ
ストの結果として現れてくる能力をバランスの取れた形で表示するのであれば、それは熟
達度の視点を持つといえる。熟達度評定についても、言語とコミュニケーション課題から
構成された明確なシラバスに基づいたテストであるならば、そのテストが学習者にとって
到達点を示す機会となる限り、そのテストは達成度テストの要素を持つといえる。
本書の例示的能力記述文の尺度は、熟達度評定を念頭においている。それは実世界での
力量を連続体で表したものである。学習強化要因としての達成度テストの重要性は、第 6
章で論じた。
9.3.2 標準準拠と規準準拠
標準準拠とは学習者に序列をつけ、一緒に学習している他の学習者との相対的な位置を
明らかにする評定である。
規準準拠は、周りの学習者の力量とは無関係に、その教科の学習者本人の力量だけを純
粋に評定するもので、標準準拠に対置されるものでもある。
標準準拠はクラスという範囲の中でも行うことができる(あなたはクラスで 18 番目で
す)し、人口統計的な同類集団(あなたは 21,567 番目です、上位 14%にいます)など、ある
テストを受けた学習者グループの範囲の中で行われることもある。
後者の場合、
「フェアな」
な結果が出るように、テストの生の点を補正することも行う。テストの難度や生徒の力量
とは無関係に、毎年「A」を与えている学生を同じパーセントにし、一定の水準を維持す
るようにテスト結果の分布曲線を前年の分布曲線に重ね合わせるのである。標準準拠によ
る評定は習熟度別クラスを作るためのクラス分けテストによく利用される。
規準準拠は、個人個人のテスト結果が規準表全体のどこに位置しているかわかるように
するもので、熟達度を垂直軸に、関連領域を水平軸にとって図示するものである。これに
は (a)それぞれのテスト/モジュールがカバーしている関連領域の定義、及び (b)｢区切り
点｣、つまり特定の熟達度の水準に達していると認定できるテストの点の特定が必要となる。
例示的能力記述文の尺度は、当該カテゴリーの規準となる項目から成り立っており、共
通参照レベルは共通の水準を一まとまりにして示している。
9.3.3 合格・不合格型規準準拠/
合格・不合格型規準準拠/連続型規準準拠
合格・不合格型規準準拠は、単一の「最低限の能力の標準」や「区切り点」を決めて、
- 194 -
学習者を「合格者」
「不合格者」にわける仕組みである。このやり方では、学習目標達成の
度合いは問わない。
連続型規準準拠は、当該の分野において個々の力量が、あらかじめ決められた連続体の
中の、どの位置にあるかを示すものである。
実際のところ、
規準準拠には多くの方法があるが、
ほとんどは｢学習成果による合否判定｣
か「連続」解釈に分かれる。混乱の多くは規準準拠を合格・不合格型と同一視する誤解に
よって起こる。合格・不合格型は授業やモジュールの内容上の達成度を対象にしており、
そのモジュール（や達成度）そのものを熟達度の連続体の中に位置づけることにはあまり
力点が置かれていない。
合格・不合格型に対する代案としては、それぞれのテストの結果を、一連の段階を持っ
た熟達度の連続体とつき合わせるやり方がある。この方法では、その連続体自体が「規準」
になり、これは授業の外部の世界の現実を具現化したものであるから、テストの結果が何
らかの意味をもつことを保証することになる。この外部世界の規準の参照は、数量分析（例
えば Rasch model）をおこなって、全てのテスト結果を相互に関連させ、結果を共通の測
定尺度で直接示すことで可能になる。
CEF は合格・不合格型でも連続型でも利用できる。連続型で用いられたレベルの尺度は
共通参照レベルに照合することができる。合格・不合格型で設定される目標は CEF の提
案したカテゴリーとレベルの概念表の中に位置づけることができる。
9.3.4 継続評定/
継続評定/定点評定
継続評定は教師、またある場合には学習者による、授業コース全体を通して見た、授業
中の言語運用、課題やプロジェクトの評定である。最終的な成績は授業コース/学年/学期
全体を反映する。
定点評定とは、ある特定の日、すなわち、普通は授業コースの最後か、開始以前に行わ
れる試験や他の測定に基づいて、成績が与えられ、判断が下されることである。以前にあ
ったことは問題ではなく、その人が今できることが決定的に重要なのである。
評定は、何らかの判断を下すために一定の点で執り行われる、授業コースの外のもので
あるとみなされることが多い。継続評定とは、コースの中に組み込まれており、授業コー
スの終了時の評価に何らかの総合的なやり方で貢献する評定である。宿題や、学習の強化
のための定期的達成度テストを評価するのとは別に、継続評定は教師や学習者によるチェ
ックリストや表の形をとることもある。また、一連の重点課題の評定であったり、授業中
の勉強に対する公式の評定であったり、加えて学習成果集のようなものであるかもしれな
い。これらは、ある課題の様々な草稿段階を示すものであってもよいし、若しくは授業コ
ース中の異なる段階を示すものであってもよい。
双方に利点と欠点がある。定点評定は、2 年前のシラバスにあったことが今でもできる
かどうかを確認できるが、試験が精神的な負担になり、あるタイプの学習者に有利に働く
ことがある。継続評定は学習者の創造力や、いろいろな強みを考慮に入れることができる
が、教師の客観性に大きく依存する。極端な例をとれば、学習者にとっては人生を終結の
ないテストへと変えてしまい、教師の人生も官僚的な評定漬けの悪夢にしてしまうかもし
れない。
- 195 -
コミュニケーション活動(第 4 章参照)の力量の規準事項を記述してあるチェックリスト
は、継続的な評定に役立つであろう。能力の諸側面(第 5 章参照)の能力記述文との関連で
開発された評価尺度は定点評定で成績をつけるのに使うことができる。
9.3.5 形成的評定/
形成的評定/総括的評定
形成的評定は、学習のすすみ具合や学習者の強み、弱点に関する情報を集める継続的な
過程である。教師はこれらの情報を授業コースの計画や学習者へのフィードバックに役立
てることができる。形成的評定という言葉は広い意味で用いられることが多く、質問紙や
話し合いから得られた数量化できない情報も含まれる。
総括的評定は授業コースの終わりにこれまでの成果を成績としてまとめるものである。
それは必ずしも熟達度の評定ではない。確かに総括的評定の多くは標準準拠型の定点評定
であり、達成度を評定している。
形成的評定の長所は学習の改善を目的とするところである。短所はフィードバックとい
う比喩に内在している。フィードバックが機能するのは受け入れる側の条件による。すな
わち、(a)気がつくこと、つまり、注意深く、動機付けがあり、受け取る情報の形式に慣れ
ている、(b)受け入れ、つまり、情報の波に溺れず、それを記録し、まとめ、自分のものに
する術を知っている、(c)解釈、つまり、問題点を理解するだけの十分な予備知識や意識が
あり、与えられた情報に対して非生産的な行動を取らない、(d)情報の統合、つまり、新し
い情報についてよく考え、まとめることができる、すなわち、時間があり、自分のいる位
置を認識しており、新しい情報をまとめることができるような資質が備わっていて、その
結果として新しい情報を記憶できる、ということである。これは自発性を意味する。つま
り自発性に向けての訓練であり、自分の学習を絶えずモニターし、フィードバックを受け
入れた行動を考えることである。
このように学習者を訓練したり、意識を高めたりすることは「évaluation formatrice」
と呼ばれている。数々の技術をこの意識訓練のために用いることができる。基本的な原則
は印象(例：チェックリストの中でできると答えた項目)と現実(例：チェックリストの題材
を実際に聞いてみて、それが理解できるかどうか確かめること)を比べることである。
「DIALANG」はこのような方法で自己評定をテストでの成果に関連づける。もう一つの
重要な技術は作業実例の検討である。中立的な実例と学習者からの実例と両方について論
じ、質の面を論じるための各個人のメタ言語を発展させるよう奨励するのである。そうす
れば、学習者達はこのメタ言語を使って、自身の学習の長所・短所を見極め、自分自身と
の学習契約をまとめることができるのである。
大抵の形成的、または診断的な評定は、ある特定の言語学習のポイントや、つい最近に
学んだ技能や、もうすぐ学習するはずの技能について、非常に具体的に評定する。診断的
評定のためには、5.2 で示された具体例のリストはあまりに一般的過ぎて実際の役に立た
ない。むしろ、特定の関連記述(Waystage や Threshold など)を参照する必要があろう。
しかしながら、異なるレベルの異なる能力の側面を定義する能力記述文の表(第 4 章)は、
話し言葉の評定から形成的なフィードバックを与えるには有効であろう。
共通参照レベルは、総括的評定に最も関連が深いように見える。しかし、DIALANG プ
ロジェクトが示しているように、総括的評定からのフィードバックもまた診断的である場
- 196 -
合があり、従って形成的である場合もある。
直接評定/間接評定
9.3.6 直接評定/
直接評定は学習者が実際にしていることを評定することである。例えば、小グループで
何かを論じているところで、評定者がそれを観察して、規準となる表と比較し、言語運用
を表の中の最も適当なカテゴリーと一致させ、評定を下す。
一方間接評定は通常紙面テストを用い、実行可能だと考えられる技能を評定する。
直接評定は事実上、話すこと、書くこと、やり取りでの聞くことに限られる。というの
も、受容的活動は直接見ることができないからである。例えば、読むことは学習者に、適
当な解答欄をチェックさせる、文を完成させる、質問に答えさせるなどによって、理解の
証を出させることで、間接的に評定するしかない。言語の使用能力とその幅は、規準との
一致度を判断して直接的にも評定できるし、あるいはテスト問題の答えを解釈し、一般化
することで間接的にも評定できる。古典的な直接テストは面接であり、古典的な間接テス
トはクローズテスト(cloze test)である。
第 5 章の能力記述文は、様々な能力の側面を異なるレベルで定義しており、直接テスト
用の評定規準を開発するためにも用いられよう。
第 4 章のパラメーターの数々は、テーマ、
テクスト、そしてテスト課題を選択する際に参照できるが、これは創造的技能に関する直
接テストでも、聞くや読むといった技能に対する間接テストでも使うことができる。加え
て、第 5 章のパラメーターは、言語能力の鍵となる要素を特定するためには、言語知識に
関する間接的なテストが必要なことを示唆している。また、言語的、語用論的、及び社会
言語的能力の鍵となる要素の特定のためには、四技能についての項目に準拠したテスト項
目を作ることを重視する必要があることも示している。
9.3.7 運用評定/
運用評定/知識評定
運用評定を行うためには、学習者が、実際の発話か、書いた文書の実例を提示しなければ
ならないが、それらは直接テストによって得られる。
知識評定では、学習者が様々な種類の質問に答えることになるが、その質問は、学習者
にどの程度言語的な知識があり、その使い方をどの程度把握しているかを証明するもので
なければならない。
残念ながら、能力を直接に測ることはできない。それを測ろうとする場合、運用の幅か
ら熟達度についての一般化を行うしかない。熟達度というのは、実際に使用された能力と
考えて良いだろう。この意味で、運用例を証拠として、その根底にある能力を推定しよう
とするのだが、全てのテストが測っているのは実際には運用のみである。
しかしながら、面接試験では、文中の空欄を埋めるよりも多くの「言語の運用」が要求
されるし、空欄補充でも、正しい選択肢を選ぶよりは多くの「言語の運用」を要求される。
ここでは、
「言語の運用」という言葉は、実際の言語的創造という意味で使われている。し
かし、
「運用テスト」という表現の中では、「運用」という言葉はもっと限定的な意味で使
われ、
（比較的）実際の状況に近い場面で、仕事や勉強に直接関連するような言語の運用を
意味する。
「運用の評定」という言い方をするときの「運用」は、
「運用テスト」のそれよ
りは多少意味が広い。つまり、口頭で評定を行う過程は、運用テストであるとも言えるの
- 197 -
だが、それは、学習者の学習場面や必要性に関連したさまざまの実際の話し方から、熟達
度について一般化をしようとするからである。運用の評定と、システムとしての言語に対
する知識の評定とのバランスに配慮するテストも、そうしないテストもありうる。
この区別は、直接テストと間接テストの区別によく似ている。それと同じ様な方法で
CEF も利用すればよい。さらに付け加えるならば、The Council of Europe が定めた各レ
ベル（Waystage、Threshold Level、Vantage Level）には、それぞれの目標言語別に利用
可能な言語知識の適切な記述が具体的に与えられている。
9.3.8 主観的評定/
主観的評定/客観的評定
主観的評定は、評定者の判断によって決められる。普通、これは、運用の質に対する判断
のことである。
客観的評定は、主観性を排した評定である。普通、これは、例えば、選択肢式のテスト
のように、各項目に該当する正解が一つしかないような間接テストを意味する。
しかし、主観性/客観性の問題は、これより遥かに複雑である。
間接テストは、しばしば、
「客観式テスト」であるといわれているが、これは採点者が確
定的な正解をもとに、受験者の回答を正しいとするか誤りとするかを決め、正しいとした
答の数を数えて最終的な結果を出す類のものを指している。この過程をもう一段階先に進
め、それぞれの質問に正解が一つだけしかないようにし（選択肢式のテストや、c-テスト
などがこの例だが、クローズテストから c-テストが作られたのはこの理由による）
、採点
者の誤りを防ぐために機械で採点することもしばしばである。実際、この意味での「客観
式テスト」の客観性は、多少強調され過ぎている嫌いがある。というのは、誰かが、評定
という行為を、より制御し易いテストの実施技術に還元するということを決定したからで
ある（この決定自体が主観的な判断であり、同意しない人も多いかもしれないのである）
。
そして、誰かがテストの細目を書き、他の誰かが、その細目の中の特定の点を実際に測定
可能な形に書いたのかもしれない。結局は、誰かが、出題される可能性のある他の項目で
はなく、その特定の項目を、このテストの為に選んだのである。これらの決定は全て何ら
かの主観的な判断を伴うので、このような形式のテストは客観採点式テストと呼んだ方が
よいのではないだろうか。
直接運用評定では、大抵、評定者の判断を基に成績が付けられる。すなわち、学習者がどの
程度上手に言語を運用したかという判断は主観的に行われるのであり、関連する諸事情を考慮
に入れたり、ガイドラインや基準や経験に照らして決められる。言語やコミュニケーションは非常に
複雑であり、自動化に馴染まず、全体が個々の部分の総和よりも大きいのだから、主観的な方法
には利点がある。特定のテスト項目が実際には何をテストしているのかを明確にすることは困難な
場合が多い。従って、能力や運用力の特定の面に焦点を当てたテスト項目というのは、表面的に
はともかく、実際はそううまくは機能しない。
しかし、
公平を期するためには、
すべての評定はできる限り客観的でなければならない。
内容の選択や言語運用の質に関する主観的な決定に、個人的な価値判断が影響することは
可能な限り減らさなければならないし、特に総括的な評定が行われる場合には尚更である。
というのは、テストの結果は、その評定を受けた人の将来を決めるために第三者によって
使われることが多いからである。
- 198 -
評定の主観性を減らし、結果的に妥当性や信頼性を上げること可能にする手順として以下のこ
とがある。
・評定の内容を詳しくする。例えば、当該の状況に共通の参照枠組みを基盤とする。
評定の内容を詳しくする。
・共同で判断して内容の選択や運用を評価する。
共同で判断
・
評定の実施をめぐる方法を標準化する
方法を標準化する。
方法を標準化する
・間接テスト用には明確な正答を
明確な正答を作り、直接テストの判断は具体的に決められた基準
具体的に決められた基準
明確な正答を
に従って行う。
・複数回判断を用い、様々な要因を
様々な要因を考慮
複数回判断
様々な要因を考慮する
考慮
・評定の基準に関して、然るべき訓練
訓練を行う。
評定の基準
訓練
・評定データを分析することによって評定の質（妥当性、信頼性）を確認する
評定データを分析
本章の冒頭でも論じたように、評定の過程のあらゆる段階に潜む主観的判断を減らしてい
く最初の一歩は、評定内容に関する構成概念の共通理解、すなわち共通の参照枠組みを作
り出すことである。CEF は、そのような意味で内容を詳しくする
内容を詳しくする際の基準となり、直接テ
内容を詳しくする
ストの具体
具体的基準
具体的基準を作る拠り所となることを求めて作られたのである。
的基準
9.3.9 尺度評価/
尺度評価/チェックリスト評価
尺度評価：幾つかのレベル、或いはレベル帯から構成される尺度に基づいて、学習者が特
定のレベルにある、又は、特定のレベル帯の範囲内にいることを判断する。
チェックリストに基づく評価：特定のレベルやモジュールに関連があるとされる事項の
リストに照らして、学習者に対する判断を下す。
「尺度評価」では、学習者を幾つかあるレベル帯のどれかに当てはめることに主眼が置
かれる。強調されるのは垂直性であり、尺度内のどの程度上の位置まで来たのか、という
点である。それぞれのレベル・レベル帯が意味するものは、その尺度の記述によって明ら
かにされていなければならない。様々な分野に対して、それぞれ複数の尺度があるかもし
れないし、それらは表として同じページに記載されていてもよいし、別のページに記載さ
れていてもよい。それぞれのレベル・レベル帯について定義があるかもしれないし、一つ
おきにしか定義されていなくてもよい。もしくは、上、中、下のレベルに当たるものにし
か定義がないこともあり得る。
これに代わるものとして、チェックリストがある。これはそのリストに出ている項目に
関連する分野を達成できたかどうかをチェックすることが主眼となる。つまり、水平性が
強調されるのであり、そのモジュールの内容をどのくらい達成することができたかが重要
になる。チェックリストは、質問紙のように、要点を列挙したような形で示すこともでき
る。一方、それは、車輪のような形で示すこともできるし、また別の形で示すことも可能
である。答え方は、「はい/いいえ」だけかもしれないし、もっと細かい形（例えば０から
４、など）かもしれないが、その場合それぞれに表示がきちんと付いた目盛りがあり、そ
の表示も定義されていることが望ましい。
例示的能力記述文は、独立した、当該のレベルと対応した基準項目になっているので、
これを基にして特定のレベルのチェックリストを作ることも、全てのレベルに関する評価
- 199 -
尺度や表を作ることも両方可能である。チェックリストを作る場合、それは Language
Portfolio にあるようなものになるだろうし、また全ての関連するレベルの等級尺度は、第
3 章の表２で自己評価のために、表３で評価者の評価のために紹介したもののようになる
かもしれない。
9.3.10 印象/指針に基づいた判断
印象：学習者の授業中の言語運用の経験に基づいて行われる完全に主観的な判断で、特定
の評定に関して何の指針も基にしない評定。
指針に基づいた判断：何らかの指針に基づいて、意図的に評定しようという意識を持って判断を
行うことによって、印象のみによる判断を補い、評定者の主観性が減じられる判断。
ここでいう「印象」とは、教師や学習者が、授業中や宿題などの出来具合のみを基にす
ることによって、判断を下す場合のことを指している。主観的な評価、特に、継続的に行
われる評定で使われる評価は、回想や記憶を基にしたものである場合が多いが、その際に
使われている回想や記憶は、対象者を一定の期間意識的に観察することによって焦点が定
まってくるものであるかも知れない。非常に多くの学校でこの方法が実施されている。
ここでいう「指針に基づいた判断」というのは、上に述べたような印象が、何らかの評
定方法を通じて、熟慮型の判断になる場合を指している。そのような方法は、(a) 何らか
の形式で評定が行われていること、および/または (b) 各評点又は段階の間を区別できる明
確な基準を設けていること、および (c)標準化のために評定者が何らかの訓練を受けるこ
と、を意味している。指針に基づいて判断を行う利点は、このようにして評定する人達の
中で共通基準が確立できれば、下される判断の一貫性が劇的に増すことである。もし、言
語運用の実例や他の評定方法との関連が固定的「水準点」として示されているならば、一
貫性はさらに向上する。この点の重要性が強調されるのは、様々な学問分野で、次のよう
な研究結果が重ねて確認されていることによる。すなわち、評定者がきちんと訓練されて
いないまま判断を下してしまうと、評定者の厳しさによる評定の差が、学習者の実際の能
力差と同じくらいになってしまい、学習者の評定結果がほとんど偶然で決まるも同然にな
ることもある、ということである。
共通参照レベルの尺度の項目は、上の(ｂ)のような、明確化された基準を示すのに利用
することができるし、既存の評価基準によって述べられている基準が、共通レベルのどの
辺りに相当するのかを位置づけるのに使うこともできる。将来的には、評価の標準化の訓
練を助けるために、それぞれの共通参照レベルにおける言語運用の水準例が作成されるこ
とが望まれる。
9.3.11 全体的/分析的
全体的評定というのは、包括的で統合的な判断を下すことである。様々な評定側面の比重
は評定者の直感によって定められる。
分析的評定は評定側面の一つ一つを別個に見る。
この区別には二通りの仕方がある。即ち、(a) 何を評定するか、 (b) どのようにしてレ
ベル帯や級や得点が与えられるか、である。ある部分では分析的な評定を行い、別の部分
- 200 -
では全体的な評定を行うというように、組み合わせて評定が行われるような方法が採られ
ることもある。
「スピーキング」や「言葉のやり取り」のように、包括的な分野に対して何
a) 評定対象：
か一つだけ得点や級を与えるように評定しようとする場合もある。他の、もっと分析
的なやり方の中には、学習者の言語運用の中で、相互に独立したいくつかの側面ごと
に別々の結果を出すことを、評定者に要求するやり方もある。更に、評定者が学習者
に対する包括的な印象を記し、それぞれの分野別に分析的な評定を行い、その後に熟
慮して全体的な判断を下すようなやり方もある。分析的な評定法で分野別に評定する
利点は、それによって評定者がより注意深く学習者を観察するよう促すという点であ
る。評定者同士の間で結果を議論したり、学習者にフィードバックを与えたりするた
めのメタ言語となるのである。欠点は、評定者が全体的な評定とそれぞれの分野を区
別するのが難しいという点で、このことについては多くの証拠がある。また、四つか
五つ以上の分野について評定を下そうとすると、認知的に負荷がかかりすぎてしまう。
b) 結果の算定：学習者の言語運用を観察して、全体的な観点から尺度に当てはめるとい
うやり方があるが、この場合尺度が全体的なもの（包括的な尺度を一つだけ用いると
き）である場合も、分析的なもの（3~6 分野に分かれて表になったもの）である場合
もある。このようなやり方は、結果を算定するのに計算を必要としない。結果は一つ
の数値で表されるか、複数の分野にわたる評価を「電話番号」型に羅列したものとな
る。他の、更に分析的なやり方としては、分野別に何らかの評点を与え、それらを合
計してその学習者の評定値とし、更に場合によってはその評定値を級に変換するとい
うやり方がある。この方法の場合、異なる分野の評価の配点比重を変えて計算すると
いうのが、典型的なやり方である。つまり、様々な分野がそれぞれ同等の価値を持っ
ているとは見なされないということである。
第 3 章の表２と表３は、自己評定と試験者による評定の例となるものをそれぞれ挙げてあ
るが、これらは分析的な評価基準尺度（つまり表になっているもの）と、全体的な評価方
法（つまり、学習者の言語運用から引き出せるものを定義と照らし合わせて判断を下すや
り方）を組み合わせて使うような形になっている。
9.3.12 シリーズ評定/
シリーズ評定/分野別評定
分野別評定は、単独の評定課題で学習者の言語運用を評定基準表に照らして判断するやり
方で、9.3.11 で論じられた分析的評定方法に当たるものである（この評定課題は、9.2.1
で論じられたように、いろいろな発話を引き出すために様々な段階を経て行われてもよい）
。
シリーズ評定は、相互に関連性のない複数の評定課題を行い、その結果を一つの包括的
な評価として、それぞれの段階の内容が示された尺度、例えば０−３や１−４などで、表
現するものである（この場合の評定課題は、他の学習者や教師とのロールプレイという形
を取ることが多い）
。
分野別評定の問題点として、一つの分野の評定が他の分野の評定に影響するという問題
があるが、シリーズ評定はこの点に対処する方法の一つである。初級レベルでは課題の達
- 201 -
成に重点がおかれ、その学習者は何ができるのかということを、単なる印象からではなく
実際の言語運用から教師・学習者が評定したものを基盤にして、チェックリストを埋めて
いくことがねらいとなる。上級レベルでは、言語運用の中の特定の側面の熟達度を示すよ
うな課題が与えられるであろう。結果はその学習者の輪郭像として報告される。
第 5 章で並列した言語能力の様々な分野の尺度は、分野別評定の評定基準を確立するた
めの資料とするためである。評定者はごく限られた数の分野にしか対応できないので、そ
の過程で妥協が余儀なくされる。4.4 で詳述した、関連するコミュニケーション活動の種
類や、5.2.3.2 で述べられた様々な種類の機能的能力の一覧は、シリーズ評定に適した課題
を設定するのに役立つであろう。
9.3.13 他人による評定/
他人による評定/自己評定
他人による評定：教師又は評定者による判断
自己評定：自分自身の熟達度に対する判断
上で述べた評定技術の多くには、学習者自身が関与することも可能である。今までにな
された研究から、
（例えば、ある授業に入れてもらえるかどうかなどの）高い「賭け金」が
かかっていない限り、自己評定によってテストや教師の評定を効果的に補完できるといわ
れている。自己評定の正確さが増すのは、(a)明確な基準をもった熟達度の記述の上にたっ
て評定が行われる場合、および/または (b) 評定が特定の経験に関する場合である。この経
験そのものがテスト課題であってもよい。また、学習者が評定を行うための訓練を受けれ
ば、自己評定は更に正確なものとなるだろう。このように系統立てて行われる自己評定と
教師による評定やテストとの相関係数（一致の妥当性のレベルの指標）は、教師が行った
評定同士の間や、テストとテストの間や、教師による評定とテストとの間で通常みられる
相関係数と同じくらいに高いこともある。
しかし、自己評定の最大の可能性は、それを学習者の動機付けや意識を高めることに使
うことにある。学習者が自分の長所に気づき、弱点を認識し、学習の方向付けを更に効果
的なものにする手助けをすることである。
本書の利用者は次の点を考慮し、必要とあれば、その結果を表明するとよいだろう。
・
上で述べた、どの評定方法が
・
自分が受け持っている学習者の必要性と、より密接に関連するか。
・
自分が属している教育文化環境では、最も適切で、容易に実行可能か。
・
波及効果(washback effect)を通じて、教師の質を高めるには最も効果的か。
・
自分が採用している方法の中では、どのようにして、達成度の評定（学校
に基づく、学習に基づく）と、熟達度の評定（実社会に基づく、結果に基
づく）のバランスを取り、補完するか。更には、言語知識に加え、コミュ
ニケーションの言語運用の評定がどの程度行われるか。
・学習の結果がどの程度、明確に規定された基準や尺度と関連して評定されているか
（規準準拠）、および、どの程度学習者が所属しているクラスに相応の成績や評価が
与えられているか（標準準拠）
。
- 202 -
・
教師たちについては、
・どの程度規準について説明を受けているか（例えば、共通の能力記述文、言語運
用の実例）
。
・種々の評定方法についての意識を持つことを奨励されている度合い。
・どの程度評定方法や解釈の訓練を受けているか。
・標準や規準の定義に沿った、授業コースの課題の継続的な評定と定点的な評定との
統合の実現がどの程度要望され、その実現可能性がどの程度あるか。
・各レベルにおいて、課題や熟達度の諸側面について、明確に規定された能力記述文
に従って学習者に自己評定させることが、どの程度望まれており、どの程度可能で
あるか、そして、例えば、シリーズ評定を行う際に、それらの能力記述文をどのよ
うに操作可能なものにするか。
・
本書で挙げられている具体的な記述や尺度が､自分たちの環境にどのくらい関連し
ているか、また、それらを更に補完し、発展させる方法。
第 3 章の表２と表３に、自己評定用と試験者用の評価表が載せてある。「自分は∼ができ
る」と「∼が可能である」という純粋に表面的な言葉遣いの違いの他に、この二つの最も
大きな相違点は、表２がコミュニケーション活動に焦点を当てているのに対し、表３はあ
らゆる発話に見られる能力の包括的な側面に焦点を当てているという点である。しかし、
表３を若干簡単にしたような自己評定用のものは容易に考えられる。経験上言えることだ
が、少なくとも大人の学習者であれば、自分の能力に関してそのような質的な判断を下す
ことは可能である。
9.4.
実行可能な評定と上位システム
第 4 章と第 5 章の中の随所で取り上げた尺度はそれぞれ、第 4 章と第 5 章の本文の、より
包括的な記述要綱を単純化した一連の分野の例を挙げたものである。実際的な評定の方法
として、全レベルでこの全尺度全部を使うことを意図しているわけではない。評定者が一
人で多くの分野対応するのは困難であるし、加えて、状況によってはここで示されている
レベルの全範囲が必要ではない場合もあるかもしれない。むしろ、これらの尺度は参照資
料として挙げておいた。
どのような評定方法を採用するにせよ、実際の評定方法の中では、評定するカテゴリー
を、実際に評定者が取り扱い可能な数に減らす必要がある。これまでに得られた知見によ
れば、分野の数が四つか五つを越えると認知的な負荷がかかりすぎ、七分野が心理的な上
限だそうである。従って、取捨選択が必要になる。口頭での評定の場合、やり取りの方略
が重要なコミュニケーションの質的側面だと考えるならば、例示的尺度には口頭評定に関
連のある質的カテゴリーが 14 分野含まれる。
発話権の方略
協調の方略
説明を求める
- 203 -
流暢さ
柔軟性
一貫性
主題の展開
精確さ
社会言語能力
総合的な使用言語領域
使用語彙領域
文法的正確さ
語彙の使いこなし
音韻面の把握
これらのうちの多くは、一般的なチェックリストに含めることもできる能力記述文ではあ
るが、どのような言語運用の評定でも、14 もの分野は明らかに多すぎる。従って、実際に
は、
このようなカテゴリーの一覧表には選択的に対応しなければならない。要点を統合し、
名称を変更し、評価基準の数を減らすなどして、当該の学習者との関連性が強く実施され
る評定課題が求めるものや、教授環境の形に応じて変えたものを採用する必要がある。そ
のようにして修正された基準には、それぞれ等分の比重をかけることもできるし、その場
の課題にとって、より重要だと思われる特定の要因の比重を多くすることもできる。
上記のことを実践してみたのが、次に挙げる四つの例である。最初の三つは、既存の評
定方法の中で、どのように各分野を評定基準として使うことができるかを簡単に示したも
のである。四つ目は、本書に出てくる尺度の能力記述文を統合し、再構成することによっ
て、特定の機会における特定の目的のための評定表を作成した例である。
例１
ケンブリッジ上級英語検定(Cambridge Certificate in Advanced English = CAE)、
文書５：評定の基準 (1991)
検定基準
例示的尺度項目
流暢さ
流暢さ
正確さと使用言語領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
文法的正確さ
語彙の使いこなし
発音
音韻面の把握
課題達成
一貫性
課題達成
社会言語的適切さ
対話相手に助け舟を出してもらう
受ける必要性
対話的コミュニケーション
発話権の方略
議論に参加できる程度、およびそ
協調の方略
の容易さ
- 204 -
主題の展開
他のカテゴリーに関する註：例示的尺度の中では、課題の成功に関する記述はコミュニケーション活動の
中で扱われる活動の類との関連で述べられていた。議論に参加できる程度、およびその容易さという分野
は、その尺度の中では流暢さの分野に含まれている。対話相手に助け舟を出してもらう必要性に関する能
力記述文を作成し、尺度として整えて例示的尺度項目に加えようとする試みは失敗に終わった。
例２
国際検定会議(International Certificate Conference = ICC) ビジネスを目的とした英語
検定 (Certificate in English for Business Purposes)
テスト２：ビジネス会話 (1987)
検定基準
例示的尺度
他のカテゴリー
尺度１（名前なし）
社会言語的適切さ
課題の成功
文法的正確さ
語彙の使いこなし
尺度２（会話を開始し、継発話権の方略
続するための談話手段協調の方略
(discourse feature)の使用）社会言語的適切さ
例3
ユーロセンター (Eurocentres) −
少人数集団対話評定 (Small Group Interaction
Assessment = RADIO) (1987)
検定基準
例示的尺度
領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
正確さ
文法的正確さ
語彙の使いこなし
社会言語的適切さ
話しぶり
流暢さ
音韻面の把握
やり取り
発話権の方略
協調の方略
例4
スイス国立研究審議会 (Swiss National Research Council)：ビデオに録画された言語運用
の評定 (Assessment of Video Performances)
背景：付録 A にあるように、この例示的能力記述文はスイスの研究プロジェクトで尺度に
まとめたものである。研究に参加した教師達は研究プロジェクト終了時に会議に招かれ、
研究結果の発表があり、またスイスで European Language Portfolio を使った研究が発足
した。この会議で議論があった項目の中の二つは、(a) 継続的評定及び自己評定のチェッ
- 205 -
クリストを、全体的な枠組みの中に関連付ける必要性、および、(b) そのプロジェクトで
尺度化された能力記述文を、評定を行う上でどのように利用することができるか、という
点であった。この議論の過程で、
研究の調査に参加した何人かの学習者のビデオの映像が、
第 3 章の表 3 に載せてある評定表に基づいて評価された。例示的能力記述文の中からいく
つか項目を選んで統合し、編集したものとなっている。
評価基準
例示的尺度
使用言語領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
正確さ
文法的正確さ
語彙の使いこなし
流暢さ
流暢さ
やり取り
包括的なやり取り
発話権
協調性
一貫性
一貫性
様々な状況における様々な学習者に対する様々な評定方法において、いろいろな評定のた
めに、いろいろな形で、それぞれの要素が簡略化し、取捨選択し、組み合わされている。
実際、14 の分野というのは多すぎはしない。人々が選ぶいろいろな種類のものを全て網羅
することはおそらく不可能であり、更に総合的なものにするためにはもっと拡張する必要
さえある。
本書の使用者は、次の点を考慮し、必要とあれば、その結果を表明するとよいだろう。
・
各々が採用している方法では、どのようにして、理論的なカテゴリーが具体化のアプ
ローチに簡略化されているか。
・
各々が採用している方法において、評定基準として使われている主要な要因が、個別
の使用域を考慮した局地的精密化を経た上で、第 5 章で紹介された一連のカテゴリー
（付録でその尺度の具体例が挙げられている）のなかで、どのように位置づけられる
か。
第 3 章の表２と表３に、自己評定用と試験者用の評価表が載せてある。「自分は∼ができ
る」と「∼が可能である」という純粋に表面的な言葉遣いの違いの他に、この二つの最も
大きな相違点は、表２がコミュニケーション活動に焦点を当てているのに対し、表３はあ
らゆる発話に見られる能力の包括的な側面に焦点を当てているという点である。しかし、
表３を若干簡単にしたような自己評定用のものは容易に考えられる。経験上言えることだ
- 206 -
が、少なくとも大人の学習者であれば、自分の能力に関してそのような質的な判断を下す
ことは可能である。
9.4. 実行可能な評定と上位システム
第 4 章と 5 章の中の随所で取り上げた尺度はそれぞれ、第 4 章と 5 章の本文の、より包括
的な記述要綱を単純化した一連の分野の例を挙げたものである。実際的な評定の方法とし
て、全レベルでこの全尺度全部を使うことを意図しているわけではない。評定者が多くの
分野の評価に対応するのは困難であるし、加えて、状況によってはここで示されているレ
ベルの範囲全部が必要ではない場合もあるかもしれない。むしろ、これらの尺度は参照資
料として挙げておいた。
どのような評定方法を採用するにせよ、実際の評定方法の中では、評定するカテゴリー
を、実際に評定者が取り扱い可能な数に減らす必要がある。これまでに得られた知見によ
れば、分野の数が四つか五つを越えると認知的な負荷が超過になり、七分野が心理的に上
限だそうである。従って、取捨選択が必要になる。口頭での評定の場合、会話の方略が口
頭評定を行う際に重要なコミュニケーションの質的側面だと考えるならば、例示的尺度に
は口頭評定に関連のある質的カテゴリーが 12 分野含まれる：
発話権の方略
協調の方略
説明を求める
流暢さ
柔軟性
一貫性
主題の展開
精確さ
社会言語能力
総合的な使用言語領域
使用語彙領域
文法的正確さ
語彙の使いこなし
音韻面の把握
これらのうちの多くは、一般的なチェックリストに含めることもできる能力記述文ではあ
るが、どのような言語運用の評定でも、12 もの分野は多すぎるのは明らかである。従って、
実際には、このようなカテゴリーの一覧表は選択的に対応しなければならない。要点を統
合し、名称を変更し、評価基準の数を減らすなどして、当該の学習者との関連性が強く、
実施される評定課題が求めるものや教授環境の形に応じて変える必要がある。そのように
して修正された基準には、それぞれ等分の比重をかけることもできるし、その場の課題に
とってより重要だと思われる特定の要因の比重を多くすることもできる。
上記のことを実践してみたのが、次に挙げる四つの例である。最初の三つは、既存の評
- 207 -
定方法の中で、どのように各分野を評定基準として使うことができるかを簡単に示したも
のである。四つ目は、本書に出てくる尺度の能力記述文を統合し、再構成することによっ
て、特定の機会における特定の目的の為の評定表を作成した例である。
例１
ケンブリッジ上級英語検定(Cambridge Certificate in Advanced English = CAE)、
文書５：評定の基準 (1991)
検定基準
例示的尺度項目
流暢さ
流暢さ
正確さと使用言語領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
文法的正確さ
語彙の使いこなし
発音
音韻面の把握
課題達成
一貫性
課題達成
社会言語的適切さ
対話相手から支援を受ける必要性
発話権の方略
議論に参加できる程度及びその容
協調の方略
易さ
対話的コミュニケーション
主題の展開
他の分野に関する注：例示的尺度の中では、課題の成功に関する記述はコミュニケーショ
ン活動の中で扱われる活動の類との関連で述べられていた。議論に参加できる程度及びそ
の容易さという分野は、その尺度の中では流暢さの分野に含まれている。対話相手に支援
を受ける必要性に関する能力記述文を作成し、尺度として整えて例示的尺度項目に加えよ
うとする試みは失敗に終わった。
例２
国際検定会議(International Certificate Conference = ICC) ビジネスを目的とした英語
検定 (Certificate in English for Business Purposes)
テスト２：ビジネス会話 (1987)
検定基準
例示的尺度
他のカテゴリー
尺度１（名前なし）
社会言語的適切さ
課題の成功
文法的正確さ
語彙の使いこなし
尺度２（会話を開始し、継発話権の方略
続するためのディスコース協調の方略
要素の使用）
社会言語的適切さ
例3
ユーロセンター (Eurocentres) −
少人数集団対話評定 (Small Group Interaction
Assessment = RADIO) (1987)
- 208 -
検定基準
例示的尺度
領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
正確さ
文法的正確さ
語彙の使いこなし
社会言語的適切さ
話しぶり
流暢さ
音韻面の把握
言葉のやり取り
発話権の方略
協調の方略
例4
スイス国立研究審議会 (Swiss National Research Council)：ビデオに録画された言語運用
の評定 (Assessment of Video Performances)
背景：付録Ａにあるように、この例示的能力記述文はスイスの研究プロジェクトで尺度に
まとめたものである。研究に参加した教師達は研究プロジェクト終了時に会議に招かれ、
研究結果の発表があり、またスイスで European Language Portfolio を使った研究が発足
した。この会議で議論があった項目の中の二つは、(a) 継続的評定及び自己評定のチェッ
クリストを、全体的な枠組みの中に関連付ける必要性、及び、(b) そのプロジェクトで尺
度化された能力記述文を、評定を行う上でどのように利用することができるか、という点
であった。この議論の過程で、研究の調査に参加した何人かの学習者のビデオの映像が、
第 3 章の表 3 に載せてある評定表に基づいて評価された。例示的能力記述文の中から幾つ
か項目を選んで統合し、編集したものとなっている。
評価基準
例示的尺度
使用言語領域
総合的な使用言語領域
他のカテゴリー
使用語彙領域
正確さ
文法的正確さ
語彙の使いこなし
流暢さ
流暢さ
言葉のやり取り
包括的なやり取り
発話の順番
協調性
一貫性
一貫性
様々な状況における様々な学習者に対する様々な評定方法が、いろいろな評定のためにい
ろいろな形で、それぞれの要素を簡略化し、取捨選択し、組み合わせる。実際、12 の分野
というのは多すぎるのではなく、人々が選ぶいろいろな種類のものを全て網羅することは
おそらく不可能であり、更に総合的なものにするためにはもっと拡張する必要がある。
- 209 -
本書の使用者は、次の点を考慮し、必要とあれば、その結果を表明するとよいだろう
・
各々が採用している方法では、どのようにして、理論的な分野が具体化された分野に
簡略化されているか。
・
各々が採用している方法において、評定基準として使われている主要な要因が、個別
の使用域を考慮して狭い範囲内での詳細化を経た上で、第 5 章で紹介された一連の分
野（付録でその尺度の具体例が挙げられている）のなかで、どのように位置づけられ
るのか。
- 210 -