テスト理論と実践から見る中国語検定試験

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download テスト理論と実践から見る中国語検定試験

Transcript

テスト理論と実践から見る中国語検定試験

県立広島大学人間文化学部紀要　８，115-129（2013）
テスト理論と実践から見る中国語検定試験
その 3 級を中心に
侯　仁　鋒
0 ．はじめに
テスト理論と言っても、実際に用いられている理論モデルは「古典的テスト理論（Classical Test
Theory）
」と「項目反応理論（Item Response Theory）」の 2 種類である。それぞれ、用いる目的やシー
ンが異なっている。項目反応理論は潜在的な尺度特性を基本に置くモデルなので、通常行われている
得点によるテスト結果の表示には馴染みにくい。そこで、本論では、古典的テスト理論の考え方及び
その実践に基づき、そこから見た中国語検定試験について考えてみたい。
1．中国語検定試験
1 ．1 中国語検定試験（以下中検と略称）とは
一般財団法人日本中国語検定協会（Copyright（C）The Society for Testing Chinese Proficiency,
Japan）が運営する中国語試験であり、1981年に第 1 回を実施して以来、もう31年を迎え、評価基準、
評価方法の検討を重ねながら、現在年に 3 回試験を行っている。その結果、志願者数は年間 6 万人、
累積志願者数は84万人、
累積合格者数も31万人 1 ）となり、社会的評価も定着している大型試験である。
このように、中検は中国語能力検定としては最も知名度が高いため、中国語能力を示す資格として、
教育機関のみならず、ビジネスなどの世界でも広く通用している。また、就職転職の武器として、中
検を選択する学習者層も広がりつつある。試験にはもはや社会的な機能と効用が不本意かもしれない
が、濃厚に見える。試験はこのような色に塗られると、ますます権威性と公正性を求められるに違い
ない。
この試験を検討するために、どうしても日本中国語検定協会が公表した「認定基準」などに基づい
て分析をしなければならないので、少し長いが、「認定基準」「出題・解答方式」などを最初に引用し
ておく。
1 ．2 認定基準
中国語学習の準備完了
学習を進めていく上での基礎的知識を身につけていること。
準4級
（学習時間60 ～ 120時間。一般大学の第二外国語における第一年度前期修了，高等学校における第一年
度通年履修，中国語専門学校・講習会等において半年以上の学習程度。）
基本単語約500語（簡体字を正しく書けること），ピンイン（表音ローマ字）の読み方と綴り方，単文
の基本文型，簡単な日常挨拶語約50 ～ 80。
中国語の基礎をマスター
4級
平易な中国語を聞き，話すことができること。
（学習時間120 ～ 200時間。一般大学の第二外国語における第一年度履修程度。）
単語の意味，漢字のピンイン（表音ローマ字）への表記がえ，ピンインの漢字への表記がえ，常用語
115
侯　仁鋒　テスト理論と実践から見る中国語検定試験
4級
500 ～ 1 ,000による中国語単文の日本語訳と日本語の中国語訳。
自力で応用力を養いうる能力の保証（一般的事項のマスター）
基本的な文章を読み，書くことができること。
3級
簡単な日常会話ができること。
（学習時間200 ～ 300時間。一般大学の第二外国語における第二年度履修程度。）
単語の意味，漢字のピンイン（表音ローマ字）への表記がえ，ピンインの漢字への表記がえ，常用語
1 ,000 ～ 2 ,000による中国語複文の日本語訳と日本語の中国語訳。
実務能力の基礎づくり完成の保証
複文を含むやや高度の中国語の文章を読み， 2 級程度の文章を書くことができること。
2級
日常的な話題での会話が行えること。
単語・熟語・慣用句の日本語訳・中国語訳，多音語・軽声の問題，語句の用法の誤り指摘，100 ～
300字程度の文章の日本語訳・中国語訳。
実務に即従事しうる能力の保証（全般的事項のマスター）
準1級
社会生活に必要な中国語を基本的に習得し，通常の文章の中国語訳・日本語訳，
簡単な通訳ができること。
新聞・雑誌・文学作品・実用文等やや難度の高い文章の日本語訳・中国語訳。
高いレベルで中国語を駆使しうる能力の保証
高度な読解力・表現力を有し，複雑な中国語及び日本語（例えば挨拶・講演・会議・会談など）の翻
1級
訳・通訳ができること。
（ 1 次）時事用語も含む難度の高い文章の日本語訳・中国語訳。熟語・慣用句等を含む総合問題。
（ 2 次）中国人との会話及び通訳。
1 ．3 出題・解答方式
準4級
4級
3級
2級
準1級
1級
116
リスニング
（選択式）
50点
筆記
（選択式・記述式）
50点
リスニング
（選択式）
100点
筆記
（選択式・記述式）
100点
リスニング
（選択式）
100点
筆記
（選択式・記述式）
100点
リスニング
（選択式）
100点
筆記
（選択式・記述式）
100点
リスニング
（選択式・記述式）
100点
筆記
（選択式・記述式）
100点
リスニング
（選択式・記述式）
100点
筆記
（選択式・記述式）
100点
県立広島大学人間文化学部紀要　８，115-129（2013）
1 ．4 合格基準点
準4級
リスニング（点）
筆記（点）
60
4級
3級
2級
準1級
1級
60
65
70
75
85
60
65
70
75
85
合格基準点は，難易度を考慮して調整されることがあります。
準 4 級の基準点は，リスニング・筆記を合計した点数です。
（一般財団法人日本中国語検定協会HPより）
試験は、準 4 級から 1 級まで、 6 段階（ 4 級と 1 級は「準」あり）が設定され、六つのレベルに分
かれて中国語能力を評価する検定試験であり、いわゆる英語の英検に相当する試験として、広く受け
られている。
スコア制を取るTOEICのような試験が普及しつつある今日、中検の採用している級別評価は、段
階的に学習を進める上での指標となるし、初級なら初級、中級なら中級で、そのレベルで学習すべき
内容を確かに身につけているか否かを測るためのリトマス紙となるような試験であると言えよう。
この意味において、中検はあらゆる中国語学習者にとって有意義な検定試験であろう。特に 4 級と
3 級は、基礎内容をしっかりと身につけているかどうかを確認する上で、非常に有用な存在であると
考えられる。
また、 2 級はどちらかと言えば、長期戦となる中国語の中級レベルの半ばに位置する試験で、
「さ
まよえる中級」と呼ばれる中級学習者にとって、かなりの努力を払わないと登れない大きなステップ
となる指標である。そして、そのゴールが準 1 級である。上級者の証となるこの試験は、中検の事実
上のゴールとなる。
最上級の 1 級試験は口頭試問の形で通訳課題も課されて、事実上中国語通訳翻訳検定の性格も兼ね
ているため、中国語のプロを目指す者以外には挑戦者の少ない試験であろう。
このように語学の視点から、
中検は各級ともそれぞれに大きな意義があるポイントに位置しており、
中国語学習を進める上での羅針盤となる信頼性のある指標で、且つ資格としての社会的認知度も高く、
すべての中国語学習者にとって有意義な存在であろうと思われる。
2 ．受験者数推移と合格率の不安定
試験を検討する際、試験の性質・性格などを把握した上で、もう一つ、受験者数、試験後のデータ
は必要不可欠である。日本中国語検定協会が公表したデータをもとにして作成された表を引用させて
いただきながら分析していく。
117
侯　仁鋒　テスト理論と実践から見る中国語検定試験
2．1 受験者の増加
表１
（中国語達人への道HPより、表４まで同）
2011年は東日本大震災の影響で、73回は実施しなかったので、受験者は減少したが、全体の流れと
して増える傾向にある。
表２
118
県立広島大学人間文化学部紀要　８，115-129（2013）
3 級、 4 級の受験者は圧倒的に多い。受験者が多いということは、その分受験者集団はその受験者
のレベルの差が増大されることになるため、問題の識別力（とは何か。後文を参考されたい）をいい
方向に持っていく可能性がある。問題の識別力を評価する際、これを考慮に入れる必要がある。
表３
どの級も受験者が増加の一途を辿っていることが分かる。受験者数から言うまでもなく中検はまず
大型試験であるに違いない。更に、同じ級でも年に 3 回実施する。ここからなおさら、標準で公正な
試験にしなければならないことが求められる。
また、受験者数はテストの信頼性に関わる。受験者数が多ければそれほど、一般論として個人差が
大きくなるので、信頼性係数の値は高くなる。したがって、自家評価によって受験者層が狭い範囲に
偏る個別大学の試験より、例えば学期末の試験など、中検の方が本質的に信頼性が高くなるのが普通
である。
119
侯　仁鋒　テスト理論と実践から見る中国語検定試験
2 ．2 合格率の不安定
表４
このデータから見るに、 1 級・準 1 級は合格率がいずれも20％以下に止まり、 2 級はほとんど20％
になったりならなかったりしているので、基準参照テスト（とは後文を参照されたい）としての到達
度はかなり難易度が高いことが分かる。それ以上に明らかな点は、 3 級・ 4 級・準 4 級においてグラ
フの起伏が大きく、 3 級の場合は合格率で約30 ～ 50％、 4 級の場合は約45 ～ 60％と、異なる回間で
の開きが約20％程度にも及ぶ。準 4 級においても合格率は70％と高いものの、ほぼこれに近い起伏が
見られる。このデータから公正で且つ安定した試験内容を提供しているとは言いがたい。このような
大型の標準試験に一番求められるのは、何よりも公器としての公正さであろう。この公正さは言うま
でもなく異なる回間における試験の難易度の安定である。このグラフに示された不安定の原因はいっ
たいどこにあるのか。以下では言語テストに関する理論及びその実践の角度から、 3 級の問題を例に
して、いかに試験の安定度（精度）を高めるか、精度を維持する実際の設計をどう考えるかを中心に、
考察を行う。
3 ．中国語検定試験 3 級のペーパー構成
後文で検討を行う便宜をはかるために、中国語検定試験 3 級のペーパー構成をイメージの形でピッ
クアップしておく。
120
県立広島大学人間文化学部紀要　８，115-129（2013）
これで分かるように、リスニングと筆記の二つの形で測定する。リスニングは20問で、筆記は41問、
全部で61問である。リスニングの20問、
筆記の最初からの36問、併せて56問は四肢択一の問題である。
残りの最後の 5 問はセンテンスの日文中訳である。ちなみに試験時間は100分間である。
4 ．テスト理論と実践による分析
4 ．1 妥当性と信頼性
古典的テスト理論の柱となる概念は妥当性（validity）と信頼性（reliability）である。そのうち、
妥当性とは、
「測定したいものを本当に測っているのか」ということであり、測定の意義を問う概念
と言える。妥当性には様々な種類のものがあるが、本論では、ただ内容的妥当性に絞って検討する。
内容的妥当性（content validity）となると、測定されるべき同質の内容を過不足なくカバーして
いるか。ここでまず試験の目的に関わり、常にこの試験は何のために行うかをつよく意識する必要が
あり、
それにふさわしい内容を最大限に盛り込もうとすることが求められることが分かる。その次に、
内容的妥当性の問題として思い浮かぶのが、学校教育なら、教育シラバス、教育内容に準拠しなけれ
ばならない。すなわち、教科・科目別の学力検査における学習指導要領、教科書と問題との関連であ
り、この関連は何よりも重要である。また、問題内容が測定すべき内容をバランスよくカバーしてい
なければならない。さらに、大型試験なら、試験シラバスを制定し、それによって、試験の内容範囲、
難易度、試験時間、課題形式、配点分布などを明確且つ詳細に決めて公表する必要がある。このよう
に、試験は教育目標と濃厚に関連付けて、決まった内容から満遍なく出題しなければならないのであ
る。もしそうでなければ、そのテストは内容的妥当性を欠くことになる。
一方、限られた時間ですべての内容を測ることは不可能である。どのように多くの内容から適当な
項目を抽出して、テストに盛り込むかということも妥当性に関わる。
したがって、妥当性を検討する際、少なくとも教育シラバスや試験シラバスがあれば、まずテスト
がその規定の目標に符合しているかどうか、教育範囲を逸脱しているかどうかをチェックする。それ
から、バランスから問題の内容を検討する必要があることが分かる。
この意味で中検（ 3 級）を見てみると、「認定基準」はあるが、詳細な語彙リスト、文法項目など
がないので、妥当性は損なわれる危険性がある。受験者はもちろん、出題者も具体的に何を基準にし
て出題するか、おそらく不明確だろう。その結果、前文であげた表の通り、回間の合格率の不安定を
121
侯　仁鋒　テスト理論と実践から見る中国語検定試験
きたしたのは、これが一因ではないかと思われる。
確かに試験の実践から分かるように、試験問題の難易度を異なる試験の間で完全に一定に保つこと
は、試験問題作成の過程において極めて困難である。しかし、これを最大限に抑えるために、まず詳
細な「認定基準」は必要不可欠であり、しかも、これはむしろ受験者のためではなく、出題者のため
の存在であると考えられる。
他方、妥当性が測定の意義、内容を問う概念であるのに対し、信頼性は測定の安定性を問う概念で
ある。すなわち、
「何度も測定を繰り返したとき、どれほど安定して同じような測定結果が返ってく
るか」
、を問う概念である。すなわち、信頼性とは、そのテストが信頼できるか、という指標のこと
である。信頼性の目安となるものは、大きく分けて二つある。
①同一個人に同一の条件で同一のテストを行った場合、同一の結果が出るかどうか…安定性
②同一個人が同じような（同一の、
ではない）質問に対して、同じような答えをするか…一貫性（あ
るいは等質性）
テストはこのような機能を果たすことがなかなか容易なものではない。というのは、テストは物差
しのように正確な尺度を持たなければならないのである。ただし、言語テストは、能力を測るもので、
物理を測るような物差しではなくて、その尺度になる内容は試験ごとに常に変わるので、その正確さ
を維持することがなかなか難しいとされている。そこで、テストの精度を維持するために、試験の目
標と特定受験者集団のレベルを十分に把握した上で、以下の方法が考えられる。
①テストの範囲を満遍なくカバーするようにテスト細目を作成し、その中から問題を抽出する。
②問題数が多ければそれほど信頼性が高いので、問題の量を十分にする。
③客観問題を多数採用する。
④問題の難易度及び比率をバランスよく配置する。
⑤問題自身は明確で、正解は一つではなくてはならない。
⑥受験者がテストの形式に慣れ親しむ。
⑦テストは同じ条件で実施する。
⑧採点項目と基準を詳細に設定する。
これに照らし合わせて、中検 3 級を見てみると、以下の 2 点が指摘できる。一つは、その「認定基
準」にふさわしく、詳細な内容設定がないので、具体的に、どの範囲で、どの程度、どんなレベルで、
どのように詳細項目を作成し、さらにその中から問題を抽出するかは不可能に近いか、少なくとも困
難であると言わざるをえない。それで、結果として表れてきたのは合格率の不安定である。なぜこう
なったのか、言うまでもなくその尺度としての試験問題は回ごとに難しかったり、やさしかったりし
たからであろう。もし、受験者集団のほうは全体でレベルに著しい変化がなければ、試験精度の把握
と維持は充分ではないことが言えるかもしれない。
中検のように、得点（素点とも言う）による能力評価は、テストの難易度に依存するもので、項目
応答理論に基づく統計的な手法で算出する「尺度得点」を導入しない限り、異なる回間の試験の難易
度の把握は何より重要であることが明白であろう。
もう一つは、テスト全体は61問で、試験時間は100分間で、テスト理論から見ても、設定時間から
見ても問題数はやや足りないように思われる。特に筆記問題は41問しかなく、リスニングの30分間を
除けば、70分間もあり、しかもその41問のうち、36問も選択問題である。したがって、本学の学生の
模擬試験では時間的にかなりの余裕があることが分かる。問題数の少ない弊害は、信頼性を損なう恐
れをもたらすばかりでなく、テストは、受験者の問題の成否を測定すると同時に、受験者の熟達度を
測らなければならないので、一定の量がなければ、テストのこの機能は弱化されることになる。信頼
122
県立広島大学人間文化学部紀要　８，115-129（2013）
性を確保するために、適当な量を配置することが極めて重要であることが分かる。
4 ．2 基準参照テストと集団参照テスト
今日では、中国語も他の言語と同じように様々な試験が行われている。試験の目的に基づけば、こ
れらの試験を 2 種類に大別することができる。それは基準参照テストか集団参照テストかのいずれか
である。さて、中検はどちらに属するだろう。
基準参照テスト（criterion-referenced tests）とは、他の受験生の成績に関係なく受験者自身があ
る程度の基準を満たせば合格となるテストである。教育現場では、例えば学期末テスト、科目修了テ
ストなどがそれである。実感でも分かるように合格率が高いことが特徴である。大型の試験になると、
個人差が増大するので、そうとは限らない。中検の合格率はこれを物語っている。
一方、集団参照テスト（norm-referenced tests）は、他の受験者の成績との比較によって結果が表
されるテストのことである。優秀な人材を選抜するときによく使うテストである。
それぞれの定義に合わせてみれば、中検は「認定基準」と「合格基準点」が設けてあるので、基準
参照テストだということが明白であろう。しかし、上に述べたように、
「認定基準」は内容的に明確
なものであるとは言いがたい。基準の不明確は、尺度としての精度が揺れることを意味すると同時に、
テストの妥当性にも信頼性にも影響を与えるし、テストの精度の把握と維持にも不利益であろう。
また、準 1 級と 1 級は、そのテストの量からも、難易度からも、そして合格率からも、集団参照テ
ストの選抜性という性格をある程度帯びているようである。
4 ．3 客観テストと主観テスト
試験は採点の方法から客観テスト（objective tests）と主観テスト（subjective tests）に分類でき
る。客観テストは各問題とも正答が一つで、正答表さえあれば誰でもが、マークシート方式の場合コ
ンピューターでも採点できる試験である。解答の形式としては、○×による正誤問題、多肢選択問題、
多数の選択肢を与えた穴埋め問題、複数の選択肢群を結びつけるA群B群問題、複数の選択肢を並べ
たり優先順位を付けたりする並び替え問題などがある。
他方、主観テストは、作文や翻訳や論述テストのように採点が主観的に行われる試験である。
「～
について述べよ」という論文体テストやインタビュー形式のテストで、問題数や出題範囲は限られる
が総合力が測れる。と同時に採点結果が採点者の主観によって左右される恐れがある。問題を作るの
は比較的容易だが、採点に時間がかかり採点基準を一定に保つのも難しい。
中検 3 級を見てみると、リスニングは20問、筆記は41問であり、この61問のうち、多肢選択（四肢
択一）問題、すなわち客観問題は36問あり、残りの 5 問は日文中訳で、主観問題となる。ここから中
検 3 級は、客観問題を主とし、主観問題を補助とするような構成であることが分かる。
一般論として、客観テストは採点結果の信頼性という面で優れている。実用性 2 ）という面に関し
ても、一度テストができてしまえば非常に優れているが、作成時には難しい面があることが否定でき
ない。すなわち、客観テストは信頼性が高いということになる。主観テストの長所は何と言っても、
「話す」
「聞く」
「読む」
「書く」の四技能にわたって実際の言語使用に近いテスト作成ができるという
ことであろう。これは妥当性という面で優れたテストを作成しやいということを意味する。また、こ
の長所に伴って非常に有益な波及効果 3 ）も期待できる。しかし、実用性や信頼性といった面では主
観テストには難があると言えるだろう。また、採点のコストが高いので、大型試験はほとんど採用し
ない。
中検 3 級は、客観問題を主とし、主観問題を補助とするような構成であるので、信頼性が高い試験
123
侯　仁鋒　テスト理論と実践から見る中国語検定試験
を維持することができると同時に、妥当性を高めようとする効果があると考えられる。
4 ．4 間接テストと直接テスト
実際の言語使用をテストで試す場合、
このテストは直接的テスト（direct tests）と呼ばれる。例えば、
書く能力を測るテストを作成することを考えてみよう。もし、実際に書かせるテストを作成したとす
ると、これは直接的に書く能力を測っているので直接テストである。直接テストの最大の長所は、あ
る技能をそのまま受験者に使わせるため、妥当性の心配をあまりしなくてよいことである。もちろん、
テスト結果の信頼性は別問題である。直接テストは通常主観的採点を伴うので、採点結果に信頼性を
持たせることが難しくなりがちだという欠点もある。
妥当性という面では、いつも直接的なテストを行えればよいのだが、実用性ということを考えると、
そうもいかないのが実情である。中検 3 ・ 4 級では受験者が非常に多い。こうなると、直接テストを
行おうとしても無理である。採点も大変だからである。数千人の受験者がいたとしたら、テストその
ものを作成・実施することは簡単であるが、採点は困難を極める。採点者の人数、時間、費用などの
ほかに、特に、採点に信頼性を持たせるためには、採点者のトレーニングが必要になる。更に、たと
え採点者はトレーニングを受けたとしても、長時間（数日間）
、多数のペーパーを採点しているうち
で、様々な内容、いろいろな書き方を目の前にして、同じ人間であってもいつも同じ基準で評価して
いくということは言うまでもなく非常に困難である。まして、異なる人の間の場合である。そのため
には、さらに時間と費用が必要になるのである。直接テストを行うことがそれほど容易ではない背景
には、こういった妥当性よりも実用性が優先されてしまうということがある。中検 3 級では、これを
最大限に抑えるために、純粋な直接テストを設けておらず、強いて言えば、その日文中訳の 5 問は直
接テストのような成分があるにすぎない。
実際の言語使用をテストする代わりに別の活動、例えば穴埋め問題を通して間接的に言語使用能力
を測るテストは間接テスト（indirect tests）と呼ばれる。
中検 3 級の発音の問題では、例えば、
「 2 .（6）～（10）の中国語の正しいピンイン表記を、それぞれ
①～④の中から 1 つ選び、番号を解答欄にマークしなさい。」という形式の問題があり、
（1）印象　① yǐxiàn　② yǐnxiàng　③ yǐnxiàn　④ yǐnxiàng　（第66回より例示）
受験者がその単語を正確に発音できるかを調べようというものである。実際に受験者に読ませるので
はなく、識別させるだけである。このような形によって、受験者の語学レベルを推測しようとするの
は間接テストの基本的な考え方である。こういった問題は、もちろん表面的妥当性 4 ）を欠く問題で
あるし、構成概念的妥当性 5 ）があるかどうかも実験を行って証明しない限りは分からない。ただし、
答えが明確に決まっている場合が多いから、採点は簡単になり、採点結果の信頼性が高くなるという
長所がある。
中検 3 級は、直接テストは実施不可能などの制約があるので、一般論としての人間の語学能力（発
音能力、語彙能力、文法能力、文章能力など）とされるものを間接的に測定するテストである。
4 ．5 分離テストと統合テスト
客観テストの支持者の中に分離テスト（discrete tests）を唱える者がおり、いわゆる外国語能力の
四技能とされる「聞く」
「話す」
「読む」
「書く」をそれぞれ分離してテストすることを主張している。
中検 3 級は、ペーパーでは、リスニングと筆記の二つからなっているが、筆記には、「読む（読解）」、
「書く（日文中訳）
」があるので、
「話す」技能以外は全部測ることになることが分かる。
コミュニケーションは「聞く」
「話す」「読む」
「書く」の四つの技能からなっており、実際にはこ
124
県立広島大学人間文化学部紀要　８，115-129（2013）
の四つの能力を完全に分割できず、むしろ切っても切れない関係となっている。したがって、外国語
教育の目標は「聞く」
「話す」
「読む」
「書く」の四つの技能を総合的に育成することであると最近の
外国語教育の応用研究でも明らかにされているし、主張している。これに伴って、この四つの技能を
全般にわたってその総合的な応用能力をテストすべきであり、言語要素（能力）とされる発音、語彙、
文法、文型、文意、思考、鑑賞、対訳などあらゆるものを、「聞く」「話す」「読む」「書く」に織り込
んで、この四つの技能を全般的に測定することは理想的な語学テストとして主流となっている。統合
テスト（integrative tests）は正にそれである。
中検 3 級は、
「話す」テストが現段階では実施不可能なので、不完全な統合テストとみなしてもよ
いであろう。
4 ．6 記憶テストと識別テスト
外国語教育とそのテストを検討する際、「記憶」（recall）と「識別」（recognition）の二つの概念及
びその取り組み方を考慮に入れる必要があると思われる。それによれば、対訳課題、作文、小論文と
いったテストと会話能力テストは主に記憶テストに属する。解答を文字で表すことと、口頭で答える
ことは記憶能力の応用であり、そのとき受験生は能動的に語彙、文法、構文、関連事実を思い出して
はじめて答えられる。
（1）～
（5）の中国語と声調の組み合わ
中検 3 級の問題には、記憶問題が 2 つある。一つは、
「1 1．
せが同じものを、
それぞれ①～④の中から 1 つ選び、番号を解答欄にマークしなさい。」の課題である。
（1）公司　① 冰箱　② 旅游　③ 眼睛　④ 礼物　（第66回より例示）
選択肢の形で提示されているが、これは直接に選択できず、完全な記憶に頼る問題である。ペーパー
全体でおそらく一番難しい課題であろう。もう一つは、
「 5（1）～（5）の日本語を中国語に訳し、漢字（簡
体字）で書きなさい。
」という日文中訳である。
その反面、選択方式の問題をもってリーディング能力やリスニング能力のテストを行う場合、受験
者に与えられたいくつかの選択肢から正解を一つ選ばせる形式であり、これはいわゆる識別テストで
ある。そのとき、受験者は能動的に語彙や文法などを使って解答するのではなく、ただ受身的に選択
肢から正確な答えを識別して答えるのである。
中検 3 級は、リスニング20問と、筆記41問と、併せて61問でできている。そのうちの51問は識別問
題であるので、識別テストの傾向が強いと言えよう。
記憶テストと識別テストを比べると、
前者は「応用能力」、すなわち「アウトプット力」を測るのであっ
て、その測定されたものは、100％実力と言ってもよいであろう。当然ながら後者よりはるかに難し
いことが明らかである。後者は主に「理解能力」、つもり「インプット力」を測るのである。そして、
選択によって解答するので、実力を発揮すると同時に、当てずっぽうによるまぐれ当たりの誤差を避
けられない現実がある。ゆえに一般的に言えば、記憶課題に答えられる者は必ず識別課題に答えられ
るが、識別課題に答えられる者は必ずしも記憶課題に答えられるとは限らない。ここからどういう形
で測定したらもっと効果的かは、ある程度ヒントが得られるかもしれない。それから、教育において
も試験においても、識別問題が氾濫している今日では、中検 3 級 1 1 ．のような記憶問題を適当に増
やすことはテストの信頼性のアップにつながると考えられるし、外国語教育にプラスの波及効果も期
待される。また、コミュニケーション能力の育成を重視する今日の外国語教育から、試験には適当に
記憶問題を増やす必要があるのではないかと思われる。
125
侯　仁鋒　テスト理論と実践から見る中国語検定試験
4 ．7 難易度と識別力
試験全体や個々の問題を検討する際、その質量のいかんを判断するのにその難易度と識別力（率）
は重要なパラメーターである。
問題の難易度（item difficulty）は問題の難しさとも言う。問題の難しさの判断は簡単であり、答
えられた人数と答えられなかった人数を統計してみれば分かる。一般によく以下のようにPで表示す
る。
R
P=
Ｎ
Rは答えられた人数で、Nは受験者数である。Rは人数が多ければ問題はやさしく、その反対なら、
問題は難しくなる。受験者の15％しかできない問題は難しい問題、85％以上の受験者ができる問題は
やさしい問題だとされている。試験全体の難易度の分布は、試験の種類と目的によるが、通常難しい
問題は15 ～ 20％、
やさしい問題も15 ～ 20％と、残りの70 ～ 60％は中程度の問題という比例でペーパー
を構成することが好ましいとされている。
中検 3 級はどういう比例で構成されているか分からないが、本学でのわずかな実証研究では、リス
ニング全般と、筆記の項目 1 1 ．の 5 問は難しいという結果から、試験全体としてはやや難しい傾向
にあることが言えるのではないかと思われる。
問題の識別力（item discrimination）とは、弁別力とも言い、ある問題が能力の高い受験者とそう
でない受験者を弁別することができる度合いである。すなわち、識別力は、レベルの高い受験者とレ
ベルの低い受験者を見分けることができるのである。例えば、難しさのもっとも高い問題はレベルの
高い受験者と中程度の受験者を見分けられ、難しさのもっとも低い問題は中程度の受験者と最低レベ
ルの受験者を見分けられる。
問題の識別力はその計算方法が二つある。
①上位27%の受験者の正解率－下位27%の受験者の正解率
）
②点双列相関係数（詳しくは王佶旻2011.《语言测试概论》P190 ～ 192を参照されたい。①も同。
これにより問題の質量はどうかを評価する。
識別力は、その指数範囲が 0 ～ 1 であり、これも試験の種類と目標によるが、一般に、その問題
は指数が 0 . 2 以上なら、よい問題とみなしてもよい。当然ながら、指数が高いほど問題の質はよく
なる。もしその指数が 0 . 2 以下、あるいはマイナスだったら、その問題はどこかに不都合があるこ
とになる。予備試験を行えば、このような問題は採用しないか、あるいは修正しなければ使わないの
が普通である。今日のパソコンの時代では、試験後、器械（ソフト）による採点で、必要なデータが
全部提示されるので、問題のよしあしは一応一目瞭然である。
中検 3 級は、試験後このようなデータは公表されていないので、外部の研究者は個々の問題のよし
あし、ペーパー全体の質量は推測できない。試験の透明性を求める今日では、試験問題ばかりでなく、
試験後のデータも公表されれば、問題についてより多くの研究者が仔細に検討が可能になるので、問
題の質量アップに有益だと考えられる。
5 ．終わりに
最後に、もう一度、本論の全体像をまとめておきたい。
得点により語学能力を評価する以上、異なる回間の試験の難易度の安定は何より重要である。さも
なければ、試験の権威性と公正性が疑われてもしかたない。いかに試験の精度を把握し維持するかは
126
県立広島大学人間文化学部紀要　８，115-129（2013）
極めて困難でありながら最善の努力を尽くすことが求められる重大な点である。
測定論的観点から言えば、良い問題とは、測定の目的に沿って受験者の実力をより正確に測定でき
る問題ということになる。
「測定目的」と「正確な測定」についてはそれぞれ別の概念でありながら、
相互に高い関連を持つことが望ましい。
以上のような「良い問題」を評価する諸観点が互いに整合的であれば好ましいのだが、実際にはト
レード・オフであり、つまりどちらか一つをとっても、例えば、妥当性と信頼性、難易度と識別力な
ど、
「あちらを立てればこちらが立たず」の関係になってしまう場合が多い。そこで、現実的な妥協
点を探ることが非常に重要であることが言える。
当然ながら、以上の議論をベースにした上で、測定論から見た「良い問題」という判断は、しばし
ば「良い問題とは何か」という論点に対する 1 つの観点からのアプローチにすぎないことをお断りし
ておきたい。
また、コンピュータ時代では、教育的観点のみならず、測定論的観点からも、測定の目的やデータ
に現れる測定結果に基づく評価が容易になる。単なる主観的判断だけではなく、
「良い問題」
、
「悪い
問題」を技術的観点からある程度より分けることが可能である。このような作業を通して、今後の問
題の質的なアップにつながれば望ましいと考えられる。
テスト理論の目的は、受験者の学力や理解度を、公平で客観的に評価することである。これは、言
い換えれば、真面目に努力している人を正当に評価し、その後の人生においても役に立つ知識や技能
の獲得を促すための理論であるという観点から、特に中検のような大型試験はすでに公器とされてお
り、いかにその公正性を保つかが重要であると言えよう。
注：
1 ） 6 万人、84万人、31万人は、上野惠司2012．
「いっそう公正で信頼性の高い検定試験の実施を目
指して」によるものである。
2）
実用性（practicality）とは、特に大型試験においていくら妥当性や信頼性が高いテストであっ
ても、時間、予算、設備、人など、諸条件によって実際に行うことができなければ絵に描いた餅
になってしまう。詳しくは尾崎茂2008．『言語テスト学入門』を参照されたい。
3）
波及効果（wash back）とは、テストが教師や学習者に大きな影響を与える可能性がある。
4 ）表面的妥当性（face validity）とは、ある測度がどのような概念を表現しているかに関する人々
の判断の一致度から、妥当性を推定する方法。みかけの妥当性とも言われる。
5 ）構成概的念妥当性（construct validity）とは、テストが測定をめざす概念に関する理論的予測が
実際のデータによって実証されるかどうかで、テストの妥当性を評価しようとする考え方。
参考文献
上野惠司2012．
「いっそう公正で信頼性の高い検定試験の実施を目指して」
，
『第78回中国語検定試験
受験案内』一般財団法人日本中国語検定協会
上野惠司2011．
「創立30周年を迎えて」
，
『中検30周年』一般財団法人日本中国語検定協会
星野忠国1984.「中国語テストの理論と実践」，『東海大学外国語教育センター紀要』第 5 輯。
侯仁锋 2011.「试析日本汉语检定考试 3 级听力试题」，『中国語教育』第 9 号。
侯仁锋 2012.「试析日本汉语检定考试 3
试力试题」，『中国語教育』第10号。
127
侯　仁鋒　テスト理論と実践から見る中国語検定試験
尾崎茂2008．
『言語テスト学入門』
，大学出版社。
中検研究会編 2009.『中検 3 級問題集』第64回～ 66回，光生館。
中検研究会編 2010.『中検 3 級問題集』第67回～ 69回，光生館。
，湖南教育出版社。
李筱菊 1997.《语言测试科学与艺术》
杨翼2010.《对外汉语教学的成绩测试》
，北京大学出版社。
王佶旻2011.《语言测试概论》
，北京语言大学出版社。
（HP）一般財団法人　日本中国語検定協会　www. chuken. gr. jp/
（HP）中国語達人への道　www. chinesemaster. net/qualification/
（HP）東北大学入試センター　www. tnc. tohoku. ac. jp/adrec/articulation/23/23108. htm
＜付記＞本稿は、科学研究費助成金基盤研究（C）
（研究課題：中国語検定試験の信頼性と妥当性
に関する研究、課題番号24520635）による研究成果の一部である。
128
県立広島大学人間文化学部紀要　８，115-129（2013）
摘
要
从测试理论及实践看汉语检定考试
以 3 级为中心
本文以古典测试理（Classical Test Theory）」论为依据，针对日本汉语检定考试的测
试理念、试题形式，并参照公布的部分考后数据，从测试的效度和信度、标准参照考试和常
模参照考试、客观考试和主观考试、间接考试和直接考试、分项考试和综合考试、记忆考试
和辨识考试、难易度和区别度等角度做了探讨。以为按照古典测试理论设计的标准化考试，
只要依据分数评测语言能力，那么如何准确把握考生群体水平、如何保持不同次数考试间难
易度的稳定尤为重要。由此而体现这种大型考试的公正性。
The Chinese Proficiency Test Viewed from Theory and Practice
－Mainly from the Test-Level3
Hou renfeng
129