Comments
Description
Transcript
コンピュータ適応型中国語テストについて
コンピュータ適応型中国語テストについて 侯 仁 鋒 (県立広島大学) 今井 新悟 (筑波大学) 1.はじめに インターネットを利用し、WEB上で言語テストが行われる時代になった。項目応答理 論(IRT:Item Response Theory)に基づく、能力レベルに適合した困難度レベルの問 題 が 自 動 的 に 出 題 さ れ る 「 コ ン ピ ュ ー タ 適 応 型 中 国 語 テ ス ト 」 ( C-CAT : Chinese Computerized Adaptive Test)を研究開発し、他のテストとの相関などの検証を経て、 実用化したい。 本テストは、時間と場所の制約なしに、どんなレベルの学習者でも受験可能であり、 より効率的に、より正確に学習者のレベルを測定することができ 、テストの客観性や 公正性が保持できることを目標とする。 これを実現するには、コンピュータ、インターネット、それに項目応答理論という 三つの要件が欠かせない。このうち、前者の二つはハード的な条件であり、後者は理 論の応用というソフト的な条件である。項目応答理論自体は50年以上前に提唱されて いるが、高性能のコンピュータ、高速のインターネットがあって初めて WEB上でテスト が実現できる。この意味において、このテストの開発と構築は時代の産物 であるとい ってよいだろう。 2.項目応答理論の応用 言語テストが準拠する理論モデルは概ね二つある。一つは「古典的テスト理論(CTT: Classical Test Theory)」であり、もう一つは「項目応答理論」である。どちらも、 現代の言語テストの開発、質の維持、評価、改善などのために有効である が、本研究 で提案するテストの開発と構築に欠かせないものが 項目応答理論である。項目応答理 論とは何か、詳しく説明するスペースがないので、 ここでごく簡単に、この理論の実 際のテストへの応用という視点から今井 (2012:157)を引用しておく。「項目応答理論 ではロジット得点というものを使います。これにより、古典テスト理論では不可能な、 問題項目の等化が可能になります 。すると、そのテストセット全体で難易度を調整す ることができ、不変的な得点が算出できるようになります。そして、受験者集団の違 いによる影響も解消されます。なお、項目応答理論では理論上、能力値は無限ですが、 実際のテストでは、ある程度の幅に収まりますので 、能力値を分かりやすい点数に変 換して示すのが普通です。これによって、いつ、誰が、 どんなテストセットを受験し ても、その得点の価値を同じにすることができます ので、得点の信頼性が保証され、 得点間の比較も行えるように なります。」本稿で提案するのは、以上の性質を持つ項 目応答理論を用いて行う、中国語のコンピュータ適応型テストの開発、構築である。 3.コンピュータ適応型テストとは テストはどんな媒体を使うかで分類すれば、概ね二種類に大別できる。一つは pencil & paper 式のテストで、もう一つはコンピュータ端末 を使うテストである。後者には Computer Based Testing(CBT)とComputerized Adaptive Test(CAT)という方式の コンピュータテストがあり、当初はpencil & paper 式のテストをコンピュータに置き 換えただけのものもあったが、次第にコンピュータでしか実現し得ないテスト方法 が 取り入れられてきた。CBTがさらに発展して、登場してきたのがComputerized Adaptive Test(CAT)である。 コンピュータテストはCBTに始まり、前節で述べたIRTを取り入れることにより 、困 難度や識別力などのパラメータをあらかじめ問題項目(アイテム)に付与しておくこ とが可能になった。CATでは問題アイテムをアイテムバンクに入れておき、受験者の解 答パターンに応じて、困難度の異なる問題アイテムを出題する。この原理を理解する のに最もよい例は誰でも経験したことがある視力検査である。 視力検査では、文字や 環(ランドルト環)が見えるか見えないかを聞かれ、その答えによって、次により大 きい文字・環あるいはより小さい文字・環について聞かれる。答えによって文字・環 の大きさが変化する。これは解答によって問題アイテムの難しさが変化するのと似て いる。CATにより、テスト時間を短くしながら精度を上げることが可能になる。また、 受験者ごとに問題が変わるが、得点の信頼性は項目応答理論によって保たれる。 4.大型の中国語テストの概観 現在、日本における大型の中国語テストには、中国語検定試験、中国語コミュニケ ーション能力検定(TECC)、漢語水平考試(HSK)、実用中国語レベル認定試験(C.TEST) などが挙げられる。前者の二つは、日本で開発されているものであるのに対して、 後 者の二つは中国で開発されているものである 。 4.1 中国語検定試験 一般財団法人日本中国語検定協会が実施する中国語検定試験(中検)は、 テストの 設定、級別分け、紙媒体使用、素点使用などから見ると、 典型的な古典テスト理論に よって開発されるテストであると言えよう。 4.2 中国語コミュニケーション能力検定(TECC:Test of Communicative Chinese) このテストの大きな特徴の一つとして、HPで「TECCのスコアは項目応答理論に基づ いて統計処理を行っているものです。 」と示されているように、項目応答理論を使っ てスコアを算出している点が挙げられる。ただし、 コンピュータ適応型テスト ではな い。コンピュータ適応型テストは受験者の 個々の問題項目への解答によって次の問題 項目が決められ、出題される。紙媒体のテストではこのような動的な出題 をすること は難しい。 4.3 漢語水平考試(HSK:hanyu shuiping kaoshi) 数ある中国語検定の中でもHSKは、最も広く世界に認知されている検定とされている 。 特徴としては「HSKの試験結果は、「聞き取り」「読解」「記述」の分野ごとに点数(ス コア)で表記されます。スコアは、TOEICなど西洋のテストで広く活用されている項目 応答理論を活用し運用されています。 」と、日本実施委員会が運営しているサイトで 説明されている。こちらも項目応答理論に基づき、スコアを算出している。CBTの方式 もあるが、テストの実施形態から見ればコンピュータ適応型 テストではないことが分 かる。 4.4 実用中国語レベル認定試験(C.TEST:Test of Practical Chinese) このテストも、CBTではなく、適応型テストでもない。 以上の概観から分かるように、中国語テスト にはコンピュータ適応型テストはまだ ないと思われる。ただし、独自に開発された小規模なものは ある。本研究では、この ような現状に鑑み、広く利用できる中国語の CATテストの開発に挑戦しようとするもの である。 5.他の言語テストの開発と実践 5.1 TOEFL ア メ リ カ 最 大 の テ ス ト 実 施 団 体 で あ る Educational Testing Service が 開 発 し た TOEFLは、一時期、CATを使っていたが、新形式のTOEFL-iBTの実施に伴い、廃止した。 TOEFL-iBTは、CBTではあるがCATではない。CATを使う英語テストとして、また、「GMAT MBA受験用の標準試験」、「CASEC日本語母語話者のための英語のテスト」などがある。 5.2 J-CAT 非日本語母語話者のための日本語のテスト J-CAT (Japanese Computerized Adaptive Test)日本語コンピュータ適応型テスト は、 非日本語母語話者の日本語能力を測定するテストであり、 インターネット上で受験す るCATである。科研費で開発されたもので、その成果の一つとして「日本語のコンテン ツを他言語に置き換えることで、他言語のテストの応用も可能である。」と述べてい る。従って、本テストは、主にこのJ-CATのシステムを援用しながら開発していく。こ れが本テスト開発のフレームになる。 6.C-CATの概要 C-CATは、システムと問題アイテムで構成され、システムは基本的にJ-CATのシステ ムを利用して中国語問題アイテムを搭載するという形で開発していく。 6.1 採用モデル まずは専門家が問題アイテムを作成し、それを使ってプレテストをする 。その解答 データを使って、それぞれの問題アイテムについて、困難度(どの程度難し いか)と いうパラメータを「項目応答理論」に基づ いて算出する。項目応答理論には、一つの パラメータを用いる1パラメータモデル、二つのパラメータを用いる2パラメータ モ デル、三つのパラメータを用いる3パラメータモデルなどがある が、C-CATは1パラメ ータモデル(ラッシュモデルとも呼ばれ、優れているという主張もある)を採用する。 6.2 測定分野と対象 C-CATは、インターネット経由で、パソコンを使って、中国語の熟達度(Proficiency) を推定するためのテストである。 利用環境が整えば、いつでも、どこからでも、無料 で利用できる。聴解、語彙、文法、読解の4セクションからなり、解答は四つの選択肢 の中から選ぶという方式を取る。 C-CATでは、一般的な中国語能力をテストする。特別な目的に限定した中国語能力を 測るものではない。 テストの対象者は国内外の中国語学習者である。学習者個人が登録し、受験して自 分の中国語のレベルが把握でき、時間をおいて(6ヶ月以上を推奨)継続 的に受験す ることにより、中国語能力の伸長も確認できる。大学などの教育機関、会社などの団 体で一般のテストと同じように、本テストを利用することもできる。 各セクションは100点満点で、計400点満点となる。試験終了直後に成績が算出され、 表示される。PDF形式の成績書をダウンロードしてプリントすることも保存することも できる。テストは級別に分かれておらず、どのレベルの人でも同じように受験できる。 あらかじめどの級を受験するかを決めておく必要はない 。受験者の中国語のレベルに よって、自動的に異なった問題が出題される 。即ち、「適応型テスト」である。 6.3 C-CATの仕組み インターネットを使ったC-CATではまず、アイテムバンクからコンピュータがいくつ かの問題アイテムを選んで、インターネット経由で受験者のコンピュータに送り、受 験者が画面を見て解答する。その結果がインターネット経由で戻ってくる。その結果 を用いて、コンピュータが項目応答理論に基づくアルゴリズムで計算して、受験者の 仮の能力値を算出する。次に 、その能力値を持つ受験者に最も相応しい難易度 (困難 度)を持つ問題アイテムをアイテムバンクから探し出す。それをまた、受験者のコン ピュータに送る。これを繰り返して、能力推定値が一定の誤差内に収まって安定した ら、テストが終了し、能力値が確定する。相当数出題しても、何らかの理由によって 誤差が基準よりも小さくならないときは、一定の問題数を超え たらテストを終了する。 以上の一連の流れが自動的に進んで、それぞれの受験者に適応した問題が出題される ので適応型テストというわけである。 7.結び C-CATは、中国語学習者を対象とした中国 語能力の判定をインターネ ット上で、時 間・場所の制約なしに実施できる適応型テストである。以下の特徴を持っている。 (1)項目応答理論に基づき、受験集団に依存しない不変的な評価スケールが実現でき る。(2)回答の正誤により、能力別に異なった問題を提示することで、効率的に能力測 定を行い、従来の試験より所要時間を短縮し、かつ能力推定精度を向上させることが できる。(3)大量の紙使用が不要なので、エコなテストでもある。 参考文献 今井新悟編著・赤木彌生・中園博美著(2012)『J-CATオフィシャルガイド:コンピュー タによる自動採点日本語テスト』ココ出版 菊池賢一・今井新悟・中村洋一・平村健勝「 日本語コンピュータ適応型テストJ-CATに ついて」『日本行動計量学会 第38大会 抄録集』104-105, 2010-09-22 小山由紀江「テストの歴史的変遷とコンピュータ適応型テストの意義」 『 New Directions』 (28) 13-25 2010年3月 付記:本稿は、科学研究費助成金基盤研究( B)「コンピュータ適応型中国語テストの 開発と検証」(研究番号15H03225)による研究成果の一部である。