Comments
Description
Transcript
機械学習と自然言語処理の技術を用いた習熟度推定 ―現状と課題
外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 機械学習と自然言語処理の技術を用いた習熟度推定 ―現状と課題― 小林 雄一郎 日本学術振興会 概要 言語テストの多くは,熟練した試験官や採点者が学習者のライティングやスピーキン グを評価するという形式を取っている。しかしながら,熟練した試験官を育成するには, かなりの時間が必要とされる。また,いかに熟練した試験官たちが厳密な基準に基づいて 評価を下したとしても,複数の試験官の評価が完全に一致するとは限らない。そのような 状況において,客観的な評価基準と統計モデルを用いて習熟度を推定する技術を開発する ことは,言語教育分野にとって非常に有用なことである。本稿では,習熟度推定の現状と 課題を論じ,二つのパイロット・スタディを紹介する。最初の研究は,スピーキングのデ ータを対象として,専門の評価者(人間)が判断したレベルを予測する試みである。そし て,もう一つの研究は,ライティングのデータを対象として,別の評価システム(機械) が判断したスコアを予測する試みである。 Keywords: 習熟度推定,自動採点,機械学習,自然言語処理 1. は じめ に 言語教育の分野では,数多くの言語テストが存在し,中学,高校,大学などでのカリキュラム に組み込まれている場合もある。これらのテストの多くは,熟練した試験官や採点者が学習者のラ イティングやスピーキングを評価するという形式を取っている。しかしながら,熟練した試験官を育 成するには,かなりの時間が必要とされる。また,いかに熟練した試験官たちが厳密な基準に基づ いて評価を下したとしても,複数の試験官の評価が完全に一致するとは限らない (e.g., Bejar, Williamson & Mislevy, 2006)。そのような状況において,客観的な評価基準と統計モデルを用い て習熟度を推定する技術を開発することは,言語教育分野にとって非常に有用なことである。 近年,どのような語彙,文法,形態の使用(または,その誤用)に注目すれば習熟度を推定す ることができるのかという基準特性の研究が大きな関心を集めている。例えば,CEFR (Common European Framework of Reference for Languages) は,欧州評議会がその活動の一環として2001 年の「欧州言語年」に作成した外国語能力共通参照枠である。この参照枠は,基本的には,A1, A2,B1,B2,C1,C2という外国語学習者の6段階の習熟度を設定し,can-do方式で説明している。 12 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) そして,我が国においても,CEFRの評価基準を日本の英語教育に合うように修正しつつも,国際 基準とも連動しようという方向性が模索されている (投野, 2013)。しかしながら,現在,習熟度推定 の研究の多くは,次のような二つの大きな問題を抱えている。 まず,第一の問題は,習熟度を弁別するための統一的な基準が確立されていないこと ことである。例えば,CEFR における B1 レベル (Threshold) や A2 レベル (Waystage) な どは,1970 年代の概念・機能シラバス全盛期に策定された基準に基づいており,文法項 目に関する明確な評価基準を持たない (投野, 2010)。また,学習者コーパスから習熟度別 の言語的特徴を記述する試みもあるが,その殆どが非常に少数の言語的特徴(動詞共起構 造,決定詞など)の記述にとどまっており (e.g., Hawkins & Filipović, 2012),コーパスに基 づく網羅的な研究はまだ殆ど行われていない。 また,第二の問題は,習熟度を推定するための統計モデルが確立されていないことで ある。言語教育分野では,語彙や文法項目のリストに基づいて習熟度を推定することが多 い。しかし,このような can-do 方式では,多数のチェック項目を効率的に取り扱うこと が困難である。その一方,習熟度推定は工学系の研究者にも注目されているが,第二言語 習得や外国語教育などの知見を取り入れた言語項目のリストを用いていないこともあって, 推定結果の言語学的・教育学的解釈を行うことが難しい場合もある。従って,習熟度を高 い精度で推定するためには,単純に他分野で開発された手法を適用するだけでなく,言語 データの評価に特化した統計モデルを構築する必要性がある。 2. 習熟度推定の方法論 習熟度推定は,学習者が産出した言語データから,習熟度が如実に反映されると思わ れる言語的特徴を抽出し,それらの言語的特徴の頻度を統計的に解析するという手続きを とる。また,その目的は,言語学的あるいは教育学的な理論に基づき,あらかじめ定義さ れたレベル(CEFR における A2 や B1 など)やスコア(TOEIC や TOEFL の点数など)を 予測することである。 何らかの言語的特徴を手がかりとして,分析対象とする言語データの所属グループを 統計的に予測する方法論は,計量文献学,とりわけ著者推定の分野で発展してきたもので ある。計量文献学の歴史は古く,その起源は,19 世紀の聖書研究に遡る (e.g., 村上, 1994)。その後,20 世紀後半になると,コンピュータ技術が飛躍的に進歩し,言語データ から様々な言語的特徴を自動的に抽出する自然言語処理の技術が盛んに研究されるように なる (e.g., Manning & Schutze, 1999)。さらに近年,パターン認識や機械学習と呼ばれる分 野で,統計的にスコアを予測したり,データを分類したりする技術が開発されている (e.g., Bishop, 2006)。また,自動採点システムでは,自然言語処理の技術を使って言語的特 徴の頻度を算出し,機械学習の技術を使ってスコアを付与するという方法論が一般的なも のとなっている (e.g., Larkey & Croft, 2003)。 13 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) しかし,習熟度推定のプログラムを実装するにあたって,個々の研究者が向き合わな ければならない哲学的な問題がいくつかある。最大の問題は,そもそも学習者の「習熟 度」とは何なのか,というものである。習熟度推定のプログラムは,あらかじめ分析者が 設定した習熟度の尺度(例えば,CEFR のレベルや TOEIC の点数)に基づいて,個々の データのスコアを予測していく。だが,このようなアプローチをとる場合,どのような尺 度を用いれば,学習者の習熟度を最も正確に測定できるのか,という点が議論の的になる。 言語テスティングの分野においても,レベルは何段階が適切か,レベルを区分する閾値を どのように明確にするか,尺度はどのように表されるのか,といった基準設定の問題は大 きな争点となってきた (Brown, 2005)。しかし,完全に客観的なレベルの分割方法などは 存在せず (Zieky & Perie, 2006),習熟度の尺度は,その設計思想や使用目的と密接に関わ るものである。これを統計的に言い換えれば,予測に用いる目的変数を何にするか,とい うことになる。 また,別の問題として,いかに習熟度を測定するのか,ということも考えなければな らない。つまり,どのような言語的特徴に注目すれば,習熟度を正確に測定できるのか, という問題である。言語を自動評価する場合,人間の評価者と同じ構成概念を用いること が理想ではあるが,人間は自分の評価基準に関する全てを理解している訳ではない (Attali, 2013)。それゆえ,自動評価プログラムを実装するにあたっては,習熟度と関連性 があると思われる言語項目を可能な限り網羅的に考慮する必要がある。これは,予測に用 いる説明変数を何にするか,という問題である。 このように,習熟度の自動推定において,習熟度の尺度(目的変数)の定義と,推定 の手がかりとする言語的特徴(説明変数)の定義を避けて通ることはできない。しかし, これらの定義は,言語テスティングや第二言語習得の分野においても未解決の問題である。 従って,実際の推定においては,対象となる学習者の特性,そして評価の目的に合わせて, 目的変数と説明変数を個別に検討していく必要がある。 因みに,自動採点や習熟度推定に対する古典的な批判として,機械が人間のように正 しく判定することは不可能である,というものがある。これに対する一つの答えとしては, 同一のライティングに対する評価者(人間)の評価と,自動評価システム(機械)の評価 を比較した実験を挙げることができる。例えば,Page (2003) で紹介されている実験では, 人間同士のスコアの一致度(相関係数)と,人間と機械のスコアの一致度がほぼ同程度で あることが明らかにされている。 習熟度の自動推定が持つ利点の一つは,個々の説明変数(言語項目)が目的変数(ス コア)の予測に寄与する度合いを明らかにできることである (e.g., Crossley & McNamara, 2011)。そこで本稿では,習熟度推定の例として,二つのパイロット・スタディを紹介す る。最初の研究は,スピーキングのデータを対象として,専門の評価者(人間)が判断し たレベルを予測し,評価者が重視している言語的特徴を明らかにする試みである。そして, 14 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) もう一つの研究は,ライティングのデータを対象として,別の評価システム(機械)が判 断したレベルを予測し,そのシステムが重視している言語的特徴を明らかにする試みであ る。 3. 事 例 研 究 1: ス ピ ー キ ン グ の 習 熟 度 推 定 ( 小 林 ・ 阿 部 , 2013) この研究は,英語学習者のスピーキングの習熟度を自動推定する試みである。実験デ ータは,NICT-JLE Corpus (和泉・内元・井佐原, 2004) を用いる。このコーパスは, ACTFL OPI に準拠した Speaking Standard Test (SST) を受験した日本人英語学習者 1,281 人 の発話データを書き起したものである。SST の受験者は,1 枚の絵の描写,ロールプレイ, 複数の絵を使った物語の作成といった,複数のタスクを 15 分間で行う。NICT-JLE Corpus は,SST を受けた学習者の発話から構築されているため,専門の評価官が判定した 9 段階 の習熟度情報 (SST level) が全ての学習データに付与されているという大きな利点を持つ。 ここでは,その 9 段階の SST level を習熟度推定の目的変数とする。 表 1 は,NICT-JLE Corpus におけるレベル別の学習者数と語数をまとめたものである。 表1 SST レベル別の学習者データ SST Level Participants Tokens 1 3 (0.23%) 428 (0.04%) 2 35 (2.73%) 7,701 (0.81%) 3 222 (17.33%) 95,169 (9.98%) 4 482 (37.63%) 308,177 (32.31%) 5 236 (18.42%) 203,759 (21.36%) 6 130 (10.15%) 130,492 (13.68%) 7 77 (6.01%) 85,309 (8.94%) 8 56 (4.37%) 68,470 (7.18%) 9 40 (3.12%) 54,341 (5.70%) Total 1,281 (100.00%) 953,846 (100.00%) 習熟度推定に用いる言語的特徴としては,Biber (1988) が英語母語話者の話し言葉と 書き言葉の分析に用いた 60 種類の言語的特徴を用いる(Biber が分析に用いた 67 種類の 言語的特徴のうち,データ処理上の問題で,(a) demonstratives, (b) gerunds, (c) present participial clauses, (d) past participial clauses, (e) present participial WHIZ deletion relatives, (f) sentence relatives, (g) subordinator-that deletion の 7 種類を除外している)。また,それに加 えて,総語数,異語数,平均文長の 3 項目も推定に用いる。このように様々な言語的特徴 15 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) を推定に用いることで,学習者のパフォーマンスを多角的に評価することが可能になる。 なお,Attali (2013) も,自動採点システムで有効な言語的特徴として,Biber (1988) のよ うな言語的特徴のリストと,言語の流暢さや複雑さを測る指標(語数,文長など)を挙げ ている。 そして,習熟度推定に用いる手法は,ランダムフォレスト (Breiman, 2001) である。 ランダムフォレストとは,決定木のアンサンブル学習として定義されている。具体的には, まず,与えられたデータセットから,n 組のブートストラップサンプルを作成する。次に, 各々のブートストラップサンプルデータを用いて,未剪定の最大の決定木を生成する(た だし,分岐のノードは,ランダムサンプリングされた説明変数のうち最善のものを使用す る)。そして,全ての結果を多数決で統合し,新しい分類器を構築する。ランダムフォレ ストの長所としては,予測精度が高いこと,非常に多くの説明変数を効率的に扱うことが できること,それぞれの説明変数が予測に寄与する度合いが分かること,などが挙げられ る。 表 2 は,前述の 63 種類の言語的特徴を手がかり(説明変数)として,9 段階の習熟 度(目的変数)を予測した結果である。この表を見ると,1,281 人のうち 785 人分の発話 データが正しく推定されており,全体の精度が 61.28%であることが分かる。レベル 1 の 精度が 0.00%であるが,これは,実験データ中にレベル 1 の学習者が 3 人しか含まれてい ないためであると考えられる。一般的に,習熟度推定や自動採点に必要な学習データは 300 以上,そして,各レベルに 20 以上のサンプルが必要であると言われている (Elliot, 2003)。 表2 スピーキングの習熟度の推定結果 Lv.1 Lv.2 Lv.3 Lv.4 Lv.5 Lv.6 Lv.7 Lv.8 Lv.9 Lv.1 0 3 0 0 0 0 0 0 0 0.00% Lv.2 0 27 8 0 0 0 0 0 0 77.14% Lv.3 0 0 4 146 72 0 0 0 0 65.77% Lv.4 0 0 0 38 398 45 1 0 0 82.57% Lv.5 0 0 0 90 124 19 3 0 0 52.54% Lv.6 0 0 0 14 57 41 14 3 1 31.54% Lv.7 0 0 0 1 14 30 23 5 4 29.87% Lv.8 0 0 0 0 7 15 20 7 7 12.50% Lv.9 0 0 0 0 2 3 11 5 19 47.50% Total 61.28% 16 Accuracy 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 図 1 は , 63 種 類 の 言 語 的 特 徴 に 関 し て , 習 熟 度 推 定 に お け る 寄 与 度 (MeanDecreaseGini) の大きい順にプロットしたものである(上位 30 項目)。 tokens types total.prepositional.phrases present.tense past.tense first.person.pronouns total.adverbs analytic.negations contractions infinitives other.total.nouns emphatics pronoun.it private.verbs attributive.adjectives independent.clause.coordination standardized.type.token.ratio mean.length.of.sentences possibility.modals third.person.pronouns amplifiers causative.adverbial.subordinators second.person.pronouns mean.length.of.words be.as.main.verb nominalizations time.adverbials phrasal.coordination predictive.modals existential.there 0 10 20 30 40 50 60 MeanDecreaseGini 図 1 スピーキングの習熟度推定に寄与した言語的特徴(上位 30 項目) 図 1 を見ると,上位 10 項目は,総語数 (tokens), 異語数 (types), 名詞句 (total prepositional phrases), 現在形 (present tense), 過去形 (past tense), 1 人称代名詞 (first person pronouns), 副 詞 (total adverbs), 否 定 (analytic negations), 縮 約 (contractions), 不 定 詞 (infinitives) である。その中でも,リアルタイムでの言語処理が要求されるスピーキング において,限られた時間内にどれだけ多くの語を産出できるかという能力(総語数,異語 数)が習熟度に反映されていることが分かる。このように寄与度上位の説明変数を吟味す ることで,スピーキングを評価する際にどのような言語的特徴に注目すればよいのか,と いう示唆が得られる。 4. 事 例 研 究 2: ラ イ テ ィ ン グ の 習 熟 度 推 定 ( 小 林 ・ 金 丸 , 2012a) この研究は,既存の評価システムによって判断されたライティングのスコアを自動推 定する試みである。実験データは,国立大学の学部 2 年生を対象にライティング課題を与 えて収集したものである。データの収集は,2011 年の 10 月から 11 月にかけて,2 回に分 けて行った。課題としては,Educational Testing Service (ETS) が運営している Criterion の サイトで提供されている TOEFL 形式の問題サンプルから,expository essay と persuasive essay の問題を 1 問ずつ選出して使用した。両課題とも,指定語数は 300 語から 350 語で ある。まず,expository essay の課題は“New Product”で,提出されたライティングの数は 17 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 34 本であった。そして,persuasive essay の課題は“Money on technology”を選択し,提出さ れたライティングの数は 35 本であった。課題の提出に際して,受講生は,制限時間 30 分 以内にライティングを作成し,自動評価システムである e-rater による評価を受けた。ま た,評価に満足しない場合には,一度だけ同じ条件で e-rater による評価を参考に書き直 すことが認められた。 今回の実験データを収集する際に利用した Criterion とは,非営利団体である ETS が 提供しているライティング指導におけるフィードバック支援ツールのことである。 Criterion は,教師の管理下で使用する指導者向けのフィードバックツールであり,ETS に より開発された TOEFL テストのライティング自動採点システム e-rater と連携している (Attali & Burstein, 2006)。Criterion では利用者のライティングを e-rater が 10 秒以内に採点 し ,「 構 成 」,「 文 体 」,「 構 造 」,「 語 法 」,「 文 法 」 に 関 す る 誤 り の 情 報 を 提 示 す る 。 Criterion の与えるフィードバックと教師によるフィードバックの関連性を検討した先行研 究では,0.97 という高い相関 (Attali & Burstein, 2006) や,0.64~0.67 という中程度の相関 (Weigle, 2010) を示すという報告がある。 表 3 は,収集したライティング(69 本)を e-rater で評価した結果をまとめたもので ある。e-rater の評価では,1 点から 6 点までのレベルが行われる。ここでは,その e-rater のスコアをライティングの習熟度の指標として使用した(今回提出されたライティングの 中には評価が 1 点のものはなかった)。 表3 e-rater による習熟度の評価結果(作文数) Lv.2 Lv.3 Lv.4 Lv.5 Lv.6 3 (4.35%) 8 (11.59%) 17 (24.64%) 33 (47.83%) 8 (11.59%) 習熟度推定に用いる言語的特徴としては,これまでに多くの自動採点システムなどで 用いられてきた,以下の 12 変数である。 1. 総語数 (Token) 2. 異語数 (Type) 3. 異語率 (TTR) 4. 平均単語長 (MLW) 5. 平均文長 (MLS) 6. 助動詞の相対頻度 (Modal) 7. 冠詞の相対頻度 (Article) 8. 代名詞の相対頻度 (Pronoun) 18 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 9. 等位接続詞の相対頻度 (Coordinate) 10. 従属接続詞の相対頻度 (Subordinate) 11. 関係詞の相対頻度 (Relative) 12. 受動態の相対頻度 (Passive) そして,習熟度推定に用いる手法は,スピーキングの場合と同様,ランダムフォレス トである。表 4 は,上記の 12 種類の言語的特徴を手がかり(説明変数)として,e-rater の評価(目的変数)を予測した結果である。この表を見ると,69 本のライティングのう ち 43 本のレベルが正しく推定されており,全体の精度が 62.32%であることが分かる。 表4 ライティングの習熟度の推定結果 Lv.2 Lv.3 Lv.4 Lv.5 Lv.6 Accuracy Lv.2 1 2 0 0 0 33.33% Lv.3 0 0 7 1 0 0.00% Lv.4 0 3 8 6 0 47.06% Lv.5 0 0 2 31 0 93.94% Lv.6 0 0 0 5 3 37.50% Total 62.32% 図 2 は,12 種類の言語的特徴に関して,習熟度推定における寄与度の大きい順にプ ロットしたものである。 Token Type TTR MLS Coordinate MWL Subordinate Pronoun Passive Relative Article Modal 2 3 4 5 6 7 8 MeanDecreaseGini 図 2 ライティングの習熟度推定に寄与した言語的特徴 19 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 図 2 を見ると,ライティングの習熟度の推定においても,スピーキングの場合と同様 に,総語数 (Token) と異語数 (Type) の寄与度が極めて大きいことが分かる。ライティン グの評価にあたって,熟練した採点者もまずは総語数を見るという報告 (e.g., Erdosy, 2004) もあることから,これは妥当な結果と言える。そして,このように既存の評価シス テムによって評価されたデータを分析すると,そのシステムがどのような言語的特徴を重 要視しているか,が明らかにされる。 図 3 は,ランダムフォレストによる予測結果を多次元尺度法で視覚化したものである。 図中の数字は,個々のライティングに e-rater が付与したレベルを表している。また,図 中で近くに布置されているライティングほど類似性が高く,遠くに布置されているものほ ど異質性が高いことを示している。 0.4 5 5 0.0 5 6 6 6 5 44 33 4 3 32 3 33 4 4 4 22 4 4 4 4 -0.4 5 5 5 6 5 5 55 5 4 5 5 6 45 4 4 5 4 -0.2 Dim 2 0.2 66 5 6 5 43 -0.2 0.0 5 5 55 5 5 5 455 5 55 5 5 0.2 Dim 1 図 3 ライティングの類似関係 図 3 を見ると,図中の左側にレベル 2~4 が布置され,右側にレベル 5~6 が布置され ていて,レベル 2~4 とレベル 5~6 の間に一定の隔たりが存在することが分かる。図 2 に も明らかなように,e-rater による評価は,ライティングの語数と密接な関係を持つ。そし て,個々のライティングを質的に見てみると,語数の差は,そのまま議論の展開の深さに も関係しており,レベル 4 以下のライティングでは,充分に話題を展開できず,文同士の 関係も順接関係の単調なものが多く見られた。また,レベル 4 以下では,同じ語の繰り返 しが多く観察された。 なお,パラグラフの結束性や一貫性,使用語彙が持つ意味などの観点から同じデータ を分析した研究として,小林・金丸 (2012b) がある。 20 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 5. おわりに 本稿では,習熟度推定の例として,二つのパイロット・スタディを紹介した。最初の 研究は,専門の評価者(人間)が判断したスピーキングの習熟度を予測する実験であり, もう一つの研究は,既存の評価システム(機械)が判断したライティングの習熟度を予測 する試みであった。予測精度はともに 61〜63%であり,予測に大きく寄与した言語的特 徴は総語数と異語数であった。 今後は,習熟度推定に用いる言語的特徴(説明変数)のリストをさらに精錬すること が必要である。現在は,異なるタスクに基づく言語データを同一の推定プログラムで習熟 度を予測している。学習者の言語使用にタスクが与える影響は,決して小さくない (e.g., 小林・阿部, 2014)。従って,個々のタスクごとに推定プログラムを最適化する(例えば, expository essay と persuasive essay に関して,別々のプログラムを作成する)ことで,予 測精度の向上が見込まれる。そして,ライティング,あるいはスピーキング中に現れる単 語をベクトル空間モデル (e.g., Deane, 2006) で表現することによって,課題とされている トピックとの関連性を定量化することも可能である。 また,別の課題としては,習熟度の尺度(目的変数)の再検討が挙げられる。具体的 には,既存の習熟度指標(SST level,e-rater,CEFR など)に関して,統計的な観点に基 づく最適なレベル分けを提案することを考えている。CEFR のように,元々は少数のレベ ルしか設定されていなかった指標がさらに細かく分けられていくことがある。逆に,特定 のレベルとその次のレベルに判定される学習者のパフォーマンスの差が小さいのであれば, それら二つのレベルを統合した方がよい,という考えもあり得る。このような問題に対し ては,AIC や BIC のような情報量基準を用いることが有効である (小林・田中・阿部, 2014)。 最後に,人間による評価と機械による評価の関係について述べる。Williamson (2013) が指摘しているように,人間による評価は,機械と比べて,構成概念の定義に優れている ものの,評価結果の一貫性の点で劣る。逆に,機械による評価は,人間と比べて,構成概 念の定義に関して劣っているが,評価結果の一貫性の点で優れている。つまり,両者は非 常に対照的で,相補的な関係にある。その限りにおいて,評価システムは,人間による評 価を再現するだけでなく (e.g., Bennett, 2006; Bennett & Bejar, 1998),人間による評価を補 完するようなフィードバックができるようになることを目指すべきである。 謝辞 本稿で紹介した成果の一部は,日本学術振興会の科学研究費補助金(特別研究員奨励 費(PD 実験))「パターン認識と自然言語処理の技術を用いた習熟度判定」(代表: 小林雄 一郎)(2012-2014 年度),立命館大学の学内公募型研究推進プログラム(若手研究)「談 21 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 話表現に注目した英語学習者のスピーキング能力の推定」(代表: 小林雄一郎)(2013 年 度)によるものである。 参考文献 Attali, Y. (2013). Validity and reliability of automated essay scoring. In Shermis, M., & Burstein, J. (Eds.), Handbook of automated essay evaluation (pp. 181–198). New York: Routledge. Attali, Y., & Burstein, J. (2006). Automated essay scoring with e-rater® V.2. The Journal of Technology, Learning, and Assessment, 4(3), 1–30. Bejar, I. I., Williamson, D. M., & Mislevy, R. J. (2006). Human scoring. In Williamson, D. M., Mislevy, R. J., & Bejar, I. I. (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 49–81). Hillsdale: Lawrence Erlbaum Associates. Bennett, R. E. (2006). Moving the field forward: Some thoughts on validity and automated scoring. In Williamson, D. M., Mislevy, R. J., & Bejar, I. I. (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 403–412). Hillsdale: Lawrence Erlbaum Associates. Bennett, R. E., & Bejar, I. I. (1998). Validity and automated scoring: It’s not only the scoring. Educational Measurement: Issues and Practice, 17(4), 9–17. Biber, D. (1988). Variation across speech and writing. Cambridge: Cambridge University Press. Bishop, C. M. (2006). Pattern recognition and machine learning. New York: Springer-Verlag. Breiman, L. (2001). Random forests. Machine Learning, 45, 5–23. Brown, J. D. (2005). Testing in language programs: A comprehensive guide to English language assessment. New York: McGraw-Hill. Crossley, S. A., & McNamara, D. S. (2011). Understanding expert ratings of essay quality: CohMetrix analyses of first and second language writing. International Journal of Continuing Engineering Education and Life-Long Learning, 21(2-3), 170–191. Deane, P. (2006). Strategies for evidence identification through linguistic assessment of textual responses. In Williamson, D. M., Mislevy, R. J., & Bejar, I. I. (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 313–371). Hillsdale: Lawrence Erlbaum Associates. Elliot, S. (2003). IntelliMetric: From here to validity. In Shermis, M., & Burstein, J. (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 71–86). Hillsdale: Lawrence Erlbaum Associates. Erdosy, M. U. (2004). Exploring variability in judging writing ability in a second language: A study of four experienced raters of ESL compositions. TOEFL Research Reports, 70, 1–62. Hawkins, J. A., & Filipović, L. (2012). Criterial features in L2 English: Specifying the reference levels of the Common European Framework. Cambridge: Cambridge University Press. 22 外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会 2013 年度報告論集 小林 雄一郎 (pp. 12–23) 和泉絵美・内元清貴・井佐原均 (編) (2004). 『日本人 1200 人の英語スピーキングコーパ ス』 東京: アルク. 小林雄一郎・阿部真理子 (2013). 「スピーキングの自動評価に向けた言語項目の策定」 『電子情報通信学会技術研究報告』113(253), 1–6. 小林雄一郎・阿部真理子 (2014). 「ライティング・タスクにおける課題文の影響―多変量 アプローチによる言語分析」 『情報処理学会研究報告』2014-CH-101(2), 1–8. 小林雄一郎・金丸敏幸 (2012a). 「パターン認識を用いた課題英作文の自動評価の試み」 『電子情報通信学会技術研究報告』112(103), 37–42. 小林雄一郎・金丸敏幸 (2012b). 「Coh-Metrix とパターン認識を用いた課題英作文の自動 評価」 『人文科学とコンピュータシンポジウム論文集―つながるデジタルアーカイ ブ』(pp. 259–266). 東京: 情報処理学会. 小林雄一郎・田中省作・阿部真理子 (2014). 「情報量基準に基づく習熟度尺度の再検討」 『科学技術コーパスの特徴表現分析と LRT に基づいた CAT の作成』(統計数理研究 所共同研究リポート 321)(pp. 29–43). 東京: 統計数理研究所. Larkey, L. S., & Croft, W. B. (2003). A text categorization approach to automated essay grading. In Shermis, M., & Burstein, J. (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 55–70). Hillsdale: Lawrence Erlbaum Associates. Manning, C. D., & Schutze, H. (1999). Foundations of statistical natural language processing. Cambridge: MIT Press. 村上征勝 (1994). 『真贋の科学—計量文献学入門』東京: 朝倉書店. Page, E. B. (2003). Project Essay Grade: PEG. In Shermis, M., & Burstein, J. (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 43–54). Hillsdale: Lawrence Erlbaum Associates. 投野由紀夫 (2010). 「CEFR 準拠の日本版英語到達指標の策定へ」 『英語教育』2010 年 10 月増刊号, 60–63. 投野由紀夫 (2013). 『CAN-DO リスト作成・活用 英語到達度指標 CEFR-J ガイドブッ ク』東京: 大修館書店. Weigle, S. C. (2010). Validation of automated scores of TOEFL iBT tasks against non-test indicators of writing ability. Language Testing, 27(3), 335–353. Williamson, D. M. (2013). Developing warrants for automated scoring of essays. In Shermis, M., & Burstein, J. (Eds.), Handbook of automated essay evaluation (pp. 153–180). New York: Routledge. Zieky, M. & Perie, M. (2006). A primer on setting cut scores on tests of educational achievement. Princeton: Educational Testing Service. 23