Comments
Description
Transcript
児童文学の言語(3)
児童文学の言語(3) 奥 聡一郎 キーワード:コーパス文体論、コロケーション、接続詞、絵本、特徴語 Abstract: 本論では、文体論におけるコーパス利用の流れを概観し、コロケーショ ンの観点から児童文学における接続詞の特徴的な用法を分析、考察する。 文体論の国際学会である PALA(Poetics and Linguistics Association)の 近年の年次大会発表要綱で corpus の頻度数をみると、2009年度は2006年 度より 2 倍の頻度が認められる。このようなコーパス文体論の進展はコ ンピュータなどのハード面の発達だけでなく、分析ツールの普及、イン ターネット上でのコーパスなどソフト面にも支えられてきている。コー パス文体論の潮流の中で近年、注目されているコロケーションは、いわ ゆる語と語との共起関係であるが、頻度、key wordsなどの量的研究だ けではなく意味を含む質的研究へ視座が拡がってきたことを示す観点と いえる。本論ではこれまで構築してきた児童文学の対象年齢別のコーパ スと参照コーパスとして子供が作ったディスコースのコーパス、イギリ ス小説、BNC Written Imaginative を用いながら、接続詞の特徴的な振る 舞い、絵本の直喩表現と絵について考察する。 1 .はじめに 「児童文学の言語」と題した一連の論文ではこれまで言語学を基盤にした 文体論の枠組みの中で「読みやすさ」(readability)、「イデオロギー」の観 点から児童文学の言語の特徴について分析を行ってきた。 「読みやすさ」の 数値的な指標は公式で示されていることもあり、検証のために児童文学テ クストの電子化、計量化は1995年当時から取り組んでいる。当時はスキャ ナもOCRもなく、本文をひたすら手で入力して Grammatik というソフトで Flesch-Kincaid Grade Level や Flesch Reading Ease を計算していた。テクス トごとの読みやすさを数値の指標として示し、文の長さや音節数といった ― ― 31 係数を批判的に検討した。その中で言語的特徴と数値だけでは測定できな い、読み手の負荷を考慮に入れた照応関係、接続表現に焦点をあてて、そ れらを「わかりやすさ」(comprehensibility)の要因として提案している。 しかし、この照応関係の同定にかかる負荷の計算も自動化されていたわけ でなく、あくまで同定にかかる諸要因を分析者が手で計算していくために、 コンピュータのソフト化や実装まで視野に入れることができなかった。 次に数値的な検討から離れて、 「くまのプーさん」と「クマのパディント ン」に現れる二匹のクマの行動の違いを選択機能文法の枠組みを援用して 分析、考察を行った。以前に比べてテクストをコーパス化することも容易 になり、分析するツールもいろいろ開発されてきた。その成果として意味 タグを付与して統計的な処理が自動的に行えるWmatrix 2 を用いて分析を行 った。2 匹のクマの行動の違いについて、積極的かそうでないかは動詞の タイプ、keywordの違いに顕著に表れたが、仮説をコーパスで検証するコ ーパス準拠型(corpus-based analysis)の枠を超えることはできていない。 いずれにせよ、これまでの研究では電子化されたコーパスを用いて、分析 ツールを効果的に用いて文体的な特徴を考察するという方向性で一貫して いた。そしてこの枠組みを名づけるならコーパス文体論という範疇にはい るだろうと思われる。それでは、コーパス文体論の枠組みを再考する中で 新しい可能性を見出し、実際に援用してみることによってどのような研究 成果が生まれるか、以下の章で検討していくことにする。 2 .コーパス文体論の流れ コーパス文体論はコーパス言語学と文体論のコラボレーションと考えて も間違いはないが、基本的には主として研究対象である文学テクストのコ ーパスをコーパス言語学の知見と統計的な手法と分析ツールを用いて、表 現の特徴や効果を実証的に明らかにする研究分野といえるだろう。 コーパス文体論の歴史をさかのぼれば、個人の作家の文体的特徴につい て電子コーパスを用いて明らかにした黎明期の論文に Louis Tonko Milic (1967)の“A Quantitative Approach to the Style of Jonathan Swift”があげら れる。品詞タグを手作業でつけ、同年代の作家と品詞毎の出現頻度を比較 した結果、連結詞(connectives)の頻度の高さに着目して、Swift の文体特 徴を指摘している。この研究に対して、文芸批評家のFishは分析と解釈の ― ― 32 乖離がはなはだしいと激しく批判し、言語学的文体論による分析が一時期 下火になった。その後の文体論は教育的文体論、認知言語学、コーパス言 語学によって復興されたが、その経緯については斎藤(2009)、奥(2009) に詳しい説明がある。 コーパス文体論という名称が一つの研究分野として認められるのは Elena Semino & Mick Short(2004)の“Corpus Stylistics”を待つことになる。本 書はランカスター大学が中心となったコーパス言語学の最新の知見と文体 論の蓄積を融合させ、その成果として示されたものである。Shortが課題と している小説における話法の多様性について言語学的な形式と機能の分類 がなされ、その分類に基づいたタグをコーパスの話法につけていく。ジャ ンルごとに統計的な処理を施して話法とジャンルの関係と効果について分 析している。その手法や解釈はコーパスを文体論に応用するうえの模範的 な方法論を提供しているともいえよう。分析ツールによっては参照コーパ スの利用と統計的な処理が可能になってきているが、タグ付けの自動化は CLAWS による品詞タグや Wmatrix 2 による意味タグなど限定的であり、比 喩や照応詞のタグ付けはいまだに自動化できていない。また、文学テクス トでは中心的な比喩表現も自動的な抽出がいまだに課題であり、分析ツー ルだけで得られたデータと解釈だけでは説得力のある説明は難しい状況で ある。この解決には、比喩の分析ツール自体の開発が待たれるところであ る。 コーパス文体論の分析の観点としては品詞別の出現頻度が中心であった。 他のコーパスの単語リストと比較して特徴語(keyword)を統計的に抽出 し、その意義を文体的に説明するなど、単語レベルに集中していた。話法 の分類のように主観的な判断が必要とされる単位と自動的な分類が可能な 単語ではかなりのギャップがあるのも確かであった。しかし、近年、語と 語とのつながりであるコロケーションが注目され、基本的な研究書もみら れるようになった(堀 2009) 。コロケーションは単に数値的な多寡ではな く、意味的な精査も必要になり、分析の幅が拡がったように思われる。こ のコーパス文体論におけるコロケーションの視点と可能性を次の章で述べ、 具体的な成果を見ておくことにする。 ― ― 33 3 .コーパス文体論とコロケーション 堀(2009,pp. 4 − 7 )はコロケーションの意義を Firth から説き起こし、 Sinclair の定義の変遷を踏まえ次のように「コロケーションとは、語と語と 間における、語彙、意味、文法等に関する習慣的な共起関係を言う」と定 義している。コロケーションと英語教育、英語史、文体論、創造性との関 係が概観される中で文体とのかかわりでいえば、Hori(2004)の成果であ るDickens のコロケーションについて頁の多くを割いている。ここでは詳し く分析方法に触れないが、この分析手法は semantic prosody,機能語まで 視野にいれた包括的かつ網羅的なものであり、Sinclairのコンコーダンスラ インの読み方から今後のコロケーション研究の可能性を示しており、研究 方法の指針となるべきものである。1 ) それではコロケーションを分析するにはどのような具体的な方法論を採 用すればよいのだろうか。分析ツールにはWordSmith5. 0 2 ),AntConc3. 2 3 ), Wmatrix 2 4 ),ConcGram1. 0 5 )などの様々なコンコーダンサーがあるが、コ ロケーションを意識させる機能としてコンコーダンスの単語連鎖(cluster) と呼ばれるものがある。コンコーダンスラインをみるために検索語を入力 して前後の文脈を確認すること自体、語と語とのつながりを確認すること なのであるが、cluster はテクスト内で連続する語群の全てを網羅的に抽出 する。このような cluster から文体的効果を持つ傾向性が抜き出せないかと Michaela Mahlberg 6 )は PALA2006 の workshop で次のような口頭発表を行 っている。彼女は Dickens から約450万語23テクストと19世紀の同時代の18 人の作家のコーパス約450万語29テクストの cluster を比較することから始 めている。clusterを 3 −5 語に限定し、特徴的な表現を抜き出して下記のよ うに意味的な分類をし、頻度順に15用例を抜き出した。Labels として THE PERSON OF THE HOUSE、SpeechにWHAT DO YOU MEAN BY、Body Parts に HIS HANDS IN HIS POCKETS、As if に AS IF HE WOULD HAVE などが頻度の高い例として示され、それらを次のような ‘Ha ha ha!’laughed the Doctor thoughtfully, with his hands in his pockets.‘The great farce in a hundred acts!’ (The Battle of Life)といったコンテクストに戻してContextualising と Highlighting という機能と効果を考察するという手堅い方法論を 提示している。 このように膨大なデータを前提とする cluster の抽出は分析ツールの進展 ― ― 34 を抜きには考えられなかった観点であろう。最近でも、WordSmit5. 0では clusterからある指定語を含む連鎖を検索できるようにWSConcGram 7 )を組み 込み、AntConc3. 2でも指定語を含む cluster の検索、n 語のテクスト内の全 連鎖をN-Gramsとして検索できる。特にConcGram1.0は phraseological search engine として専用に開発されたソフトである。Wmatrix 2 でもcollocation and semantic collocation、n-gram、c-gram を実装すべくボランティ アを募って検証を進めている最中である。このように cluster から n-gram へ、コロケーションとコンコーダンスラインの精査へと分析ツールの機能 が多様化しているためにさらに応用的な研究が可能になっている。次章で はこれまで構築してきた児童文学のコーパスをコロケーションの観点から 分析して、どのような特徴が現れるのか見ていくことにする。 4 .児童文学における特徴語 まず、下記のリストにある全作品を電子化して構築した。過去の作品で あればProject Gutenberg 8 )やInternet Archive 9 )で検索して電子テクストを作 成できるのだが、最近の児童文学テクストから対象年齢別の作品群でコー パスにしようとしたために、Puffin books を用いた。参照コーパスとして同 時代の作家のイギリス小説と子供が話したディスコースを文字化したもの を選ぶことにした。全てスキャナとOCRからテキストファイルを作り、整 形している。大規模コーパスと違って語数も少ないが、著作権の切れた作 品群や絵本を取り込んで、今後もより容量の大きいコーパスを目指すつも りでいる。 次に特徴語を石川(2008,pp. 66−68)に従って、AntConc を用いて分析 する。まず、対象コーパスとして U5, 5, 7, 9, PB の単語頻度表を作成してお く。それを参照コーパスである RC と比較する。検証のために Wmatrix2で も参照コーパスをBNC Written Imaginative として、同じように特徴語を分析 した。以下、Table 7 に特徴語を一覧にしている。 ― ― 35 Table 1 Under Five(=U5)Corpus Sara and Stephen Corrin eds.(1988) . More Stories for Under-Fives. =U5 Puffin Books. Words Token=18,156 Table 2 Five(=5)Corpus Sara and Stephen Corrin eds.(1988) . Stories for Five-Year-Olds. =5 Puffin Books. Words Token=28,576 ― ― 36 Table 3 Seven(=7)Corpus Sara and Stephen Corrin eds.(1988).More Stories for Seven-Year-Olds. =7 Puffin Books. Words Token=50,973 Table 4 Nine(=9)Corpus Sara and Stephen Corrin eds.(1988) . Stories for Nine-Year-Olds. =9 Puffin Books. Words Token=53,032 ― ― 37 Table 5 Picture Books(=PB)Corpus Picture Books=PB Words Tokens=7,904 Table 6 Reference Corpus(=RC)Corpus Reference Corpus=RC Table 7. 1 Keyword(PB. txt,U5. txt,5. txt) Keywords (AntConc) Reference Corpus=RC Corpus ― ― 38 Table 7. 2 Keyword(7. txt,9. txt) Keywords (AntConc) Reference Corpus=RC Corpus Table 7. 3 Keyword(PB. txt,U5. txt,5. txt) Keywords (Wmatrix) Reference Corpus=BNC Written Imaginative Table 7. 4 Keyword(7. txt,9. txt) Keywords (Wmatrix) Reference Corpus=BNC Written Imaginative ― ― 39 以上の Keyword の検索結果から児童文学の特徴語の傾向をまとめておく。 まず、AntConcで同時代のイギリス小説と子供の話したディコースを文 字化したRC を参照コーパスにして特徴語を検索したTable 7. 1,7. 2では、 固有名詞を除くと、人称代名詞の I が最も特徴度(keyness, 今回はどれも log-likelihood ratioによる)が高い。この I は、語り手としても語りの中で も自分を中心に置く世界観の表れといってもよいだろう。そのほかの代名 詞、He, They, You にしても自分からみた周りの登場人物を指している。そ の他に気がつくのは bad や little などの主体的な判断にかかわる形容詞があ ることである。これも児童文学の舞台が小さいと大きい、勧善懲悪の二項 対立の主題になっていることの証左であろう。最後に、児童文学の言語の 特徴として言えるのが、接続詞 and, but である。しかし、この and はどのよ うな用法なのか、and のコンコーダンス検索結果では、and then, and so のコ ロケーションが多いことが分かる。and は名詞と名詞をつなげる用法から文 と文をつなげる用法まで様々であるが、コロケーションをみると因果関係 の so, 時間の継起を示す then とともに用いられ、and 自体は間投詞のような 役割を果たしている。and の多用は冗長性を生む、子供の発話に多いことか らも避けられる傾向にあるが、むしろ児童文学は and をその他の接続表現 と用いることで文や節をつなぐ意味関係を補完している機能を持つと考え られる。子供が短期記憶で覚えられる容量や言語能力との兼ね合いで大人 が書く児童文学には接続詞、接続表現の頻出という文体的な特徴が備わっ ていると思われる。 but も同様に then や so, when などの語とコロケーションになる傾向にあ る。コンコーダンスから前後のコンテクストを参照してみる。 (1)The thing, whatever it was, did look rather like a dragon − but then it was too small; and it looked rather like a lizard − only then it was too big.(7. txt) これは添加の and と違って、前文にあるドラゴンのように見えた、とい う前提を翻して反意を示すわけである。このように but は前文の内容を想起 させる機能を示す。but がなくても論理関係が推論できる大人と違って、子 供には前提に立ち返らせる必要もあり、butの頻出に結び付くと考えられる。 次に、Wmatrix 2 に実装されている semantic tag の keyword 検索の結果から 児童文学の特徴の一部をみてみる。Wmatrix 2 は Lancaster 大学の Paul ― ― 40 Rayson 氏が開発したオンライン上のコーパス分析ツールである。txt ファイ ルを画面上にアップロードすればCLAWS 7 の品詞タグや語彙リスト、そし てテンプレートを基にした意味タグを自動的に付与し、その結果をBNCの ジャンル毎のサンプルと参照させkeywordのファイルを生成する。Table 8. 1, 8. 2, 8. 3の検索結果から傾向をまとめてみると、擬人化された登場人物であ る Living creatures: animals, birds、Plants が上位に位置し、状況設定や善 悪の暗示するLightとDarkness、登場人物を示すBigとSmallなど対比が続 く。対象年齢が上がるにつれて、Time や Solid と Liquid、Religion、外見の 判断基準となる Beautiful が現れる。これも時間、具象物、生と死、倫理感 が育まれてくる年齢とほぼ一致し、その発達段階に応じて、ある意味を想 起させる語群が用いられることになる。当然のことではあるが、コーパス の意味タグから作品の主題を示す傾向はしっかりと捉えられるであろう。 Table 8. 1 Semantic Tag Keyword(PB. txt,U5. txt) Semantic Tag Keyword(Wmatrix)Reference Corpus=BNC Written Imaginative Table 8. 2 Semantic Tag Keyword(5. txt,7. txt) Semantic Tag Keyword(Wmatrix)Reference Corpus=BNC Written Imaginative ― ― 41 Table 8. 3 Semantic Tag Keyword(9. txt) 5 .絵本における直喩表現のコロケーション また、コロケーションに戻り、絵本のコーパスを素材に比喩の中でも言 語形式に明確な指標を持つ、直喩の like, as, as if のコロケーションを考え てみる。PB. txt で検索結果 like が25例、as が53例、as if が 2 例あった。そ の中から直喩表現を 3 つ引用し、それらのコンコーダンスラインから何が 何をたとえているのかをみてみる。 (2)When it looked as if everything had been unwrapped, Sarah found one last small box behind the tree. (3)We climbed mountains so high it seemed as if we would scrape the moon. (4)He slept like a stone. 絵本は言語より絵そのものが物語構造を担っているジャンルであり、絵 抜きではその言語の特徴も分析できない側面がある。しかし、絵が何を伝 え、言語は何を担うのかという研究はこれまで少なかったと思われる。コ ーパスの構築もこれまでのように文字列だけでなく、音声、画像、動画も 付帯的に扱うことが可能になっている。まだ方法論的には乗り越えるべき 課題は多いと思われるが、絵本のコーパス構築にあたってはそのページの 文字列に対してどの絵が対応するかタグ付与しながら、txt と jpegをコーパ ス化している。特に直喩は言語と絵との関係が非常に明示的であり、(2) (3) (4)の例から絵との関係を指摘してみる。 まず、(2)では全てのクリスマスプレゼントが開いているかのように見 えたが、まだ木の下に小さな箱があったという個所であるが、これには絵 ― ― 42 に散らかった部屋とクリスマスツリーの下の箱が象徴的に描かれている。 (3)も月を削るかのように高く山を登って行く場面では山頂と月が正面に 接近して大きく描かれている。(4)ではさすがにベッドに石が置いている わけではなく、主人公がベッドでぐっすり休んでいる姿が絵になっている。 他の例でもそうであるが、絵本では直喩の箇所が絵として描かれているこ とが多い。これは読者の子供が比喩表現を理解できない可能性を考えてわ ざわざその個所を絵にしているということが言えそうである。これには、 他の用例についても検証していかなければいけないが、コロケーションが 様々なジャンルの文体的特徴を明らかにする可能性の一つであろうかと思 われる。 6 .まとめ 本稿では、コーパス文体論の傾向を概観した後でコロケーションの重要 性を述べ、具体的な分析例として児童文学の文体的特徴となる接続表現の 振る舞い、直喩表現と絵に絞って考察してみた。これはコロケーション研 究の試行ともいえる取り組みであり、さらに分析ツールの効果的利用とコ ーパスの充実、特に絵本のコーパスの構築などに力を入れていきたい。ま た、コロケーションと統計的な処理なども今後の課題としたいが、この分 野での研究がますます拡がっていることからさらに研究成果の充実を期待 したい。 参考文献 Hori, Masahiro.(2004).Investigating Dicken ’ s Style: A Collocational Analysis. Basingstoke: Palgrave Macmillan. 堀正広.(2009). 『英語コロケーション研究入門』 .東京:研究社. 石川慎一郎.(2008).『英語コーパスと言語教育』 .東京:大修館書店. 奥聡一郎.(2009).「文学言語の計量化とその展望」『シリーズ朝倉〈言語 の可能性〉10 言語と文学』.斎藤兆史編.東京:朝倉書店. 斎藤兆史.(2009) .「文体論の歴史と展望」 『シリーズ朝倉〈言語の可能性〉 10 言語と文学』 .斎藤兆史編.東京:朝倉書店. Elena Semino & Mick Short.(2004) . Corpus Stylistics. London: Routledge. ― ― 43 注 1 )筆 者 は PALA2007に お け る 口 頭 発 表 “ Connectives in Children’ s Literature”において堀正広氏から有益なコメントいただき、接続表現 の研究にコロケーションの視点を組み入れることについて再考する機 会を得た。改めて感謝する次第である。 2 )http://www.lexically.net/wordsmith/ 3 )http://www.antlab.sci.waseda.ac.jp/software.html 4 )http://ucrel.lancs.ac.uk/wmatrix/ 5 )http://www.benjamins.com/cgi-bin/t_bookview.cgi?bookid=CLS%201 6) “Corpus stylistics: methodology, theory, and patterns in literary texts” PALA, pre-conference workshop, Joensuu, 25 July 2006 7 )http://www.lexically.net/downloads/version5/HTML/index.html/ wsconcgram_settings.htm 8 )http://www.gutenberg.org/wiki/Main_Page 9 )http://www.archive.org/ ― ― 44