新教育形式的探究文学语料库驱动下的英美文学教育形式探究_观点_

张立柱

摘要：根据自建的简·奥斯丁六部小说语料库，凭借语料库文体学的研讨办法，经过对软件得出的计算数据、高频词、词表、词簇等进行定量和定性剖析，选用数据驱动的发现式学习办法辅导英语专业学生进行英美文学课的学习。以语料库驱动下学生细读著作为起点，经过课外材料查找、讲堂演示和小组评论，把教育从被迫的常识教授转化为学习者的自动建构，然后完成讲堂的“翻转”和教育作用的进步。

要害词：语料库驱动；英美文学；教育方法；简·奥斯丁

中图分类号：G642.0 文献标识码：A 文章编号：1002-4107（2018）04-0024-04

英美文学课程是我国高等院校英语专业学生在高年级阶段的一门必修课，归于专业常识课程，关于培育学生的言语才干和文学涵养都具有重要的作用。在高等院校中，因为工作压力和运用型导向，英美文学课在英语专业的课程设置中不断被边缘化，面临着学时逐步削减、教材规划简略、师资力气缺乏、学生根底单薄等方面的问题。因为大学阶段英语专业教育的特别性，英美文学课的教育不合适触及过多的布景常识和文学术语，而应以英美新批判所倡议的“细读法”为根底，回归文学著作自身，特别是以文本中的言语为根底来了解和剖析文学著作的含义，赏析作家的风格。建构主义教育法着重学生在教育过程中的主体位置，常识和才干需求学习者在必定情形下不断进行学习和实践，终究才干建构和内化所学常识，进步实践才干。当今教育界盛行的以“微课”“慕课”等网络教育资源渠道打开“翻转讲堂”与建构主义的观念一脉相承。

一、语料库文体学

语料库言语学构成于20世纪50年代，建议言语研讨应以实在语料为根底，描绘言语运用的客观规则，语料库办法的运用能够供给关于言语运用的数据，然后将定量研讨（quantitative research）办法引进言语研讨范畴[1]。文体学是凭借言语学的理论和办法来研讨文学著作，调查文学著作中特定言语特征的挑选及其所发生的主题思想和艺术作用[2]。文体学是对文学文本的言语剖析，语料库言语学是经过电子方法对言语数据进行剖析，两者的结合催生出了语料库文体学，即对经过电子方法存储的文学文本进行言语剖析[3]。在文体学中，语料库有助于发现言语表象以下无法靠直接经验取得的隐性特征，因为弦外之音常常有其特别的表达方法。在研讨作者风格的时分，假如不运用语料库技能，任何关于前史的、文体的研讨都将是不完整的[4]。鉴于语料库在文学文本的言语剖析和作者风格研讨中的巨大优势，以语料库为根底在英美文学的教育中打开“数据驱动学习”（DDL），有利于发挥学习者的片面能动性，培育批判性思想，然后进步言语文化常识的实践运用才干。

二、奥斯丁小说语料库驱动下的英美文学教育方法

（一）树立语料库

18世纪英国闻名女人小说家简·奥斯丁的著作都是经典著作，也不失其现代性，她的著作常常出现在当今各大热销书单中，根据她的著作改编成的影视著作相同令现代观众深深入神。她的著作也在学生读者特别是女人读者中广泛传阅，深受欢迎，因而以下将尝试以她的六部小说为例，运用语料库的数据驱动办法对其进行剖析，探究英美文学教育方法的变革。

笔者经过古登堡文本库（http：//www.gutenberg.org）很方便地搜集到了简·奥斯丁六部小说的电子版，并对其进行了除噪、收拾、清洁、分词以及简略的标示，树立了一个语料库（约72万词），以下简称为Austen Corpus。相同，大部分没有版权约束的英美经典小说电子版都能在该网站轻松下载。此外，教师还能够经过文本电子扫描（OCR）、网上数字图书馆以及人工录入等方法获取文学著作的电子版。

（二）数据搜集与计算

运用WordSmith Tools （5.0版）对Austen Corpus进行剖析，能够得到关于该语料库的一些根本计算数据以及词表（word list）和词簇（word cluster），词表能够按频率的次序也能够按字母表的次序进行摆放。教师能够把词表或词簇制造好以电子版的方法发给学生，供学生调查、学习和研讨，或许经过网络渠道辅导学生运用软件自己生成词表或词簇，这样更有利于学生触类旁通，自己制造其他作家著作的小型语料库，用于研讨剖析。因为Austen Corpus词表中的词到达一万多个，数量或许过大，教师还能够以英国国家语料库（BNC）为参照语料库（reference corpus），提取出Austen Corpus的要害词和要害词词簇，便于缩小学习和研讨的规模。

教師或学生在运用该语料库的时分，能够以调查到的某个词或短语为检索词，在语料库中进行检索和剖析，然后经过许多丰厚的例句打开词汇的教育和学习。因为每个词和短语能够清楚地看到上下文，学生能够在必定的语境中阅览和了解词汇与短语的意思，然后经过重复阅览了解著作的内容。

1.根本数据剖析。经过对语料库软件得出的一些根本数据进行剖析，学生会对著作的言语运用有一个根本的整体知道，这种知道不是片面形象式的、重复不定的，而是具有必定的客观根据和数据支撑的，能够进行合了解说的。比方，规范类符形符比（standardised TTR 或STTR）和均匀句长（mean in words）是两个比较常用的目标，前者能够标明词汇的丰厚程度，后者能够阐明语句的杂乱程度，而它们的规范差（standard deviation）则反映了词汇丰厚程度和语句长度在整部著作中的改变程度。

简·奥斯丁六部小说的STTR为41.09，比英国国家语料库（BNC）的42.66略低，因为奥斯丁小说选材的规模相比照较小，小说中有许多日常日子中的人物对话，因而会出现词汇丰厚程度不如BNC的状况。奥斯丁六部小说中，《爱玛》的STTR最小，为39.87，《诺桑觉寺》的STTR最大，为42.37，其他四部小说的STTR从小到大别离为41.05、41.17、41.41、41.59，相差很小，六部小说的STTR规范差也很类似，在56.34—59.36之间。这标明晰简·奥斯丁在这六部小说的发明过程中根本选用了丰厚程度适当的词汇，奥斯丁小说的言语在很大程度上具有同质性。

均匀句长方面，奥斯丁六部小说的均匀句长为18.63，比BNC的20.59略低，首要原因也是对话比较多，所以语句相对较短。六部小说中，《爱玛》的语句最短，为15.40，《劝导》的语句最长，到达了22.87，其他四部小说的均匀句长从小到大别离为17.19、19.75、20.21和20.49，整体来说，相差也并不大。均匀句长规范差在14.58—20.87之间，差异不大。Rudolf Flesch对英语语句长度与文体的联系做过如下的数字计算[5]。

Very easy（easy prose，mostly dialogue）：8 words or less

Easy：11 words

Fairly easy：14 words

Standard（average reader）：17 words

Fairly difficult（literary English）：21 words

Difficult：25 words

Very difficult（scientific English）：30 words or more

簡·奥斯丁六部小说的均匀句长为18.63，小于文学类英语的均匀值21词，仅略高于规范英语文体的均匀值17 词，因而奥斯丁小说在文学类著作中的难度相对不是太大。其间《爱玛》的语句长度15.40，小于规范英语文体的均匀值17 词，略高于比较简略的文体的均匀值14词，合适群众读者阅览。因为《爱玛》的STTR也是六部小说中最小的，言语根底相对单薄的同学能够先从这部书开端阅览，逐步了解奥斯丁著作。

2.词表剖析。经过比较Austen Corpus里六部小说

《诺桑觉寺》《沉着与情感》《傲慢与偏见》《爱玛》《曼斯菲尔德庄园》和《劝导》（表1别离简称为：NA、SS、PP、E、MP和P）的前20位高频词（见表1）也能够调查到，奥斯丁的用词非常类似，六部小说的前20位高频词根本共同，乃至摆放次序都相差不大，阐明奥斯丁小说言语风格的一贯性。

从北外CQPweb下载到狄更斯小说语料库（本文简称为Dickens Corpus）的词表（http：//111.200.194.212/

cqp/dickens/），提取前20位高频词，连同BNC前20位高频词与Austen Corpus做一个比照（见表2），能够发现这三个语料库前5位高频词彻底相同，仅仅摆放次序有所不同。第6～20位高频词中，Austen Corpus中排第6位的“HER”，在Dickens Corpus中仅排第16位，在BNC中则没有出现。Austen Corpus中排第11位的“SHE”，在别的两个语料库中都没有出现，女人代词的高频率出现标明晰奥斯丁小说中的人物以女人人物为主，这也是其明显特征。

从六部小说各自的词表来看，出现频率最高的第一个人名就是小说的女主人公，别离为CATHERINE（第28位）、ELINOR（第32位） & MARIANNE（第42位）、ELIZABETH（第33位）、EMMA（第32位）、FANNY（第29位）以及ANNE（第29位）。并且，Austen Corpus前200位高频词中还出现了“MRS”，“MISS”，“HRESELF”，“LADY”，“SISTER”，“MOTHER”等许多与女人相关的词以及女人人名，也标明晰小说的主题首要环绕女人人物打开。除了“MRS”，“MISS”等女人敬称之外，前200位高频词中还出现了“MR”，“SIR”等男性敬称，标明人物间的称号非常礼貌，与奥斯丁描绘的中产阶级上流社会的常规相吻合。

3.特别高频词的检索与剖析。如表2所示，Austen

Corpus高频词中有一个词“NOT”，共出现了8565次，排在第12位，而在Dickens Corpus 和BNC中前20位高频词中均未出现，阐明奥斯丁小说中的人物以及叙事者惯用否定口气。六部小说中，每千词“NOT”的出现次数从小到大别离为10.48、11.22、11.48、11.75、12.50、13.66，其间《爱玛》中“NOT”出现的频率最高，《沉着与情感》最低。根据计算数据，教师能够以此为起点，引导学生“细读”著作，剖析 “NOT”高频出现的原因，发现言语背面所包括的文体含义。比方《爱玛》中的伍德豪斯先生就偏心否定方法，“not unwholesome”在他的对话中出现了两次，经过言语方法，作者成功描绘出了一个胆怯怯弱、犹豫不定的人物形象[6]。

以“NOT”为检索词在Austen Corpus中进行检索，相同能够发现一些规则，“NOT”左边第一位的常用调配词除了“BE”，“DO”等助动词外，多为“COULD”，“WOULD”，“WILL”，“SHOULD”，“MUST”，“MIGHT”，“SHALL”，“ NEED”，“MAY”，“OUGHT”等神态动词，并且许多仍是神态动词的曩昔时态。从高频三词词簇来看，也能验证这一发现，前200位高频三词词簇中有39个包括否定词“NOT”。前20位高频三词词簇中有6个含有“NOT”，别离是“I DO NOT”，“SHE COULD NOT”，“COULD NOT BE”，“IT WAS NOT”，“IT IS NOT”，“DO NOT KNOW”，其间有2个含有神态动词曩昔式“COULD”。以BNC为参照语料库提取要害2～5词词簇，Austen Corpus中前20位中有三个含有“NOT”，别离为“COULD NOT”，“SHE COULD NOT”和“I DO NOT”。

Fischer-Starcke以《傲慢与偏见》中两个含有否定式“NOT”的四词词簇“I DO NOT KNOW”和“SHE COULD NOT HELP”为例，剖析了小说人物，首要是女人人物在表达对他人的批判，陈说自己的观念以及披露自己爱情时所有意采纳的含蓄、礼貌、迷糊的言语战略，以此来契合社会常规对女人的要求，一起也反映了女人人物心里的不安全感[7]。

除了“NOT”的高频运用之外，Austen Corpus中还有一些其他否定式的用法，如“NEVER”，“NO”的出现频率也很高，教师能够辅导学生结合详细比方进一步剖析研讨。相同以《爱玛》为例。

Her daughter enjoyed a most uncommon degree of popularity for a woman neither young，handsome，rich，nor married.Miss Bates stood in the very worst predicament in the world for having much of the public favour；and she had no intellectual superiority to make atonement to herself，or frighten those who might hate her into outward respect.She had never boasted either beauty or cleverness.Her youth had passed without distinction，and her middle of life was devoted to the care of a failing mother，and the endeavour to make a small income go as far as possible.And yet she was a happy woman，and a woman whom no one named without good-will[8].

這是书中的第三章，贝茨小姐在小说中第一次进场时作者的描绘，短短几句话作者用了许多否定词和含有否定意思的词，如“uncommon”，“neither”，“nor”，“no”，“never”，“without”，“no one”等，好像要把一个又穷又老、既不美丽又不聪明的“剩女”描绘得反常惨痛，可是接下来笔锋一转，这样的一个女子居然还很受欢迎，活得有滋有味，这种先抑后扬的写作方法不由让人敬服奥斯丁不愧为“言语大师”，寥寥数语，不露神色，没有凭借任何表面、景象描绘，却道尽了社会的人情冷暖，鲜活的人物形象栩栩如生，让人读起来忍俊不由，一起也深刻了解了那个年代女人的命运。

相同，还有其他一些高频词，经过数据检索和深入剖析，结合定量和定性研讨，也会有许多新的发现。如，González-Díaz以奥斯丁小说人物特别是女人人物人物运用程度副词“QUITE”的频率为研讨起点，从社会学和文体学视点深入剖析了奥斯丁怎么经过人物言语，特别是女人人物的个人习语来刻画不同的人物性格和特色[9]。

（三）讲堂展现和评论

经过在讲堂或课外的语料库出现和调查，学生能够环绕详细的词语或语句打开研讨剖析，结合自己的爱好，构成研讨问题，评论其间的弦外之音、修辞特色和文体风格，比方上文中说到的“NOT”的高频运用以及与神态动词的调配就是一个很好的起点。在教师的辅导下，学生以小组为单位在课外进行材料搜集和收拾，并在讲堂上展现自己的发现和心得体会，使讲堂教育规划以教师为中心向以学生为中心改变，学生成为讲堂的主体，展现和建构自己的所思所得，并以此为根底打开讲堂评论，然后完成讲堂真实含义上的“翻转”。

跟着大数据、“互联网+”年代的降临，运用计算机、手机或其他移动渠道进行移动学习变得愈加快捷和盛行，语料库驱动的学习方法是数据运用到教育上的一种方法，关于改善教育方法将具有巨大的潜力，可是语料库怎么与教育更好地在详细环节上结合起来仍需求广阔教师和学生经过实践进行不断探究和研讨。

参考文献：

[1]胡开宝. 语料库翻译学概论[M].上海：上海交通大学出版社，2011.

[2]任晓霏，冯庆华等.语料库戏曲翻译文体学[M].北京：我国社会科学出版社，2014.

[3]Fischer-Starcke，Bettina.Corpus Linguistics in Literary Analysis：Jane Austen and her Contemporaries [M].London： Continuum，2010.

[4]Biber，Douglas，Susan Conrad & Randi Reppen.Corpus Linguistics[M].Beijing：FLTRP，2000：222.

[5]连淑能.英汉比照研讨[M].北京：高等教育出版社，2010.

[6]Page，Norman.The Language of Jane Austen[M].Routledge， 2011.

[7]Fischer-Starcke，Bettina.Keywords and frequent phrases of Jane Austens Pride and Prejudice[J].International Journal of Corpus Linguistics，2009，14（4）：492-523.

[8]Austen，Jane.Emma[M].北京：中心编译出版社，2013.

[9]González-Díaz，Victorina.‘I quite detest the man：Degree adverbs，female language and Jane Austen[J].Language and Literature，2014，23（4）：310-330.