lv

英语语料库在线 网络语料库剖析体系CQPweb的建造及使用

[2018年11月24日 16:42] 来源: 中国大学教学 编辑:小编 点击量:0
导读:刘萍 吴良平摘要:新一代网络语料库剖析体系CQPweb具有词频剖析、调配剖析、散布剖析、索引行以及主题词剖析等多种剖析功用。CQPweb于2014年初度引进国内,现在国内已建成三个CQPweb,更多语料库研讨者等待着创立自己的CQPweb。鉴于此,本文以HZAUCQPweb为例,具体介绍了CQPweb的创立流程,所要求的环境条件、技能要求、CQ

刘萍 吴良平

摘要:新一代网络语料库剖析体系CQPweb具有词频剖析、调配剖析、散布剖析、索引行以及主题词剖析等多种剖析功用。CQPweb于2014年初度引进国内,现在国内已建成三个CQPweb,更多语料库研讨者等待着创立自己的CQPweb。鉴于此,本文以HZAUCQPweb为例,具体介绍了CQPweb的创立流程,所要求的环境条件、技能要求、CQPweb的体系结构、办理权限等。HZAU CQPweb建成后,被运用于学术写作教育,探讨了CQPweb的三个首要剖析功用,即词频、调配、散布剖析功用在回答写作困惑方面的作用。运用研讨提醒:根据CQPweb的数据驱动学习在前进学生的言语认识、促进自动学习和常识内化等诸多方面优势凸显。本研讨旨在促进CQPweb在国内的推行运用。

要害词:CQPweb;渠道建造;数据驱动学习;学术写作教育

一、导言

近年来,跟着计算机技能的前进,语料库开发与建造迅猛开展。可是技能门槛与版权问题阻止了语料库资源的同享。最新一代网络语料库剖析体系CQPweb极大地简化了语料库检索操作,很大程度上消除了技能妨碍。一起,CQPweb将语料库文本贮存于网络服务器,用户无法仿制或重构语料库文本,使语料库版权得到维护。因此,有许多语料库研讨者等待架构自己的CQPweb,上载自建的语料库,用于教育与科研。鉴于此,本文以HZAU CQPweb为例,介绍CQPweb的建构流程及其运用。集易用性、兼容性与强壮功用于一体的CQPweb特别合适数据驱动学习(data-driven learning)。在教育中选用CQPweb,引进数字驱动学习的教育理念,将促进教育办法、教育手法的更新。CQPweb充分运用数据索引,能对大规划文本进行快速处理,契合大数据时代特征,代表着往后语料库剖析东西的开展趋势。

二、概述

1.cQPweb的开展进程

CQPweb是第四代根据网络的语料库剖析体系(McEnery&Hardie 2012:44),其首要剖析功用包含:索引行、调配、词频、要害词、散布剖析等。CQP(Corpus Query Processor)开始由德国斯图加特大学于1994年在Solaris渠道开发(Christ 1994)。1998年,StefanEvert以Linux为渠道持续开发(Evert 2008)。2006年Hoffman&Evert结合了两个独自的查询技能语料库作业渠道Corpus Workbench(CWB,CQP为其间心组件)和MySQL联络数据库,产生了新一代以CWB/CQP和MySQL为后台的语料库剖析体系BNCweb,既前进了体系的操作功用,又给予CWB/CQP一个更友爱的用户界面。可是,该体系只能检索英国国家语料库BNC,不兼容其他语料库。为了打破此限制,兰卡斯特大学Andrew Hardie用PHP言语改写了BNCweb,更全面的数据模型使其兼容简直全部类型的语料库,他将改善后的体系命名为CQPweb。2008年,首个CQPweb面世,它以开源软件办法发布,尔后不断推出新版本。

2.cQPweb的优势特征

CQPweb选用浏览器一服务器的散布式数据处理办法,能完成跨渠道检索,在功用性、易用性、灵敏性三个方面完成了重大打破。Hardie以为对语料库兼容并收的灵敏性是CQPweb的首要立异特色(Hardie 2012:380)。相对于其他语料库剖析东西,CQPweb优势突显。现在广泛运用的第三代语料库剖析东西,

如WordSmith Tools、MonoConc、AntConc等,尽管具有杰出的图形用户界面,易用性高,可是它们不支撑数据索引或杂乱检索,因此检索速度和功用大为差劲。还有一些语料库东西尽管检索功用强壮,但易用性差。例如德国斯图加特大学的CWB/CQP支撑大型语料库的快速、杂乱检索,但其检索技能门槛高,大都一般研讨者不会运用。别的一些语料库检索东西尽管易用,而且功用强壮,可是兼容性差。例如上述BNCweb仅能针对BNC检索,无法加载用户自建语料库。相比之下,CQPweb以常人熟知的浏览器为用户端,选用标准化的语料格局,能加载和检索恣意语料,在功用、易用、灵敏三者之间取得了较好平衡,成为现在功用最为全面的网络语料库剖析体系。

3.国内外cQPweb的开发与运用

在国外,CQPweb以其共同的优势遭到用户喜爱,现在,英、美、德、西班牙、加拿大等多个国家的大学和研讨机构选用了CQPweb,服务于教育和科研(许家金、吴良平2014:12),取得了杰出的作用。例如兰卡斯特大学在语料库言语学教育中选用了CQPweb,由于语料库检索操作被大大简化,学生有更多精力聚集于教育内容自身,因此学习功率得到前进(Hardie 2012:387)。另一方面,CQPweb的兼容性极大地拓宽了其适用范围,它乃至成为人文科学、社会科学范畴研讨者的研讨利器。例如Maatz(2014)运用CQPweb进行比照研讨,发现精神分裂症患者对第一人称代词“I”的运用多于正常人,这一发现有助于精神分裂症患者的病理研讨。

在国内,CQPweb作为一个新概念、新事物,2014年由许家金、吴良平(2014)宣布的专题论文初度引介。同年,国内第一个CQPweb体系“北京外国语大学多语种在线语料库检索渠道BFSU CQPweb”面世。该体系揭露发布了代表7种言语的33个不同类型的语料库,促进了语料库资源与东西的同享,一起促进了根据语料库网络渠道的言语研讨。在BFSU CQPweb演示效应的影响下,香港理工大学、华中农业大学也先后架构了各自根据校园网的CQPweb。这些前驱CQPweb体系使国内语料库研讨者体会了CQPweb的强壮功用、便当操作,以及它对语料库版权有杰出的维护,因此激发了一批语料库研讨者创立CQPweb的热心。他们纷繁在论坛、网站等学术阵地寻求创立CQPweb的技能与流程。可是,现有的相关文献少之又少,仅有的一篇中文文献(许家金、吴良平2014)未有触及CQPweb的具体创立流程及其在学科教育中的具体运用。

鉴于此,本研讨具体介绍华中农业大学CQPweb(以下简称HZAU CQPweb)的创立流程及运用研讨,旨在为同类研讨供给参阅学习。

三、H7AU GOPweb的创立流程

HZAU CQPweb为农科英语语料库网络体系渠道,选用CQPweb v3.0.7作为建构根底。建构网络型CQPweb需求两个基本条件:(1)CQPweb体系;(2)CQPweb专有格局语料库。CQPweb(自带装置阐明文档)可从其官方网站自行下载与装置。专有格局语料库装置到CQPweb体系后,用户方能检索。以HZAUCQPweb为例,咱们从环境条件、技能要求、体系结构、办理权限等方面论述CQPweb的建造流程。

1.创立cQPweb的技能参数与预备条件

CQPweb体系实为运转在Linux操作体系的一套开源程序,其首要构成元素为后台OpenCorpus Workbench 3.0+和用户界面CQPweb。软件条件为:GNU Linux 2.6+、Apache-2.0+、MySQL-5.0+、PHP5.3+、Perl-5.8+。硬件条件为:32位或64位Intel/AMD处理器、双倍于语料库巨细的闲暇硬盘空间,以及适量内存(假定1亿词次规划的语料巨细为1GB,将其架设在CQPweb渠道上所需的硬盘空间则约为2GB。依此类推)。HZAU CQPweb选用64位Linux,4GB内存,现在运转杰出。

CQPweb可处理杂乱数据类型语料,但对输入文件格局要求苛刻。在上载文本前,需求对文本进行清洁与处理,以削减犯错几率,触及多个进程:(1)删去源文本中的页眉、页脚、图表及阐明、参阅文献等言语学信息不强的部分;(2)切开与提取论文的各章节部分;(3)共同选用UTF-8编码;(4)去除空行、行首与行尾空格等空白;(5)转化全角符号至半角;(6)删去异字(如英文文本中搀杂的汉字);(7)增加词性赋码;(8)转化语料格局为CQPweb专有格局。专有格局是CQPweb能加载恣意语料,成为通用语料库剖析体系的要害。其间论文章节部分的切开、提取需求专业布景常识。HZAU CQPweb建造中,调动了不同农科专业方向的博士生参加此项作业,以保证语料提取、加工的质量。

2.HZAU cQPweb两个数据模型与语料库的三层构架

CQPweb的检索功用的完成依托两个数据模型:语料库文本数据模型和语料库元信息模型。前者支撑一般检索,后者支撑分类检索。两个数据模型的结构描绘如下:

语料库文本数据模型选用一行一单词的竖排格局,每个单词后边可带词性、词形复原等若干标示成分(Hardie 2012:390)。在文本数据模型中,每个单词都标示了词性赋码,单词与词性赋码之间由制表符分隔,并排成CQPweb专有竖排格局。

语料库元信息指与语料相关的文本结构信息或社会言语学信息,如章节号、刊物来历等信息。语料库元信息模型分为两栏,左面为文本的ID,右边为文本的学科分类元信息。如果有一文本的ID为D01,其对应的学科元信息为DWKX,那么元信息模型中的D01DWKX解读为“动物科学(DWKX)文本库中的第1个文本”。文件ID与元信息之间由制表符分隔。元信息用于CQPweb限制条件检索(Restricted query),例如将带有DWKX(动物科学)元信息数据的全部文本可作为一个学科大类进行检索。HZAU CQP web能够完成章节部分的分类检索也是根据相同的原理。

上述两个数据模型运转在CQPweb后台的服务器上,而在HZAU CQPweb前端的浏览器网页上(http://211.69.132.28/)呈现给用户的是语料库的三层架构:第一层是农科专业期刊论文语料库,录入英语母语者宣布的期刊论文。第二层是汉语母语学习者语料库,录入农科专业的硕士生、博士生编撰的英语学术论文。这两个语料库构架相同,均由依照章节部分和学科分类的两个子库构成:章节子库包含摘要(ABS)、导言(1NT)、办法(MET)、成果(RET)、评论(DIS)、定论(CON)6个库;学科子库包含植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、农业经济(NYJJ)等9个库。第三层是比照语料库,包含经过授权的英语母语学习者语料库BAWE和文学作品语料库DICKENS,首要用于比照研讨。

3.cQPweb的体系结构与办理员权限

作为一套开源程序的调集,CQPweb体系首要分为服务器端和用户端两个部分,包含多个彼此联络的组件。检索进程开始于用户在浏览器的用户界面输入查询句子,服务器端收到查询恳求后,与CWB和MySQL两者进行交互,将终究成果经过浏览器呈现给查询用户,至此检索完毕。在检索进程中,用户的使命仅为输入恰当查询句子(参看许家金、吴良平2014:14),然后全部交由CQPweb自动运转处理。

体系办理员权限为:(1)语料库办理;(2)用户办理。在语料库办理方面,办理员可装置、修正、删去语料库,根据需求随时展现或躲藏特定语料库,还能够修正体系配置文件,对用户界面进行视觉作用调整。例如运用不同布景色彩区别不同语料库,下降认知负荷,便于同一体系上大批量布置语料库。在用户办理方面,体系办理员可创立单个用户或批量用户,并根据实践需求对用户进行分组,赋予不同拜访权限,例如仅对某一特定用户组敞开某一特定语料库。这种灵敏的用户组策略便于办理不同权限的语料库,也为同一体系布置不同权限的语料库供给了或许。

四、COPweb的多种剖析功用在学术写作教育中的运用

HZAU CQPweb建成后,咱们将其运用于农科专业博士生学术英语写作课程教育,在教育中,引进数据驱动学习(Data DrivenLearning,简称DDL)的教育理念。数据驱动学习由Tim Johns(1991)提出,其首要思想为:学习者作为研讨者,经过对很多语料数据的调查,自己概括、发现言语运用规则。教师作为引导者,为学生供给语料库资源与东西,指引学习者探求、发现。在DDL教育理念的指导下,传统上由教师教育的部分内容被转化成学生的自主学习使命,以促进学生凭借语料库,自己根究言语困惑的答案,然后掌握DDL学习办法,到达授人以渔的意图。

选用DDL的学习办法后,教师引导学生测验运用CQPweb渠道上的各种检索剖析东西,如词频、调配、散布、索引行以及主题词剖析等,回答写作实践中的疑问。限于篇幅,在此仅展现CQPweb的三个首要的剖析功用:词频剖析、调配剖析与散布剖析在写作教育中的运用状况。

1.词频剖析与调配剖析

在英语写作进程中学生常遭受选词与调配方面困惑,例如学术英语论文写作中一篇论文常要屡次用到“研讨”一词,写作者常纠结于多用research,仍是多用studV,标明“关于……的研讨”这两个名词究竟与介词of仍是on的调配更为频频?英、汉母语写作者在选词与调配上有无差异呢?CQPweb的检索成果如表1所示:

cQPweb的频数解析(Frequency breakdown)功用显现的数据标明:表达“研讨”之意时,英、汉母语者都更多地倾向运用study(studies)而不是research(es)。study of的呈现频率比study on高。相反,research on的调配比research of多。尽管英、汉母语者对这二词的选词与调配倾向整体共同,可是期刊论文语料库与学习者语料库的比照成果标明:英、汉语母语者在调配用法的频次上存在明显差异,汉语母语者运用studV on、research on以及research of这三词的调配明显高于英语母语者(p

频次与调配剖析成果显而易见地处理了学生写作中选词用语的困惑。CQPweb剖析数据呈现出英、汉母语者在言语运用上的差异,提醒出汉语母语者整体上存在对某些言语现象的过度运用或误用。该剖析有利于学生前进其言语敏感性,使其有认识地在选词用语上挨近英语母语者,然后前进言语运用的准确性和适切性,该剖析也有利于教师前进教育针对性。

2.散布剖析

本研讨中的学术英语写作首要触及科技英语论文写作。时态的运用经常困惑着科技论文的写作者。掌握不一起态在科技论文各部分的整体散布,有助于前进时态运用的准确性。现在时与过去时是科技英语论文最常用的两种时态,这两种时态在科技论文不同部分的散布状况如何呢?

科技英语论文常用被动语态,作为被动语态标志的be动词在科技论文中运用频频,具有必定的代表性。咱们无妨以be动词的现在时和过去时为例,研讨两种时态在科技论文各部分的散布状况。咱们以is和are代表现在时(科技论文中罕见be动词的第一人称奇数办法am),以was和were代表过去时。CQPweb的散布剖析功用(distribution)以图表办法呈现出be动词的现在时与过去时在论文各部分的散布状况如下:

图1显现:be动词的现在时在评论(DIS)、导言(INT)、定论(CON)部分用得较多,在成果(RES)运用较少,办法部分(MET)运用最少。图2的显现成果与图1互补:be动词的过去时在办法部分(MET)运用最多,成果部分(RES)次之,在定论(CON)和评论(DIS)部分较少。从DDL教育理念动身,在学生调查CQPweb供给的数据及图表之后,教师应引导学生对数据进行评论剖析,以便学生自己发现时态运用的规则。评论得出以下定论:时态的运用因论文各部分写作内容的差异而不同:办法部分首要描绘试验资料的获取,陈说事情,因此多用过去式;成果部分描绘瞬时调查到的现实与数据,具有时效性,因此多用过去式;定论部分描绘对调查成果提炼后得出的一般规则,因此多用现在时。

传统教育中,时态的运用规则往往由教师教授,选用DDL学习办法后,言语运用规则经过学生自己调查、评论而发现。数据驱动的探求式、发现式的DDL学习办法比教师的僵硬灌注更能发挥学习者的主观能动性,促进学习者自动探求,有利于言语常识内化吸收。而CQPweb体系渠道为DDL学习供给了快捷条件。

根据HZAU CQPweb的学术英语写作课程完毕后,DDL学习状况的问卷调查成果标明:整体来说,师生对教育中选用CQPweb持活跃必定的情绪。师生共同认同:运用CQPweb供给的语料库资源与东西,进行数据驱动学习,有利于前进教育的针对性和学生的言语认识、促进自动学习和常识内化。可是,HZAUCQPweb的实践运用也标明:初度运用CQPweb的师生遍及以为语料库检索操作依然不行便利,对词汇层面以上言语现象的检索感觉困难。

五、结语

本文概述了新一代网络语料库剖析体系CQPweb的开展进程、功用优势、国内外CQPweb的开发与运用。整体而言,CQPweb在国外开展快,运用广,在国内处于起步阶段,需要推行。本文以HZAU CQPweb为例,介绍了CQPweb的建造流程,包含建造的环境条件、技能要求、体系结构、办理权限等。HZAUCQPweb建成后,运用于学术英语写作教育。运用研讨标明,师生遍及认同CQPweb对写作教育的促进作用,支撑根据CQPweb的数据驱动学习办法,一起,用户也反映CQPweb易用性有待进一步前进。现在,作为新生事物的CQPweb的开发与运用开展迅速,简直每月都有新版的CQPweb推出(源自CQPweb体系信息)。国内学者应该实时跟进国外的新开展,一起也测验开发一些本土化的剖析功用,以满意国内根据网络语料库剖析体系的言语教育与研讨之需。

查看更多: 语料库 系统 语料
lv

图文资讯