期刊好文 | 第四范式:语言研究的新理念(文/徐盛桓)

-回复 -浏览
楼主 2022-06-20 16:29:15
举报 只看此人 收藏本贴 楼主

期刊好文

邀您共读

第四范式:语言研究的新理念

徐盛桓

河南大学 外国语学院

摘要:科学研究的第四范式是数据密集型造就的研究范式,它的精髓是在研究中“让数据说话”。在大数据的影响下,人们传统的研究理念和思路会发生变化:从抽样趋向于全样、从关注于因果关系趋向于关心相关关系、从追求精确趋向于获得对发展大趋势的认识。语言研究逃脱不了大数据的“缠绕”。随着数据量的高速增长和计算机算法的发展,计算机依靠语料的大数据将不仅能模拟和仿真,还能进行学习、归纳、分析、推理、总结,并且得到理论;也就是说,过去由索绪尔、乔姆斯基等语言学家从事的工作,部分可以由计算机来做,这开辟了语言科学研究的广阔前景。这样的研究,我们称之为语言的“e-研究”。

关键词:第四范式;语言研究;大数据;“让数据说话”;e-研究



0.引言

大型数据的积聚形成数据的密集型(data intensive)的集合。如果将一个“数据”理解为由一个个体提供的资源,那么由众多“数据”叠加就可成为“大数据”(big data)。“大数据”可以带来由量变到质变的惊喜,帮助我们更新对世界的认识。对此,大数据研究的先驱美国著名信息科学家Mayer-Schonberger在上海外国语大学举行的一个讲座上打过一个比方:拍摄了一连串骑马的照片,若连续快速播放这一连串不同形态的照片,我们就会体会到由量变导致质变的变化,动态的画面与静态的画面是有着本质上的区别的(参见http://edu.sina.com.cn/ bschool/ 2014-12-19/1147449582.shtml)。大数据使我们对事物有新的观察和体验的方式,从而获得新的体验和认识。这就是大数据时代所赋予我们新的洞察力。

 

大数据给予我们这样的洞察力现在已经转化为一种科学研究的新范式,这就是当代科学研究的“第四范式”(The Fourth Paradigm)。大数据可以帮助揭示研究对象多方面的情景,并使我们从大数据中感悟到有关事件、现象的整体映像以及所蕴含的相关性和规律性,从而有可能追寻到事件、现象被隐藏的真相。“让数据说话”(let the data speak)(Mayer-Schonberger,2012:6),正是第四范式的精髓所在。

 

科学研究的第四范式也开启了语言研究一系列的新理念。但是“让数据说话”是有条件的,那就是“要拥有足够多的数据和足够聪明的算法”(段伟文,2015:114);不然的话,就会像德国文艺复兴早期哲学家、思想家库萨的尼古拉(Nicholas Cusanus,1401—1464)曾经描写过的“有学问的无知”(库萨的尼古拉,1997:封面)那样,会成为“有数据的无知”。那么,语言研究工作者如何才能因有数据而获知?这一科学研究的新范式对于语言学研究有什么新的启示?这正是本文想要探讨的问题。

 

1.密集型大数据时代

1.1 大数据的数学描写

进入21世纪,随着信息科学和信息技术以及由此而带来的互联网运用的迅猛发展,人类从模拟信号世界进入到数码信号世界,现在我们的社会开始步入一个以超大数据为特征的信息化时代,这就是数据密集型的积聚,也可称为“大数据”。数据如何超大?下面的数学描写可以给我们一个感性的印象:

 

目前一个“数据集”的总量是以ZB级为单位计量的。怎样认识这个ZB级的数据集呢?1ZB信息的数据约为十万亿亿个字节(byte)。而一个汉字占2byte,不分字的繁简,十万亿亿个字节就约为五万亿亿个汉字组成的信息集合;一个英语字母占1byte。一个byte是8个bit,bit是二进制的一个位,就是0或1;8个bit就是例如01011001这样的一个二进位数。数据的其他计量单位排列如下:

1BB (brontobyte)=1024YB,即约为一千亿亿亿个字节(以下除最后一个均“约为”);

1YB (yottabyte)=1024ZB,即一亿亿亿个字节;

1ZB (zettabyte)=1024EB,即十万亿亿个字节;

1EB (exabyte)=1024PB,即一百亿亿个字节;

1PB (petabyte)=1024TB,即千万亿个字节;

1TB (terabyte)=1024GB,即万亿个字节;

1GB (gigabyte)=1024MB,即千兆个字节;

1MB (megabyte)=1024KB,即一兆个字节;

1KB (megabyte)(kilobyte)=1024个字节

(参见http://baike.baidu.com/subview/228795/10542267.htm)

 

这里一再提到的1024是2的十次方(2^10)。上表中上一个级别是下一个级别(如BB级别对于YB级别、YB级别对于ZB级别等)的1024(2^10)倍。另外还要说明的是,“兆”作为数的单位,我国历史上有过以下的三种不同体系:指百万、万亿、亿亿。目前,我国内地以及香港特别行政区和澳门特别行政区规定,“兆”指10^6,即1000000,相当于英语词头Mega;我国台湾和日本则规定“兆”指10^12,即1000000000000,相当于英语词头Tera;而计算机的“兆”的容量大约是10TB。这些数字大约能让我们对大数据之“大”有一个感性的认识。

 

大数据局面之所以形成,是因为当前人类在对自然、对社会、对人类自身的改造和认识的过程中产生了海量的信息,而信息量的激增又刺激了记录、处理、存储信息的信息技术的发展。现在人类社会已经有需要也有技术能力积累和处理各类信息的大型数据,并已形成规模庞大、数量惊人、种类繁多、专业混杂、具有高价值的巨型数据集合。数据的规模越来越大、动态变化越来越迅猛,既有离线的处理,也有实时的动态分析,这就是大数据。数据的海量聚合影响了人们观察、思考问题的思路,催生了科学研究的新方法,更新了科学研究的研究范式。由于大数据所涉及的面极广,任何研究都逃脱不了大数据的“缠绕”;人类一切活动都要使用语言,语言活动更逃脱不了大数据的“缠绕”。

 

1.2 大数据与信息模拟化、数码化

信息大数据化只是在近20年才完成的。这里所说“数据化”就是将各领域、各行各业、各学科以及各个时段、不同空间的公众或私人的各种信息,包括以各种载体承载或传播的以语言文字、声音、图表、图像或其他形式符号表征的动态或静态的信息,转换为二进位形式的数码储存起来,通过分析处理,形成结构化、半结构化或离散形式的数据集合。据有关的报告说,在刚进入21世纪时,大多数数据是模拟式的,只是过了十来年,人类就完成了从模拟信号世界到数码世界的转变。(Mayer-Schonberger,2012:9-11,15)所谓模拟信号(analog signal),是指用输传信息的载体所能够提供的连续变化的物理量,如无线电与电视广播中的电磁波,或电压信号如电话传输中的音频电压信号所模拟的声音信号或图像信号。数码数据则采用数字信号(digital signal),如用一系列断续变化的电压脉冲的正负电压分别表示二进制数的1和0。

 

1.3 大数据与实证思维

大数据使我们对事物有了新的观察和体验,这就是大数据时代所赋予我们的新的洞察力。这样的洞察力反映在科学研究上,就是进行研究时的思维形态和研究方法。人类自从在地球上出现,为了求得自身的生存,就要不断改造自然条件,以求得改善生存条件。改造自然,就要开展研究;进行研究就要进行思考,这就要用到思维。在原始社会人们用到的是神话思维,用神的力量和智慧的人的活动来谋划和总结改造自然的活动,例如我国上古时期流传下来的神话故事,如后羿射日、精卫填海、神农尝百草、愚公移山等,就反映了当时人们对自然进行改造所运用的思维;古代社会人们运用的是史鉴思维,总结历史上出现过的事件的得和失来更好地进行自然活动。大禹治水就汲取了他的父亲鲧所采用堵的方法失败的教训,改用了疏通河道的方法,取得了成功。这两种思维形态,可以概括为经验思维。人们在经验的基础上,经过对自然和社会以及自身各种现象的归纳、概括、类比、抽象、推演等的思考过程,对这些现象逐渐建立起规律性的认识,这就形成了理性思维。理性思维是建立在证据和逻辑推理基础上的思维方式,注重规范性、规律性、逻辑性、精密性、因果性。进入近代以来,理性思维在科学技术的研究中,在发现、发明、验证等方面发挥了巨大的思维力量,是认识世界、改造世界的有力的思维工具。随着科学技术活动的发展,到了现当代,人们总结了更为有效的实证思维。现当代的思维不但重视逻辑与规律,而且更看重理论与实践的结合,重视实证,并且充分运用现代科学技术记录下一切可供实证的数据以供验证。上述的四种总结,就是人类进行科学技术研究时运用思维的发展轨迹:从经验思维到思辨思维再到实证思维。这是一个人类世代积累的过程,是深化和发展的结果,后者并不否定和完全取代前者;相反,后者需要前者作为基底,并利用之前创造出来的思维成果和物质成果使发展出来的新思维形态更充实、更丰满、更贴近科学现实、更具有实在性。因此,现当代科学研究的思维形态是前沿的,又是综合的、兼容的,它体现了人类历史全部的精神成果,又为创造出新的成果提供思维工具。

 

1.4 大数据与研究范式

所谓研究,就是研究工作者运用一定的思维工具或/和在一定物质工具的协同下,对研究对象进行分析、解剖和解释的过程,这个认识过程是一个去伪存真、厘清表象和实质、分清个性和共性、分清个别现象和普遍特征的过程,形成对对象系统的、概括性的、规律性并带理论形态的认识。这个认识过程是同一定的思维水平相匹配的:有什么思维水平就可能主要采用什么研究方法。这样的研究方法被科学研究工作者概括成为研究范式。美国信息科学家Jim Grey于2007年1月在美国加州山景城(Mountain View City)美国计算机科学与通信委员会全国研究理事会(Computer Science and Telecommunication Board,National Research Council)上作报告,将有史以来的科学研究范式作了总结,归结为四个范式:第一范式是经验范式,产生于几千年前,以观察和简单的实验为手段,以了解、描述自然现象为主要目的;第二范式是理论范式,产生于几百年前,在过去几千年积累下来的认识基础上,以归纳或演绎的手段得到对对象带理论性和概括性的认识;第三范式是模拟范式,产生于几十年前,以模拟复杂现象作为基础的计算科学范式;第四范式是数据密集型范式,就是今天才出现的范式,以考查数据为主,综合运用以前的各种范式进行研究。(Hey,2009:xviii)随着数据量的高速增长和计算机技术的发展,计算机将不仅能做模拟、仿真的事,还能进行学习、归纳、分析、推理、总结,并且得到理论;也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来可以由计算机来做,这开辟了科学研究的广阔前景。这就是数据密集型时代的到来对科学研究的启示。

 

2.语言信息的数据与语言研究

2.1 语言研究逃脱不了大数据的“缠绕”

语言运用和语言研究同信息大数据的建立有着天然的联系,因为信息的数据有很大一部分就是用语言表达的。据一名为“互联网一天”的帖子的统计,互联网一天之中产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的帖子和跟帖达200万个,相当于《时代》杂志770年发表的文字量。另据国际数据公司(IDC)的统计,到2012年为止人类生产的所有印刷材料的数据量是200PB。(参见http://baike.so.com./doc/5340323.5575766.html)语言研究的一个重要方面,就是要研究人类是如何运用语言的;既然大数据中语言信息占了那么大的比重,那么语言研究就更逃脱不了大数据的“缠绕”。


“数据”是我们的老朋友,这一概念的产生并非始于今日。事实上,语言研究很早就跟数据联上了姻,这就是早在一个多世纪前就已有学者在做的统计语言学(statistical linguistics)以及20世纪中叶以来发展起来的语料库语言学(corpus linguistics),尽管那时数据还远谈不上“大”。

 

2.2 早期语言研究跟数据的联姻

2.2.1 统计语言学所面对的“数据”

早在19世纪后期就有学者用统计的方法进行语言研究。就统计的意义来说,统计运算的材料就是数据,不过那时的数据是人工搜集的,同今日所说的“大数据”相比无论从规模、结构、性质、功能、搜集和处理的方法等方面都不能同日而语。统计语言学主要用的是统计学的方法,并综合运用概率论、信息论等方法,通过搜索、整理、分析、描述数据并进行推断,以达到认识所研究对象的特点和本质,甚至预测语言运用未来可能达到的效果。它包括建立统计样本,确定参数假设检验或非参数假设检验,进行方差分析、相关分析、回归分析、文本聚类、文本分类等方法进行分析推断,并通过t分布或x分布检验,以便确定用小样本代替全体或大样本是否有显著差异。它不是用计算机科学信息科学的方法,不过它始终是根据语言运用的实际情况而搜集数据进行的研究,所以说这是语言研究跟数据早期的“联姻”。


统计语言学的研究主要包括以下几个方面:

(1)计算语言单位的频率,包括语音、词汇、语法单位出现的频率和特征,用词的分布、词长分布和句长分布等,以了解作品运用语言的特点与风格,进行作家个人风格特征、一个历史时期作品风格特征和一种文体特征的研究。


(2)进行语言年代学的研究,计算某一语言存在的年代及其亲属语言从共同原始语分化出来的年代,研究语言的变化、进化、分化的情况和规律。


(3)采用信息论方法统计语言运用的熵和羡余度。语言运用的熵就是在交际过程中语言符号出现的不确定程度,不确定程度的大小与语言的熵的高低一致。语言的羡余度是指语言中超过传递最少需要量的与实际表达的信息量的比例,因为在一般情况下,人们为了保证对方能够理解,总是提供比实际需要更多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。语言运用的熵和羡余度的统计对语用学、密码学、翻译学等都有参考价值。


(4)研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。统计语言学由人工收集、整理、计算的数据同本文所说的大数据是完全不同的,研究时所依赖的理念和方法也是不同的,例如统计学希望以小样本的数据代表全体或大样本的数据,以求省时省力,这同大数据的运用是以数据的全部而不是抽样的理念是不同的。但二者还是有一点相似的:都是靠语言材料一定量的数据反映语言运用的倾向性。

 

2.2.2 语料库语言学所面对的数据

先前语言研究跟数据的“联姻”还表现在建立语料库进行语言研究,包括进行语言本体的研究,以及各分门别类的语用研究、翻译研究、词典编纂研究、语言教学研究、基于语言运用的人工智能研究等语料库语言研究。利用基于人的现实生活和人工智能领域中的语言使用实例而建立起语料库来进行语言研究,称为语料库语言学。“语料库”就是以语料作为信息的数据而建立起来的“仓库”,这里就有运用语料的意思。


20世纪50年代以前所建立起来的语料库,语料数据是人工收集的,用卡片记录和积存为手段,进行的是人工检索,主要是运用数理统计的处理方法。语料库数据不仅在数量、规模和代表性方面很受局限,而且检索起来也费时费力。当时据此而进行的语言研究大体也同统计语言学的研究差不多。


20世纪40年代美国研制了世界上第一部计算机。50年代之后,计算机被用来收集、储存和处理数据,包括语言信息数据。当时语言信息数据的运用主要还不是用作语言研究,但是计算机的引进开启了现代语料库语言学。80年代开始建立的以语言研究为导向的语料库可以作为第一代计算机语料库。计算机技术的引进,大大促进了语料的收集、储存和检索的科学化。当时语料库的规模一般在100万英文词左右,借助计算机的技术,可以进行初步的标记,这就使语料库方便输入、删除、转存、提取,也就是方便了分类和检索。


随着80年代中叶互联网的诞生并投入应用,随之而来的就是第二代、第三代语料库的发展,语料库可以连通世界各地计算机的语言信息,使语料库规模越来越大,处理技术越来越科学化。现在已有百万、千万、上亿、几亿词级的有纵深度的标注,标注编码体系越来越复杂精细而实用。近一二十年来,随着信息处理技术的飞快进步,语料库的建立越来越大规模、越来越科学化,更加符合使用主体的意图和需要。这使语料库的建立和使用更加趋向于当代大数据使用的趋势和方向。


我们还注意到,语料库的应用越来越普遍,各种专门用途的语料库不断开发,语料库的深加工和应用研究不断增多,应用领域不断拓宽。按语言研究、语言教学研究、翻译研究有通用语料库、专用语料库;按介质分有文字语料库、声音语料库;按语体有书面语语料库、口语语料库;按时间分有共时语料库、历时语料库;按状态分有静态语料库、动态语料库;按语种分的话有单语语料库、双语语料库、多语语料库等。此外,还有诸如为电子词典编纂、语音识别、语音合成、机器翻译等服务的专门的语料库。在我国,英语语料库语言学的研究是在七八十年代兴起的,汉语语料库和其他一些语种也有研究,建起了一批语料库。我国的汉语以及其他语种的研究工作者、博士生、硕士生现在进行语言研究时,除了会利用我国大陆、台湾、香港建立起来的语料库外,还会自建有关语言专题的小型封闭语料库。总之,运用以语料库形式提供的语言数据进行研究已经成为我们现在的语言研究工作者的意识和观念。

 

2.3 “大数据”观念下语料库的语言研究

语言研究的语料库运用和大数据运用的原理是相似的:都是从一定的量体现出一定的倾向性。但是如果从大数据的观念来看,语料库语言学的研究还有很多方面的工作可以做,总的来说,是围绕“要拥有足够多的数据和足够聪明的算法”考虑。

 

首先是技术性的,从计算机处理技术保证语料库能拥有足够多的数据,包括极大地扩大语料库的储存容量和大力提高语料库标注的精细技术,以便能更好地输入、储存、类聚、增删、提取,使语料库能提供更广泛空间展开观察,成为语言研究的透视镜、聚焦镜、放大镜、望远镜和显微镜。这方面有赖于语言研究工作者提出要求和提出设想,在计算机专业从业人员的指导、帮助、协同下,设计和研制出大容量的涉及不同语言学科的、功率大的、技术完善的、考虑尽可能周全的语料库。

 

其次是要更周全地考虑语言研究的需要而设想语料库的建设,使语料库语言学所运用的“语料”可以帮助提供足够聪明的算法。迄今为止,语料库语言学所考虑的语料库全是从搜集和积累研究对象而构建起来的,也就是所积累的全是具体的语言运用的材料。这是必要的,是基底;但看来光是这样还不够。前不久,在韩国发生了一场围棋人机大战:人工智能的产品AlphaGo对战九段围棋手李世石,结果AlphaGo以四胜一负的好成绩结束战局,表明研制AlphaGo的团队对这场人机大战做了周密的充分准备。研制AlphaGo团队的工作对语料库建设的思路很有启发。作为准备工作,研制团队为AlphaGo输入了人类优秀的围棋手150,000场比赛的对局棋谱;通过分析这些比赛,使用人工“神经网络”,去学习和改进比赛中取胜的模式。所谓“神经网络”其实就是一个复杂的数学模型,这个数学模型由数以百万计的参数组成,这些参数是落子和对抗手段的组合,通过调整这些参数来改进模型的行为,程序的目标就是找到一系列获胜的落子方式。(参见http://qh.1732.com/Article/qihun/news/news/201604/13877.htm)我们知道,围棋有固定的规则。我们小时候学习下棋要背棋谱,背得越多、记得越熟,变通就越灵活、用得就越巧,因为可以触类旁通,胜算机会就越大,下完棋还要复棋。人背棋谱,无论从记忆能力、进行比较和整理的能力、运用水平等方面,都会受到人的能力的局限;而AlphaGo作为人工智能下围棋,它在固定的规则下面可以更快、更熟练、更少记忆错漏地操作,通过比较确定哪一步下子更可取,变成一个可操作的程序化机器。

 

这启发我们,在大数据的背景下进行语料库语言学研究,不但要有足够量大的语言材料以建立语言材料的语料库,而且应考虑建立另一类的类似语言研究“落子”策略的语料库——收入大量语言学研究论文的语料库,从中筛选出对有关研究对象所研究的问题以及相关的概念、范畴、分类、定义、论点、论据、论证方法、分析要点等重要内容,把这些内容抽象成为语言研究先—后、主—次、详—略、焦点—背景、相关—无关、条件—结果等的参数,成为语言研究步骤的“落子方式”,使语言学论文的语料库有望构成一个语言学研究的人工“神经网络”,包括AlphaGo研制团队为AlphaGo研制出的策略网络(policy network)和价值网络(value network)以及网络所使用的蒙特卡罗方法系统(Mento Calo method),以评估将要采取的落子步骤的优劣以及由此而推论未来落子的选择。我们还注意到,AlphaGo运用的一切,完全是为围棋而设计的:1997年,世界第一场人机下棋大战下的是国际象棋,IBM研制的“深蓝”(Deep Blue)击败了国际象棋世界冠军卡斯帕罗夫。那时这场胜利被广泛描述为人工智能发展的里程碑,但是结果表明,“深蓝”的策略对国际象棋有用,而对于其他没有什么意义。这也许是一种提示:算法的聪明是对一定的对象来说的。语言学科里各分支的分门别类研究特点的区别也许不会亚于国际象棋落子策略与围棋落子策略的区别。

 

要建立这样一个收入大量语言学研究论文的语料库,是对建设传统的语言材料的语料库思维的改进。我们在“前言”曾引用过一位哲学家的话:要让数据展现内涵,运用主体就要“拥有足够多的数据和足够聪明的算法”,这可作为建构这样的语料库的前提条件。这是大数据时代给语料库语言学研究的重要启示。语言学研究的大数据的运用向这样的方向发展,就是设计好按照预定的程序完成高难度和复杂的思维过程,使人类脑力劳动往更高级的状态发展。随着数据量的高速增长和计算机算法的发展,计算机将不仅能模拟和仿真,还能进行学习、归纳、分析、推理、总结,并且得到理论;也就是说,过去由牛顿、爱因斯坦等科学家,由索绪尔、乔姆斯基等语言学家从事的工作,部分可以由计算机来做,这开辟了语言科学研究的广阔前景。这样的研究,我们称之为语言的“e-研究”。对于语言的e-研究,我们的设想是:通过大数据的方式,在大数据语言运用材料的基础上,用网络搜索尽可能多的语言研究档案资料用作研究的提示和参考,相互比较和印证,作出扬弃,用作组织一项研究活动的参数,帮助得出研究的结论。


3. 大数据思维:语言研究的新理念

第四范式是数据密集型造就的研究范式,它的精髓就是在研究中“让数据说话”。在大数据的影响下,人们传统的研究观念和思路会发生变化,据Mayer-Schonberger的说明主要有:


(1)从以抽样作为典型从而推断更大面积的情况,到尽可能全样至少是以大样品进行研究,这就是Mayer-Schonberger所论述的“数据化相对于数码化”(datafication vs digitization)的意思(Mayer-Schonberger,2012:12-13,77-78)。

 

(2)从着重于找出它们之间的因果关系转变为分析它们之间丰富而多维度交错的相

关关系,这就是Mayer-Schonberger所论述的“相关关系相对于因果关系”(correlation vs causality)的意思。(Mayer-Schonberger,2012:7,14-15)

 

(3)从追求精确的认识转变为认识其概貌型的发展趋势,这就是Mayer-Schonberger

所论述的“大数据与非确定性”之间的关系(big data and imprecision)。(Mayer-Schonberger,2012:13-14,16-18,191)

 

这三点思路上的转变,是人们在获得科学的认识过程中思路的转变。所谓获得科学的认识是这样一个过程:认识主体从外在物的完整表象出发,不同程度地消除事物丰富的感性特征,主要是通过以从因寻果的推导把较精确的带共性性质的认识提取到自己的观念里的过程。这个过程是认识对作为认识对象的感性事物去伪存真、去粗存精、由表及里的过程;如何通过去伪存真、去粗存精、由表及里分析以便达到理性地把握对象的本质特征,其思路和方法常常要受制于个体大脑处理所面对的认识对象的心智水平。

 

首先是全样相对于抽样。过去研究之所以多取抽样,主要是受收集和分析信息技术手段的限制。从认识主体的主观方面来说,个体之间的智商水平是有差异的,但人类作为一个物种,近千百年来无论是大脑生理机能还是智力运算能力都没有质的改变,改变的是认识对象的存在状况。人类创造出不同的生产工具,造就了不同的物质文明,近几百年来,经过以蒸汽机为代表的初级工业时代和以电器运用为主的发达工业时代,今天已发展为以信息为主体的信息化时代,人类社会高速度地积聚着形形色色的信息和数据,这就是近20年来所形成的“大数据”;正是这样的大数据成为现今科学研究的主要对象和科学发现的主要资源。大数据具有原始性、粗放性,不但大,而且具有多维度、全方位的丰富性,因此大数据作为科学研究的主要对象和科学发现的主要资源,它的全样可以最大限度地提供研究所需的信息,而且也为当代的科学技术提供了收集、储存、整理、分析全样的可能性,从而有可能以尽可能完整的全样代替抽样。

 

就语言研究来说,迄今国内绝大多数的研究是“抽样”式的研究。就算运用了语料库也不是大数据方式的运用,而且除有些二语习得等的研究外,都不一定是统计学意义的抽样,而是带有一定支持结论目的的随机选取。例如用曹雪芹去世时他的好友敦敏写的一首名为《挽曹雪芹》的诗来支持对曹雪芹身世研究的一个结论:“四十年华付杳冥,哀旌一片阿谁铭?孤儿渺漠魂应逐,新妇飘零目岂瞑?牛鬼遗文悲李贺,鹿车荷锸葬刘伶。故人惟有青山泪,絮酒生刍上旧坰。”很多曹雪芹的研究根据诗里“新妇”一词认为曹雪芹在死前不久曾新婚;但也有研究者持异议,认为抽此单样未足为证,若将视野扩至古汉语和方言可能会提供一些新考虑。汉乐府《乐府诗集·杂曲歌辞十三·焦仲卿妻》就有:“举言谓新妇,哽咽不能语”;那时焦仲卿结婚已经三年,难道结婚三年之妻还叫“新婚”之妇?保留了古汉语成分较浓的南方方言的广州话管“儿媳妇”叫“心(新)抱”,这也许是“新妇(婆)”古音的广州方言拟音。如何比较可靠地解读敦敏那首诗并从中研究曹雪芹的一生,看来还要靠分析“新妇”一词在古今汉语和各地方言分布的全样情况才好下结论。这个例子说明,大数据的观念在语言研究中应该受到重视。

 

第二,相关关系相对于因果关系。科学研究本质上是研究事物间发生的各种关系以及所发生的关系对人类的影响。所发生的关系中人们常谈到的有因果关系(causality)和相关关系(correlation)。因果关系是这样的关系:一在前发生的事物A事实上诱发而引起了另一事物B的出现,就说A与B互为因果;因果关系有严格的时序性、实在诱发性。相关关系是事物间较为宽泛的连结关系,如共变关系、依存关系、类缘关系、联想关系等;直观地说,当A处于一定的状态时,与之相对应的B按某种规律在一定的范围内也发生变化,这就体现了A与B之间的相关关系,如正相关、负相关,线性相关、非线性相关,单相关、复杂相关等。一直以来,科学研究非常关注因果关系,因为人们在改造自然、改造社会、改造自身的科学活动中需要强调事物变化的因果联系,即这一活动能收到预期的结果,并以此来规范人们的实践活动。在过去的研究中,研究的目标比较单一明确,涉及的数据相对不大,因此预期的因果的设定比较清楚;而且变量的设定是有假设的,而变量又相对比较少、比较单纯、相对较易掌握、外来因素干扰比较好控制,因此变量之间的因果关系就比较易于把握。应该说明,因果关系同相关关系不是对立的,因为因果关系也是两个变量之间的一种相互关系;只不过因果关系需要强调先因后果的诱发性,在研究中受限就比较多。在大数据的局面下,数据不但海量,而且常常比较芜杂、有用无用有关无关混杂,面对这样大而杂的研究对象与其花精力筛选变量中的因果关系,不如有目的地把握它们之间的某种(些)相关关系,看看它们是完全相关、不完全相关或者不相关。

 

语言研究中,面对语言运用时所发生的各种关系,如话语中各种成分之间的关系、语言运用主体的心智与语言成分可能发生的关系、语言环境与语言成分的关系等等,构成了语言研究的图景;这些关系是错综复杂的,不是一种因果关系可以概括的,因而把握其相关关系可能比较主动。例如,连动句和兼语句是现代汉语的常用句型,连动句同兼语句很相似:连动句是主语接连做两个动作,兼语句是第一个句子的宾语做第二个句子的主语;若连动句第一个谓语动词有宾语其句子的外形就会与兼语句相似。其他相类似的句式还有如:

a. 我||洗黑板/出黑板报。(连动句)

b. 我||陪他/游览长城。(兼语句)

c. 我||知道他/常常去旅游。(动宾句)

d. 他||告诉妹妹/别参加电视相亲会。(双宾句)

表面上看,上述的兼语句、动宾句、双宾句这些句子好像都是一个主语后面带两个谓语(如上述的分析),但是这是有疑问的,如(b)中的第二个谓语的施动者可能不只是“我”,“他”也游览了长城了;(c)句中“我”后面不是带两个谓语动词“知道他”和“去旅游”,合理的解读应是“我”∥知道-他常常去旅游;(d)句中合理的解读应是“他”“告诉”后面带双宾语:妹妹-别参加电视相亲会。所谓的一个主语后面带两个谓语动词只是刚好表层字面排列如此,它们并非是同一个句型,但是它们又并非毫无关系。连动句相对于其余的几个句型不会是因果关系,而是有类缘上的相关关系。所谓类缘关系就是二者在类属上有渊源或亲缘的关系。相关关系丰富多彩,在语言学的研究中可以大派用场。

 

第三,从关注精确的认识转变为注意概貌型的发展趋势。大数据的规模大、内容杂乱,使得不易一下子进入精密、细致、确切处理的程序;作为思维发展的主流模式可以是首先把握数据主体所显现出来的倾向性的发展方向,这一发展方向可为下一步更深入、更精密的研究打下基础,所以作为对大数据的考察,需要从追求精确的认识转变为认识其概貌型的发展趋势。但是,在某些具体的研究中,只是注意研究对象的概貌型发展趋势不是研究的最后目标,进一步的目标应是追求有确定意义的知识。意大利信息哲学家Luciano Floridi说:“大数据的真正功能不在其大,而在于如何能够为从一定量的数据中挖掘出具有规律性的小规模的数据做出贡献。”(Floridi,2012:436)要能这样做,还有一些事情要做,其中最关键的是进行数据挖掘(data mining)工作。数据挖掘就像深入矿坑采矿那样,它不是无中生有的魔术,也不是点石成金的炼金术。若没有足够丰富完整的数据,是很难期待挖掘出什么有意义的信息的。因此,数据大是前提,在此前提下进行数据挖掘的工作以期“从一定量的数据中挖掘出具有规律性的小规模的数据”,是大数据时代研究工作的一种重要形式,就是通过数据挖掘,使有关的数据更能提供精确的认识。但是,这两种认识并不对立、矛盾,通常只是认识的深度、广度不一样,而且很多时候并没有明确的区分。

 

4. 结语

研究对象所积聚的大数据集合,是对这一研究对象从生成、积累到发展壮大的历时过程的表征与映射。它作为以数据形式出现的科学研究对象,既是以数据表征的真实世界的表象,又是以数据为基底的知识发现的媒介;换句话说,它一身二任:既是世界样貌意义上的表象,又是知识表征意义上的表象,我们的研究就是要通过这媒介进入到作为研究对象的真实世界,研究方法最基本的特征就是“让数据说话”,从数据丛林里找背后的规律。大数据知识发现路线图就是:对象—数据—知识。

 

大数据蕴含一个知识发现的特征:“可寻获度”(findability)(Morville,2005:28),研究就是从大数据寻获所蕴含的关联性规律的信号。利用大数据的“可寻获度”进行大数据的语言研究,“寻获”一要依靠技术、二要有认真的研究态度。建立大数据的语言材料语料库和“e-研究”所需的语言研究信息的数据库,和使用这些语料库数据库,都要有一定的技术。这是语言研究工作者学习后可以掌握的,在大数据时代这是语言研究工作者的工具,值得花时间去掌握,但这些技术的学习不是本文要讨论的。本文要强调的是认真的研究态度。海量的数据要求研究者要有很强的问题意识。“让数据说话”是需要引导的,引导它往所研究的问题上说,按照所研究的问题去挖掘、寻获的。这就要求研究者有最大限度地利用可能的资源的能力。事实上,电子检索永远无法代替阅读,而问题意识永远是研究的第一思索点。电子数据库会使学术研究提升到一个新的层次,但很多复杂的数据处理问题仍然需要动用学者所有的学术积累来完成。构建知识地图最重要的途径还是语言以及其它相关知识的功底。在大数据时代,在第四范式的推动下,语言学研究不仅取决于研究者使用数据库的水平和熟练程度,更重要的是要有成熟的研究理念和认真的求索精神。


本文选自《英语研究》第四辑"‘第四范式:语言研究的新理念”(76-87页)。

【声明】感谢《英语研究》编辑部授权iResearch发布此文。本文版权归《英语研究》编辑部所有。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。

我要推荐
转发到