愚愚学园
www.SciFans.net温馨提示:语言是人际间一种基本交流方式,既用于思想交流,也用于情感表达。受气候、地理等自然因素的影响,世界上的语言呈多样性的分布;但随着经济发展,政治稳定,这种多样性又逐步趋向统一,成为各族群身份、地位、边界的重要标志。当今社会,语言的作用越发突显,已经渗透到社会生产生活的各个方面。由于语言社会具有自然和人文双重属性,提倡质性研究和量化研究并存,有质有量,是此类研究的最佳选择。
近年来,随着计量技术的发展以及大规模数据库的应用,人文社科领域科研工作者开始有能力驾驭海量信息,能够较为简便、快速地从诸多现象中寻找相关关系。相关是统计学的概念,指的是用量化的方式来表达两个现象或变量之间的关联变化程度。比如,运动员的身材越高,体重通常越大;语言的词汇形式越长,句子可能越短。这分别是正相关和负相关的例子。相关有利于因果关系的发现,因果关系也可能被量化为相关,但因果关系不一定必然存在于可观测的相关性分析中。语言社会领域的相关性研究不仅关乎该领域的未来导向,还可能对公共政策产生影响。其中一些潜在的问题不容忽视。
2011年,耶鲁大学教授陈凯世(M.K. Chen)通过几个数据库的统计,发现语法规则和经济行为具有相关性。他认为有强将来时表达的语言(如英语),对未来的设定较为遥远,其国民储蓄率和养老储备率相对较低;反之,弱将来时的语言(如德语),把现在和将来融为一体,其国民储蓄率和养老储备率则相对较高。这种从相关到因果的解释似是而非,却引发媒体的较大**************,很快有人宣称要解决全球债务危机,请放弃英语、希腊语和意大利语,采用德语、芬兰语和韩语(Fellman 2012)。由于普通民众缺乏必要的技术背景,很容易相信此类研究的结论,这就可能导致一些意料不到的后果(类似还有巧克力消费量与诺贝尔奖获得者数量相关潮湿气候和复杂声调相关)。
事实上,两个因素是否相关或具有因果关系是一个复杂的问题。借助统计技术,我们或许不难发现某种相关,但要随之做出因果推断则需慎重,因为这需要一定的理论支持和实验数据,有时甚至是跨越几代人的实验数据。大数据技术之所以不是万能的,就在于它代替不了各个领域的基础性研究,也解释不了相关背后的因果关系。我们不妨从以下几个方面来看待:
每一种现象都有与之关联的若干现象,这种关联的确立本质上取决于研究者的认识框架和处理问题的层级。比如,语言学研究可以优先选择字、词、形态作为基本分析单位,也可以选择构式、句子、语篇等;不同层级的处理方式,不仅体现研究者间认识框架的差异,也会导向不同的研究结论。把语言分为强将来时和弱将来时是一种质性认识,也代表研究者处理问题的层级和水平。问题在于,世界语言并非都拥有时态,强弱也是一种较难把握的分类标准,这就给此类研究带来不少争议。就汉语而言,我们可以说明天下雨,也可以说明天将要下雨,将要就是汉语表达将来义的词汇手段,但不是时态。
大数据的大并非万能灵药,数据的性质和成分非常关键。以文本大数据为例,这类数据本质上是种离线数据,并不能完全反映语言的实际使用或说话人的语用、心理或认知过程。比如,汉语的呵呵好冷三更灯火五更鸡等都存在超越字面意义的多个含义,对母语者来说不难理解,但却很难被机器识别或有效计量。
再者,数据的成分也决定了相关性研究的成败。当样本中的语言或国家大多集中于同一地理区域或同源文化圈时,研究者得出的相关性,很可能只是反映了某区域或某文化的共同特征,并不一定适用于其他语言或国家。2015年,希安罗伯茨(S.G.Roberts)等人采用更合理的采样方法,对经济区域、亲缘关系、语言接触三个因素进行了控制,就发现时态和经济行为的相关性证据总体上非常微弱,因此时态经济学一说并不成立。再如,米歇尔(J.B.Michel)等人用于研究词汇与社会文化关系的数据库,虽然词汇量达到了亿万级,但由于偏重于20世纪60年代后的文献,对词汇演变研究的作用也很有限。
不仅如此,由于一个词在不同历史阶段的意义并非连贯一致,也不能单靠语料库中的词频变化来推测文化变迁(如米歇尔等的研究方法)。就汉语词义演变而言,当诸葛亮自称卑鄙时,并不是因为粗俗下流是当时的文化主流,而是他作为人臣的一种自谦的表达。可见,语言社会研究不是纯粹的计量问题,还需要对人文、社会、历史等领域的研究有一定的认识,才能进一步合理指导实践。
提出以上几点,不是为了否定计量技术的价值和意义,而是要提醒人们注意这类技术可能带来的虚假信心或对多样化研究路径造成的消极影响。
语言是能产的、多变的,它可以被符号记录,也能被视觉、听觉和触觉所感知;既是一种内在认知能力,也顺应不同时期的社会规范。这就决定了此类研究有着不同的内容、不同的使命和不同的范式,其中有些需要逻辑思辨、质性分析;有些需要实证检验、量化分析,并不能一概而论。
人文社科工作者从事的田野调查、文献考证以及人文理论建构等工作,具有以人为本、质性研究的特征;量化工作者可以借用第一手调查资料、依托各种计量技术,从变化莫测的语言社会现象中寻找一定的规律,既验证理论,也推动理论。一旦量化分析出现无法解释的现象,就有必要追本溯源,再次诉诸质性分析的过程,重新提出假设并寻求验证。
从事有质性研究特征的工作者无须排斥计量技术的发展,应当欢迎它们在语言社会研究中的积极作用;而秉持量化理念的研究人员在享受技术进步带来便利的同时,也要重视质性的研究成果。技术总是在不断更新,但任何一个学科的技术都不能代替这个学科本身。这就好比天文学离不开望远镜,但天文学终归不是制作望远镜的学科。
最后,我们认为语言社会研究始终存在主体视角(emic)和客体视角(etic)的区分。从主体视角出发,我们要有追求根本性因果关系的决心和勇气,而不是受技术束缚,存在只要相关,不要因果的幻想。这就督促我们努力创建适合自身的语言社会理论和参照体系,构建有中国特色、中国风格、中国气派的人文社科体系。我们也要重视客体视角、他山之石的作用,**************国际学术发展趋势,****************容并蓄。只有这样,才是语言社会研究正确的发展方向。
(作者:吴建明,系上海外国语大学语言研究院、中国外语战略研究中心副教授)