第一章导论
导论
1.1信息、语言信息和语篇信息
语篇信息的分析和处理需要以信息和语言信息的清晰界定和解析为前提。信息、语言信息和语篇信息三者密切相关,只有其间的关系被明确地解析,语篇信息才能得到准确的定位,语篇信息的研究范围才能得以清晰地确定。单就概念所覆盖的范围而言,信息大于语言信息,语言信息则大于语篇信息。但这并不意味着前者依次完全覆盖后者,毕竟三者之间尚有本质的区别。就研究方法而论,也各不相同。例如,语言信息分析并不能套用信息论方法,研究者应在借鉴信息论方法的同时,根据语言信息的特点独辟蹊径。语篇信息分析也不能套用语言信息的一般研究方法,研究者需要寻找以语篇为基本出发点的特别方法,解决语篇信息分析的一系列独*问题。
在现实生活中,“信息”是人们日常交往所用的高频词语之一。该词语的普遍实用性给人类的社会交际活动带来方便,无论身处何时何地,无论社会身份如何,人们总能自如地使用该词语表达相关的内容。但关于信息是什么,人们却很难清晰表述,也难以达成一致的理解。可以说,相对于不同专业领域有关信息的用法,日常生活中所用的“信息”是普通信息,其含义广、用法灵活、通用性强,有利于人们相互理解。不过,如果深入到某个专业领域,同样使用这一词语,就会显得捉襟见肘、言不尽意。在人类已经步入信息社会这一新的历史条件下,深入探究信息及其定义显得十分必要。
人类对信息的持续关注和系统研究始于信息论的创立,以香农(Shannon)在《贝尔系统技术杂志》上发表论文《通信的数学理论》(Shannon,1948)为标志。香农采用熵作为对随机不确定性的度量,将随机不确定性的降低看作信息,建立了通信中信息传递的数学模型。信息论在世界上产生了重大影响,中国学者对信息论的介绍、研究和应用也风起云涌、不断深入,成为波澜壮阔的信息科学研究的先导。
信息论并未就“信息是什么”给出明确的定义。以应急需,相关领域的研究者不断提出自己的看法和操作定义。钟义信(2013)曾列出人们有关信息的30多种说法。人们对于信息的看法相去甚远,难以达成共识。信息是信号、消息、数据、情报、知识、负熵、物质的普遍属性抑或其他?不可否认,每一个说法或操作定义都能够在一特定领域解决一些问题,但无法顺利用于其他领域。鉴于此,一些研究者尝试从哲学等层面探讨信息的本质,希望能得到一个较为通用的信息定义。
钟义信(2013)主张从本体论和认识论两个层次定义信息,认为从本体论的层次看,信息是事物呈现出或表述的运动状态及其变化方式;从认识论的层次看,信息是主体所表述的事物的运动状态及其变化方式,同时也包括运动状态及其变化的外在形式、内在含义以及效用价值。这是从哲学层面直击信息本质的定义,具有普遍性,适用于信息科学及其他不同领域,填补了信息论等对信息明确定义的空缺。在本体论信息定义的基础上从认识论层次剖析信息,正反映了作者对信息不同于物质和能量的本质的揭示,反映了作者对信息与人类这一特定主体的相互关系的认识。下文将采用本体论信息和认识论信息指代这些从信息科学角度对信息的界定和理解。
从上述讨论可以看到人类此前对信息进行探索的轨迹,从普通信息到信息论的信息,再到信息科学的信息,每一步的进展都具有划时代意义。在此基础上,人们对于信息、信息的本质以及信息与人类的关系的理解日渐深入,对于信息的利用也将更具科学性、主动性。人们如果站在信息科学的高度看待信息,就可为各领域的特色研究提供可靠的参考和指导,有望打破目前相关领域各自为战的局面,从而形成信息研究的“统一阵线”。
语言信息是信息的一个子类,是语言作为媒介所表述、承载、传递的信息以及语言自身所具有的信息。语言信息的复杂性和特殊性决定了其处理难以套用信息论的方法。因为信息论的方法主要处理通信中传递的信息,并不处理由语言承载并传递的信息。例如,莫尔斯电码(Morse Code)可用于传递信息,但信息论的方法所处理的信息是电码所编码的信息而不是语言信息,语言信息中的很多内容被忽略。语言信息与作为主体的人的认知密切关联,离开对人的认知的结合考虑,机械套用信息论的方法处理语言信息,得到的结果是不完备的,甚至是扭曲的。
信息论的提出为现代科技尤其是信息处理技术的发展做出了巨大贡献,在各相关领域中发挥了显著作用,但信息论在语言研究领域难以展开有效应用。信息论及相关方法难以胜任语言信息分析这项艰巨的任务,语言信息分析和处理还需要首先从语言学领域获得突破。
语言学界在词语、语音、语句、语篇等不同层面进行着不懈的研究,其中系统功能语言学领域学者在语言信息方面的研究*为直接和突出,他们从复杂的语言现象里抽象出了有关信息的诸多概念,开语言信息研究之先河,为语言研究在信息处理领域扮演重要角色开辟了道路。已知信息(given information)和新信息(new information)两分法高度概括了人类交际的规律之一,把交际的过程看作信息交换的过程,将信息交换的焦点看作新信息。已知信息和新信息同寓于小句之内,构成信息单元,从逻辑学的角度看,小句即为命题。
系统功能语言学范畴的信息不是玄虚的,而是基于命题的,其外在表现是小句,因此信息不是飘忽不定的而是有“形”的,一旦以信息单元形式予以组合,便趋于稳定,因此是可以把握的。系统功能语言学界对信息的研究并不止于小句,主位-述位结构与已知信息-新信息结构相关联和对应,再加上主位推进等研究,范围扩展到了语篇。但主位推进研究关注的主要是线性结构,并未深入到层级结构。已知信息和新信息两分法强调了交际中信息交换的核心,尚未能反映人在信息交换中所传递的具体内容。由于分析重点主要放在小句,尚需要继续推进,系统揭示语篇层面的信息。
系统功能语言学担起了语言信息研究的大任,将语言信息落实在小句,为语言信息研究提供了可行的路径,代表着语言学界对语言信息的卓有成效的探索。尽管信息论尚不能直接解决语言信息处理的主要问题,但借助于关于认识论信息的观点和理论,语言学界的语言信息研究终能与其他各相关领域的研究逐渐融合,形成完整的体系。
语言信息是信息的一个子类,语篇信息则是语言信息的一个子类。语篇信息与语言信息其他子类的区别主要在于信息所在的层面不同。语篇信息是语篇层面的信息,其他层面如词语层面、句子层面的信息也包括在内,但是需要在语篇的层面进行分析和处理。语篇信息也包括语篇层面的结构信息、语义信息、语用信息等,其研究内容相当丰富,既有语篇范围内不同层次信息的研究,也有语言信息的多角度研究。
语篇信息研究也面临诸多难题。和信息研究一样,进行语篇信息研究首先需要清晰地定义语篇信息。相对于信息科学的本体论信息定义和认识论信息定义,语篇信息定义需要更为具体,需要关照语篇的特点,需要将语篇信息的分析、解释、传输、使用等过程考虑在内,否则分析就无法展开。语篇信息的定义需要考虑信息的可计量特点,若无法计量,就只能进行信息的定性分析,而语篇信息的大规模处理就无法实现。同时,语篇信息的分析处理必须具有普遍性,无论何种语篇,都应该适用,否则分析处理结果就缺乏实用价值。再者,语篇信息的分析处理,必须面向信息科学的需求,如通信中信息传输所必需的定量分析、计算以及人工智能领域的语言信息处理等。
语篇信息寄寓于语篇的语言,但经过信息分析后得到的语篇信息结构与语篇的语言结构具有本质的不同。得益于这种性质的改变,语篇信息具有了独立性,语篇信息研究的内容与语篇语言研究的内容也截然不同。例如,进行语篇信息研究时,研究者关注的是基于树状结构的信息,而进行语篇语言研究时,研究者主要以语篇的线性结构为依据。
尽管如此,语篇信息和语篇语言之间的紧密关系不会减弱,毕竟语篇信息脱胎于语篇语言,语篇语言的变化会直接导致语篇信息的变化,人们对语篇语言的理解也直接影响他们对语篇信息的理解。因此,语篇信息研究与语篇语言研究相得益彰,并不矛盾。
1.2 语篇信息分析
随着法治建设的推进,法律信息处理问题已至为紧迫。法律信息已被研究者提到国家法治基础的高度(罗伟,2008),法律信息与人工智能技术之间的关系也已受到关注如熊明辉(2021),法律信息已经在国民经济和科学研究中占据重要地位。王金祥(1995)曾对法律信息学的建设情况做了描述,对未来研究工作做了展望,呼吁建立强大的法律信息处理系统,以服务社会。国外学者对法律信息处理研究,特别是其在全球化进程中的作用也予以高度关注,如温特顿(Winterton,2011)、杰曼(Germain,2007)。
国内学者除了对法律信息处理系统提出看法外,还对相关技术做了具体分析。杨震等(2002)对信息模式识别系统的基本构成做了简洁描述,反映了采用计算机技术完成各种模式识别任务的过程所具有的共性。但与诸多相关研究的共同局限性在于,所提取的特征值仅基于文档的关键词,未关照连贯的意义和信息。在自然语言处理领域,目前的瓶颈也是对文本的语义处理(殷杰、董佳蓉,2008)。目前的信息模式识别研究具有显著成就和明显不足,因此,语篇视角的信息处理研究逐渐成为关注焦点。
冯志伟(2006)认为,由于语料库建设和语料库语言学崛起,大规模真实文本的处理日渐重要,已经成为自然语言处理的主要战略目标。自然语言处理研究在汉语词汇、语句以及句群层面都取得了显著成就(许嘉璐、朱小健,2010),为向语篇层面研究推进提供了良好基础。此前,基于文本的信息处理已经得到关注和研究(宋友等,2010),基于语篇的智能化信息处理研究已经成为重要的研究课题。
随着经济的发展,法律语言研究尤其是法律语篇研究在法律领域中的作用日趋重要。法律语篇属于机构性语篇(Drew & Heritage,1992),具有普通机构语篇的共同特点,也具有与其他类机构语篇明显不同的特点。有关法律机构语篇,国外已经有了丰富的研究成果(如Gibbons,2003;Coulthard & Johnson,2007),国内的研究也在法律信息处理领域起着日益重要的作用,这些研究都为法律语篇和非法律语篇的信息研究打下了基础。
国外不少研究开始从信息角度分析语言如哈利迪(Halliday,1985),但因不能充分关照语篇的宏观信息结构而受到批评如普林斯(Prince,1981)。国内现有关于法律语篇信息结构的研究提供了语篇信息分析的新思路(杜金榜,2007,2009a,2009b,2009c,2010,2012,2015a;陈金诗,2011;徐优平,2013;赵军峰,2011;李跃凯,2013;葛云锋,2013)。直接分析语篇信息,有利于进行语篇信息模式的认知和识别研究,从而实现语言信息自动处理。
语篇信息分析已经具有坚实的理论基础和技术支持,包括语言学研究基础、自然语言处理研究基础、信息技术等。在诸多语言学理论中,语篇信息理论与语篇信息分析的关系*为直接,因为语篇信息分析是语篇信息理论中的主要分析方法。自从有关语篇信息的主体模式被提出以来,语篇信息理论得到了持续发展,理论架构得到不断完善,理论视角逐步丰富。除了处理语篇的内部信息结构外,研究者也对该理论的应用性做了进一步探索,其中的语篇信息说服模式(徐优平,2013)、语篇信息“四桥”模式(赵军峰,2011)、语篇信息语用模式(李跃凯,2013)从不同视角增强了语篇信息理论在处理具体问题上的实用性,展示了语篇信息分析的各种功能。
语篇信息分析贯穿于语篇信息挖掘的全过程。语篇信息分析并不限于对语篇内信息的分析,也包含了语篇间关系的分析,还包含着不同角度的分析,如语用分析、意义和意图分析、交际心理分析、基于概率的分析等。这些分析都以语篇内信息的分析为核心和依据。其他各种角度的分析围绕语篇内信息的分析展开,在语篇内信息分析的基础上进行组织,形成信息的网络。
以语篇信息分析为纲进行信息挖掘模式建构,语篇信息挖掘的全过程就能得到统一,重点就能
展开