搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
语篇信息挖掘研究
0.00     定价 ¥ 98.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030717757
  • 作      者:
    作者:杜金榜|责编:常春娥//赵洁
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2022-04-01
收藏
内容介绍
置身于信息时代,无论机构还是个体,离开信息就寸步难行,我们每时每刻都要处理大量信息。随着科学技术的迅猛发展,信息数量与日俱增,信息处理难度增加,信息自动处理研究逐渐受到密切关注。作者在本书中展示信息自动处理的一个崭新探索,采用相关理论观点,阐述语篇信息自动处理的实现路径,提出主体设计,阐述操作方法,例示关键技术,展望未来的实际应用,从而完成从理论建构到系统性技术构思全过程的论述,为实现语篇信息自动处理提供条件。 本书适合信息处理工程技术人员阅读,可作为语言研究人员以及语言学、信息学、自然语言处理专业研究生的参考书。本书也可以帮助相关专业的研究生发现新的研究课题,开拓思路。
展开
精彩书摘
第一章导论
  导论
  1.1信息、语言信息和语篇信息
  语篇信息的分析和处理需要以信息和语言信息的清晰界定和解析为前提。信息、语言信息和语篇信息三者密切相关,只有其间的关系被明确地解析,语篇信息才能得到准确的定位,语篇信息的研究范围才能得以清晰地确定。单就概念所覆盖的范围而言,信息大于语言信息,语言信息则大于语篇信息。但这并不意味着前者依次完全覆盖后者,毕竟三者之间尚有本质的区别。就研究方法而论,也各不相同。例如,语言信息分析并不能套用信息论方法,研究者应在借鉴信息论方法的同时,根据语言信息的特点独辟蹊径。语篇信息分析也不能套用语言信息的一般研究方法,研究者需要寻找以语篇为基本出发点的特别方法,解决语篇信息分析的一系列独*问题。
  在现实生活中,“信息”是人们日常交往所用的高频词语之一。该词语的普遍实用性给人类的社会交际活动带来方便,无论身处何时何地,无论社会身份如何,人们总能自如地使用该词语表达相关的内容。但关于信息是什么,人们却很难清晰表述,也难以达成一致的理解。可以说,相对于不同专业领域有关信息的用法,日常生活中所用的“信息”是普通信息,其含义广、用法灵活、通用性强,有利于人们相互理解。不过,如果深入到某个专业领域,同样使用这一词语,就会显得捉襟见肘、言不尽意。在人类已经步入信息社会这一新的历史条件下,深入探究信息及其定义显得十分必要。
  人类对信息的持续关注和系统研究始于信息论的创立,以香农(Shannon)在《贝尔系统技术杂志》上发表论文《通信的数学理论》(Shannon,1948)为标志。香农采用熵作为对随机不确定性的度量,将随机不确定性的降低看作信息,建立了通信中信息传递的数学模型。信息论在世界上产生了重大影响,中国学者对信息论的介绍、研究和应用也风起云涌、不断深入,成为波澜壮阔的信息科学研究的先导。
  信息论并未就“信息是什么”给出明确的定义。以应急需,相关领域的研究者不断提出自己的看法和操作定义。钟义信(2013)曾列出人们有关信息的30多种说法。人们对于信息的看法相去甚远,难以达成共识。信息是信号、消息、数据、情报、知识、负熵、物质的普遍属性抑或其他?不可否认,每一个说法或操作定义都能够在一特定领域解决一些问题,但无法顺利用于其他领域。鉴于此,一些研究者尝试从哲学等层面探讨信息的本质,希望能得到一个较为通用的信息定义。
  钟义信(2013)主张从本体论和认识论两个层次定义信息,认为从本体论的层次看,信息是事物呈现出或表述的运动状态及其变化方式;从认识论的层次看,信息是主体所表述的事物的运动状态及其变化方式,同时也包括运动状态及其变化的外在形式、内在含义以及效用价值。这是从哲学层面直击信息本质的定义,具有普遍性,适用于信息科学及其他不同领域,填补了信息论等对信息明确定义的空缺。在本体论信息定义的基础上从认识论层次剖析信息,正反映了作者对信息不同于物质和能量的本质的揭示,反映了作者对信息与人类这一特定主体的相互关系的认识。下文将采用本体论信息和认识论信息指代这些从信息科学角度对信息的界定和理解。
  从上述讨论可以看到人类此前对信息进行探索的轨迹,从普通信息到信息论的信息,再到信息科学的信息,每一步的进展都具有划时代意义。在此基础上,人们对于信息、信息的本质以及信息与人类的关系的理解日渐深入,对于信息的利用也将更具科学性、主动性。人们如果站在信息科学的高度看待信息,就可为各领域的特色研究提供可靠的参考和指导,有望打破目前相关领域各自为战的局面,从而形成信息研究的“统一阵线”。
  语言信息是信息的一个子类,是语言作为媒介所表述、承载、传递的信息以及语言自身所具有的信息。语言信息的复杂性和特殊性决定了其处理难以套用信息论的方法。因为信息论的方法主要处理通信中传递的信息,并不处理由语言承载并传递的信息。例如,莫尔斯电码(Morse Code)可用于传递信息,但信息论的方法所处理的信息是电码所编码的信息而不是语言信息,语言信息中的很多内容被忽略。语言信息与作为主体的人的认知密切关联,离开对人的认知的结合考虑,机械套用信息论的方法处理语言信息,得到的结果是不完备的,甚至是扭曲的。
  信息论的提出为现代科技尤其是信息处理技术的发展做出了巨大贡献,在各相关领域中发挥了显著作用,但信息论在语言研究领域难以展开有效应用。信息论及相关方法难以胜任语言信息分析这项艰巨的任务,语言信息分析和处理还需要首先从语言学领域获得突破。
  语言学界在词语、语音、语句、语篇等不同层面进行着不懈的研究,其中系统功能语言学领域学者在语言信息方面的研究*为直接和突出,他们从复杂的语言现象里抽象出了有关信息的诸多概念,开语言信息研究之先河,为语言研究在信息处理领域扮演重要角色开辟了道路。已知信息(given information)和新信息(new information)两分法高度概括了人类交际的规律之一,把交际的过程看作信息交换的过程,将信息交换的焦点看作新信息。已知信息和新信息同寓于小句之内,构成信息单元,从逻辑学的角度看,小句即为命题。
  系统功能语言学范畴的信息不是玄虚的,而是基于命题的,其外在表现是小句,因此信息不是飘忽不定的而是有“形”的,一旦以信息单元形式予以组合,便趋于稳定,因此是可以把握的。系统功能语言学界对信息的研究并不止于小句,主位-述位结构与已知信息-新信息结构相关联和对应,再加上主位推进等研究,范围扩展到了语篇。但主位推进研究关注的主要是线性结构,并未深入到层级结构。已知信息和新信息两分法强调了交际中信息交换的核心,尚未能反映人在信息交换中所传递的具体内容。由于分析重点主要放在小句,尚需要继续推进,系统揭示语篇层面的信息。
  系统功能语言学担起了语言信息研究的大任,将语言信息落实在小句,为语言信息研究提供了可行的路径,代表着语言学界对语言信息的卓有成效的探索。尽管信息论尚不能直接解决语言信息处理的主要问题,但借助于关于认识论信息的观点和理论,语言学界的语言信息研究终能与其他各相关领域的研究逐渐融合,形成完整的体系。
  语言信息是信息的一个子类,语篇信息则是语言信息的一个子类。语篇信息与语言信息其他子类的区别主要在于信息所在的层面不同。语篇信息是语篇层面的信息,其他层面如词语层面、句子层面的信息也包括在内,但是需要在语篇的层面进行分析和处理。语篇信息也包括语篇层面的结构信息、语义信息、语用信息等,其研究内容相当丰富,既有语篇范围内不同层次信息的研究,也有语言信息的多角度研究。
  语篇信息研究也面临诸多难题。和信息研究一样,进行语篇信息研究首先需要清晰地定义语篇信息。相对于信息科学的本体论信息定义和认识论信息定义,语篇信息定义需要更为具体,需要关照语篇的特点,需要将语篇信息的分析、解释、传输、使用等过程考虑在内,否则分析就无法展开。语篇信息的定义需要考虑信息的可计量特点,若无法计量,就只能进行信息的定性分析,而语篇信息的大规模处理就无法实现。同时,语篇信息的分析处理必须具有普遍性,无论何种语篇,都应该适用,否则分析处理结果就缺乏实用价值。再者,语篇信息的分析处理,必须面向信息科学的需求,如通信中信息传输所必需的定量分析、计算以及人工智能领域的语言信息处理等。
  语篇信息寄寓于语篇的语言,但经过信息分析后得到的语篇信息结构与语篇的语言结构具有本质的不同。得益于这种性质的改变,语篇信息具有了独立性,语篇信息研究的内容与语篇语言研究的内容也截然不同。例如,进行语篇信息研究时,研究者关注的是基于树状结构的信息,而进行语篇语言研究时,研究者主要以语篇的线性结构为依据。
  尽管如此,语篇信息和语篇语言之间的紧密关系不会减弱,毕竟语篇信息脱胎于语篇语言,语篇语言的变化会直接导致语篇信息的变化,人们对语篇语言的理解也直接影响他们对语篇信息的理解。因此,语篇信息研究与语篇语言研究相得益彰,并不矛盾。
  1.2 语篇信息分析
  随着法治建设的推进,法律信息处理问题已至为紧迫。法律信息已被研究者提到国家法治基础的高度(罗伟,2008),法律信息与人工智能技术之间的关系也已受到关注如熊明辉(2021),法律信息已经在国民经济和科学研究中占据重要地位。王金祥(1995)曾对法律信息学的建设情况做了描述,对未来研究工作做了展望,呼吁建立强大的法律信息处理系统,以服务社会。国外学者对法律信息处理研究,特别是其在全球化进程中的作用也予以高度关注,如温特顿(Winterton,2011)、杰曼(Germain,2007)。
  国内学者除了对法律信息处理系统提出看法外,还对相关技术做了具体分析。杨震等(2002)对信息模式识别系统的基本构成做了简洁描述,反映了采用计算机技术完成各种模式识别任务的过程所具有的共性。但与诸多相关研究的共同局限性在于,所提取的特征值仅基于文档的关键词,未关照连贯的意义和信息。在自然语言处理领域,目前的瓶颈也是对文本的语义处理(殷杰、董佳蓉,2008)。目前的信息模式识别研究具有显著成就和明显不足,因此,语篇视角的信息处理研究逐渐成为关注焦点。
  冯志伟(2006)认为,由于语料库建设和语料库语言学崛起,大规模真实文本的处理日渐重要,已经成为自然语言处理的主要战略目标。自然语言处理研究在汉语词汇、语句以及句群层面都取得了显著成就(许嘉璐、朱小健,2010),为向语篇层面研究推进提供了良好基础。此前,基于文本的信息处理已经得到关注和研究(宋友等,2010),基于语篇的智能化信息处理研究已经成为重要的研究课题。
  随着经济的发展,法律语言研究尤其是法律语篇研究在法律领域中的作用日趋重要。法律语篇属于机构性语篇(Drew & Heritage,1992),具有普通机构语篇的共同特点,也具有与其他类机构语篇明显不同的特点。有关法律机构语篇,国外已经有了丰富的研究成果(如Gibbons,2003;Coulthard & Johnson,2007),国内的研究也在法律信息处理领域起着日益重要的作用,这些研究都为法律语篇和非法律语篇的信息研究打下了基础。
  国外不少研究开始从信息角度分析语言如哈利迪(Halliday,1985),但因不能充分关照语篇的宏观信息结构而受到批评如普林斯(Prince,1981)。国内现有关于法律语篇信息结构的研究提供了语篇信息分析的新思路(杜金榜,2007,2009a,2009b,2009c,2010,2012,2015a;陈金诗,2011;徐优平,2013;赵军峰,2011;李跃凯,2013;葛云锋,2013)。直接分析语篇信息,有利于进行语篇信息模式的认知和识别研究,从而实现语言信息自动处理。
  语篇信息分析已经具有坚实的理论基础和技术支持,包括语言学研究基础、自然语言处理研究基础、信息技术等。在诸多语言学理论中,语篇信息理论与语篇信息分析的关系*为直接,因为语篇信息分析是语篇信息理论中的主要分析方法。自从有关语篇信息的主体模式被提出以来,语篇信息理论得到了持续发展,理论架构得到不断完善,理论视角逐步丰富。除了处理语篇的内部信息结构外,研究者也对该理论的应用性做了进一步探索,其中的语篇信息说服模式(徐优平,2013)、语篇信息“四桥”模式(赵军峰,2011)、语篇信息语用模式(李跃凯,2013)从不同视角增强了语篇信息理论在处理具体问题上的实用性,展示了语篇信息分析的各种功能。
  语篇信息分析贯穿于语篇信息挖掘的全过程。语篇信息分析并不限于对语篇内信息的分析,也包含了语篇间关系的分析,还包含着不同角度的分析,如语用分析、意义和意图分析、交际心理分析、基于概率的分析等。这些分析都以语篇内信息的分析为核心和依据。其他各种角度的分析围绕语篇内信息的分析展开,在语篇内信息分析的基础上进行组织,形成信息的网络。
  以语篇信息分析为纲进行信息挖掘模式建构,语篇信息挖掘的全过程就能得到统一,重点就能
展开
目录
目录
前言
第一章 导论 1
1.1 信息、语言信息和语篇信息 1
1.2 语篇信息分析 4
1.3 语篇信息挖掘 9
1.4 本书章节安排 14
第二章 语篇信息挖掘研究的基础 16
2.1 语篇信息理论 16
2.1.1 基本概念 16
2.1.2 主要理论模式 20
2.1.3 基本观点 21
2.1.4 分析过程和工具 23
2.1.5 发展及应用前景 24
2.2 其他语言学理论 25
2.2.1 修辞结构理论 26
2.2.2 体裁分析理论 28
2.2.3 系统功能语言学理论 29
2.3 自然语言处理 30
2.3.1 现状 30
2.3.2 分析技术 32
2.3.3 机器学习 34
2.3.4 主要难题 36
2.4 数据挖掘 37
2.4.1 数据挖掘与信息挖掘 37
2.4.2 数据挖掘方法与信息挖掘方法 38
2.4.3 数据挖掘技术的特点 38
2.4.4 数据挖掘技术与语料库 39
2.4.5 数据挖掘技术的信息视角 40
2.4.6 数据挖掘技术在信息挖掘中的应用 40
2.5 网络搜索 41
2.5.1 网络搜索的基本原理及局限性 41
2.5.2 网络搜索的智能化 42
2.5.3 搜索引擎与数据采集器 43
第三章 语篇信息挖掘的技术条件 44
3.1 概述 44
3.2 语料库 47
3.2.1 语料库概述 47
3.2.2 语料库功能 48
3.2.3 语料库技术基础 49
3.2.4 信息型语料库 51
3.3 数据库 54
3.3.1 数据库种类 54
3.3.2 数据库的技术优势 56
3.3.3 数据库技术的新发展 57
3.4 互联网 58
3.4.1 互联网资源 58
3.4.2 互联网技术基础 61
3.4.3 互联网的技术共享 68
3.4.4 互联网信息处理的障碍 68
3.5 搜索引擎 69
3.5.1 搜索引擎的种类 69
3.5.2 搜索引擎的主要功能 70
3.5.3 搜索引擎的局限性 71
3.5.4 搜索引擎的发展方向 72
3.5.5 搜索引擎为信息挖掘提供的技术基础 73
第四章 语篇信息分析过程 75
4.1 概述 75
4.2 分析设计 76
4.3 宏观信息结构 77
4.3.1 树型结构模式 78
4.3.2 树干结构模式 81
4.4 信息流动调控 84
4.4.1 调控者模式 85
4.4.2 调控方式模式 87
4.5 信息组合 89
4.5.1 主观+客观+说明信息模式 90
4.5.2 信息配置与变换模式 92
4.6 微观信息结构 95
4.6.1 微观信息结构模式 95
4.6.2 微观信息配置模式 96
4.7 信息功能 96
4.7.1 交际指向模式 97
4.7.2 功能配置模式 98
4.8 基本信息模式总结 99
第五章 以信息挖掘为指向的多角度研究 101
5.1 概述 101
5.2 体裁分析 103
5.3 语用分析 108
5.4 认知分析 110
5.5 调查研究 120
5.6 实验研究 125
5.6.1 文本鉴别实验 126
5.6.2 语音识别实验 128
5.6.3 语言心理实验 131
第六章 信息挖掘模式的核心构成 132
6.1 规则的归纳 132
6.1.1 语篇分类规则 133
6.1.2 宏观结构规则 134
6.1.3 微观结构规则 136
6.1.4 语义分析规则 140
6.1.5 语篇语言分析规则 141
6.2 规则的组织和运行 143
6.2.1 规则运用举例 144
6.2.2 规则库 147
6.2.3 规则库结构 149
6.2.4 其他相关机制 150
6.3 经验主义方法在信息挖掘中的应用 151
6.3.1 规则控制中的机器学习 152
6.3.2 信息挖掘过程中的机器学习 152
6.3.3 粗糙集算法应用举例 153
第七章 信息挖掘模式的架构 156
7.1 信息模式识别 156
7.1.1 信息模式的类别 157
7.1.2 信息模式的用途 158
7.1.3 信息模式识别的基本条件 159
7.1.4 信息模式识别技术 160
7.1.5 信息模式识别过程 162
7.2 信息模式预测 164
7.2.1 语篇体裁线索 165
7.2.2 核心信息线索 166
7.2.3 关键概念线索 167
7.2.4 同种类语篇的共性线索 168
7.2.5 信息模式预测的步骤 169
7.3 信息模式生成 170
7.3.1 信息模式生成的基本条件 171
7.3.2 信息模式生成机制 172
7.3.3 信息模式的基本指标及其优化 174
7.4 语篇类别分析 176
7.4.1 语篇类别与分析 176
7.4.2 语篇共性分析 178
7.4.3 语篇差别分析 179
7.4.4 语篇单独分析 180
7.4.5 语篇大样本分析 181
第八章 信息挖掘技术及其实际应用 183
8.1 语篇信息提取 183
8.1.1 信息提取及使用 184
8.1.2 普通信息检索 185
8.1.3 语篇信息检索 186
8.1.4 多模态信息处理 188
8.1.5 信息提取的相关问题 190
8.2 舆论走向预测 191
8.2.1 舆论走向 191
8.2.2 舆论走向的语篇信息分析方法 193
8.2.3 舆论走向预测的步骤 194
8.2.4 未来发展 198
8.3 网络信息挖掘 199
8.3.1 应用空间 200
8.3.2 数据挖掘 201
8.3.3 数据与信息 202
8.3.4 信息挖掘过程 203
8.3.5 技术要求和信息挖掘原则 205
8.4 信息平台建设 206
8.4.1 平台的基本功能 206
8.4.2 主要模块 211
8.4.3 平台的基本技术要求 212
8.5 信息挖掘技术的服务对象 213
第九章 结束语 217
9.1 概述 217
9.1.1 语篇信息挖掘研究的背景、任务、思路和方法 217
9.1.2 语篇信息挖掘的相关技术和信息库工具 219
9.1.3 未来的研究 220
9.2 主要观点归纳 221
9.3 解决的主要问题 224
9.4 未来发展 229
参考文献 230
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证