第1章 绪论
1.1 研究背景
近年来,随着互联网的快速发展,互联网用户大规模增加。第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,我国网民规模达10.11亿人,互联网普及率为71.6%。互联网的广泛普及带动了博客、论坛和社交网络等社交媒体的飞速发展,同时产生了大量源于用户创造的主观性文本。这类文本包含用户观点、意见和态度等情感信息,对互联网用户有重要的作用。例如,消费者在互联网上购买某项产品或服务的时候,一般会参考之前购买者的评论信息,来辅助自己的购买决策行为。这些主观性文本的数量急速增加,人工分析需要消耗大量的人力和时间。因此,如何利用信息技术来有效地收集、存储和分析这些主观性文本所表达的情感信息已成为当前迫切需要解决的问题。文本情感分类技术正是解决这一问题的有效工具。
文本情感分类技术可以从海量的文本数据中发现和提取有价值的信息、知识,并可以帮助企业做出科学合理的决策,已经成为企业提高竞争力的重要手段。然而,当前已经提出的大量文本情感分类方法在实践应用中效果并不好,其中一个重要的原因是文本情感分类问题由数据驱动,数据的固有属性直接影响文本情感分类技术在实践中的成功应用。在实际应用中,文本情感分类除了存在大量的高维数据问题,还存在大量的非均衡数据和无标签数据问题。这些问题带来了特征间关系复杂、易造成过学习和数据利用不充分等问题。现有的文本情感分类方法主要用来解决高维数据问题,对其他问题考虑较少,在实际应用中效果较差。因此,文本情感分类中的高维数据、非均衡数据和无标签数据等问题成为人工智能和数据挖掘领域的热点问题。
与此同时,集成学习通过训练多个学习器并将结果进行集成,从而显著提高学习系统的泛化能力,已成为近年来机器学习领域的一个重要研究方向。国内外大量学者投入了集成学习的研究中,理论和应用成果不断涌现。目前集成学习已经成功应用到企业实践中,部分解决了高维数据、非均衡数据和无标签数据问题。在企业实践中,文本情感分类会遇到大量高维数据、非均衡数据和无标签数据问题,单一分类方法已经不能很好地解决这些问题,同时考虑集成学习具有较强的泛化能力和适应性,本书将其引入文本情感分类中。
综上所述,针对文本情感分类中存在大量高维数据、非均衡数据和无标签数据的问题,本书将泛化能力和适应性较强的集成学习引入文本情感分类的研究中,从分析文本情感分类问题中数据的特征和影响入手,系统研究文本情感分类中存在的大量高维数据、非均衡数据和无标签数据等问题,并系统比较各类集成学习方法在文本情感分析中的有效性。以此为基础,分别构建基于POS-RS的文本情感分类模型、基于非均衡数据分类和词性分析的文本情感分类模型,以及基于IDSSL的文本情感分类模型。通过实证研究,完善基于集成学习的文本情感分类的理论和方法,为企业提供文本情感分类中存在的高维数据、非均衡数据和无标签数据问题的解决方案。本书为解决文本情感分类中存在的高维数据、非均衡数据和无标签数据等问题提供了新的方式和途径,丰富基于集成学习的文本情感分类的理论研究体系,推动文本情感分类中高维数据、非均衡数据和无标签数据等问题的研究和应用,增强企业的数据处理和利用能力,具有重要的理论意义和实践价值。
1.2 国内外研究现状及发展动态分析
本书主要涉及文本情感分类和集成学习等方面的内容,下面就国内外相关研究现状及发展动态进行分析。
1.2.1 文本情感分类相关研究
近年来,文本情感分类已经成为人工智能和数据挖掘领域的热门话题,受到了国内外学者的广泛关注。文本情感分类涉及文本挖掘、机器学习、自然语言处理等多个研究领域。文本情感分类是指通过分析和挖掘用户生成内容中所表达的观点、意见等情感信息,判别用户生成内容中的情感倾向。文本情感分类任务按其分析的粒度可以分为特征级别、句子级别、篇章级别等子任务。特征级别的文本情感分类的研究对象是文本中实体特征,研究任务是判断特征中包含的褒贬倾向性。句子级别的文本情感分类的研究任务是判断主观性句子的褒贬倾向性。篇章级别的文本情感分类的研究任务是判断文章的褒贬倾向性。文本情感分类主要有两种方法:基于情感知识的方法和基于机器学习的方法[1-5]。
1.基于情感知识的方法
基于情感知识的方法主要依赖情感词典以及一些自然语言处理知识,对文本的情感倾向进行分类。例如,Ohana和Tierney[6]采用通用情感词典SentiWordNet来识别文本中的情感词,计算情感分值,制定规则,并对文本情感倾向进行识别。Hatzivassiloglou和McKeown[7]认为将形容词连接起来的连词对于形容词的情感倾向的判别很有帮助,其中连词主要包括and、or、but、either-or和neither-nor等。这种方法虽然取得了78.08%的正确率,但是不能处理除形容词以外词性的词语。Turney[8]用点间互信息(pointwise mutual information,PMI)方法判断文本的情感倾向。他首先抽取包含形容词或副词的短语作为情感词,然后计算该情感词与褒义词excellent的PMI值和该情感词与贬义词poor的PMI值的差值,得到该情感词的情感倾向值,*后计算文本中所有情感词的情感倾向值的平均值并得到情感倾向。基于情感知识的方法虽然取得了一些成果,但是需要事先构建情感知识库,这限制了基于情感知识的方法的进一步发展。因此,本书主要关注基于机器学习的方法。
2.基于机器学习的方法
基于机器学习的方法在文本情感分类中已经得到广泛的研究。相比于基于情感知识的方法,基于机器学习的方法不依赖情感词和自然语言处理技术,有更强的适应性[3]。基于机器学习的方法包括两个主要步骤:①通过特征构建技术提取主观性文本的文本信息;②使用分类技术对这些文本信息中所包含的情感信息进行挖掘[4, 5]。目前经常使用词袋(bag-of-words,BOW)方法进行文本情感分类的特征构建,BOW方法中的文本是无序词汇的集合。BOW方法主要使用N元语言模型(N-gram)作为词语特征。Pang等[1]首次将机器学习方法用于篇章级别的文本情感分类,并使用一元语言模型(Unigram)特征得到了*好的分类结果。一些学者将语义、短语及被BOW方法忽视的语义之间的联系等自然语言处理知识应用于文本情感分类的特征构建中,如使用否定词、词性(part-of-speech)等作为文本特征[1, 3]。但是这些方法需要经过烦琐的自然语言预处理过程,降低了分类的速度,而且对分类效果的改善不明显[3, 4]。基于机器学习的方法所使用的分类技术主要有朴素贝叶斯(naive Bayes,NB)、支持向量机(support vector machine,SVM)和*大熵(maximum entropy,ME)等[1-4]。
1.2.2 集成学习相关研究
集成学习是近年来机器学习领域的研究热点之一,它针对同一问题使用多个学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果。集成学习中的每个学习器称为基学习器或者基分类器[9, 10]。较早开展集成学习研究的是Dasarathy和Sheela[11]。之后,Hansen和Salamon[12]通过研究发现,训练多个神经网络并将其结果按照一定的规则进行组合,就能显著提高整个学习系统的泛化能力。与此同时,Schapire[13]通过构造性方法证明了可以将弱学习算法提升成强学习算法,这个过程就是自适应提升(Boosting)算法的雏形。基于此,在以上早期研究的带动下,集成学习的研究迅速开展起来,理论和应用成果不断涌现,成为机器学习领域*主要的研究方向之一[9, 10]。如何设计更有效的集成学习方法,以提高集成学习的泛化能力,并将集成学习应用到实际问题中,成为集成学习研究的热点问题。
根据构造阶段,集成学习方法可以分为基学习器生成方法和基学习器组合方法。基学习器生成方法主要包括基于数据划分的方法、基于特征划分的方法、引入随机性的方法等。基于数据划分的方法通过处理训练样本产生多个样本集,基学习器运行多次,每次使用一个样本集,如自助投票(Bagging)[14]和Boosting[15]等算法;基于特征划分的方法把输入特征划分成子集,用作不同基学习器的输入向量,每次使用一个特征子集,如RS[16,17]等算法;引入随机性的方法通过将随机性引入学习算法来构造不同的基学习器,例如,在人工神经网络中,可以将网络初始权值设为不同的随机值,经过训练获得完全不同的基学习器。除了上述方法,学者还提出了层叠泛化(stacked generalization)[18]、级联归纳(cascade generalization)[19]、纠错输出编码(error-correcting output codes,ECOC)[20]等基学习器生成方法。基学习器组合方法根据基学习器的输出可以分为抽象类、排序类和度量类。抽象类中,每个基学习器仅仅输出一个类别标签或者类别标签子集,如投票法和行为知识空间(behavior-knowledge space)法[21]等;排序类中,基学习器根据未知样本所属类别的可能性,将所有类别标签或者类别标签子集进行排序,第一个标签代表未知样本*可能的类别,以此类推,如波达(Borda)计数法和逻辑(Logistic)回归法等[10];度量类中,每个分类器对每个类别输出一个度量值,表示未知样本属于该类别的程度,如平均法和证据理论[22]等。除了上述方法,学者还提出了通过使用另一个学习器来完成对结果的组合的方法,如贝叶斯集成、层叠泛化[18]和元学习(meta learning)[23]等。
集成学习领域除了对方法本身的关注,还需要关注的重要问题就是从理论上对集成学习进行分析。集成学习具有较强的泛化能力。Dietterich[24]从统计、计算、表示等三个角度解释了集成学习获得成功的原因。但是,Dietterich的解释主要基于观念,不能针对具体问题进行理论上的分析。目前集成学习的理论分析主要从基学习器生成和结论生成两方面展开。具体来说主要有:①偏差-方差(bias-variance)分解法[10],它是机器学习中的一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即偏差、方差和本真噪声。以往的研究表明,Boosting算法主要降低偏差,Bagging算法主要降低方差[10]。②误差-模糊(error-ambiguity)分解法,其源于Krogh和Vedelsby[25]推导出的重要公式,其中,为集成的泛化误差,为集成中基学习器的平均泛化误差,为集成中基学习器的平均模糊。③从边际(margin)的角度分析集成学习的有效性及其对噪声的反应[26]。广大学者尽管已从不同角度对集成学习进行了理论分析,但对集成学习成功的本质原因还没有达成共识[10, 27]。一般认为,有效地产生泛化能力强、多样性大的基学习器是集成学习的关键。为此,学者从不同角度提出了多样性的定义和度量公式,可分为两两计算(pairwise)和非两两计算(non-pairwise)两类[28, 29]。两两计算的多样性首先计算所有两两基学习器间的多样性,然后求均值,作为整个集成学习系统的多样性。两两计算的多样性的度量有Q统计量、不一致度量(disagreement measure)、双错误度量(double-fault measure)等[28]。非两两计算的多样性中,所有基学习器同时参与计算,而不需要计算两两基学习器间的多样性。非两两计算的多样性的度量有熵度量、科哈维-沃尔珀特(Kohavi-Wolpert)方差、困难度量(difficulty measure)等[29]。
1.3 研究目标
针对文本情感分类中存在的大量高维数据、非均衡数据、无标签数据等问
展开