本书以公理模糊集理论为基础,对监督学习、半监督学习以及不平衡数据分析问题进行了研究,主要内容包括:针对监督学习问题,本书基于公理模糊集理论和熵的概念设计分类器,该分类器具有良好的分类性能和可解释性,能够适应更多人性化的识别机制。由于现有的基于公理模糊集理论的分类器在获取最优语义描述方面存在不足,因此本书基于公理模糊集理论在香农熵的概念上进行扩展,提出了一种新的度量方式,称之为基于公理模糊集的语义熵,它可以用于评价每个类别语义描述的区分能力。此外,本书还使用评价指标来精简描述,以提供良好的分类性能。与其他基于公理模糊集理论的分类器相比,该方法不是简单地使用阈值来筛选类别描述,而是使用语义熵来度量数据的语义信息,从而得到每一类数据的最优语义描述。为了说明分类器的性能,本书将所提出的方法与其他性能较好的分类器在多个数据集上进行对比分析。实验结果表明,该方法可以给出每个类别的语义描述,其性能相较于其他方法具有一定的优势。
针对半监督学习问题,本书基于公理模糊集理论提出了语义半监督学习方法。它将两种机器学习模式有机地结合在一起,借助经典的支持向量机感知原始数据的逻辑事实,使用公理模糊集理论探究语义知识和纠正错误的认知来改善机器学习模型。基于不一致性的半监督学习可以被看作一种优秀的学习模式,所以支持向量机和公理模糊集理论之间的不一致性可以用来提高模型的学习性能。与一般半监督学习方法相比,这种新方法可以构建一种结构来反映标记数据和未标记数据的分布信息,从而使隐含在标记数据和未标记数据中的信息得到充分利用,并且能够获得对每个类别较好的描述。实验结果表明,该方法能够提供一个简洁、可理解、精确的半监督学习框架,在可解释性和准确性之间取得一定的平衡。
针对不平衡数据分析问题,结合实际应用背景,本书基于公理模糊集理论研究了医学领域中疣治疗方式的选择问题。疣是一种由人类乳头瘤病毒引起的皮肤病,目前有许多相关的研究是建立在机器学习和数据挖掘技术基础之上的,试图为特定的疣患者找到最合适和最有效的治疗方法。然而,医学数据分布的不平衡性可能导致这一领域的错误识别。本书采用过采样技术对不平衡数据进行处理,结合公理模糊集理论预测所使用的治疗方法是否能够治愈患者,并给出能够被治愈和不能够被治愈患者的描述性信息。与其他现有方法相比,该方法可以提供患者的描述性信息,有助于对预测结果进行进一步的分析。此外,该方法能够辅助医生进行治疗,节约医疗资源,提高治疗质量。
展开