(二)转换性问题
聚类方法、神经网络方法、遗传方法、决策树方法等都可作为数据挖掘方法,不同的方法对数据有不同的要求,如神经网络方法要求所有的输入变量都必须是(0,1)或(-1,+1)之间的实数,而决策树方法擅长处理非数值型数据,甚至有些决策树算法专为处理非数值型数据而设计,所以数据分析时首先必须把数据转换成符合算法具体要求的形式。如果数据未转换成所需的形式或转换不当都会产生转换性问题。
(三)生成性问题
为了数据分析的需要,有时要对已给定的属性进行运算以生成新的属性,用以发现数据属性间相互关联的信息,并能提高对高维数据结构的理解和分析精度。如,可运用统计方法对数据进行汇总、求平均数、求百分位数等生成新的属性。在运用统计方法时若对数据的统计含义不够理解,如在时间数列中数据为时点指标,但却作为时期指标来求平均数等便会产生生成性问题。
(四)模式或模型选择性问题、数据挖掘中模式或模型选择性问题也可称为模式或模型评价问题。数据挖掘中的模式(patters)是指在一个数据挖掘库中出现频率足以揭示它们之间有关联的一系列事件。对于每一次数据挖掘任务,不管是采用一种数据分析方法还是采用多种不同的数据分析方法,其结果都有可能产生大量的模式,若选择了不利于决策的模式而放弃了有利于决策的模式,便会产生模式选择性问题。另外数据挖掘方法中许多是基于计算或统计方法的。例如,线性模型,依据解释变量个数的不同而不同;图模型,依据约束条件(图的边数)个数的不同而不同;树模型,依据叶子个数的不同而不同;多层感知器,依据隐含层和节点个数的不同而不同。因此当一类模型被确立后,从中找到“最佳的”模型就成为急需解决的问题。而且,一个特定的数据问题可以用许多方法来解决。例如,在预测分类问题中,可以使用Iogistic回归、决策树模型和神经网络等方法,如何从各种方法产生的模型中找到“最佳的”模型也成为急需解决的问题。
展开