大数据对回归模型提出以下几个方面的要求:(1)稀疏性,“高维”数据的特征选择问题,选取重要特征,舍弃“冗余”或者信息含量少的特征,是回归算法面临的新挑战;(2)鲁棒性,对于含有异常点的回归问题,决策函数对异常点具有鲁棒性;(3)在线性,对于数据流问题,决策函数的回归系数应具有在线性,能够反映在线数据流的实时变化效应;(4)异质性,高维数据具有后尾分布的异质性,如何使稀疏技术选择的特征能反映数据的整体分布特征,提取数据的异质信息。针对大数据的这些特征,本书在已有支持向量回归模型的研究基础上,将从以下几个方面展开研究:(1)融入L1模或Lp模稀疏正则项,构建稀疏支持向量回归模型,其能够从高维数据中选取相关的主要特征,舍弃无关的冗余特征,完成信息价值“提纯”;(2)设计具有鲁棒性的损失函数,使其决策函数不易受异常点的影响,即决策函数不受异常点的干扰,具有一定的稳健性;(3)采用增量算法,使其决策函数的回归系数具有动态性,反应数据流的实时性,克服非在线算法决策函数回归系数的固定不变性;(4)引入统计学的分位数回归思想,利用分位数精确地描述自变量对于因变量条件分布的整体影响,全面反映数据的分布特征。
展开