本书从金融数据挖掘的数据整理(cluster and classification)和重抽样方法(resampling)开始,介绍了模型的筛选方法(selection methods)、克服高维灾难(disaster of dimensionality)的方法,以及非线性模型(non-linear models)、非参数估计(unsupervised estimation)、决策树(tree-based methods)和支持向量机(support vector machines)等数据挖掘方法,并在后面介绍了R语言的基本操作。
本书的案例均采用股票市场数据来进行数据挖掘分析,利用简明实用的一些数据挖掘方法来诠释金融数据挖掘的魅力,以期每一名本书的读者都够掌握一些本书介绍的方法,并应用于股票市场投资当中去。当然,正像所有投资书籍及投资机构都会提到的一样,本书也必须指出,“投资有风险,挖掘需谨慎”。
导言
第一章金融数据分类分析(1)——Logit、LDA、QDA与KNN
第一节 Logistic 分类法
第二节 LDA、QDA与KNN分类法
第三节 案例:上证综合指数涨跌预测
第二章金融数据分类分析(2)-聚类分析
第一节 系统聚类法和K-means聚类法
第二节 案例
案例1:系统聚类分析法的应用——股指状态阶段的判断与划分
案例2. k-means聚类法应用案例
附录:案例代码
第三章金融数据重抽样
第一节 交叉验证方法
第二节 拔靴法
第三节 案例:重抽样方法下的股指涨跌预测模型的再分析
附录1:投资比例公式证明过程
附录2:案例代码
第四章线性模型筛选
第一节 子集筛选法(Subset Selection Methods)
第二节 收缩筛选法(Shrinkage Selection Methods)
第三节 案例:regsubset函数在股指涨跌预测模型筛选中的用法
附录:案例代码
第五章克服高维灾难
第一节主成分分析法(principal components analysis,PCA)
第二节 部分最小二乘法( Partial Least Squares, PLS )
第三节 案例
案例1. 财务指标含义及指向性介绍
案例2. 主成分分析法在选股中的应用
第六章非线性模型及非参数估计方法
第一节 非线性模型简介
第二节 非参估计方法简介
第三节 样条估计法
附录:实例代码
第七章决策树
第一节 决策树的基本知识
第二节 三种提高树状模型预测精度的方法
第三节 案例
案例1:决策树方法在股指涨跌预测中的应用
案例2:bagging、randomforest和boosting在决策树模型中的应用
第八章支持向量机
第一节 最大边际分类器与支持向量分类器
第二节 支持向量机
第三节 案例:基于SVM 方法的上证指数涨跌预测
第九章R语言及作图