第一篇 基础篇
第1章 绪论
1.1 量化投资与数据挖掘的关系
1.1.1 什么是量化投资
1.1.2 量化投资的特点
1.1.3 量化投资的核心?D?D量化模型
1.1.4 量化模型的主要产生方法?D?D数据挖掘
1.2 数据挖掘的概念和原理
1.2.1 什么是数据挖掘
1.2.2 数据挖掘的原理
1.3 数据挖掘在量化投资中的应用
1.3.1 宏观经济分析
1.3.2 估价
1.3.3 量化选股
1.3.4 量化择时
1.3.5 算法交易
1.4 本章小结
参考文献
第2章 数据挖掘的内容、过程及工具
2.1 数据挖掘的内容
2.1.1 关联
2.1.2 回归
2.1.3 分类
2.1.4 聚类
2.1.5 预测
2.1.6 诊断
2.2 数据挖据过程
2.2.1 数据挖掘过程概述
2.2.2 挖掘目标的定义
2.2.3 数据的准备
2.2.4 数据的探索
2.2.5 模型的建立
2.2.6 模型的评估
2.2.7 模型的部署
2.3 数据挖掘工具
2.3.1 MATLAB
2.3.2 SAS
2.3.3 SPSS
2.3.4 WEKA
2.3.5 R
2.3.6 工具的比较与选择
2.4 本章小结
参考文献
第二篇 技术篇
第3章 数据的准备
3.1 数据的收集
3.1.1 认识数据
3.1.2 数据挖掘的数据源
3.1.3 数据抽样
3.1.4 量化投资的数据源
3.1.5 从雅虎获取交易数据
3.1.6 从大智慧获取财务数据
3.1.7 从Wind获取高质量数据
3.2 数据质量分析
3.2.1 数据质量分析的必要性
3.2.2 数据质量分析的目的
3.2.3 数据质量分析的内容
3.2.4 数据质量分析的方法
3.2.5 数据质量分析的结果及应用
3.3 数据预处理
3.3.1 为什么需要数据预处理
3.3.2 数据预处理的主要任务
3.3.3 数据清洗
3.3.4 数据集成
3.3.5 数据归约
3.3.6 数据变换
3.4 本章小结
参考文献
第4章 数据的探索
4.1 衍生变量
4.1.1 衍生变量的定义
4.1.2 变量衍生的原则和方法
4.1.3 常用的股票衍生变量
4.1.4 评价型衍生变量
4.1.5 衍生变量数据收集与集成
4.2 数据的统计
4.2.1 基本描述性统计
4.2.2 分布描述性统计
4.3 数据可视化
4.3.1 基本可视化方法
4.3.2 数据分布形状可视化
4.3.3 数据关联情况可视化
4.3.4 数据分组可视化
4.4 样本选择
4.4.1 样本选择的方法
4.4.2 样本选择应用实例
4.5 数据降维
4.5.1 主成分分析(PCA)基本原理
4.5.2 PCA应用案例:企业综合实力排序
4.5.3 相关系数降维
4.6 本章小结
参考文献
第5章 关联规则方法
5.1 关联规则概要
5.1.1 关联规则提出背景
5.1.2 关联规则的基本概念
5.1.3 关联规则的分类
5.1.4 关联规则挖掘常用算法
5.2 Apriori算法
5.2.1 Apriori算法的基本思想
5.2.2 Apriori算法的步骤
5.2.3 Apriori算法的实例
5.2.4 Apriori算法的程序实现
5.2.5 Apriori算法的优缺点
5.3 FP-Growth算法
5.3.1 FP-Growth算法步骤
5.3.2 FP-Growth算法实例
5.3.3 FP-Growth算法的优缺点
5.4 应用实例:行业关联选股法
5.5 本章小结
参考文献
第6章 数据回归方法
6.1 一元回归
6.1.1 一元线性回归
6.1.2 一元非线性回归
6.1.3 一元多项式回归
6.2 多元回归
6.2.1 多元线性回归
6.2.2 多元多项式回归
6.3 逐步归回
6.3.1 逐步回归的基本思想
6.3.2 逐步回归步骤
6.3.3 逐步回归的MATLAB方法
6.4 Logistic回归
6.4.1 Logistic模型
6.4.2 Logistic回归实例
6.5 应用实例:多因子选股模型的实现
6.5.1 多因子模型的基本思想
6.5.2 多因子模型的实现
6.6 本章小结
参考文献
第7章 分类方法
7.1 分类方法概要
7.1.1 分类的概念
7.1.2 分类的原理
7.1.3 常用的分类方法
7.2 K-近邻(KNN)
7.2.1 K-近邻原理
7.2.2 K-近邻实例
7.2.3 K-近邻特点
7.3 贝叶斯分类
7.3.1 贝叶斯分类原理
7.3.2 朴素贝叶斯分类原理
7.3.3 朴素贝叶斯分类实例
7.3.4 朴素贝叶斯特点
7.4 神经网络
7.4.1 神经网络的原理
7.4.2 神经网络的实例
7.4.3 神经网络的特点
7.5 逻辑斯蒂(Logistic)
7.5.1 逻辑斯蒂的原理
7.5.2 逻辑斯蒂的实例
7.5.3 逻辑斯蒂的特点
7.6 判别分析
7.6.1 判别分析的原理
7.6.2 判别分析的实例
7.6.3 判别分析的特点
7.7 支持向量机(SVM)
7.7.1 SVM的基本思想
7.7.2 理论基础
7.7.3 支持向量机的实例
7.7.4 支持向量机的特点
7.8 决策树
7.8.1 决策树的基本概念
7.8.2 决策树的建构的步骤
7.8.3 决策树的实例
7.8.4 决策树的特点
7.9 分类的评判
7.9.1 正确率
7.9.2 ROC曲线
7.10 应用实例:分类选股法
7.10.1 案例背景
7.10.2 实现方法
7.11 延伸阅读:其他分类方法
7.12 本章小结
参考文献
第8章 聚类方法
8.1 聚类方法概要
8.1.1 聚类的概念
8.1.2 类的度量方法
8.1.3 聚类方法的应用场景
8.1.4 聚类方法的分类
8.2 K-means方法
8.2.1 K-means的原理和步骤
8.2.2 K-means实例1:自主编程
8.2.3 K-means实例2:集成函数
8.2.4 K-means的特点
8.3 层次聚类
8.3.1 层次聚类的原理和步骤
8.3.2 层次聚类的实例
8.3.3 层次聚类的特点
8.4 神经网络聚类
8.4.1 神经网络聚类的原理和步骤
8.4.2 神经网络聚类的实例
8.4.3 神经网络聚类的特点
8.5 模糊C-均值(FCM)方法
8.5.1 FCM的原理和步骤
8.5.2 FCM的应用实例
8.5.3 FCM算法的特点
8.6 高斯混合聚类方法
8.6.1 高斯混合聚类的原理和步骤
8.6.2 高斯聚类的实例
8.6.3 高斯聚类的特点
8.7 类别数的确定方法
8.7.1 类别的原理
8.7.2 类别的实例
8.8 应用实例:股票聚类分池
8.8.1 聚类目标和数据描述
8.8.2 实现过程
8.8.3 结果及分析
8.9 延伸阅读
8.9.1 目前聚类分析研究的主要内容
8.9.2 SOM智能聚类算法
8.10 本章小结
参考文献
第9章 预测方法
9.1 预测方法概要
9.1.1 预测的概念
9.1.2 预测的基本原理
9.1.3 量化投资中预测的主要内容
9.1.4 预测的准确度评价及影响因素
9.1.5 常用的预测方法
9.2 灰色预测
9.2.1 灰色预测原理
9.2.2 灰色预测的实例
9.3 马尔科夫预测
9.3.1 马尔科夫预测的原理
9.3.2 马尔科夫过程的特性
9.3.3 马尔科夫预测的实例
9.4 应用实例:大盘走势预测
9.4.1 数据的选取及模型的建立
9.4.2 预测过程
9.4.3 预测结果与分析
9.5 本章小结
参考文献
第10章 诊断方法
10.1 离群点诊断概要
10.1.1 离群点诊断的定义
10.1.2 离群点诊断的作用
10.1.3 离群点诊断方法分类
10.2 基于统计的离群点诊断
10.2.1 理论基础
10.2.2 应用实例
10.2.3 优点与缺点
10.3 基于距离的离群点诊断
10.3.1 理论基础
10.3.2 应用实例
10.3.3 优点与缺点
10.4 基于密度的离群点挖掘
10.4.1 理论基础
10.4.2 应用实例
10.4.3 优点与缺点
10.5 基于聚类的离群点挖掘
10.5.1 理论基础
10.5.2 应用实例
10.5.3 优点与缺点
10.6 应用实例:离群点诊断量化择时
10.7 延伸阅读:新兴的离群点挖掘方法
10.7.1 基于关联的离群点挖掘
10.7.2 基于粗糙集的离群点挖掘
10.7.3 基于人工神经网络的离群点挖掘
10.8 本章小结
参考文献
第11章 时间序列方法
11.1 时间序列的基本概念
11.1.1 时间序列的定义
11.1.2 时间序列的组成因素
11.1.3 时间序列的分类
11.1.4 时间序列分析方法
11.2 平稳时间序列分析方法
11.2.1 移动平均法
11.2.2 指数平滑法
11.3 季节指数预测法
11.3.1 季节性水平模型
11.3.2 季节性趋势模型
11.4 时间序列模型
11.4.1 ARMA模型
11.4.2 ARIMA模型
11.4.3 ARCH模型
11.4.4 GARCH模型
11.5 应用实例:基于时间序列的股票预测
11.6 本章小结
参考文献
第12章 智能优化方法
12.1 智能优化方法概要
12.1.1 智能优化方法的概念
12.1.2 在量化投资中的作用
12.1.3 常用的智能优化方法
12.2 遗传算法
12.2.1 遗传算法的原理
12.2.2 遗传算法的步骤
12.2.3 遗传算法实例
12.2.4 遗传算法的特点
12.3 模拟退火算法
12.3.1 模拟退火算法的原理
12.3.2 模拟退火算法步骤
12.3.3 模拟退火算法实例
12.3.4 模拟退火算法的特点
12.4 应用实例:组合投资优化
12.4.1 问题描述
12.4.2 求解过程
12.5 延伸阅读:其他智能方法
12.5.1 粒子群算法
12.5.2 蚁群算法
12.6 本章小结
参考文献
第三篇 实践篇
第13章 统计套利策略的挖掘与优化
13.1 统计套利策略概述
13.1.1 统计套利的定义
13.1.2 统计套利策略的基本思想
13.1.3 统计套利策略挖掘的方法
13.2 基本策略的挖掘
13.2.1 准备数据
13.2.2 探索交易策略
13.2.3 验证交易策略
13.2.4 选择最佳的参数
13.2.5 参数扫描法
13.2.6 考虑交易费
13.3 高频交易策略及优化
13.3.1 高频交易的基本思想
13.3.2 高频交易的实现
13.4 多交易信号策略的组合及优化
13.4.1 多交易信号策略
13.4.2 交易信号的组合优化机理
13.4.3 交易信号的组合优化实现
13.5 本章小结
参考文献
第14章 配对交易策略的挖掘与实现
14.1 配对交易概述
14.1.1 配对交易的定义
14.1.2 配对交易的特点
14.1.3 配对选取步骤
14.2 协整检验的理论基础
14.2.1 协整关系的定义
14.2.2 EG两步协整检验法
14.2.3 Johansen协整检验法
14.3 配对交易的实现
14.3.1 协整检验的实现
14.3.2 配对交易函数
14.3.3 协整配对中的参数优化
14.4 延伸阅读:配对交易的三要素
14.4.1 配对交易的前提
14.4.2 配对交易的关键
14.4.3 配对交易的假设
14.5 本章小结
参考文献
第15章 数据挖掘在股票程序化交易中的综合应用
15.1 程序化交易概述
15.1.1 程序化交易的定义
15.1.2 程序化交易的实现过程
15.1.3 程序化交易的分类
15.2 数据的处理及探索
15.2.1 获取股票日交易数据
15.2.2 计算指标
15.2.3 数据标准化
15.2.4 变量筛选
15.3 模型的建立及评估
15.3.1 股票预测的基本思想
15.3.2 模型的训练及评价
15.4 组合投资的优化
15.4.1 组合投资的理论基础
15.4.2 组合投资的实现
15.5 程序化交易的实施
15.6 本章小结
参考文献
第16章 基于数据挖掘技术的量化交易系统
16.1 交易系统概述
16.1.1 交易系统的定义
16.1.2 交易系统的作用
16.2 DM交易系统总体设计
16.2.1 系统目标
16.2.2 相关约定
16.2.3 系统结构
16.3 短期交易子系统
16.3.1 子系统功能描述
16.3.2 数据预处理模块
16.3.3 量化选股模块
16.3.4 策略回测模块
16.4 中长期交易子系统
16.4.1 子系统功能描述
16.4.2 导入数据模块
16.4.3 投资组合优化模块
16.5 系统的拓展与展望
16.6 本章小结
参考文献
展开
★听过金武讲课,看过他的前一本书《MATLAB在数学建模中的应用》——理论和实例并重,非常喜欢。我一直认为,不搞数据挖掘,量化投资多半是碰运气。这本新书正是我要找的!其中选股选时、预测、投资组合、数据源、数据降维、神经网络、贝叶斯分类……都是我关心的主题!更难得的是,还有用MAT.LAB实现的大量实例。你来得太及时了!
——鲁晨光,《投资组合的熵理论和信息价值》作者、方舟中国股松基金经理人
★卓金武的这本书很好地结合了眼下热门的量化投资和数据挖掘两大领域。内容安排上从理论基础出发,系统阐述了量化投资中常用的数据挖掘方法和技术,并将这些方法和技术运用到量化投资的策略开发中。本书既适合在校学生学习使用,也可作为从事量化投资以及数据挖掘工作专业人士的有价值的参考书使用。
——宋斌,中央财经大学管理科学与工程学院投资系系主任、副教授、硕士生导师
★数据挖掘是量化投资的基础,投资理念和经验是量化投资的核心。本书作者花费了大量精力用案例讲解的形式将数据挖掘的每类方法从数据的收集、数据质量分析、参数优化、建模、程序实现等方面进行了解析,读者可更加便捷地将这些方法运用于实践中,以达到提升业绩的目的。本书用直接的方式告诉读者量化投资背后的一套完整的数据挖掘实践体系。
—— 涨晓丽,CCTV证券资讯频道《投资名家》栏目编导
★人工智能(数据挖掘)技术的发展已经给许许多多领域带来了突破性的进步,更有大师预言在绝大部分领域人工智能将超出人类智能。本书着眼于金融量化投资领域,介绍了各种数据挖掘技术、金融数据来源、应用过程,并给出了详尽实例,是量化投资研究者非常好的参考书籍。
——朱洪海,上海万得信息技术股份有限公司,量化事业部总裁
★《量化投资——数据挖掘技术与实践(MATLAB版)》是卓金武继畅 销书《MATLAB在数学建模中的应用》出版后的又一新书,本书系统地介绍了数据挖掘的理论和方法,对读者编写数据挖掘策略有很好的启发作用,使读者能快速实现实例挖掘并完成高级量化策略模型。本书是当前国内数据挖掘体系全的著作,希望能为从事投资工作的人士、在校师生提供参考和借鉴。
——张杰,深圳国泰安教育技术股份有限公司,金融机构商务事业部总经理
★卓金武编著的《量化投资——数据挖掘技术与实践(MATLAB版)》系统地介绍了数据挖掘的相关技术和应用实例,该书主线明晰、脉络分明、案例实用、易于借鉴,我向大家推荐此书。
——李洋(faruto),《量化投资:以MATLAB为工具》作者,MATLAB技术论坛联合创始人