信阅平台

编辑推荐

1.金融领域趋势。过去几十年，金融业一直过于依赖简单的统计技术来识别数据中的模式，机器学习算法有望改变这一现状。在未来几年，机器学习将引领金融界，给金融领域带来颠覆性变化。
2.领域内经典图书。原作豆瓣评分8.9分，是机器学习算法应用于金融领域的前沿书籍，提供一系列经过验证的工具和方法，量化投资专业人士在实操中的重要参考书。
3.作者备受认可。马科斯教授集投资经理、教授、研究员三重身份于一身，拥有20多年利用机器学习算法和超级计算开发投资策略的经验。
4.真正介绍金融机器学习。量化金融领域的失败率很高，不是因为机器学习算法无效，而是因为投资者用错了机器学习。这本书将全面介绍机器学习在金融建模中的应用。
5.兼具理论和实操。提供详细的算法分析、程序代码，明确的输出结果图，以及每章练习题，既适合相关院校和培训机构拿来作为培训量化交易系统课程的教材，又可作为量化金融投资领域从业者的工具书。

展开

作者简介

美国劳伦斯·伯克利国家实验室研究员，康奈尔大学电气与计算机工程学院教授，拥有金融经济学和数学金融学双博士学位。2020年担任阿布扎比投资局（ADIA）量化研究与开发业务的全球负责人。拥有20多年利用机器学习算法和超级计算开发投资策略的经验。曾在影响因子很高的学术期刊上发表了数十篇关于机器学习算法和超级计算的科学文章。曾在美国国会就人工智能对金融领域的影响发表演讲。2019年被《投资组合管理杂志》评为“年度量化分析师”。

展开

内容介绍

这是一本将机器学习算法应用于金融建模的实战指南。过去几十年，金融业一直过于依赖简单的统计技术来识别数据中的模式，机器学习有望改变这种现状。在未来几年，机器学习算法将会给金融领域带来颠覆性变化。
《金融机器学习》这本书的作者马科斯·洛佩斯·德普拉多集投资经理、教授、研究员三重身份于一身，20多年来致力于通过普及机器学习算法和超级计算的使用，以及开发识别错误投资策略(假阳性)的统计测试，实现金融领域的现代化。在这本书中，他结合学术视角和丰富的行业经验，提供了一系列科学合理的工具和方法，解释了投资组合经理如何使用机器学习来推导、测试和使用交易策略。
《金融机器学习》这本书分为5部分。第1部分介绍了如何构造适合机器学习算法的金融数据;第2部分介绍了如何科学地应用机器学习算法研究这些数据并获得实际发现；第3部分介绍了如何回测以及评估模型错误的概率;第4部分回归到数据，解释从中提取信息特征的创新方法；第5部分介绍了高性能计算方法。书中大多数问题和解决方法都是用数学公示来解释的，并提供了代码片段和练习，具有很强的实操性，可以作为金融领域投资人士的工具书。

展开

精彩书摘

第1章作为独立学科的金融机器学习
1.1写作动机
机器学习正在彻底改变我们生活的方方面面。直到现在，依然是只有专家才能通过使用机器学习算法来完成任务。就金融领域而言，采用这样一个具有颠覆性的，并将改变人们坚持了几十年的投资方法的技术，令人尤为心潮澎湃。这本书将对我在过去20年中使用的可靠的机器学习工具进行科学解释，而这些工具也帮助我为那些需求最复杂的机构投资者管理了大规模的基金。
有关投资的书大多分为两类。一类书的作者用极其简化的数学方式描述了在现实中不存在的情况，对其阐述的东西并没有实践过。只是因为在逻辑上是正确的原理，不一定意味着在现实世界中就能行得通。另一类书的作者提供的解释缺乏逻辑严密的学术理论的支撑，不能使用正确的数学工具来解释实际观察，他们的模型在实现时就会出现过拟合并失败的结果。学术性的调研和报告与金融市场的实际应用脱节，很多交易或投资领域中的应用也不以正确的科学方法为基础。
创作本书的第一个动机是想要跨越学术界与产业界之间众所周知的鸿沟。我曾经在这两个领域都工作过，明白跨越的难度和只坚持一方观点的轻易。二者之间的平衡是一种美德。本书不会仅仅因为数学之美而鼓吹某个原理，也不会仅仅因为某个方案似乎可行就进行推荐。我的目标是传授那些来源于经验，并通过严格推导所形成的知识。
第二个动机是希望让金融服务于某个目标。在过去几年，我在一些学术报刊上发表的文章表达了我对金融在社会生活中扮演的角色的失望。投资者听信了那些源自江湖骗子，又被大众媒体鼓吹的假消息，拿自己的财富进行赌博。在不久的将来，机器学习将引领金融界，科学将战胜猜测，投资将不再是赌博。我真诚希望我的读者能参与到这场革命中来。
第三个动机源于很多投资者无法理解机器学习在投资应用中的复杂性。这一点在那些拥有完全支配权的投资公司向“量化”投资领域转型时尤为突出。我担心他们的高预期很难达到，不是因为机器学习失效了，而是因为他们用错了机器学习。在未来几年，很多公司可能会利用来自学术机构或者硅谷的现成的机器学习算法进行投资，我预测他们将赔钱（相对于更好的机器学习解决方案而言）。战胜群众的智慧比识别人脸或者驾驶汽车难得多。通过本书，我希望你能学会如何应对一些挑战，这些挑战使得金融成为机器学习算法难以攻克的领域，比如回测的过拟合问题。金融机器学习已成为一门学科，与标准机器学习既有关联又有区别，本书将为你全面介绍金融机器学习。
1.2金融机器学习失败的主要原因
量化金融领域的失败率很高，其中的金融机器学习更是如此。只有极少数成功的机构积累了大笔的资产，并持续为它们的投资者提供超乎寻常的业绩回报。在过去的20年中，我已经见识了太多人进来又出去，一个个公司起来又倒下。从我个人的经验看，那些失败案例都犯了同一个致命错误。
1.2.1西西弗斯范式
全权委托投资组合管理人做投资决策时，不会遵循一个特别的定律或基本原则（如果有的话，那就是普通管理人）。他们获取原始信息并进行分析，不过主要还是依赖他们自己的判断或直觉。他们为这些决策找的借口是基于一些故事，但每一个决策都是一个故事。因为没人能完全理解他们投注背后的逻辑，投资公司让他们各自独立工作，以保证多元化投资。如果你曾经参加过全权委托投资组合管理人的会议，很可能已注意到了他们的会议冗长并且缺乏目标导向。参会人各执一词，巨大的分歧在没有实证的情况下被忽视。当然，这并不意味着全权委托投资组合管理人不可能成功。相反，有些确实成功了。问题在于，他们天然地不能进行团队工作：叫来50名全权委托投资组合管理人，他们的观点会互相影响，最终结果是老板不得不付50个人的工资，而他们完成的却是一个人的工作。因此，让他们独立工作，尽可能减少他们之间的互相影响，是非常合理的。
不管在哪里，很多公司采用全权委托投资组合管理人模式去做量化或机器学习的项目，最终结果都很糟糕。董事会的心态是，全权委托投资组合管理人都在用这种方式，那我们就用这种模式做量化吧。雇用50个博士，要求他们每人在6个月内制定一套投资策略。这个方法往往事与愿违，因为每个博士都会疯狂地寻找投资机会，结果通常是：（1）拥有亮丽回测结果的过拟合；（2）标准的因子投资，一种低夏普比率（SR）的过饱和投资，但至少有理论支撑。这两种结果都会让投资委员会失望，致使项目最终被取消。即使有5个博士发现了有效的投资策略，5个人的收益也无法支付50个博士的费用，因此这5个博士也要另谋高就。这就是所谓的让每个员工日复一日搬石头上山的西西弗斯（Sisyphus）范式，这种范式的投入产出比极低。
1.2.2元策略范式
如果你被要求自行制定一套机器学习策略，成功的概率是极其低的。制定一套真正的投资策略所付出的努力完全不亚于制定100套投资策略所付出的努力，而且复杂度是超乎想象的：数据策划、处理、高性能计算架构、软件开发、特征分析、执行模拟、回测等。即使公司在这些领域提供了共享服务，你的处境也如同宝马公司的一个工人被要求利用身处的车间单独造出一辆完整的汽车一样困难。你必须在一星期内是一个高级的焊工，另一星期又必须成为一个电工，下一星期又需要成为一个机械工程师，然后是油漆工……你不得不不断尝试，失败，然后又回到焊工。这种感觉如何？
我所了解的每个成功的量化公司都使用了元策略（Meta Strategy）范式［López de Prado（2014）］。因此，本书是为团队而非个人编写的研究手册。通过本书各个章节，你将学到如何设立一个研究工厂以及装配线上的各种岗位。每个数据分析师的角色应专注于特定的任务，成为该任务的最佳人选，但同时也应该对整个过程有个全局的视野。本书概括了工厂计划，其中团队以可预测的速度产生新的发现，并且不依赖于运气。这也是美国劳伦斯·伯克利国家实验室以及其他美国国家实验室在科学研究中常用的方法，比如在元素周期表上新增16种元素，或者进行磁共振成像（MRI）以及正电子发射断层扫描（PET）的基础研究。因为新发现是团队共同努力的结果，团队中的个体都有所贡献，所以没有一个特定的个人需要为整个研究负责。当然，设立这样的金融实验室需要很多时间，也需要了解自己所从事的工作以及有经验的从业者。但是，你认为哪个成功的机会更大呢？是这个已得到证明的组织协作范式，还是单打独斗的西西弗斯范式——让每个量化分析师将他们手中的巨石推上山顶？
1.3本书的结构
本书将一堆互相关联的主题打乱，并重新组织成了一个有序的结构。每个章节都假设读者已经阅读了之前章节的内容。第1部分将帮助读者结构化金融数据以适合机器学习算法。第2部分讨论利用数据来进行机器学习算法研究。这一部分的重点是做研究，如何通过科学过程得出实际发现，而不是没有目标地进行研究直至某些（很可能是错误的）偶然结果出现。第3部分解释如何回测以检验发现成果，并评估错误率。
这3个部分提供了一个完整过程的综述，从数据分析、模型研究到发现评估。基于以上知识，第4部分回到数据本身并给出了新颖的方式来提取信息特征。最后，因为所有这些工作都需要强大的计算能力，所以第5部分将给出一些有效的高性能计算方法。
1.4目标读者
本书介绍的高级机器学习方法是为应对由金融数据集带来的挑战专门设计的。所谓的“高级”并不是指特别难以理解，或解释zui新的深度、周期或卷积神经网络。相反，本书旨在回答高级研究人员认为比较关键的问题，这些研究人员具有将机器学习算法应用到金融问题中的实际经验。如果你刚接触机器学习算法，并没有复杂算法的使用经验，那本书可能并不适合你。除非你曾经在实际中处理过书中谈到的问题，否则要理解这些解决问题的工具可能有一定困难。在读本书前，你可能需要学习近些年出版的优秀的机器学习入门书籍，我在“引用文献”部分列了一些。
本书的核心读者是具有深厚机器学习背景的专业投资人士。我的目标是让你把从本书中学到的知识“变现”，帮助我们推进金融现代化进程，并为投资者真正创造价值。
那些成功将机器学习算法应用到金融以外的领域的数据科学家也是本书的目标群体。如果你在谷歌工作，并且已将深度神经网络算法应用到人脸识别中，但是将该算法用在金融领域中似乎并不奏效，那么本书将会帮到你。有时，你可能无法理解某些结构背后的基本金融原理（如元标签、三边界方法、分数阶微分），但是请稍微忍忍：一旦你管理一个投资组合的时间足够长，就会慢慢读懂这些章节，其中的游戏规则也将会变得很清晰。
1.5 阅读前提
和这本书所反映的一样，投资管理是一个涉及多学科的研究领域。理解书中各章节内容需要一定的实践知识，包括机器学习、市场微观结构、投资组合管理、数学金融、统计学、计量经济学、线性代数、凸优化、离散数学、信号处理、信息论、面向对象编程、并行处理和超级计算等。
Python已经成为机器学习的业界标准语言，而我假设你是一位经验丰富的开发者，那你应该熟悉scikitlearn（sklearn）、pandas、numpy、scipy、multiprocessing、matplotlib，以及一些其他的Python库。代码片段一般使用这些库的常规前缀来调用函数，其中，pd表示pandas，np表示numpy，mpl表示matplotlib，等等。介绍这些库的书籍很多，但是你不可能对每一个库的内容都了如指掌。我们将在本书中讨论这些库在实现中的一些问题，也包括那些尚未解决的漏洞。

展开

第1章作为独立学科的金融机器学习

第1部分数据分析
第2章金融数据结构
第3章标签
第4章样本权重
第5章分数微分特征

第2部分模型
第6章集成方法
第7章交叉验证在金融领域的应用
第8章特征重要性
第9章利用交叉验证进行超参数调优

第3部分回测
第10章投注大小
第11章回测的风险
第12章通过交叉验证进行回测
第13章合成数据的回测
第14章回测统计量
第15章理解策略风险
第16章基于机器学习的资产配置方法

第4部分有用的金融特征
第17章结构突变
第18章熵特征
第19章微观结构特征
第5部分高性能计算方法
第20章多进程和矢量化
第21章蛮力搜索和量子计算机
第22章高性能计算智能与预测技术

致谢

展开