和传统频率派数理统计类似,纯粹贝叶斯派的统计属于模型驱动的范畴,这两种统计与数据驱动或问题驱动的现代数据科学理念有不小的差距。然而,贝叶斯统计的某些思维模式对于数据科学的机器学习方法有很大的启发。除了数据科学常用的朴素贝叶斯分类和贝叶斯网络之外,在神经网络和深度学习等完全是数据驱动的实践中,到处都可以看到贝叶斯的影子。当然,这些可能不被纯粹的贝叶斯派公开认可,但的确是受到贝叶斯统计思维的影响。长期以来,在英文中,纯粹贝叶斯派方法一般用“Bayesian”作为形容词,而那些有些“离经叛道”的方法通常用“Bayes”作为形容词。现在这两者的区别已经不那么绝对。任何数学体系面对广大的应用环境,不可能也没有必要为保持其“纯洁性”而止步不前。
除了介绍贝叶斯统计的基本概念之外,本书还介绍了不同贝叶斯模型的数学背景、与贝叶斯模型对应的各种计算方法,并基于数据例子来介绍如何通过各种软件实现数据分析。本书希望对贝叶斯统计感兴趣的广大群体能够获得强有力的计算能力,以发挥他们无穷的想象力和创造力。
除了R和Python之外,本书基本上平行地使用两个贝叶斯编程的专用软件:以R为平台的Stan和以Python为平台的PyMC,它们都是人们喜爱的最新的基于MCMC和C++编译器的贝叶斯编程软件。之所以平行使用不同软件,是因为它们各有优缺点,适用于有不同编程习惯的人。当然,不同软件的使用环境不同,两个软件的应用不可能也没有必要做到百分之百重合,相信读者能够通过实践掌握它们(至少其中之一)。
本书的读者对象既包括希望了解贝叶斯统计数学概念的读者,也包括那些希望利用贝叶斯模型来做实际数据分析的读者。
展开