搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
机器学习中的统计思维(附小册子Python实现)
0.00     定价 ¥ 99.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购24本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302634010
  • 作      者:
    编者:董平|责编:杨迪娜
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2023-09-01
收藏
编辑推荐

本书从统计学的角度来理解机器学习模型的本质。

展开
作者简介

董平(博士),上海对外经贸大学统计与信息学院讲师。曾获概率论与数理统计理学博士学位(山东大学2018)、 理学学士学位和经济学学士学位(山东大学2012);美国迈阿密大学访问学者。主要研究领域为高维数据、假设检验、半监督回归、统计机器学习等。参与多项科研项目和工程类项目,主持多项校级课程建设项目,曾获第三届上海市高校教师教学创新大赛二等奖。


展开
内容介绍
机器学习是人工智能的核心,而统计思维则是机器学习方法的核心:从随机性中寻找规律性。例如,利用方差对不确定性的捕捉构造k维树,采用贝叶斯公式构建分类决策模型,等等。只有树立正确的统计思维,才能准确高效地运用机器学习方法开展数据处理与分析。本书以统计思维的视角,揭示监督学习中回归和分类模型的核心思想,帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。 本书共12章,绪论介绍贯穿本书的两大思维模式,以及关于全书的阅读指南;第1章介绍一些基本术语,并给出监督学习的流程;第2章介绍关于回归问题的机器学习方法;第3~9章介绍关于分类问题的机器学习方法;第10章介绍可应用于具有隐变量模型的参数学习算法——EM算法;第11章简单介绍集成学习,并重点阐述其中的提升(Boosting)方法。为满足个性化学习需求的不同需求,本书从核心思想、方法流程及实际案例应用等不同角度,详细描述各种方法的原理和实用价值,非常适合数据科学、机器学习专业的本科生和研究生学习,也可供相关从业者参考。
展开
目录


目录



绪论1 


01本书讲什么,初衷是什么 1 


02贯穿本书的两大思维模式 3 


021提问的思维方式  3 


022发散的思维方式  4 


03这本书决定它还想要这样 5 


031第一性原理  5 


032奥卡姆剃刀原理  7 


04如何使用本书  8


第 1章步入监督学习之旅 11 


11机器学习从数据开始  11 


12监督学习是什么  14 


121基本术语  16 


122学习过程如同一场科学推理 17 


13如何评价模型的好坏  21 


131评价模型的量化指标 21 


132拟合能力  24 


133泛化能力  24 


14损失最小化思想  25 


15怎样理解模型的性能:方差-偏差折中思想  27 


16如何选择最优模型 28 


161正则化:对模型复杂程度加以惩罚 28 


162交叉验证:样本的多次重复利用  30 


17本章小结  31 


18习题 31


第 2章线性回归模型 33 


21探寻线性回归模型 33 


211诺贝尔奖中的线性回归模型 33 


212回归模型的诞生  34 


213线性回归模型结构  38 


22最小二乘法 39 


221回归模型用哪种损失:平方损失  40 




机器学习中的统计思维 (Python实现) 

222如何估计模型参数:最小二乘法  41 


23线性回归模型的预测  44 


231一元线性回归模型的预测  44 


232多元线性回归模型的预测  48 


24拓展部分:岭回归与套索回归  49 


241岭回归 50 


242套索回归  51 


25案例分析——共享单车数据集  53 


26本章小结  56 


27习题 57



第 3章 K近邻模型 59 


31邻友思想  59 


32 K近邻算法 60 


321聚合思想  60 


322 K近邻模型的具体算法 61 


323 K近邻算法的三要素  63 


324 K近邻算法的可视化  67 


33最近邻分类器的误差率  67 


34 k维树 70 


341 k维树的构建  70 


342 k维树的搜索  73 


35拓展部分:距离度量学习的 K近邻分类器  76 


36案例分析——莺尾花数据集  79 


37本章小结  83 


38习题 83



第 4章贝叶斯推断 85 


41贝叶斯思想 85 


411什么是概率  86 


412从概率到条件概率  91 


413贝叶斯定理  93 


42贝叶斯分类器  97 


421贝叶斯分类  97 


422朴素贝叶斯分类  98 


43如何训练贝叶斯分类器 103 


431极大似然估计:概率最大化思想 104 


432贝叶斯估计:贝叶斯思想 111 


44常用的朴素贝叶斯分类器115 


441离散属性变量下的朴素贝叶斯分类器 115 


442连续特征变量下的朴素贝叶斯分类器 115 


45拓展部分 116 


451半朴素贝叶斯116 



目录 



452贝叶斯网络 119 


46案例分析——蘑菇数据集 122 


47本章小结 124 


48习题124 


49阅读时间:贝叶斯思想的起源 125


第 5章逻辑回归模型  131 


51一切始于逻辑函数131 


511逻辑函数 131 


512逻辑斯谛分布133 


513逻辑回归 134 


52逻辑回归模型的学习 136 


521加权最小二乘法 136 


522极大似然法 139 


53逻辑回归模型的学习算法141 


531梯度下降法 141 


532牛顿法143 


54拓展部分 144 


541拓展 1:多分类逻辑回归模型 144 


542拓展 2:非线性逻辑回归模型 147 


55案例分析——离职数据集 147 


56本章小结 149 


57习题150 


58阅读时间:牛顿法是牛顿提出的吗 150


第 6章最大熵模型  153 


61问世间熵为何物 153 


611热力学熵 153 


612信息熵155 


62最大熵思想156 


621离散随机变量的分布156 


622连续随机变量的分布160 


63最大熵模型的学习问题 163 


631最大熵模型的定义 163 


632最大熵模型的原始问题与对偶问题167 


633最大熵模型的学习 169 


64模型学习的最优化算法 173 


641最速梯度下降法 177 


642拟牛顿法:DFP算法和 BFGS算法 178 


643改进的迭代尺度法 179 


65案例分析——汤圆小例子 183 


66本章小结 185 


67习题186 





机器学习中的统计思维 (Python实现) 

68阅读时间:奇妙的对数 187



第 7章决策树模型  191 


71决策树中蕴含的基本思想191 


711什么是决策树191 


712决策树的基本思想 195 


72决策树的特征选择195 


721错分类误差 195 


722基于熵的信息增益和信息增益比 196 


723基尼不纯度 199 


724比较错分类误差、信息熵和基尼不纯度 201 


73决策树的生成算法201 


731 ID3算法202 


732 C45算法 205 


733 CART算法205 


74决策树的剪枝过程211 


741预剪枝211 


742后剪枝213 


75拓展部分:随机森林 223 


76案例分析——帕尔默企鹅数据集 223 


77本章小结 226 


78习题226 


79阅读时间:经济学中的基尼指数227



第 8章感知机模型  231 


81感知机制——从逻辑回归到感知机 231 


82感知机的学习 233 


83感知机的优化算法234 


831原始形式算法235 


832对偶形式算法239 


84案例分析——莺尾花数据集 241 


85本章小结 243 


86习题243



第 9章支持向量机  245 


91从感知机到支持向量机 245 


92线性可分支持向量机 248 


921线性可分支持向量机与最大间隔算法 248 


922对偶问题与硬间隔算法 254 


93线性支持向量机 258 


931线性支持向量机的学习问题259 


932对偶问题与软间隔算法 260 


933线性支持向量机之合页损失263 


94非线性支持向量机265 



目录 



941核变换的根本——核函数 266 


942非线性可分支持向量机 277 


943非线性支持向量机 278 


95 SMO优化方法 279 


951“失败的”坐标下降法 279 


952“成功的”SMO算法280 


96案例分析——电离层数据集 287 


97本章小结 288 


98习题289


第 10章 EM算法  291 


101极大似然法与 EM算法 291 


1011具有缺失数据的豆花小例子291 


1012具有隐变量的硬币盲盒例子295 


102 EM算法的迭代过程298 


1021 EM算法中的两部曲 298 


1022 EM算法的合理性 302 


103 EM算法的应用 305 


1031高斯混合模型305 


1032隐马尔可夫模型 309 


104本章小结 316 


105习题 317


第 11章提升方法 319 


111提升方法(Boosting)是一种集成学习方法319 


1111什么是集成学习 319 


1112强可学习与弱可学习321 


112起步于 AdaBoost算法 323 


1121两大内核:前向回归和可加模型 323 


1122 AdaBoost的前向分步算法324 


1123 AdaBoost分类算法 326 


1124 AdaBoost分类算法的训练误差 333 


113提升树和 GBDT算法 339 


1131回归提升树 339 


1132 GDBT算法 342 


114拓展部分:XGBoost算法344 


115案例分析——波士顿房价数据集 346 


116本章小结 347 


117习题 348


参考文献  349 






展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证