搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据挖掘中的集成方法:通过集成预测来提升精度:improving accuracy through combining predictions
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787030443274
  • 作      者:
    (美)Giovanni Seni,(美)John Elder著
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2015
收藏
作者简介
  Giovanni Seni,Seni是Elder Research公司的资深科学家,负责该公司的西部办公室。作为硅谷活跃的数据挖掘领域的践行者,他在统计模式识别、数据挖掘及人机交互应用领域具有逾1 5年的研发经历。他既是大企业的技术人员,又是一些小规模企业的贡献者。他拥有五项美国专利,发表了20余篇学术论文。
  Seni是圣塔克拉拉大学计算机工程系兼职教师,教授“模式识别与数据挖掘导论”课程。
  他于1989年在洛斯安第斯大学(波哥大,哥伦比亚)获得计算机工程学士学位,1995年在纽约州立大学布法罗分校获得计算机博士学位,是该校富布莱特学者。他还在斯坦福大学统计系获得数据挖掘及应用证书。
  
  John Elder,Elder博士就职于Charlottesville,Virginia,Washington DC和Mountain View,California的数据挖掘咨询组。艾德研究公司成立于1995年,聚焦于联邦、商业、投资、安全领域的高级分析,包括文本挖掘、股票选择、图像识别、生物信息学、过程优化、交叉销售、药物功效、信用评分、风险管理和赝伪检测。ERI公司已成为最大、最有经验的数据挖掘咨询企业。
  Elder于莱斯大学获得电气工程学士学位和电子电气硕士学位,在弗吉尼亚大学获得系统工程专业博士学位,他是该校数据挖掘课程的兼职教授。在赴ERI的前15年,他在航空国防咨询界工作了5年,在一家投资管理公司任职4年,在莱斯大学计算与应用数学系任职2年。
  Elder博士开发了创新性的数据挖掘工具,他本人是一位著名的特约报告人,也是在巴黎召开的“2009 Knowledge Discovery and Data Mining”会议的共同主席。他在许多大学、公司和政府实验室教授的分析技术课程以明晰性和有效性著称。Elder在一个由总统任命的委员会服务了5年——为国家安全作技术指导。他与Bob Nisbet、Gary Miner合著的面向实际工作者的获奖书籍——《统计分析与数据控据应用手册》于2009年5月出版。
展开
内容介绍
  《数据挖掘中的集成方法:通过集成预测来提升精度》讨论基于决策树的集成,分析被视为当前现代集成算法高级性能的主要原因之一的正则化问题,描述集成方法领域近年来的两个发展——重要性采样(IS)和规则集成(RE),论述新数据信息集成在复杂性和更高精度方面的悖论等重要命题。《数据挖掘中的集成方法:通过集成预测来提升精度》面向前沿、文字简练、论述充分、可读性好。
展开
精彩书摘
  《数据挖掘中的集成方法:通过集成预测来提升精度》:
  第1章 集成发现
  And in a multitude of counselors there is safety Proverbs24:6b
  从数据中归纳模型,可找到大量经典方法,而且其处理能力各具特色,流行算法的精度依赖所处理问题的细节,如图1.1所示(Elder和Lee(1997)),该图揭示了五种算法用于六个公共领域问题的样本外相对误差,总体来说,神经网络模型对这些问题表现最优,但需指出,每种算法都在六个数据集中的至少两个上表现最优或次优。图1.1五种算法用于六个公共领域问题的非样本外相对误差(基于Elder和Lee(1997))
  对于给定问题哪种算法表现优异?Michie等(1994)对该问题展开了研究,他们开展了与前述问题相似但更多的工作——23种算法用于22个数据集,并且基于给定的数据集性能构建决策树来预测最优算法,虽然该研究侧重于树——在23个算法中占9个,而且几个数据集对树易产生不可控阈值但仍然为算法选择提供了有益指导。然而,还有一种提高模型精度的方式比选择单一模型更容易且效果更显著:将诸模型集成,图1.2展示了图1.1中模型以四种不同方式集成的非样本精度,这些集成方式包括平均法,投票法和顾问感知器(Elder和Lee,1997),对于每个问题,顾问感知器集成技术都优于简单的平均法,而与集成和单一模型相比,其差别很小,这里每种集成方法都比单一算法更有效。图1.2四种集成方法在图1.1问题上的非样本相对误差(基于Elder和Lee(1997))
  这一现象被少数人分别同时发现,他们应用决策树(Ho,Hull和Srihari,1990),神经网络(Hansen和Salamon,1990)或数学理论(Kleinberg,1990)来改善分类,最具影响的早期发展是Breiman(1996)的Bagging,Freund和Shapire(1996)的AdaBoost,这些将在第4章予以描述。在努力从回声定位信号特征中预测蝙蝠分类时我们偶然见识了集成(当时称为“模型融合”或“捆拢”)的威力(Elder,1996b),用几个非常不同的算法,如决策树,神经网络,多项式网络和最近邻(见Nisbet等(2009)对算法的描述)中的每一个都建立了最优模型,这些方法使用不同的基函数和训练程序,使它们具有不同的表现形式(图1.3),还常产生意想不到的不同预测向量(即使在集成性能非常相似时)。图1.3五种建模算法的估计表面实例
  该计划是只用蝙蝠的叫声来非侵害性地对其物种分类,伊利诺伊大学香槟分校(UIUC)的生物学家捕捉了19只蝙蝠,将其分别标注为6个物种之一,然后记录了98个信号,UIUC的工程师从信号中计算出35个时频特征,图1.4例证了数据的二维投影,其中每一类都由一个不同颜色和符号表征,数据展示了有用的聚类,但也有大量的(类别)重叠待处理。图1.4六类不同蝙蝠物种的信号样本投影
  每个蝙蝠有3~8种信号,我们意识到源于特定蝙蝠的信号集都须放在一起(在训练集中或在评价集中)以公平地测试模型对未知蝙蝠所属物种的预测能力,即任何具有评价数据中一种信号的蝙蝠不得有在训练数据中的信号,因此,对一种模型类别性能的评价由建立和交叉检验19种模型以及积累样本外结果(一种遗漏一只蝙蝠(作为测试样本)的方法)构成。关于评价,基准精度(通常选择相对多的数量)为27%,决策树的精度为46%,一种分析选择分支前看两步的树的改进算法(Elder,1996b)精度为58%,多项式网络的精度则为64%,最先尝试的神经网络只有52%,然而,不同于其他方法,神经网络不选择变量:当输入被剪枝至一半以减少冗余及共线性时,神经网络的精度提高到63%,当输入进一步被剪枝到只剩树所用的8个变量时,样本外精度提高到69%,(如第3章所描述,该结果是为避免过拟合而需要正则化的一个清楚例证,)最后,采用同样八维变量的最近邻(法),其精度和神经网络一样,都为69%。虽然最好的两种模型——神经网络与最近邻总体得分相同,但是它们在1/3时间上不同;也就是说,它们在非常不同的数据区域出错,我们观测到,两种方法中越肯定的结论正确率越高(对于一给定类,其估计值为0~1,估计值越靠近极值通常越正确),因此,我们尝试一并平均这些方法中的四种(两步决策树,多项式网络,神经网络,最近邻)估计值,得到74%的精度,这是所有里面最好的,每种算法的进一步改进(例如,何时要因为输入明显越界于算法训练域而忽略估计值)导致结果提高到80%,简言之,人们发现应用多种算法的估计值而突破单个算法的渐近性能上限是可能的,下面介绍什么是所要认知的集成。
  ……
展开
目录
译者序
原书序一
原书序二
摘要
第1章 集成发现
1.1 建立集成
1.2 正则化
1.3 现实世界中的实例:信用评分+网飞挑战
1.4 本书的组织架构

第2章 预测学习和决策树
2.1 决策树归纳纵览
2.2 决策树的性能
2.3 决策树的缺陷

第3章 模型复杂度?模型选择和正则化
3.1 什么是树的“合适”规模
3.2 偏差-方差分解
3.3 正则化
3.3.1 正则化与成本-复杂度树修剪
3.3.2 交叉验证
3.3.3 运用收缩的正则化
3.3.4 通过构建增量模型的正则化
3.3.5 实例
3.3.6 正则化综述

第4章 重要性采样和经典集成方法
4.1 重要性采样
4.1.1 参数重要性测度
4.1.2 扰动采样
4.2 泛化集成生成
4.3 Bagging
4.3.1 实例
4.3.2 为什么Bagging有用
4.4 随机森林
4.5 AdaBoost
4.5.1 实例
4.5.2 为什么使用指数损失
4.5.3 AdaBoost的总体最小值
4.6 梯度Boosting
4.7 MART
4.8 并行集成与顺序集成的比较

第5章 规则集成和解释统计
5.1 规则集成
5.2 解释
5.2.1 仿真数据实例
5.2.2 变量重要性
5.2.3 偏相关
5.2.4 交互统计
5.3 制造业数据实例
5.4 总结

第6章 集成复杂性
6.1 复杂性
6.2 广义自由度
6.3 实例:带有噪声的决策树表面
6.4 广义自由度的R代码和实例
6.5 总结与讨论
参考文献

附录A AdaBoost与FSF程序的等价性
附录B 梯度Boosting和鲁棒损失函数
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证