搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
云时代的流式大数据挖掘服务平台:基于元建模的视角
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787030453891
  • 作      者:
    朱小栋著
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2015
收藏
内容介绍
在云时代,大数据蕴涵的知识和规律为人类社会创造了前所未有的重大价值。流式大数据挖掘平台是实施流式大数据挖掘的软件服务平台,是处理流式大数据的数据挖掘系统。构建智能、高效和快速流式大数据挖掘平台,满足人们对数据的高吞吐低延迟、计算程序的动态扩展、知识的共享交换与集成的要求,是当前大数据研究的迫切要求和焦点之一。《云时代的流式大数据挖掘服务平台:基于元建模的视角》内容分两篇:第一篇是理论篇,运用形式化方法提出“元”理念和“元”理论,进而提出面向流式大数据挖掘平台的元数据和元建模的概念。同时,提出预测模型标记语言的扩展理论,该理论所设计的扩展预测模型标记语言可以应用于流式大数据挖掘平台。
第二篇是建模篇,围绕流式大数据挖掘服务平台,提出流式大数据挖掘服务平台的数据管理理论和算法管理理论。《云时代的流式大数据挖掘服务平台:基于元建模的视角》应用多种形式化方法,从理论高度回答了流式大数据和流式大数据挖掘的本质是什么的问题。
展开
精彩书摘
第一篇理论篇
第1章绪论
我们获得的知识越多,未知的知识就会更多,因而,知识的扩充永无止境?
——统计学家Rao
21世纪的第二个十年,物联网技术、移动互联网技术、社交媒体技术、电子商务技术和云计算技术等新兴信息技术和应用模式快速发展壮大,伴随而来的是全球数据量急剧增加,推动人类社会迈入大数据时代?
1.1大数据的概念
查阅维基百科①,可以找到大数据的概念:大数据,或称巨量数据、海量数据,是指在可接受的容忍时间之内,大小超出常用的理论、方法、技术、软件工具、数据库管理软件等捕获、存储、处理数据能力的数据?
1.1.1大数据的特征
大数据呈现的特征如下:
1)数量大(volume)
大数据到底有多大?在计算机科学与技术领域,bk是最小的数据存储单位,用于存放一位二进制数0或者1?通常,以字节(byte,B)作为数据基本单位:1B=8bit?对数据大小的描述经历了B、KB(kilobyte)MB(megabyte)GB(gigabyte)TB(terabyte)PB(petabyte)EB(exabyte)ZB(zettabyte)、YB(yottabyte)    的发展过程?按照进率2^1024来计算:
2009年左右,500G的硬盘是很好的个人计算机(personalcomputer,PC)配置?2012年,普通PC的硬盘可以达到1TB级别?然而,当数据上升到1PB的时候,则需要1024块1TB的硬盘?数据量还将以每两年3倍的速度增加,这一速度超过了摩尔定律的增长速度[1]??这样的数据量过于庞大,以至于不能用传统工具存储?成熟的分布式技术计算机网络技术成为解决流式大数据存储和分析的基础技术?
2)速度快(velocity)
一方面,大数据表现为产生速度快传播速度快,呈现鲜明的流式特征?另一方面,在处理流式大数据时,要求数据及时快速地得到处理,故而对数据的处理分析能力提出更高的要求?
3)多样性(variety)
数据种类繁多,结构化半结构化非结构化的数据并存?即便是结构化的数据,也呈现异构的现象?例如,关系表数据可以用OracleMicrosoftIBM等不同公司的数据库管理软件存储,也可以用XML等标记语言标记?同时,半结构化非结构化的数据所占的比例不断增加?
4)价值大(value)
当数据规模达到一定的程度时,大数据中隐含的知识规律的价值凸显出来,有必要采取有效的数据挖掘技术,找出这些知识规律,推动企业和社会的进步?谷歌亚马逊和脸书这三家互联网巨头积累了大规模的数据资产,谷歌为全世界的公开网页建立了庞大的索引;亚马逊沉淀了大量的商业信息,拥有互联网上庞大的商品数据库;脸书积累了全世界庞大的人际关系数据库?这些数据的商业价值巨大?
1.1.2大数据的分类
从数据的流式特征强弱角度,大数据可以分为批量大数据和流式大数据两种形态?大数据计算主要有批量计算和流式计算两种形态[2_5]?
①摩尔定律,由英特尔公司创始人之一Moore提出,其内容是:当价格不变时,集成电路上可容纳的元器件的数目,大约每隔18?24个月便会增加一倍,性能也将提升一倍?换言之,每一美元所能买到的计算机性能将每隔18?24个月翻一倍以上?这一定律揭示了信息技术进步的速度,可用于观测或推测,而不是一个自然法则?
1)批量大数据
批量大数据不强调大数据的流式特征,而强调其巨量的特征?
加利福尼亚大学尔湾分校的KDD(knowledgediscoveryindatabase)数据档案库,存放了许多公开的经典的数据集,这些数据集可以供全世界的学者研究使用,也用于国际知识发现与数据挖掘竞赛(KDD-CUP)①?例如,KDD-CUP1999的数据集,实例数达到4000000以上,
数据量达到1GB级别?在1999年,这个数据集是大量的,以当时的PC配置,需要进行批量处理?
得益于Hadoop架构高效地优化了批处理计算,谷歌的MapReduce编程模型开源Hadoop分布式计算系统为批量大数据计算提供了高效稳定的技术支持[2,6,7]?
2)流式大数据
在许多应用领域,如传感器网络互联网的访问计算机网络监控金融市场和电话数据管理等产生大量高速实时的数据流?传统的数据挖掘技术不能适应这种新的数据形式,而且对流式大数据流进行数据挖掘已成为这些领域的迫切需要?流式大数据挖掘可应用于估计传感器网络中丢失的数据[8]评估互联网数据包的频繁模式[9]监视制造业数据流[叫以及发现数据流中的异常事件[11]等,基于Web日志数据流关联规则挖掘可以预测失效或者产生错误报告[12,13],数据流上的分类分析可以应用到网络入侵检测信用卡欺诈检测和Web网页分类等领域[14]?
孙大为等在文献[2]中综述了典型应用领域,如金融银行业互联网领域和物联网领域流式大数据所呈现的实时性易失性突发性无序性和无限性等特征?
1.1.3大数据挖掘的应用示例
大数据的应用示例包括社交网络大规模电子商务物联网天文学生物学基因工程金融环境科学军事侦察信息安全多媒体处理人脸识别和车牌识别等?可以说,随着时代的发展,每个领域都有与之相关的大数据挖掘问题?
1)社交网络
Web2.0技术使人们在互联网上有了交互,由被动接受互联网信息变为主动改变互联网信息?社交网络的实例很多,包括博客简易信息聚合(reallysimplesyndication,RSS)在线百科团购微博和微信等?
每一位网民每天都可以通过这种自媒体传播信息或者沟通交流,其产生的信息被网络记录下来,所以社交网络所产生的数据是异常庞大的?据统计,互联网
①UCIrvine.Machinelearningrepository.http://archive.ics.uci.edu/ml.
75%的数据来源于个人,主要以图片音视频形式存在?在大规模社交网络数据上开展数据挖掘是有意义的,如社会学家可以在这些庞大的数据基础上分析人类的行为模式交往方式等?
2)大规模电子商务
互联网的不断发展使得世界市场二分化为传统实体市场和互联网虚拟市场?电子商务是在互联网虚拟市场所进行的交易活动,近20年,电子商务技术从萌芽到快速崛起,发展速度惊人?以中国电子商务发展为例,“双十一”在中国已不仅仅是单身节的代名词,近年来,阿里巴巴集团领军的电子商务巨头将“双十一”打造成了网购狂欢节的代名词?以2014年11月11日为例,阿里巴巴集团数据中心数据显示,当日天猫“双十一”总交易额突破571亿元?表1.1给出了近两年阿里巴巴集团天猫“双十一”电子商务交易额数据?
表1.1天猫“双十电子商务交易额数据
时间2014年2013年
每分钟支付成功的峰值/万笔7920
总交易额/亿元571362
无线终端交易额/亿元24353.5
物流订单量/亿元2.781.67
同比上一年涨幅/%57.783
当大规模电子商务出现的时候,与电子商务相关的大数据蕴涵着丰富的知识?在淘宝网京东商城中,“万份好评”的商品已不足为奇?对用户评论进行批量大数据分析挖掘,可以找出许多有价值的规律?例如,在B2C网站上,用户作出评论后,商家针对用户评论会给出回复,这样的回复对用户再次购买行为会产生多大的影响?只有在大量的用户评论数据基础上,才能找出答案?
3)物联网
在物联网环境里,各个离散的传感器产生大量数据,这些数据记录了传感器所感知的位置环境时间和行为信息?通过传感器网络将各自分散的数据传送到服务器端,形成大量的密集的实时的有噪声的快速流式的数据?
城市人口的增长城市家庭轿车的普及,使得城市交通面临拥挤堵塞的难题?然而,许多城市通过物联网技术来缓解城市的交通拥挤问题?以上海市为例,快速路的智能交通网络非常发达,城市快速路路面的传感器线圈图像采集设备实时采集交通信息,并传回上海城市快速路监控中心?中心通过算法程序可以进行路网分段的自动发布,也可以进行人工发布?发布的信息可以通过GRIP显示,
展开
目录


前言
注释表
第一篇理论篇
第1章绪论3
1.1大数据的概念3
1.1.1大数据的特征3
1.1.2大数据的分类4
1.1.3大数据挖掘的应用示例5
1.2本书背景7
1.2.1流式大数据挖掘的过程7
1.2.2构建流式大数据挖掘服务平台需求分析10
1.3国内外相关研究进展12
1.3.1流式大数据挖掘技术的发展12
1.3.2流式大数据挖掘服务平台的历史发展和现状14
1.4全书组织结构15
第2章云计算与云环境17
2.1云计算的概念17
2.2云计算的层次18
2.3云计算服务的发展现状20
2.4云环境下的流式大数据采集方法25
第3章元理论28
3.1元的概念28
3.2元数据29
3.2.1数据仓库领域的元数据29
3.2.2情报学领域的元数据29
3.2.3面向对象程序设计领域的元数据29
3.2.4流式大数据挖掘服务平台的元数据和元建模29
3.2.5OMG元数据体系结构30
3.2.6数据挖掘元数据和元模型的研宄现状32
3.3元建模视角下的流式大数据挖掘服务平台构建思路33
第4章预测模型标记语言的扩展理论35
4.1预测模型标记语言35
4.1.1面向数据挖掘的PMML35
4.1.2PMML的缺陷37
4.2语义Web的逻辑学基础39
4.2.1语义Web39
4.2.2描述逻辑家族42
4.2.3基于描述逻辑设计EPMML的理念44
4.3描述逻辑DL4PMML44
4.4扩展预测模型标记语言45
4.4.1EPMML元类46
4.4.2EPMML复杂元类46
4.4.3EPMML属性47
4.4.4EPMML个体48
4.4.5EPMML属性约束48
4.4.6EPMML辅助语言元素49
4.5EPMML与OWL的比较50
4.6本章小结50
第二篇建模篇
第5章基于EPMML的流式大数据挖掘服务平台元数据分析与验证55
5.1流式大数据挖掘服务平台元数据55
5.2基于EPMML的知识表示57
5.3基于EPMML的知识推理62
5.3.1DL4PMML的推理复杂性63
5.3.2EPMML元数据一致性检测框架64
5.4知识推理和一致性检测示例65
5.4.1语义—致性示例65
5.4.2冲突检测示例65
5.5本章小结67
第6章基于EPMML的流式大数据挖掘服务平台的数据组件建模68
6.1流式大数据挖掘的形式化数据模型68
6.1.1流式数据的信息系统模型69
6.1.2面向流式大数据挖掘的决策逻辑语言70
6.1.3概念的内涵和外延71
6.1.4概念迁移的实质71
6.2流式大数据上规则提取的解释72
6.2.1规则的质量度量72
6.2.2关联规则的解释73
6.2.3决策规则的解释76
6.3流式大数据挖掘服务平台数据组件的建模77
6.4实例演示与分析78
6.5本章小结84
第7章基于EPMML的流式大数据挖掘服务平台的算法组件建模86
7.1流式大数据挖掘服务平台算法管理框架86
7.1.1框架的设计原则86
7.1.2AMF-DSMS的描述87
7.1.3AMF-DSMS的执行语义89
7.2基于EPMML的算法管理组件建模90
7.2.1基于EPMML的算法服务描述90
7.2.2基于EPMML的算法接口设计93
7.3实例演示与分析95
7.3.1算法选择的必要性95
7.3.2算法选择与优化97
7.4本章小结100
第8章流式大数据挖掘服务平台框架的设计101
8.1系统框架的整体设计101
8.2系统框架对流式大数据的适应性105
8.3系统框架的行为设计106
8.4流式大数据挖掘服务平台的建模层次结构107
8.5系统中的EPMML元数据109
8.6本章小结111
第9章结束语112
9.1本书的主要贡献112
9.2研究成果的意义113
9.3元建模理论的总结114
9.4流式大数据挖掘算法管理的总结114
9.5关于EPMML的总结116
参考文献117
后记127
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证