信阅平台

内容介绍

　　程耀东、单志广、姜进磊编写的《网络计算环境 --数据管理》系统讲述以网络为基础的科学活动环境中的数据管理技术。全书由概论、非结构化数据管理、结构化数据管理、应用实例四大部分组成，包括数据管理背景、数据管理需求与挑战、数据管理体系结构、数据存储、元数据管理、数据传输、存储资源管理、数据管理标准、OGsA-DAl、异构数据库整合、高能物理网格数据管理、虚拟天文台数据管理12章。
　　本书取材广泛，内容系统，集成了多种网络数据管理技术，反映了国内外前沿技术发展，可供广大网络计算及相关领域的科研和技术人员阅读参考。

展开

精彩书摘

　　第一篇概论
　　第1 章
　　数据管理背景
　　1.1 数据增长
　　人类探索世界的脚步永无止境，而科学研究的方式也在不断发展。远古时期，人们依靠观察和思辨来认识和探索世界。17 世纪以来，随着牛顿经典力学基本运动定律的发表，科学家逐渐把实验与理论作为科学研究的基本手段。然而，随着人类探索世界的不断深入，许多科学问题的实验研究和理论研究变得越来越复杂，甚至难以给出明确的结论。近半个世纪以来，随着电子计算机的诞生与快速发展，计算机仿真模拟变成第三种不可或缺的科学研究手段，以帮助科学家去探索实验与理论难以解决的问题，如宇宙的起源、汽车碰撞、天气预报等。而在当前社会，各个学科领域的研究不断向纵深发展，无论实验装置还是计算机仿真模拟的规模都变得越来越大，产生了越来越多的数据，从而催生了围绕海量数据获取、存储、共享和分析的科学研究手段。来自科学仪器或者计算机仿真模拟的实验数据被收集和存储起来，并通过先进高速的网络分享给处于不同的国家或机构的合作者。依靠分布式计算技术和协同工作环境，科学家不仅共享数据，还共享软件、模型、计算、专家知识甚至人力等资源，从而加快科学成果的产出。现代科学研究，特别是粒子物理、生命科学、能源环境、先进材料与纳米科学等新兴或交叉领域的发展要进行跨国家、跨地域的协作与交流，而以网络为基础的科学活动环境的发展与完善正在对其产生深远的影响。
　　在“纸笔研究”时代，科学家的数据记录在笔记本上，帮助分析数据的工具可能是一把尺子。在今天，科学研究成果的获得不仅取决于科学家的智慧和勤奋，还取决于海量科学数据的处理能力。基于海量数据处理的科学探索已经成为一种新的科学研究方法，也是科研信息化的重要内容之一。科学仪器和电脑仿真产生的新数据以每年一倍的速度急速扩张，超过了CPU 处理能力的增长速度(摩尔定律：CPU 处理能力每18 个月翻一番)。1946 年，美国军方的ENIAC(electronic numerical integrator and computer)被称为世界上第一台“电脑”，是人类信息处理能力的大飞跃。在当时，它作为通用计算机被用于处理各种问题，从氢弹的设计到气象预报。然而在今天，CERN(欧洲核子研究中心)的大型强子对撞机平均每秒钟产生的数据，需要600 万个ENIAC 来存储，图1-1 是CERN研究中心的海量数据处理集群。基因工程、计算流体力学、天文学、生态学和环境科学等领域同样经历着这样的科研方式变迁。在天文学领域，为了实现更大、更快、更深的天文学观察目标，将在2015 年投入使用大视场全景巡天望远镜(large synopticsurvey telescope，LSST)，直径将达到8.4m，每夜能够生成30TB 的彩色图像数据。它每15s 便能拍摄一张约为月球直径七倍大的空间的照片，每三天将累积拍摄成一张天空全景图像。整个项目计划拍摄20 多万张照片，拍摄精度将达3200M 像素，预计第一年就将产生1.28PB 的科学数据。在地学领域，对南加利福尼亚建立一个分辨率为10m，深度为100km 的地面模型，将产生1PB 的数据。生物医学领域，使用电子显微镜重建人脑1mm3 的神经电路，会产生33000 张扫描片，每张片子至少2×1010 像素，大约为1PB 的数据。人脑有106mm3 的神经组织，建立一个完整的大脑电路图，需要海量的数据存储和处理能力。
　　图1-1 CERN 研究中心的海量数据处理集群
　　随着仪器的精密度越来越高，传感器、网络等硬件成本大幅度下降，人们获取数据的能力在不断增强。然而数据不是知识，真正的知识只是数据冰山上最有价值的山尖。重建、分析、可视化、存储和长时间保存这些数据的过程对算法效率、计算能力、数据访问效率和存储备份机制提出了很高的要求。与科研数据规模同时发展的信息技术为应对这样的需求提供了如多核计算、GPU 计算、网格计算和云计算等计算解决方案，以及如并行文件系统、分级存储、面向对象的存储等存储解决方案。以北京正负电子对撞机上的BESIII 实验为例，为了处理高达5PB 的实验和用户数据，BESIII 计算系统采用了分级海量存储系统保存实验数据，采用面向对象的并行文件系统为分析、重建作业提供高吞吐率的I/O；在传统集群技术的基础上，采用网格技术实现跨地域海量数据共享和计算资源共享，通过整合多个站点资源来完成海量数据的重建、分析和模拟。
　　在科研数据快速增长的同时，随着互联网技术的不断普及，个人及企业数据也在爆炸性的增加。全球著名分析调研机构IDC 连续六年发布《数字宇宙研究》(DigitalUniverse Study)报告，主要用于评估每年创建和复制的数据总量。该报告显示，全球信息总量每过两年就会增长一倍，图1-2 所示为该报告中数据量的增长趋势。2011年，全球被创建和复制的数据总量为1.8ZB(1ZB=1024EB，1EB=1024PB，1PB=1024TB，1TB=1024GB)。相较2010 年同期，这一数据上涨超过了1ZB。1.8ZB 是什么概念？举例来说，1.8ZB 相当于全球每个人每天都去做2.15 亿次高分辨率的核磁共振检查所产生的数据总量，或者相当于每个美国人每分钟写3 条Twitter 信息，而且还是不停地写2.6976 万年。从2005 年到2020 年，全球的数据总量将增长130倍，达到40ZB。
　　图1-2 “数字宇宙”报告中数据量的增长趋势
　　1.2 数据管理目标
　　以网络为基础的科学活动环境中数据具有其自身的特点：一是数据量大，因此对于数据的存储、计算和传输都提出了极高的要求；二是具有极其广泛的国内国际合作。基于这些特点，数据管理系统应该能够满足海量存储、全球分布、快速访问和统一命名的需求。
　　具体包括以下目标。
　　(1) 命名透明性。
　　以网络为基础的科学活动环境中数据量非常庞大，且分布存储于不同机构的异构存储系统中。数据管理系统应该给用户提供统一的、透明的数据命名方式。用户不必知道数据的物理存储位置，就可以通过文件的逻辑名字来访问所需要的资源。
　　(2) 复制透明性。
　　为了提高数据可靠性或者提高数据访问性能，以网络为基础的科学活动环境中通常采用数据复制技术。复制透明性是指数据管理系统可以随意对文件进行复制而无需用户知道，并且用户仍可以使用原来的文件逻辑名透明地定位到合适的副本。
　　(3) 协议透明性。
　　大规模的以网络为基础的科学活动环境中数据存储于异构存储系统中。存储系统的不同带来文件访问协议的异构性，数据管理系统应该为用户提供统一的访问接口，选择适当的访问协议来实现用户提出的数据访问请求。
　　(4) 效率透明性。
　　以网络为基础的科学活动环境中的应用程序所需的数据可能分布于多个不同的站点或系统，因此数据管理系统应该通过多种手段，尽可能提高数据访问的效率，如使用高性能的传输工具、历史信息进行传输预测，基于用户访问模式进行自动复制、磁盘缓存和预取等。
　　(5) 空间透明性。
　　在以网络为基础的科学活动环境中，数据管理系统应该提供一个透明的存储空间，用户或者应用无需了解存储空间由什么介质构成，或者具有多大的容量。用户需要做的就是按照领域的规范向给他分配的存储空间中写入或从中读取所需的数据，当空间不够时，系统能够按需自动扩展。
　　1.3 数据管理功能
　　在以网络为基础的科学活动环境中，数据是一类非常重要的资源，具有海量、异构、可移动、可复制和可缓存等特点。在实际的使用场景下，有些数据集可以非常大，以至于在这种情况下，需要把一个大的数据集存储在多个节点上。由于本地设备的限制，一个大文件全部传输到访问者本地进行访问的方法不再可行，随之也带来了文件部分访问的问题。为了提高访问速度，需要把文件传输到距离访问者网络上比较近的位置。为了解决单点故障，还需要对数据进行复制，从而需要对数据副本进行有效的管理。

展开

前言
第一篇概论
第1章数据管理背景
1.1 数据增长
1.2 数据管理目标
1.3 数据管理功能
1.3.1 数据存储
1.3.2 元数据管理
1.3.3 副本管理
1.3.4 数据传输管理
1.3.5 存储资源管理
1.3.6 结构化数据的访问与整合
1.4 本书结构
1.5 本章小结
第2章数据管理需求与挑战
2.1 高能物理
2.1.1 大型强子对撞机
2.1.2 北京正负电子对撞机
2.1.3 羊八井宇宙线实验
2.2 生物信息
2.2.1 生物信息学
2.2.2 基因研究
2.3 虚拟天文台
2.4 地质地理
2.5 其他领域
2.6 数据管理挑战
2.7 本章小结
第二篇非结构化数据管理
第3章数据管理体系结构
3.1 引言
3.2 科学数据管理的体系结构
3.3 本章小结
参考文献
第4章数据存储
4.1 引言
4.2 存储技术概述
4.3 分布式文件系统
4.3.1 Lustre文件系统
4.3.2 Gluster文件系统
4.3.3 全局并行文件系统(GPFS)
4.3.4 Panasas文件系统
4.3.5 并行虚拟文件系统(PVFS)
4.4 分级存储系统
4.4.1 CASTOR存储系统
4.4.2 dCache存储系统
4.4.3 dCache的副本机制
4.5 云存储技术
4.5.1 亚马逊云存储服务S3
4.5.2 微软的Azure存储
4.5.3 Hadoop的开源云存储解决方案
4.5.4 Openstack的Swift
4.5.5 Nimbus的Cumulus云存储
4.5.6 云存储技术在科学数据管理中的应用
4.6 数据备份系统
4.6.1 常见备份技术
4.6.2 备份系统的基本结构
4.7 本章小结
参考文献
第5章元数据管理
5.1 简介
5.1.1 LpC
5.1.2 AMGA
5.1.3 DQ2
5.2 副本管理
5.2.1 副本创建
5.2.2 副本选择
5.2.3 副本删除
5.2.4 副本定位
5.2.5 副本一致性
5.2.6 副本安全性
5.3 本章小结
参考文献
第6章数据传输
6.1 GridFTP
6.1.1 GridFTP的功能特性
6.1.2 GridFTP的API
6.2 bbFTP
6.2.1 与FTP和SSH的比较
6.2.2 bbFTP的安装
6.2.3 bbFTP的选项命令
6.3 可靠文件传输
6.3.1 可靠性含义
6.3.2 组成结构
6.4 副本定位
6.4..1 RLS的几点要素
6.4.2 Giggle框架
6.5 FTS
6.5.1 通道
6.5.2 代理
6.6 PheDex
6.6.1 。PheDex的结构
6.6.2 PheDex的运行
6.7 BES数据传输系统
6.7.1 主要特性
6.7.2 组成结构
6.7.3 实际应用
6.8 本章小结
参考文献
第7章存储资源管理
7.1 简介
7.2 SRM
7.2.1 应用场景
7.2.2 SRM在网格体系中的定位
7.2.3 SRM在网格中的优势
7.3 文件管理
7.3.1 永久文件和稳定临时文件
7.3.2 持久文件
7.4 空间管理
7.4.1 空间类型
7.4.2 “最大努力”空间
7.4.3 分配文件到空间
7.5 其他重要的SRM概念
7.5.1 传输协议协商
7.5.2 其他协商和行为广告
7.5.3 源路径、传输路径和站点路径
7.5.4 PIN文件的语义
7.6 SRM实现实例
7.6.1 使用SRM管理海量存储系统
7.6.2 SRM提供的健壮的文件复制
7.6.3 通过SRM向存储系统提供GridFTP接口
7.7 本章小结
参考文献
第8章数据管理标准
8.1 传输协议
8.1.1 FTP
8.1.2 HTTP
8.1.3 GridFTP
8.1.4 RestfulWeb服务
8.1.5 WebDAV
8.1.6 S3
8.2 管理接口标准
8.2.1 SRM
8.2.2 OCCI
8.2.3 CDMI
8.2.4 SimpleCloudAPI
8.3 本章小结
参考文献
第三篇结构化数据管理
第9童OGSA.DAI
9.1 概述
9.2 基本架构
9.3 工作流与活动
9.4 使用0GSA.DAI
9.4.1 部署数据资源
9.4.2 活动的使用
9.4.3 工作流的使用
9.5 本章小结
参考文献
第10章异构数据库整合
10.1 基本概念
10.2 系统结构
10.3 对外功能和接口
10.3.1 数据提供者接口
10.3.2 开发人员接口
10.4 内部工作流程
10.5 异构数据库整合系统的软件结构
10.5.1 概述
10.5.2 核心服务类
10.5.3 虚拟活动管理类
10.5.4 虚拟活动对象类
10.5.5 执行引擎类
10.5.6 SOL解析器类
10.5.7 物理活动管理类
10.6 参考实现：CGSPHDB
10.6.1 概述
10.6.2 虚拟表及其支持的数据类型
10.6.3 映射表和数据类型映射
10.6.4 执行文档和响应文档示例
lO.7 本章小结
参考文献
第四篇应用实例
第11章高能物理网格数据管理
11.1 网格技术在高能物理领域的应用
11.2 高能物理网格中数据服务管理
11.3 高能物理网格中数据服务组件
11.3.1 元数据服务器
11.3.2 数据集管理系统
11.4 一个具体的工作流程
11.5 本章小结
参考文献
第12章虚拟天文台数据管理
12.1 网格技术在天文领域的应用
12.2 虚拟天文台中数据服务组件
12.2.1 天文数据的特点
12.2.2 开放网格服务架构的数据访问与集成
12.2.3 虚拟天文台数据访问服务
12.3 数据服务举例
12.3.1 中国虚拟天文台VO.DAS
12.3.2 VO.DAS的系统集成
12.4 本章小结
参考文献

展开