(三)挑战
已有大量关于大数据和数据密集型科学研究变革潜力的论文发表,但机遇并不容易成为现实,还有众多的挑战和难题需要解决。这些挑战和难题是多方面的,既有技术、基础设施、政策和法律方面的,也有机构、人才和文化等方面的。
1.技术挑战
大数据的3V特征使得从数据中创造价值存在阻碍,关键的技术挑战包括更好、更高效地传输、存储、管理、分析和可视化这些数据。
1)数据传榆
随着数据集变大,用传统的数据传输协议很难低成本、高效地传输数据。当要传输的数据达到上百TB时,目前最快速且便宜的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。此外,联网观测、大科学装置实时控制、协同分析等大量的科研应用在传输速度、可靠性和服务质量保证方面也都有高于一般商业应用的特别需求。数据的指数级增长和科研应用的特殊需求已经很大程度地改变了现有网络体系结构和应用方式,但如何保证海量数据以较低的成本、高速(有的应用要求是实时或准实吋)、高可靠地传输仍然是棘手的问题,需要从物理层到应用层、从网络控制管理到专用传输协议进行技术创新和研发。
2)数据存储
数据的爆炸式增长和越来越多的数据密集型计算使得存储系统在容量、扩展能力、传输瓶颈等方面都面临着挑战。此外,数据库存储结构、数据长期保存’等方面也需要进行技术攻关。
存储能力增长的速度赶不上数据的增长,设计合理的、具有较好扩展能力的存储系统架构是海量数据存储系统的关键问题之一.低成本、分布式、可橫向扩展的存储架构成为研究的热点,出现了集群存储、云存储等技术和相关解决方案。不过它们也都面临着一些挑战,比如如何降低存储开销并保证数据的可靠性‘”‘5T。
计算机系统的计算能力与其存储子系统访问性能之间的差距长期存在,随着多核处理器、多线程技术的广泛使用,这一差距进一步加大,计算速度和存储速度不匹配所形成的“存储墙”成为计算机系统近些年面临的一个严重问题‘“’。在产生大量数据的仿真和模拟中,大多数的计算结果从未保存,只有周期性存储的快照可用于分杆”数据密集型计算同样也提出了挑战,目前海量数据的分析严重受限于存储系统相对较低的。性能,一旦数据集超出计算平台随机存取存储器(RAM)的能力,多层高速缓存的本地化也难再发挥作用”。
……
展开