第1章 全球发展态势
智能计算作为人工智能时代的重要生产力,已成为国际计算机科技发展的焦点,全球发展态势呈现出的主要特征表现在:智能计算形态日趋丰富,非传统计算处于探索阶段,计算芯片向多元化、高性能、定制化演进,开源生态逐步完善,计算模式与行业需求精准匹配,智算中心操作系统走向智能化、平台化、网络化、服务化,如图1.1所示。
图1.1 智能计算领域全球发展态势
1.1 智能计算
以人工智能为主要推动力的智能计算正在向多元化、巨量化、生态化方向演进,有效推动了AI产业化和产业AI化的快速发展,加速数字经济与实体经济的深度融合。分环节来看,AI芯片向算力多元化方向演进;智算中心成为算力基础设施发展的新方向,大算力、大模型成为智算中心的典型特征;智算中心基础软件也由云操作系统向云数智融合方向发展,逐渐演进成智算中心操作系统;AI计算框架已经从百家争鸣缩减为有限的几种,市场格局进一步清晰,但整体上仍由国际科技巨头主导;智算中心和AI能力开放平台的建设推动着智能计算生态不断向开放、融合的方向发展。分地区来看,美国科技企业在AI算力、智算中心、AI计算框架、AI开放平台方面有较强的资金和技术优势,引领全球AI技术的发展;我国将人工智能视为新一轮科技革命和产业变革的重要驱动力,在AI算力基础设施的建设中不断加大投入,特别是在AI服务器、AI计算框架和AI开放平台方面,中国科技创新企业正奋起直追,在部分领域已经与国际科技巨头比肩而行。
1.1.1 智能计算应用领域不断扩展
人工智能已进入工程化落地关键期,与行业融合渗透不断深入,成为医疗、交通、基础科学等领域创新突破的有力抓手。在医疗领域,智能计算与精准医疗深度结合,实现辅助智能诊断、智能手术规划、智能手术导航等应用,大幅提升医生的工作效率。例如,哈尔滨医科大学第一附属医院依靠AI技术实现复杂手术的术前规划和术中导航,辅助医生精准避让高位脊髓组织周边的关键中枢神经,实施了颈部肿瘤切除术,帮助患者恢复健康。在交通领域,智能计算助力无人驾驶的落地应用。百度无人驾驶项目Apollo Go已在多个城市试运行,累计接待旅客超过21万人次;中国自动驾驶企业(如百度、文远知行等)正积极开展基于开放道路的无人驾驶测试,标志着我国无人驾驶技术加速走向产业应用。在基础科学领域,智能计算助力科学研究探索发现新规律。谷歌子公司深度思考(Deep Mind)助力AI技术与数学家合作,AI首先对大规模数据进行探测来提出解题猜想,数学家对猜想进行精确表述和严格证明,从而发现与证明新的数学理论,该技术已经帮助数学家得到了纽结理论中代数和几何不变量之间的关系。同时,智能计算也被广泛应用到其他各项科学研究中。例如,AlphaFold2模型通过训练来预测蛋白质的3D折叠形状,IBM用人工智能预测有机化学反应的结果,从而加速新药的实验研制进度。以上表明,智能计算将成为人类扩展科学知识边界的*有用工具之一。
1.1.2 智能计算向多元化、规模化方向发展
智能计算的“多元化”包括计算场景的多样化和计算架构的多元化。第一,智能计算场景复杂多样。云计算、边缘计算、关键计算、科学计算等不同领域数据量级和计算类型各异,从AI推理到AI训练各阶段的数据量大不相同。同时,计算类型的新扩展也增大了算力需求跨度,这些复杂的应用场景推动着智能计算向多元化方向发展。第二,智能计算架构多元化。一方面,智能计算的数据输入种类繁多(如结构化、半结构化、非结构化的数据输入),不同类型的数据对计算芯片指令集、微架构的要求不同,通用计算架构已经无法满足多元化计算场景要求。另一方面,智能手机的发展及互联网的普及为智能计算带来了海量的数据,单一架构处理器已经难以满足海量数据的实时处理要求。因此,高算力、低能耗且适应各类复杂环境的定制化AI芯片成为智能计算的发展热点。谷歌、百度、寒武纪等头部科技企业依托自身技术及业务优势从不同的切入点布局芯片产品研发和规模应用。在云端芯片方面,国外企业仍然占据领先优势。2021年谷歌发布TPUv4 AI芯片,得益于其独*的高速互连技术,能够将数百个独立的TPU处理器转变为一个整体系统,从而大幅提升云计算性能,如TPU v4 Pod(包含4096个TPU v4)算力可达到1 EXAFLOPS。2019年昆仑芯1代芯片首次在国内大型互联网业务上进行万片以上的规模部署。昆仑芯2代芯片基于自研XPU-R架构,采用7nm制程,GDDR6高带宽显存,半浮点精度(FP16)算力可达128 TFLOPS,规模部署后云计算性能大幅提高,进一步打破了国外企业对云端芯片的长期垄断。在边缘和终端芯片方面,截至2021年底,凭借MLU220/MLU270产品,寒武纪在边缘计算上实现近百万片量级的规模销售。2022年比特大陆(算能)、燧原科技等企业也在持续发力,边缘和终端芯片计算性能逐步达到行业中高端水平。综上所述,伴随人工智能在各个行业的应用,各类AI芯片的需求大幅提升,且更加细分多元,促使智能计算向多元化、规模化方向发展。
1.1.3 智能计算给计算机体系结构带来挑战
智能计算的大模型、大数据、大算力及应用的不断升级,给计算机体系结构带来挑战。第一,智能计算系统的存储需求不断提升。以NLP(自然语言处理)任务为例,基于自监督学习的预训练模型兴起后,模型精度随着模型尺寸及训练数据的增加而显著提升。2020年Open AI发布的GPT-3模型参数量突破千亿量级,达到了1750亿,单次训练需要355张GPU,花费大约2000万美元,且巨量模型对内存的需求呈指数级上涨。2021年,清华大学、北京智源等单位基于新一代神威超算系统完成百万亿参数大模型的高效训练。在超大规模智能计算系统中,需要同时满足几万块AI加速卡的高性能读取需求,这促使智能计算存储系统向更大规模的方向发展。第二,智能计算系统的算力需求不断提升。例如,GPT-3模型对算力的需求达到3640PD (PFLOPS-Day),未来到2023年巨量模型的算力需求将达到百万PD。然而,在当今世界*快的超算系统上,完成百万PD的计算所需时间约为2年。此外,巨量模型的训练、调试以及应用还带来高能耗、高成本等问题。例如,在微软超算数据中心训练一次GPT-3模型消耗的电量约为19万度。由此可见,通过提高智能计算效率来降低计算成本将成为业内解决大模型应用落地的有效方法。
1.1.4 智算中心成为行业发展方向
智算中心可提供算力、数据和算法等人工智能全栈能力,是支撑人工智能快速发展和应用运行的新型算力基础设施。近年来,随着应用场景日益复杂化,AI算力需求呈指数级增长,智算中心规模不断扩大。根据美国《2020年国家AI倡议法案》(National AI Initiative Act of 2020),美国国家AI倡导办公室确定了国家AI研究与应用协调发展项目,将用于AI的超算中心列为保持美国AI竞争力的四大基础设施之一。美国脸书公司,其AI“研究超级集群”(AI Research Super Cluster, RSC)在第二阶段完成时将包含大约16000个GPU,能够“在1艾字节大的数据集上使用超过一万亿个参数”训练AI系统,可以从数万亿实例中学习,跨越数百种语言工作,把文本、图像和视频放在一起分析。脸书认为,它将是世界上*快的AI超级计算机。未来,随着智能社会的不断发展,智算中心将成为支撑和引领数字经济、智能产业、智慧城市、智慧社会发展的关键信息基础设施,并有效促进AI产业化、产业AI化及政府治理智能化的进程,推进经济高质量发展。数据中心智能化升级将进一步加快步伐,基础算力、智能算力、超算算力结构将随着计算需求持续变化,智能算力规模占比将持续扩大。
1.1.5 智能计算框架创新升级
全球来看,目前以谷歌、脸书、亚马逊、微软等为代表的互联网科技巨头,凭借自身的数据、技术和资本等优势,持续在AI计算框架生态领域发力,引领全球AI计算框架创新升级。其中*具有代表性的是谷歌公司的TensorFlow框架和脸书公司的PyTorch框架。从市场占有率情况看,产业界以TensorFlow为主,学术界以PyTorch为主。产业方面,谷歌于2019年推出TensorFlow Enterprise,为大型企业提供TensorFlow的优化版本以及长期的技术支持,并与Google Cloud服务深度集成,持续巩固TensorFlow在产业界的领先地位;学术方面,据Papers With Code数据显示,2021年全年基于PyTorch的论文数量在所有基于AI计算框架的论文中占比高达58.56%,其在学术界的领先优势在持续加强。未来短期内,这种谷歌(TensorFlow)和脸书(PyTorch)为代表的“双寡头”格局较难改变。在国际
展开