计算产业正在迎来一场智能化的变革,AI普及驱动服务器产品升级。同时,服务器及数据中心的智能化管理和运维也成为大势所趋。
智能时代,人工智能与实体经济深度融合,算力的重要性不言而喻。不管是人工智能技术本身的进步还是企业的数字化变革都离不开计算力的支撑。而另一方面,计算本身也深受人工智能技术的影响,在计算产业的各个环节,包括基础设施、运营以及管理等各个方面,都能看到人工智能的“身影”。
智能计算与加速
根据OpenAI最新的分析,近年来人工智能训练任务所需求的算力每3.43个月就会翻倍,这一数字大大超越了芯片产业长期存在的摩尔定律(每18个月芯片的性能翻一倍)。自2012至2018的6年时间里,业界对于算力的需求增长了超过300000倍。
AI、5G、物联网等不同类型工作负载带来了计算的多样性趋势,如何组合不同的计算资源高效地应对不同的计算需求,是提升计算ROI的关键。特别是AI的广泛应用对算力需求增长不断加快,而CPU技术的提升已经遭遇瓶颈,随着摩尔定律逐渐失效,我们必须依靠多种计算架构的组合解决算力瓶颈,以应对AI负载的增长。
未来的世界会是一个开放的、多元化的世界,而标准化的计算平台已经无法满足数字化技术对计算的要求。为了应对算力爆炸的趋势,AI服务器引入了智能加速引擎,包含了GPU、FPGA加速卡、智能融合网卡和推理卡加速部件,突破传统服务器单机性能过度依赖CPU,大幅度提升服务器的系统级性能。
随着应用和数据的多样化,计算平台呈现出向异构计算演进的趋势,异构计算芯片大规模于众多应用场景中。在“成就智慧计算”的战略下,新华三提供了CPU、GPU、FPGA、ASIC等多种强大的计算能力,满足智能化计算的所有场景,加速百行百业数字化变革。
新华三服务器产品不光集成了对异构计算的支持,还搭载了新华三自主研发的人工智能平台AIOS,AIOS能够帮助用户实现AI的部署、池化、管理、推理、训练等各个环节的人工智能落地整体解决方案。
AI计算已经成为主流的计算形态,并对人工智能服务器市场产生重要影响。根据IDC的数据,2019年中国AI服务器出货量为79318台,同比增长46.7%。2019年人工智能基础架构市场规模达到20.9亿美元,同比增长58.7%。中国AI服务器市场在2018-2023年的年复合增长率为37.9%,也就是到2023年,AI服务器市场规模将达到2019年的3.6倍。
AI服务器不仅出货量增长速度更高、技术创新更快,而且单机配置也在不断提高,单台AI服务器可以提供更高的计算力。当前人工智能服务器正在快速成熟和完善中,如果结合整个人工智能技术和服务的发展,我们看到未来人工智能服务器会重点在低功耗设计、智能边缘计算、软硬件平台融合等领域产生新的突破。
智能管理与运维
具备支撑AI计算的服务器产品是计算产业智能化升级的一个方面,另外不管是服务器产品还是数据中心实现智能化管理和运维也是AI赋能的重要体现。
随着算力需求的增加,数据中心建设规模越来越大,从几万台服务器到几十万甚至上百万。这就需要IT基础设施具备快速部署、快速上线及便捷管理的能力,海量服务器的管理场景变得越来越复杂,传统运维领域面临许多新的挑战。
众所周知,传统数据中心主要依靠人工操作来解决日常运维问题,人力不仅低效而且稳定性不高,造成海量服务器的部署、运维、管理成本高昂。此外,传统运维模式中,运维人员主要是被动式地等待问题发生,再进行故障处理,传统运维模式下人均维护效率为50-100台。随着数据中心规模越来越大,故障将发生地更加频繁,故障之间的关联将更加复杂,传统的维护效率会进一步降低。
AI时代,数据中心服务器越来越多承载大数据、人工智能等业务场景,数据中心自身也需要适应新的智能化业务的需求。智能化数据中心的建设应该是基于海量数据,利用人工智能的技术,将人工总结运维规则的过程变为自动学习的过程,实现智能化的故障发现、诊断、处置、预防。
Gartner于2016年提出了智能运维的概念(Algorithmic IT Operations,AIOps),相比人工运维中的不足,智能运维管理不仅能够简化流程、提高效率以及综合管理能力,也能大大降低人为产生的故障率,未来数据中心智能管理必将全面替代纯人工运维及自动化半人工运维。
例如新华三创新性地推出了U-Center统一运维平台,变被动响应式监测为自动智能运维,通过AI和运维的结合,80%以上系统的问题不需要人工干预自动解决。未来甚至能够在计算资源或者网络资源、存储资源遇到瓶颈时给用户建议,在出现瓶颈之前尽快部署资源帮助解决用户的问题。
此外,智能服务器通过增加AI智能管理引擎,可提供包含资产管理、能效管理、部署管理、故障管理等智能管理特性,让海量部署的服务器管理更加智能化,提升管理与运维效率。数据中心通过将传统服务器升级为智能服务器,实现由点到面的算力进化,最终实现无人值守的自动化、智能化数据中心基础设施。