在2024年9月20日的云栖大会上,阿里云重磅发布了全面升级的AIInfra系列产品及其强大能力。通过全栈优化,阿里云构建了一套稳定高效的AI基础设施,实现了99%以上的连续训练有效时长,并成功提升了模型算力利用率超过20%。
阿里云副总裁、弹性计算及存储产品线负责人吴结生指出,“AI创新需要新形态的云基础设施。”为了应对爆发式的AI算力需求,阿里云整合了底层计算、存储和网络资源,实现了统一调度和软硬件一体化优化,以更好地满足模型训练和推理的需要。
此次发布的全新CIPU2.0架构,阿里云推出磐久AI服务器,具备单机支持16卡、显存超过1.5TB的能力,并支持SolarRDMA互联。此外,磐久AI服务器还采用超钛金电源,能实现97%以上的高能效,并通过AI算法准确预测GPU故障,预测准确率高达92%,从而保障AI算力的性能和稳定性。
在存储方面,阿里云的并行文件存储CPFS实现了端到端全链路性能的极大提升,单客户端吞吐量达到25GB/s,而高性能数据流动能力则提升至100GB/s,为AI智能计算提供了指数级的扩展存储能力。
更值得一提的是,阿里云的高性能网络架构HPN7.0再次提升了性能和稳定性,其中,集合通信性能提升超过一倍,模型的端到端训练性能提升10%以上。通过底层计算、存储和网络等基础设施的全面升级,阿里云灵骏集群展现出超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐能力达到20TB/s,万卡规模下的网络带宽利用率超过99%,能够支持单个集群达到十万卡级别的AI算力规模。
针对AI业务,阿里云的计算产品也进行了大幅度更新。本次云栖大会上,容器服务ACK针对AI实现了重要升级,其大模型应用的冷启动延迟降低了85%,可以提供高达15000个超大规模节点的支持。同时,容器计算服务ACS也即将推出GPU容器算力服务。
阿里云通过这些创新和升级,正在引领AI基础设施的未来,助力各行各业更好地利用AI技术推动进步和发展。
评论0
暂时没有评论