阿里云AI基础设施升级：算力利用率提升超20%

在2024年9月20日的云栖大会上，阿里云重磅发布了全面升级的AIInfra系列产品及其强大能力。通过全栈优化，阿里云构建了一套稳定高效的AI基础设施，实现了99%以上的连续训练有效时长，并成功提升了模型算力利用率超过20%。

阿里云副总裁、弹性计算及存储产品线负责人吴结生指出，“AI创新需要新形态的云基础设施。”为了应对爆发式的AI算力需求，阿里云整合了底层计算、存储和网络资源，实现了统一调度和软硬件一体化优化，以更好地满足模型训练和推理的需要。

此次发布的全新CIPU2.0架构，阿里云推出磐久AI服务器，具备单机支持16卡、显存超过1.5TB的能力，并支持SolarRDMA互联。此外，磐久AI服务器还采用超钛金电源，能实现97%以上的高能效，并通过AI算法准确预测GPU故障，预测准确率高达92%，从而保障AI算力的性能和稳定性。

在存储方面，阿里云的并行文件存储CPFS实现了端到端全链路性能的极大提升，单客户端吞吐量达到25GB/s，而高性能数据流动能力则提升至100GB/s，为AI智能计算提供了指数级的扩展存储能力。

更值得一提的是，阿里云的高性能网络架构HPN7.0再次提升了性能和稳定性，其中，集合通信性能提升超过一倍，模型的端到端训练性能提升10%以上。通过底层计算、存储和网络等基础设施的全面升级，阿里云灵骏集群展现出超大规模、超强性能的智能算力，万卡规模性能线性度超过96%，并行存储吞吐能力达到20TB/s，万卡规模下的网络带宽利用率超过99%，能够支持单个集群达到十万卡级别的AI算力规模。

针对AI业务，阿里云的计算产品也进行了大幅度更新。本次云栖大会上，容器服务ACK针对AI实现了重要升级，其大模型应用的冷启动延迟降低了85%，可以提供高达15000个超大规模节点的支持。同时，容器计算服务ACS也即将推出GPU容器算力服务。

阿里云通过这些创新和升级，正在引领AI基础设施的未来，助力各行各业更好地利用AI技术推动进步和发展。

阿里云AI基础设施升级：算力利用率提升超20%

评论0