大模型浪潮加速算力竞赛，国产GPU升级「万卡」集群

2024-08-09辟谣

7月3日，总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

「AI模型训练的主战场，万卡已成为标配。」摩尔线程创始人兼CEO张建中说。随着计算量不断攀升，大模型训练亟需超级工厂，也就是一个「大且通用」的加速计算平台，从而缩短训练时间，实现模型能力的快速迭代。

所谓万卡集群，是指由一万张及以上的计算加速卡（如GPU）组成的高性能计算系统，用以训练基础大模型。这种集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台「超级计算机」，可支持千亿级甚至万亿级参数规模的大模型训练，有助于大幅压缩大模型训练时间，以实现模型能力的快速迭代。

当前，国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群，以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。

据了解，构建万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的超级系统工程。它涉及超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。「可以把万卡集群想象为一个万人团队，团队需要有非常强的沟通机制，才能协同把一件事情做好。」摩尔线程相关负责人说，希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台，并优先解决大模型训练的难题。

据悉，在集群计算性能方面，全新一代夸娥智算集群实现单集群规模超万卡，浮点运算能力达到10Exa-Flops，大幅提升单集群计算性能，能够为万亿参数级别大模型训练提供算力基础。

稳定性是衡量超万卡集群性能的关键，「早期千卡故障率可能0.1%就可以了，而到万卡要提升到0.01%甚至是0.001%，这对硬件设计、生产制造都是很大的挑战。」张建中说。稳定性方面，夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上。

当日，中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司分别就三个万卡集群项目与摩尔线程进行了战略签约，将共建国产GPU集群。