一种基于分布式光交换的高带宽域架构InfiniteHBD

笑果文化老板是谁 610 0
曦智科技联合北京大学、阶跃星辰为下一代万亿参数大模型训练的基础设施建设提出全新解决方案。 随着大模型参数规模的扩大,分布式训练成为人工智能发展的核心途径。分布式训练可以将模型数据分配给多个计算节点,进行并行计算和数据管理,从而显著加速模型训练的过程,而高带宽域(High Bandwidht Domain, HBD)的设计对提升模型算力利用率至关重要。 然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制: 以交换机为中心的HB...