您的位置: 首页 > 实时讯息 >

摩尔线程开源MT-MegatronLM、MT-TransformerEngine AI框架

0次浏览     发布时间:2025-03-17 18:28:00    

IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。

据介绍,MT-MegatronLM 是面向全功能 GPU 的开源混合并行训练框架,支持 dense 模型、多模态模型及 MoE(混合专家)模型的高效训练;MT-TransformerEngine 主要用于 Transformer 模型的训练与推理优化,通过算子融合、并行加速策略等技术,释放摩尔线程全功能 GPU 高密度计算的潜力和 memory bound 算子效率。两大框架的技术突破体现在硬件适配与算法创新的深度协同:

  • 混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

  • FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,能够有效提升训练效率;

  • 高性能算子库:通过高性能算子库 muDNN 与通信库 MCCL 的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境 spec 最大化并行训练性能;

  • 异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

  • 完整的兼容性:两个框架兼容 GPU 主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供了底层支撑。

实际应用效果如下:

  • 高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,可以利用 FP8 在 loss 几乎无损的情况下 MFU 达到 90% 以上;(如下图所示)

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速
  • 复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略;

  • 性能大幅优化:通过多种 Transformer 算子融合技术,显著提升了内存带宽利用率,有效缓解 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。

摩尔线程官方表示将持续优化 MT-MegatronLM 与 MT-TransformerEngine 框架,并引入系列功能,具体如下:

  • Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;

  • 多种 FP8 优化策略:独创的 FP8 优化策略,提高训练的性能和稳定性;

  • 异步 checkpoint 策略:提高训练过程中的容错能力和效率;

  • 优化后的重计算策略:减少计算和显存开销,提高训练速度;

  • 容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

  • 集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提升计算性能和效率。

IT之家附开源地址如下:

  • MT-MegatronLM 开源地址:
    https://github.com/MooreThreads/MT-MegatronLM

  • MT-TransformerEngine 开源地址:
    https://github.com/MooreThreads/MT-TransformerEngine

  • 摩尔线程 Simumax 开源地址:
    https://github.com/MooreThreads/SimuMax

相关文章

呼和浩特市人力资源和社会保障局:以实干担当撑起劳动者维权保护伞

“您好,我是呼和浩特市人力资源和社会保障局劳动监察科的工作人员,请问您于3月27日扫描‘欠薪找我’二维码在智慧劳动监察系统反映的拖欠工资问题得到解决了吗?”近日,市人社局劳动监察科工作人员对今年受理的欠薪线索办理情况进行了电话回访。近年来,为解决群众急难愁盼问题,市人社局想实策、出实招、办实事,推行
2025-04-30 07:48:00

起步早、生态好、政策足!模速空间“C位出道”的阶跃星辰点赞“模都”

4月29日上午,习近平总书记在上海考察时,来到位于徐汇区的上海“模速空间”大模型创新生态社区调研。记者获悉,在“模速空间”展馆中,上海大模型独角兽企业阶跃星辰演示了旗下基础大模型的技术发展和应用情况。“国家高度重视人工智能的发展,其中基础大模型起到重要作用,是一场需要定力和实力的‘科技长征’。”阶跃
2025-04-29 23:26:00

一克商评|从“经验驱动”到“数据驱动”,四川场道以科技为翼实现“智能建造”

封面新闻记者 张越熙 易弋力科技创新+管理优化,四川场道打造精品工程4月25日,记者从四川省场道工程有限公司获悉,在数字化浪潮奔涌的当下,广安市政工程以科技为翼,通过无人机、智能安全帽、高边坡智能检测、物料验收系统、安全视频监控,实现数字底盘与实体工程的同步映射。面对山地仿古建筑复杂结构,团队创新应
2025-04-25 20:10:00

成都高新区产业基金规模超3200亿!

今日,2025年成都高新区产业基金协同发展大会在成都高新区菁蓉汇举办。会上,成都高新区正式发布产业发展图谱,建立“3+6+6”现代化产业体系,并宣布打造目标规模20亿元的“中试基金”和50亿元“数字文创母基金”,力争通过“中试+基金”模式,助力科研成果从实验室研发向规模量产快速转化。推出3000亿规
2025-04-25 18:07:00

卫星太多,AI帮忙管!我国首款航天私域大模型迭代升级

昨天,在2025年“中国航天日”活动中,我国首款航天私域大模型“华山”的升级迭代产品——软硬一体化大模型“华山大模型一体化系统”正式亮相。它有望打破以往大模型应用对服务器及配置环境要求高、投入成本高的问题,并大幅降低人工智能应用于航天场景的成本。卫星数量爆发,AI帮忙管理随着卫星互联网、千帆星座等计
2025-04-25 10:04:00

生成式AI大爆发 商汤科技喜与忧

undefined 作者|首条财经 李然 AI大潮翻滚,红利风口往往率先惠及有准备者。4月10日,在2025年技术交流日活动上,商汤科技SenseTime正式发布大装置SenseCore 2.0。时隔14年,首次重大升级。以更灵活、敏捷、可靠为特点,着重促进AI基础设施、应用开发、行业需求的深度融合
2025-04-23 09:16:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5