您的位置: 首页 > 实时讯息 >

摩尔线程开源MT-MegatronLM、MT-TransformerEngine AI框架

0次浏览     发布时间:2025-03-17 18:28:00    

IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。

据介绍,MT-MegatronLM 是面向全功能 GPU 的开源混合并行训练框架,支持 dense 模型、多模态模型及 MoE(混合专家)模型的高效训练;MT-TransformerEngine 主要用于 Transformer 模型的训练与推理优化,通过算子融合、并行加速策略等技术,释放摩尔线程全功能 GPU 高密度计算的潜力和 memory bound 算子效率。两大框架的技术突破体现在硬件适配与算法创新的深度协同:

  • 混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

  • FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,能够有效提升训练效率;

  • 高性能算子库:通过高性能算子库 muDNN 与通信库 MCCL 的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境 spec 最大化并行训练性能;

  • 异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

  • 完整的兼容性:两个框架兼容 GPU 主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供了底层支撑。

实际应用效果如下:

  • 高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,可以利用 FP8 在 loss 几乎无损的情况下 MFU 达到 90% 以上;(如下图所示)

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速
  • 复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略;

  • 性能大幅优化:通过多种 Transformer 算子融合技术,显著提升了内存带宽利用率,有效缓解 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。

摩尔线程官方表示将持续优化 MT-MegatronLM 与 MT-TransformerEngine 框架,并引入系列功能,具体如下:

  • Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;

  • 多种 FP8 优化策略:独创的 FP8 优化策略,提高训练的性能和稳定性;

  • 异步 checkpoint 策略:提高训练过程中的容错能力和效率;

  • 优化后的重计算策略:减少计算和显存开销,提高训练速度;

  • 容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

  • 集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提升计算性能和效率。

IT之家附开源地址如下:

  • MT-MegatronLM 开源地址:
    https://github.com/MooreThreads/MT-MegatronLM

  • MT-TransformerEngine 开源地址:
    https://github.com/MooreThreads/MT-TransformerEngine

  • 摩尔线程 Simumax 开源地址:
    https://github.com/MooreThreads/SimuMax

相关文章

更强的235B来了!白山云已上线升级版Qwen3模型

导语:450元大模型API体验金,速领~7月22日,阿里千问宣布推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。白山云科技已在第一时间火速完成部署上线,用户可通过访问“白山智算
2025-07-24 00:04:00

广西打造“超级接口”汇聚技术、市场与资源

图为南宁市一家企业的人工智能展厅。叶子榕摄(中经视觉)近来,位于广西南宁五象新区的中国—东盟人工智能创新合作中心(以下简称“南A中心”)吸引着无数关注的目光:今年以来已签约国内人工智能项目43个,涵盖算力算法研发、智算设备制造及智能体应用开发等领域;6月29日,首批16家东盟国家企业完成签约,人工智
2025-07-20 06:59:00

中经评论:充电设施升级破解“里程焦虑”

新能源汽车“里程焦虑”有望逐步消除。近日,国家发展改革委、国家能源局等4部门印发《关于促进大功率充电设施科学规划建设的通知》(以下简称《通知》),提出稳步构建布局合理、品质升级、技术先进的大功率充电基础设施体系,适时打造一批具有示范作用的大功率充电应用城市与高速走廊,力争到2027年底,全国范围内大
2025-07-17 07:36:00

华为盘古团队回应开源模型抄袭:严格遵循开源许可证的要求

新京报贝壳财经讯(记者韦博雅)近日,网络上有声音质疑华为盘古大模型涉嫌抄袭阿里巴巴通义千问模型。7月5日,华为盘古Pro MoE技术开发团队发表声明称,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。开发团队称,盘古Pro MoE开源模型部分基础
2025-07-06 08:44:00

数据筑基、破界而立:羊城晚报描绘“媒体+”融合新图景

当传统报章遇上智能时代,一场以数据激活文化基因、以技术重构产业生态的传媒变革,正在岭南大地上澎湃涌动。6月24日,《羊城晚报报业集团(羊城晚报社)推进系统性变革实施方案》(以下简称《方案》)发布,其提出的18类63项改革任务中,强化数据赋能,探索“媒体+”跨界融合,成为这一文化大报系统性变革中的核心
2025-06-29 12:46:00

全国首个!贵阳贵安通用基础数据微调大模型免费开源

近日,贵州算家计算服务有限公司正式发布贵阳贵安通用基础数据微调大模型,并面向社会免费开源!目前,该模型已同步上线至算家云平台“镜像社区”。据悉,该模型基于国产领先大模型DeepSeek-R1-32B,深度融合贵阳贵安政务、产业、民生等六大领域本地化语料,实现区域知识的精准覆盖与动态更新,推动城市级A
2025-06-27 13:45:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5