计图团队完成华为昇腾上 DeepSeek 模型的高效适配

2025/04/17 Tutorial

计图团队完成华为昇腾上 DeepSeek 模型的高效适配

近年来,随着大语言模型在智能问答、代码生成等任务中的广泛应用,如何在国产算力平台上实现对其的高效部署,已成为推动人工智能自主创新生态建设的关键课题。计图团队持续深入探索国产软硬件协同优化的技术路径,在成功适配华为昇腾910系列AI处理器的基础上,取得两点重大进展:

  • 首次实现单台华为8卡服务器上的deepseek R1的推理。

  • Deepseek V2的推理性能比 vLLM(Ascend 版本)在不同请求下,平均提升53%以上。

此项工作,进一步推进对 DeepSeek 系列大模型在昇腾平台上的高性能适配与加速优化,为国产大模型在国产硬件上的落地应用提供了技术支撑。

Part 1
项目背景和动机

DeepSeek V2DeepSeek V3DeepSeek R1 等模型构成的 DeepSeek 大模型家族,自发布以来便受到了学术界与工业界的广泛关注。这一系列模型在日常对话、复杂问题推理、代码生成等多个核心任务上展现出卓越能力。尤其值得一提的是,DeepSeek模型不仅在多个评测基准上实现领先性能,还坚持开源的路线,极大地推动了国内大模型社区的发展与应用生态的繁荣。

在模型能力突飞猛进的同时,围绕其推理效率与部署灵活性的研究也日益成为业界关注焦点,涌现出以vLLM 等为代表的一系列高性能推理框架。vLLM是一个基于 PyTorch 构建的开源推理框架,专为大语言模型的高效推理而设计。凭借卓越的性能与易用性,vLLM 已成为当前最受欢迎的开源大模型推理解决方案,在 GitHub 上收获了超过 4 万颗星标。

然而,其优化主要针对于英伟达的 CUDA 生态,存在对国外硬件平台依赖强、适配国产硬件成本高等问题,制约了大模型在国产算力平台上的规模化部署能力。

与此同时,以华为昇腾为代表的国产AI 芯片在计算性能、系统软件栈和生态建设等方面持续取得突破,构建全栈国产 AI 技术体系已具备可行性。越来越多的高校与研究机构将目光投向了国产大模型 × 国产软件 × 国产算力的深度融合实践,探索真正自主可控的智能计算解决方案。

在这一背景下,清华大学计图团队发起本项目,围绕DeepSeek 系列大模型开展全面的国产化适配工作,依托计图框架,致力于打通大模型国产芯片部署的全栈技术;构建安全可控、性能优越的大模型国产部署解决方案。 

Part 2
DeepSeek与华为芯片的高效适配 

计图团队在推动 DeepSeek 模型适配华为硬件平台的过程中,面临了一系列复杂而严峻的挑战:

首先,作为最优秀的国产芯片,华为芯片的生态系统仍处于持续完善阶段,NVIDIA的相比,在生态上还有差距,这增加了适配工作的不确定性和难度。

其次,华为设备上CPU性能是大模型适配的一个技术瓶颈,在英伟达设备上的优化经验难以直接应用于华为设备。 

最后,当前主流模型在设计之初,多基于 A100H20H200等英伟达设备的强大算力与充足显存进行考量。然而,华为设备的显存相对较小,这导致模型在运行过程中频繁出现显存不足的问题,为优化工作带来了额外的困难。

计图团队经过不懈努力,克服了上述困难,完成了DeepSeek V2 Lite(16B)DeepSeek V2(236B)以及DeepSeek R1(671B)模型在华为昇腾硬件平台上的适配与性能优化。主要的适配和优化工作包括:

  • 算子实现 :实现华为芯片上的DeepSeekMoE (直接实现版本和fused版本)、具有外扩功能的旋转编码(RoPE: Rotary Position Embedding),并进行算子实现层面的优化与量化。

  • 内存布局:实现基于矩阵吸收的MLA,大幅减少模型显存占用。

  • 并行策略:包括实现华为芯片上的张量并行、专家并行和数据并行等关键环节的并行优化

  • 服务端优化:通过加速 continuous batching 机制,有效提升高并发场景下的推理吞吐与响应效率。

该推理框架的主要亮点在于: 

  • 通过对模型算子权重进行 Int4 量化优化,显著降低了显存占用,为资源受限环境下的大模型部署提供了有效解决方案,成功实现了对 DeepSeek R1 模型在单机 8 卡昇腾硬件上的部署。

  • 实测数据表明,相比主流开源推理框架 vLLM(Ascend 版本),该框架运行 DeepSeek 系列模型的推理速度提升显著,针对不同的请求数,性能增幅达44.0% - 90.3%, 展现出强大的性能优势。

  • 自主可控,本推理框架不依赖 Pytorch,是一套自主可控的优化方案。

下面展示了计图团队开发的推理框架与 vLLM 在不同模型上的推理速度对比,以及相关的运行效果。

华为 910系列-单卡DeepSeek V2-Lite 模型与vLLM 的速度对比 

华为 910系列-单卡运行DeepSeek V2-Lite 模型视频示例 

华为910系列-单机(8卡)DeepSeek V2模型与 vLLM 的速度对比 

华为910系列-单机(8卡)运行 DeepSeek V2模型视频示例

  华为 910系列-单机(8卡)运行 DeepSeek R1 速度

华为 910系列-单机(8卡)运行DeepSeek R1模型视频示例

Part 3
展望与致谢

计图团队希望通过本项目,助力华为昇腾的AI基础软硬件平台。后续,我们将开源相关技术,也期待能和学术届和工业界的同仁一起努力,为国产人工智能生态的发展做出应有的贡献。

感谢南开大学程明明教授机器团队对本项目提供的大力支持,其中,焦鹏屹、陈佳博、向东和朱子轩同学在模型调试与实验验证过程中的做出了重要贡献,他们的贡献为项目的顺利推进发挥了关键作用。

感谢Deepseek开源项目对大模型技术的巨大推动作用。特别感谢华为海思研发团队的领导和技术专家对此次Deepseek系列大模型的昇腾适配提供的指导、技术支持与帮助。感谢清华-华为鲲鹏昇腾卓越中心提供算力的支持。此外,项目实现过程中参考了GGML 和 llama.cpp 的算子实现,感谢ggml-org社区的优秀开源项目。

GGC往期回顾

1. 三维透明物体重建的网格-神经混合表示 | CVMJ Spotlight

2. Computational Visual Media第11卷第1期导读

3. 计图开源:轻量级遥感骨干网络LSKNet和Strip R-CNN

4. Asiagraphics首届智能图形研讨会开幕

5. 计图适配华为昇腾910系列,迈向国产AI新生态

可通过下方二维码,关注清华大学图形学实验室,了解图形学、深度学习、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

图片

Search

    Table of Contents