计图团队完成华为昇腾上 DeepSeek 模型的高效适配

近年来，随着大语言模型在智能问答、代码生成等任务中的广泛应用，如何在国产算力平台上实现对其的高效部署，已成为推动人工智能自主创新生态建设的关键课题。计图团队持续深入探索国产软硬件协同优化的技术路径，在成功适配华为昇腾910系列AI处理器的基础上，取得两点重大进展：

首次实现单台华为8卡服务器上的deepseek R1的推理。
Deepseek V2的推理性能比 vLLM(Ascend 版本)在不同请求下，平均提升53%以上。

此项工作，进一步推进对 DeepSeek 系列大模型在昇腾平台上的高性能适配与加速优化，为国产大模型在国产硬件上的落地应用提供了技术支撑。

Part 1

项目背景和动机

由DeepSeek V2、DeepSeek V3、DeepSeek R1 等模型构成的 DeepSeek 大模型家族，自发布以来便受到了学术界与工业界的广泛关注。这一系列模型在日常对话、复杂问题推理、代码生成等多个核心任务上展现出卓越能力。尤其值得一提的是，DeepSeek模型不仅在多个评测基准上实现领先性能，还坚持开源的路线，极大地推动了国内大模型社区的发展与应用生态的繁荣。

在模型能力突飞猛进的同时，围绕其推理效率与部署灵活性的研究也日益成为业界关注焦点，涌现出以vLLM 等为代表的一系列高性能推理框架。vLLM是一个基于 PyTorch 构建的开源推理框架，专为大语言模型的高效推理而设计。凭借卓越的性能与易用性，vLLM 已成为当前最受欢迎的开源大模型推理解决方案，在 GitHub 上收获了超过 4 万颗星标。

然而，其优化主要针对于英伟达的 CUDA 生态，存在对国外硬件平台依赖强、适配国产硬件成本高等问题，制约了大模型在国产算力平台上的规模化部署能力。

与此同时，以华为昇腾为代表的国产AI 芯片在计算性能、系统软件栈和生态建设等方面持续取得突破，构建“全栈国产”的 AI 技术体系已具备可行性。越来越多的高校与研究机构将目光投向了“国产大模型 × 国产软件 × 国产算力”的深度融合实践，探索真正自主可控的智能计算解决方案。

在这一背景下，清华大学计图团队发起本项目，围绕DeepSeek 系列大模型开展全面的国产化适配工作，依托计图框架，致力于打通大模型国产芯片部署的全栈技术；构建安全可控、性能优越的大模型国产部署解决方案。

Part 2

DeepSeek与华为芯片的高效适配

计图团队在推动 DeepSeek 模型适配华为硬件平台的过程中，面临了一系列复杂而严峻的挑战：

首先，作为最优秀的国产芯片，华为芯片的生态系统仍处于持续完善阶段，与NVIDIA的相比，在生态上还有差距，这增加了适配工作的不确定性和难度。

其次，华为设备上CPU性能是大模型适配的一个技术瓶颈，在英伟达设备上的优化经验难以直接应用于华为设备。

最后，当前主流模型在设计之初，多基于 A100、H20、H200等英伟达设备的强大算力与充足显存进行考量。然而，华为设备的显存相对较小，这导致模型在运行过程中频繁出现显存不足的问题，为优化工作带来了额外的困难。

计图团队经过不懈努力，克服了上述困难，完成了DeepSeek V2 Lite(16B)、DeepSeek V2(236B)以及DeepSeek R1(671B)模型在华为昇腾硬件平台上的适配与性能优化。主要的适配和优化工作包括：

算子实现：实现华为芯片上的DeepSeekMoE (直接实现版本和fused版本)、具有外扩功能的旋转编码(RoPE: Rotary Position Embedding)，并进行算子实现层面的优化与量化。
内存布局：实现基于矩阵吸收的MLA，大幅减少模型显存占用。
并行策略：包括实现华为芯片上的张量并行、专家并行和数据并行等关键环节的并行优化
服务端优化：通过加速 continuous batching 机制，有效提升高并发场景下的推理吞吐与响应效率。

该推理框架的主要亮点在于：

通过对模型算子权重进行 Int4 量化优化，显著降低了显存占用，为资源受限环境下的大模型部署提供了有效解决方案，成功实现了对 DeepSeek R1 模型在单机 8 卡昇腾硬件上的部署。
实测数据表明，相比主流开源推理框架 vLLM(Ascend 版本)，该框架运行 DeepSeek 系列模型的推理速度提升显著，针对不同的请求数，性能增幅达44.0% - 90.3%, 展现出强大的性能优势。
自主可控，本推理框架不依赖 Pytorch，是一套自主可控的优化方案。

下面展示了计图团队开发的推理框架与 vLLM 在不同模型上的推理速度对比，以及相关的运行效果。

华为 910系列-单卡DeepSeek V2-Lite 模型与vLLM 的速度对比

华为 910系列-单卡运行DeepSeek V2-Lite 模型视频示例

华为910系列-单机(8卡)DeepSeek V2模型与 vLLM 的速度对比

华为910系列-单机(8卡)运行 DeepSeek V2模型视频示例

华为 910系列-单机(8卡)运行 DeepSeek R1 速度

华为 910系列-单机(8卡)运行DeepSeek R1模型视频示例

Part 3

展望与致谢

计图团队希望通过本项目，助力华为昇腾的AI基础软硬件平台。后续，我们将开源相关技术，也期待能和学术届和工业界的同仁一起努力，为国产人工智能生态的发展做出应有的贡献。

感谢南开大学程明明教授机器团队对本项目提供的大力支持，其中，焦鹏屹、陈佳博、向东和朱子轩同学在模型调试与实验验证过程中的做出了重要贡献，他们的贡献为项目的顺利推进发挥了关键作用。

感谢Deepseek开源项目对大模型技术的巨大推动作用。特别感谢华为海思研发团队的领导和技术专家对此次Deepseek系列大模型的昇腾适配提供的指导、技术支持与帮助。感谢清华-华为鲲鹏昇腾卓越中心提供算力的支持。此外，项目实现过程中参考了GGML 和 llama.cpp 的算子实现，感谢ggml-org社区的优秀开源项目。

GGC往期回顾

1. 三维透明物体重建的网格-神经混合表示 | CVMJ Spotlight

2. Computational Visual Media第11卷第1期导读

3. 计图开源：轻量级遥感骨干网络LSKNet和Strip R-CNN

4. Asiagraphics首届智能图形研讨会开幕

5. 计图适配华为昇腾910系列，迈向国产AI新生态

可通过下方二维码，关注清华大学图形学实验室，了解图形学、深度学习、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

计图团队完成华为昇腾上 DeepSeek 模型的高效适配

计图团队完成华为昇腾上 DeepSeek 模型的高效适配

Search

Table of Contents