大众生活网

中信证券:从DeepSeeek的计算需求来看五大硬件受益方向


文|徐涛 杨泽原 雷俊成 王子源 夏胤磊 程子盈中信证券研究

通过工程能力创新,DeepSeek实现了大模型训练和推理算力成本的终极优化,也为端侧部署高性能模型提供了新的方向。本报告分析了DeepSeek V3和R1模型论文的核心逻辑是“按需分配计算能力,最小化冗余计算”,使1000亿模型可以在低成本硬件(甚至边缘设备)上有效运行,为大规模商业着陆提供技术基础。我们对新一代模型推动云推理需求的爆发持乐观态度,加快人工智能应用侧着陆:建议重点关注晶圆OEM、国内计算能力芯片、定制存储、终端品牌、SOC五个方向。

▍如何降低DeepSeek的训练成本?

1)架构创新:DeepSeek-V3的基础设施采用了DeepSeekmoe专家架构和MLA多头潜在注意力机制。DeepSeekmoe通过细粒度专家分配、共享专家和无辅助损失负载平衡策略优化传统Moe,提高计算资源效率;MLA通过低秩联合压缩减少注意力键缓存占用,提高计算效率,减少内存消耗。

2)FP8混合精度培训:FP8低精度数据是世界主流大模型中第一个大规模培训。大多数核心计算使用FP8来提高速度和减少内存消耗,一些关键操作保持高精度,以确保动态稳定性。

3)培训项目优化:Deepseek率先在主流大模型中使用硬盘作为输入缓存,设计Dualpipe算法实现高效流水线并行,整合前后通信阶段,减少堵塞;采用定制高效跨节点all-to-通过重计算,降低all通信内核的通信成本EMA、减少内存占用共享向量和输出头。

4)数据策略优化:应用多token预测机制MTP,增加训练信号密度,减少训练迭代次数的20%,帮助模型捕捉长距离依赖关系。

▍如何降低DeepSeek的推理成本?

DeepSeek-V3对推理的预填充和解码两个阶段都优化了专家的使用效率:MoE利用EP32和冗余专家策略提高了预填充阶段的效率,探索了解码阶段的动态路由,降低了通信成本;支持FP8、INT8量化并提供蒸馏版本,实现低精度量化和模型压缩,减少显存占用。DeepSeek的开源生态可以更好地支持硬件制造商的适应,例如优化MLA算子,提高推理效率,DeepSeek-R1发布后,国内外芯片厂商迅速响应支持DepSeek。1月25日,AMD宣布将新的DepSeek-V3集成到Instinct MI300X 在GPU上,SGLang优化了推理过程,英伟达和英特尔随后在1月31日正式宣布支持。国内厂商已经正式宣布完成了DeepSeek的适应,国内计算能力已经成为一个相对稳定可靠的选择,支持国内大型模式从研发到商业化。

▍AI芯片的设计方向取决于Deepseek的计算能力需求?

DeepSeek 在论文的芯片设计意见指导中,指出通信和计算同样重要,降低计算精度和内存需求是关键。在通信硬件优化方面,建议开发独立的通信协会处理器,实现计算与通信物理的分离,建议整合网络架构,统一IB和 NVLink网络协议栈统一通信接口,简化编程复杂性,减少通信延迟;建议在计算硬件优化方面进行改进 FP8 计算精度,支持分块量化和在线量化,减少访问存储费用,提高推理效率。我们认为Deepseek建议带来两个启示:

1)90%的“推理速度”基本上是由decoding阶段决定的,因此内存容量决定了大模型推理速度。我们认为内存升级仍然是计算能力芯片升级的关键方向,对近存计算的发展持乐观态度。

2)我们认为,在模型开源策略下,DeepSeek-R1蒸馏后的小模型性能预计将继续快速提高,帮助端侧硬件加速访问,帮助人工智能应用全面实施。我们对品牌和SOC芯片制造商的增长机会持乐观态度。

▍风险因素:

计算能力芯片供应链风险;芯片容量供应不足的风险;大型互联网制造商的资本支出低于预期;相关产业政策低于预期;人工智能技术和应用开发低于预期;芯片技术迭代低于预期;国内先进工程量产进展低于预期;行业竞争加剧等。

▍投资策略:

我们对新一代DeepSeek模型推动云推理需求爆发持乐观态度,加快AI应用端侧落地:

1)云:DeepSeek有望开启新的Scaling Law,模型重心逐渐从预训练转变为强化学习和推理阶段,有助于计算能力需求的持续增长。

2)终端:我们对DeepSeek带来的轻量级模型的全面升级持乐观态度。预计端侧硬件接入将加速爆发,帮助人工智能应用全面实施。建议关注品牌厂商和SOC芯片厂商。

本文摘自2025年2月14日中信证券研究部发布的《电子行业计算能力系列报告2-从DeepSeek计算能力需求看硬件受益方向》报告


(来源金融界)

责编:戴露露

相关推荐