国泰君安:DEEPSEEK模型降本打开AI应用产业上升通道 腾讯(00700)、小米(01810)等有望受益

发布时间 2025-2-4 14:51
更新时间 2025-2-4 15:05
© Reuters

智通财经APP获悉,国泰君安发布研报称,DeepSeek实现模型大幅降本,价值有望从模型层转移至应用层。DeepSeek成为全球DAU增速最快的AI应用,20天达成DAU 2000万,带来巨大的推理算力需求。推荐算力方面受益的英伟达(NVDA.US)、台积电(TSM.US)以及应用方面受益的腾讯(00700)、小米(01810)、Meta(META.US)、谷歌(GOOGL.US)。

国泰君安主要观点如下:

DeepSeek通过多处工程创新,实现降低训练成本、降低推理成本、提高模型效果等进展

1)降低训练成本:DeepSeek使用较宽的MOE架构,且提出共享专家机制,每次训练只激活需要的专家(按需调用),而非激活全部专家,从而大大降低训练成本。此外,使用fp8低精度训练、双管道训练、多Token预测等方法进一步降低训练成本。

2)降低推理成本:DeepSeek提出多头潜在注意力(MLA),在不牺牲模型质量的前提下,大幅减少KV缓存的大小。此外,低精度存储和通信、推理阶段动态专家选择等方法进一步降低推理成本。

3)提高模型效果:不同于传统的SFT,DeepSeek使用强化学习做post-training,大幅提升模型推理能力。此外,DeepSeek针对中文做了大量风格对齐,大幅提升模型可用性。

DeepSeek触发模型降本,长期看,打开AI应用产业上升通道,算力需求不降反增

蒸汽机效率提升并没有导致煤炭少用,DeepSeek虽然触发模型大幅降本,但长期看将打开AI应用产业上升通道,算力需求不降反增,因算力需求具备多样性:1)模型向更高智能维度跃迁,训练需要更多算力。2)AI应用的推理需要广泛算力,更多人会去训练和推理自己的模型。3)转向对等异构计算的新主流计算形态需要更多GPU。4)目前模型仅仅停留在对话,未来从对话到任务、到多模态还需要更多算力加持。

根据AI产品榜,DeepSeek应用(APP,非网页)成为增速最快的AI产品,上线20天即达成DAU 2000万,反映出模型能力提升对于用户的巨大吸引力,带来潜在的巨大推理算力需求。

DeepSeek并没有真正绕过CUDA架构

DeepSeek没有使用CUDA的API,而是直接使用PTX,从而对计算过程进行更细粒度的控制。PTX仍然是英伟达GPU架构中的技术,是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。编写PTX代码的做法,首先非常复杂且难以维护,对技术人员要求极高,其次移植性较差,较难移植到不同型号的GPU。

DeepSeek基于PTX进行优化代表他们有优化其他GPU的能力,但既不意味着完全脱离了CUDA生态,也不意味着其他团队有能力直接使用PTX,因此英伟达的CUDA护城河仍在。

风险提示:地缘政治风险;大模型迭代进展不及预期;监管风险;商业化进度不及预期。

最新评论

风险批露: 交易股票、外汇、商品、期货、债券、基金等金融工具或加密货币属高风险行为,这些风险包括损失您的部分或全部投资金额,所以交易并非适合所有投资者。加密货币价格极易波动,可能受金融、监管或政治事件等外部因素的影响。保证金交易会放大金融风险。
在决定交易任何金融工具或加密货币前,您应当充分了解与金融市场交易相关的风险和成本,并谨慎考虑您的投资目标、经验水平以及风险偏好,必要时应当寻求专业意见。
Fusion Media提醒您,本网站所含数据未必实时、准确。本网站的数据和价格未必由市场或交易所提供,而可能由做市商提供,所以价格可能并不准确且可能与实际市场价格行情存在差异。即该价格仅为指示性价格,反映行情走势,不宜为交易目的使用。对于您因交易行为或依赖本网站所含信息所导致的任何损失,Fusion Media及本网站所含数据的提供商不承担责任。
未经Fusion Media及/或数据提供商书面许可,禁止使用、存储、复制、展现、修改、传播或分发本网站所含数据。提供本网站所含数据的供应商及交易所保留其所有知识产权。
本网站的广告客户可能会根据您与广告或广告主的互动情况,向Fusion Media支付费用。
本协议的英文版本系主要版本。如英文版本与中文版本存在差异,以英文版本为准。
© 2007-2025 - Fusion Media Limited | 粤ICP备17131071号 | 保留所有权利。