大众生活网

中信证券:马斯克XAI发布Grok-3,诠释“大力出奇迹”

中信证券研究报告指出,最近xAI发布了Grok-3系列模型,作为世界上第一个在10万卡集群上训练的大模型,Grok-3应用了合成数据、加强学习、自我纠错机制、人类反馈循环和上下文培训等方法。与前代模型Grok-2相比,模型的综合能力有了显著提高。

根据XAI官方评估数据,在数学测试、科学测试和代码测试中,Grok-3 Reasoning性能超过o3 mini(high)、Gemini-2 flash thinking和DeepSeek 头部模型,如R1。Grok-SOTA系列模型的性能意味着计算能力积累仍然是模型进步的关键变量之一。

中信证券判断行业有望在追求AGI模型的方向上不断加速,进而不断拉动计算能力需求。同时,主要模型制造商在复杂推理层面的不断增加也有望促进下游应用的不断解锁,从而在中期构建更健康均衡的AI产业生态。

▍事项:

2月18日中午12点,马斯克成立的大型创业公司XAI发布了最新一代大型Grok-3及其相关变体版Grok-3 Reasoning、Grok-3 mini和Grok-3 mini Reasoning,引起资本市场的高度关注。

根据XAI官方X平台账号,Grok-3.基于部署在田纳西州孟菲斯的Colossus超级计算机训练,XAI消耗的计算资源相当于2亿小时H100支持的GPU训练时间,是上一代模型Grok-2的10倍以上。根据XAI官网,Colossus超级计算机至少包含10万张H100,预计预训练时间超过2000小时(83.3天)。

此外,在新闻发布会上,马斯克还宣布,在Grok-3成熟稳定后(马斯克预计几个月后),XAI发布的最后一代模型Grok-2将开源。根据XAI官网,2024年Grok-2发布后,XAI还就Apache2.0开源总参数达到3140亿的MoE大模型Grok-1达成了协议。

▍模型效果与实现机制:计算能力积累、强化学习等显著提高模型综合推理能力。

作为世界上第一个在10万卡集群上训练的大模型,Grok-3.评价结果亮眼,在多项测试中均处于行业领先地位。

在数学测试AIMEE中,根据xAI发布会、GPQA和代码编写测试Coding博士水平科学测试(LCB Oct-Feb)Gemini-2中Grok-3分别为52/75/57,性能超过Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4o等主流模型;Grok-3 Reasoning分别为93/85/79,性能超过o3 mini(high)、Gemini-2 flash thinking和DeepSeek 头部推理模型,如R1。在Chatbot。 在Arena评估人工智能模型受人类欢迎程度的测试中,Grok-3的早期版本得分为1402,高于Gemini 2.0 flash think、GPT-4o、DeepSeek 头部大模型,如R1和o1。

根据XAI官方X平台账号,我们认为Grok-3性能优异的原因如下:1)巨大的计算能力投资带来了模型能力的出现。根据XAI新闻发布会,Colossus超级计算机在完成第二阶段建设后扩大到20万张H100;2)应用合成数据、强化学习、自我纠错机制、人类反馈循环、上下文培训等培训手段。

▍市场定位:面对付费用户,能力提升有望解锁更多潜在场景,成本有待优化。

根据xAI新闻发布会,Grok-3目前将率先推特Premium Plus用户推广,目前订阅计划月订阅费40美元。与此同时,XAI还发布了由Grok模型支持的Agent产品DeepSearch。Agent产品可以通过扫描互联网和推特获得和分析信息,最终总结回复。根据XAI发布会,SuperGrok的独立收费计划将包含DeepSearch和无限图像生成功能,预计每月订阅费用为30美元(年订阅费用为300美元)。此外,Grok-企业级API预计几周后上线。在xai发布会上,官方还展示了如何开发Grok自动化游戏。我们认为,随着模型能力的不断提高,人工智能应用场景有望进一步解锁;与Grok-3和ChatGPT的定价水平(20美元/月)相比,考虑到Grok-3的推理成本仍处于市场教育抢占份额阶段,需要进一步优化。

▍趋势展望:基础模型演变节奏加快,合成数据&强化学习值得持续关注。

根据IBM和MIT研究人员的论文《A Hitchhiker's Guide to Scaling Law Estimation》(Choshen,Zhang和Andreas,理论上,2024年,Scaling在现阶段进行预训练 Law仍然有效。根据各公司官网,2024年Inflection。、Adept和Character 人工智能和其他海外明星模型初创公司已经放弃了预训练,并将重点转向后训练和推理技术(如Agent技术等)。

我们认为这一变化的主要原因如下:1)万卡甚至10万卡级计算能力集群投资过高:根据Pytorchtoatoms官方网站的计算,Meta于2024年3月推出的4.9万卡计算能力集群建设+4年运营成本达到12.87亿美元;2)缺乏高质量数据:根据2024年NIPS会议上人工智能科学家伊利亚的演示材料,预训练可能受到未来互联网数据耗尽的限制。然而,Grok-3的出现不仅在实践中证明了Scaling的现阶段预训练 Law仍然有效,这也表明了合成数据和加强学习技术的重要性。因此,我们预计少数领先公司将继续增加预培训投资,探索合成数据和加强学习。

▍风险因素:

人工智能核心技术发展低于预期风险;持续收紧科技政策监管风险;与私有数据相关的政策监管风险;全球宏观经济复苏低于预期风险;欧美企业IT支出低于预期风险;人工智能潜在伦理、道德和用户隐私风险;企业数据泄露和信息安全风险;行业竞争继续加剧风险。

▍投资策略:

Grok-3模型的发布仍然集中在底层算法层面,特别是大语言模型的综合推理能力。从技术角度来看,Grok-在巨大的计算能力和各种培训手段的支持下,3的性能得到了显著提高,这反映了头部公司在基本模型+推理能力两个方向上的持续关注。在应用层面,虽然Grok-3的成本可能会在短期内限制其应用场景的开放性,但随着工程能力的提高和基本算法能力的提高,我们认为人工智能流行应用有望从科学研究、编程等高价值场景中率先解锁,软件和互联网有望率先受益。除了应用程序端的投资机会外,硬件端的需求必然会随着多模式技术的进步而增加

责编:戴露露

相关推荐