DeepSeek 发布最新开源模型DeepSeek-R1

schurmi
发布于 2025-01-26 / 53 阅读
0
0

DeepSeek 发布最新开源模型DeepSeek-R1

#AI

DeepSeek上周发布开源的DeepSeek-R1,并称该模型性能对标OpenAI o1正式版之后,海外AI业界对该模型的讨论还在持续。

据DeepSeek介绍,DeepSeek-R1在Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-bench Verified等测试中,得分与o1正式版接近,部分测试中得分还超过o1正式版。该模型在后训练阶段大规模使用了强化学习技术,在只有极少标注数据的情况下提升了模型推理能力。

AI业界人士已经在讨论开源的影响。Meta首席AI科学家Yann Lecun表示,DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。“DeepSeek会从开放研究和开源中获利,可能会类似Meta的PyTorch和Llama。他们提出新想法,并在别人的工作基础上实现。因为他们的工作是公开和开源的,每个人都能从中获利,这就是开放研究和开源的力量。”

AI科技初创公司Scale AI的创始人亚历山大·王(Alexandr Wang)称,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。

加州大学伯克利分校计算机科学教授伊恩·斯托伊卡(Ion Stoica)对第一财经记者表示,DeepSeek-R1和DeepSeek-V3已经表明,只需花费训练GPT、Gemini和 Claude等现有大模型的一小部分成本即可获得最先进的结果。他还表示在该校的大模型排行榜中,DeepSeek-R1在包括开源模型和专有模型的所有模型中排名第三。

更重要的是,这一成就是在美国对华芯片出口管制加强的背景下实现的

目前,DeepSeek-R1已经一跃成为开源社区Hugging Face上下载量最高的大模型,下载量达10.9万次,这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的AI开发。

不过,从最新消息看,DeepSeek的产品更新并未改变海外巨头向大模型投入巨额资金、大举建设算力基础设施的做法。近日OpenAI、甲骨文和软银宣布将成立一家合资企业“星际之门计划”,计划未来四年投资高达5000亿美元用于建设AI相关基础设施,该计划得到了刚上任的美国总统特朗普的力挺。


评论