DeepSeek

深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团...

DeepSeek是一家成立于2023年的中国AI公司,以其极致性能加完全开源的策略在全球大模型赛道中迅速崛起。与追求对话体验的通用型AI不同,DeepSeek自诞生起便聚焦代码生成、数学推理与复杂逻辑任务,被誉为极客首选。其核心理念是通过架构创新和后训练优化,在有限算力条件下实现性能最大化,挑战开源模型永远落后闭源的行业魔咒。公司研究负责人苟志斌在推特上直言强化学习在长上下文长度下也能持续扩展,揭示了其技术路线的底层信仰——通过算法创新而非单纯堆算力来突破模型能力边界。

2025年12月1日,DeepSeek突发更新,同时发布两款正式版模型,标志着其技术路线的成熟。第一款是DeepSeek-V3.2,定位日常问答、通用Agent任务、真实场景工具调用,其推理能力达GPT-5水平,略低于Gemini-3.0-Pro。在AIME 2025数学竞赛中获得93.1%的成绩,在HMMT 2025二月赛中获得92.5%超越GPT-5的88.3%,在LiveCodeBench代码评测中获得83.3%接近GPT-5的84.5%。相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少用户等待时间和计算开销。架构上引入DSA即DeepSeek Sparse Attention稀疏注意力机制,将计算复杂度从O(L²)降至O(L·k),在128K长上下文场景下成本降低75%-83%。

第二款是DeepSeek-V3.2-Speciale,定位复杂数学推理、编程竞赛、学术研究,融合DeepSeek-Math-V2的定理证明能力,采用长思考增强模式。在IMO 2025国际数学奥林匹克获得金牌,在CMO 2025中国数学奥林匹克获得金牌,在ICPC World Finals 2025国际大学生程序设计竞赛获得金牌,达人类选手第二名水平,在IOI 2025国际信息学奥林匹克获得金牌,达人类选手第十名水平。该模型消耗Tokens显著更多,成本更高,仅供研究使用,不支持工具调用,未针对日常对话优化。

技术上,DeepSeek实现了三大突破性创新。第一是DSA稀疏注意力机制,传统Transformer的O(L²)复杂度使长上下文推理成为高成本奢侈品。DeepSeek创新性提出DeepSeek Sparse Attention,通过闪电索引器与细粒度token选择两大组件,将复杂度骤降至O(L·k)。这一机制在9月的实验版V3.2-Exp中首次验证,两个月后确认其有效性:标准Benchmark与V3.1-Terminus持平,ChatbotArena Elo评分接近,长上下文评测反高出4分。

第二是大规模强化学习,DeepSeek在RL上下了血本,训练计算预算超过预训练成本的10%,这在开源模型中极为罕见。技术报告指出,开源模型post-training投入不足限制了困难任务性能,因此团队开发了稳定可扩展的RL协议,包括无偏KL估计修正原始K3估计器,消除系统性误差,避免无界梯度权重导致的训练不稳定;离线序列掩码策略通过KL散度计算,屏蔽偏离当前策略过远的负样本序列;MoE专属Keep Routing保存推理时的路由路径并在训练中强制使用,确保参数优化一致性;专家蒸馏策略提升训练效率。这套协议使模型能够将推理策略泛化到训练时未见过的Agent场景。

第三是首个思考加工具调用融合模型,传统推理模型在思考模式下无法调用工具,DeepSeek-V3.2打破了这一限制,同时支持思考非思考双模式工具调用。其核心创新在于思考上下文管理,包括海马体机制仅在引入新用户消息时丢弃历史推理内容,若仅添加工具相关消息则保留推理过程;冷启动Prompt设计通过系统提示让模型在推理中自然插入工具调用,用特殊标签标记推理路径。

DeepSeek-V3.2的核心战略转向是强化通用Agent任务场景,标志着AI从能说到能做的质变。团队开发了自动环境合成pipeline,生成1827个任务导向环境和85000+复杂指令,涵盖旅行规划、代码调试、多工具协同等场景。代码Agent能力方面,从GitHub挖掘数百万个issue-PR对,经严格筛选和自动环境构建,搭建数万个可执行的软件问题解决环境,覆盖Python、Java、JavaScript等多种语言,在SWE-Verified基准上达到73.1%解决率,在Terminal Bench 2.0上准确率46.4%,大幅超越现有开源模型。搜索Agent能力采用多Agent pipeline生成训练数据,先采样长尾实体,再经问题构建、答案生成和验证等步骤产生高质量数据。在MCP-Universe和Tool-Decathlon等工具使用基准测试中,DeepSeek-V3.2展现出接近闭源模型的性能,证明了开源模型在Agent领域已跻身第一梯队。

开源战略上,DeepSeek-V3.2系列模型权重、聊天模板、本地运行指南在Hugging Face全面开放,中小企业和个人开发者可零成本使用对标GPT-5的能力。这种顶级性能加免费开源的组合正在重塑全球AI权力结构,终结开源永远落后的神话。成本优势方面,DSA机制与后训练优化使V3.2在128K上下文场景下成本降低75%-83%,技术报告明确指出实现强大的AI并不一定需要夸张的资本投入,这对依赖高算力投入的硅谷巨头构成直接挑战。在地缘政治影响方面,在美国高端芯片禁令背景下,DeepSeek证明通过算法创新可绕过物理层封锁,其V3及后续迭代已显示封锁的阶段性失效,当推理成本可忽略、上下文能容纳整本书籍时,量变引发质变,AI Agent将重构物理世界的工作流。

DeepSeek在报告中坦诚其局限性,由于总训练FLOPs较少,V3.2的世界知识广度仍落后于Gemini 3.0 Pro,后续计划通过扩大预训练算力来弥补知识差距,同时继续打磨方法论。战略方向上,先用一年时间通过合成数据、自我验证和大规模RL跑通后训练上限,再堆算力提升基础模型。如网友所言,每篇DeepSeek论文最重要的部分永远是结论、局限性与未来工作,这种坦诚与技术自信暗示V4/R2等更大版本已在路上,当前仅是凉菜就已让硅谷吃饱。

总结来说,DeepSeek-V3.2的发布不仅是模型性能的突破,更是AI发展范式的宣告。技术上,DSA稀疏注意力加大规模RL加思考工具融合为长序列复杂任务奠定基础;产品上,从ChatBot到Agent的跃迁开启Service as a Software时代;生态上,开源模型首次在推理与Agent能力上与闭源并驾齐驱;战略上,方法论优先于算力堆砌为资源受限环境下的创新提供范本。当DeepSeek喊出接下来我要堆算力了,整个行业都应意识到开源AI的寒武纪大爆发才刚刚开始。

相关导航