DeepSeek

DeepSeek

DeepSeek(深度求索)是幻方量化创立的AI公司,助力编程代码开发、创意写作、文件处理等任务,支持文件上传及长文本对话,随时为您提供高效的AI支持。

DeepSeek全名杭州深度求索人工智能基础技术研究有限公司,2023年成立于杭州。别看它年轻,”娘家”却是国内量化投资界的顶流——幻方量化。

创始人梁文锋是个”非典型”创业者。这位1985年出生的浙江大学毕业的广东人,2008年就开始用机器学习做量化交易,那时候AI还没进入大众视野。2015年他创立幻方量化,仅用四年就将管理规模做到百亿级别。2023年,当大语言模型技术爆发时,梁文锋认为这是通往通用人工智能的必经之路,果断跨界成立了DeepSeek。

更难得的是团队配置。核心成员清一色顶尖学府博士——北大物理系的高华佐、清华交互式AI博士生邵智宏、北大计算机博士朱琪豪(GRPO算法贡献者),还有在英伟达实习过的赵成钢负责基础架构。这群人不是纸上谈兵的学院派,而是既有学术深度又有产业实战经验的”复合型人才”。

“低成本奇迹”是如何炼成的?

DeepSeek的成名之作是2025年1月发布的DeepSeek-R1推理模型。当时团队首次公布训练成本仅为29.4万美元,即使加上基础模型总成本约600万美元,也仅是Meta开发Llama成本的十分之一,更是OpenAI、谷歌等巨头投入的零头。

这个数字像颗核弹引爆了资本市场。微软、谷歌股价应声下挫,英伟达市值一天蒸发约6000亿美元。投资者突然意识到:AI也许不需要天量烧钱也能做出顶尖效果。

R1模型在《自然》杂志发表封面论文,成为全球首个通过严格同行评审的主流大语言模型。杂志评论称这是”里程碑式论文”,认为DeepSeek公开验证的做法为抑制AI行业过度炒作树立了先例。

技术进化路线图:从追赶到引领

DeepSeek的发展速度堪称疯狂:

2024年1月,发布首个大语言模型DeepSeek LLM(70亿和670亿参数版本)和代码模型DeepSeek Coder,直接开源。

2024年5月,DeepSeek-V2采用混合专家(MoE)架构,在保证性能的同时大幅降低推理成本,打响了行业”价格战”的第一枪。

2024年底至2025年初,DeepSeek-V3和R1系列在数学、编码和推理能力上追平GPT-4o和o1等顶尖闭源模型,训练成本却只是后者的几十分之一。

2025年8月21日,DeepSeek-V3.1发布,核心创新是”混合推理架构”——同一个模型既能快速响应(非思考模式),又能深度推理(思考模式),在工具使用、编程和搜索任务上表现大幅提升。

2025年9月,V3.1-Terminus版本迅速迭代,解决了中英文混杂等输出问题,在”人类最后的考试”基准测试中成绩提升36.48%,多项测评超越Gemini 2.5 Pro。

2025年10月,DeepSeek-V3.2-Exp实验版引入稀疏注意力机制,将长文本处理效率提升数倍。同月发布的DeepSeek-OCR模型更另辟蹊径——把文本转成图像实现近10倍无损压缩,单张A100显卡每日可处理超20万页数据,准确率保持在97%以上。

为什么DeepSeek能”四两拨千斤”?

DeepSeek的成功绝非偶然。其核心策略是**开源+高效+垂直突破**:

1. 开源颠覆商业模式:与OpenAI的封闭路线不同,DeepSeek将模型权重和训练细节完全公开,吸引全球开发者共建生态。这种”薄利多销”策略反而放大了技术影响力。

2. 架构创新降本增效:从MoE到稀疏注意力,DeepSeek在模型架构上持续优化,把算力用在刀刃上。正如上海交大赵沛霖教授评价:”稀疏注意力并非DeepSeek首创,但他们在超大规模模型上首次实现计算量和成本的大幅下降。”

3. 场景化深耕:DeepSeek-Prover-V2-671B专注数学证明,在抽象代数、拓扑学等高阶领域实现形式化验证;V3.1在国产数据库转换任务中拿下满分,展现出强大的特定领域适应力。

行业震动:一场静悄悄的革命

DeepSeek的崛起让全球重新审视AI发展路径。当巨头们还在堆砌算力、封闭研发时,这家中国公司证明:精巧的算法设计+开源生态,能以十分之一成本实现同等效果。

最尴尬的是英伟达。DeepSeek的技术路线直接减少了对高端GPU的依赖,R1模型甚至能在单张消费级RTX 4090显卡上运行。这与英伟达力推的”算力至上”叙事形成尖锐对立。

华尔街的恐慌反应背后,是对旧有投资逻辑的动摇。如果AI模型可以”低成本+开源”,那么巨额投入构建的封闭护城河可能一夜失效。

目前,DeepSeek已全面适配国产芯片,从依赖进口到自主可控,踩准了每个时代节拍。V3.2实验版的价格比V3.1更低,限流条件更宽松,显示出商业化落地的决心。

这家”用量化交易思维做AI”的公司,正在改写游戏规则。它没有选择堆钱堆卡的蛮力路线,而是用算法优化和开源协作的智慧,在巨头夹缝中撕开一个缺口。

DeepSeek能走多远?没人敢下定论。但它至少证明了:在AI这场马拉松中,中国选手不仅能跟跑,更能领跑。