春节过后,在整个新春期间刷屏的国产AI大模型DeepSeek却始终维持着其霸榜的热度。短短一周,国内大模型公司“深度求索”开发的DeepSeek不仅拿下了美国和中国区App Store免费榜的双料第一,还成为首个超越OpenAI ChatGPT的AI助手类应用。
这个成立仅3年的中国团队,其最新开源的DeepSeek-MoE-16B模型在MMLU基准测试中以87.3%准确率超越国外顶尖大模型ChatGPT-4,而训练成本仅为后者的1/5,其优秀的计算推理能力和廉价的训练价格让世界震惊,“原来大模型竞赛不单单是属于大公司的游戏。”
随着春节期间越来越多普通人开始下载并深度使用DeepSeek,也让世人惊呼,中国人自主开发的AI,终于在这个春天迎来了自己的“微信时刻”。
何以弯道超车?
极客团队的“巧力出奇迹”
去年12月, DeepSeek的V3版本在全球AI领域掀起了巨大的波澜,它以极低的训练成本,实现了与国际顶尖模型相媲美的性能,震惊了业界。北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟在接受央视采访时介绍,“DeepSeek最大的优势在于它算法的改进和优化,它在算力上得到了节省,在输入数据和语料库上,不像以前要求那么大的数据量和大的算力,这是它的优势。”
“以前如果说OpenAI是‘大力出奇迹’,那么DeepSeek就是‘巧力也可以出奇迹’。”快思慢想研究院院长田丰告诉南方+记者,自ChatGPT问世以来,在人工智能科研领域,全世界普遍遵循着大语言模型中的第一性原理:尺度定律。简言之,算力越强,大模型越强。但是自去年年中以来,当技术迭代到ChatGPT4之后,由算力堆积的预训练阶段的尺度定律已经进入性价比较低的阶段,而DeepSeek则将精力放到底层技术栈的优化和创新上。根据业界测算,DeepSeek能够以美国公司Meta十分之一的成本实现相近的性能。
田丰特别提到,DeepSeek仅仅150人的团队,显示出非常纯粹的基础科研精神,类似于早期OpenAI团队的极客精神。这也体现在DeepSeek的产品中:现在DeepSeek主要发布的三篇论文和三个产品R1、V2、V3,正是不同技术路线的三种尝试。在外界看来,这个百余人的团队除了在纵深上对于大量技术产生颠覆性重构的同时,也在横向上进行了广泛的尝试,这种大胆尝试、小心验证、快速迭代的能力也让这支年轻团队被业界赞叹。
如何保持优势?
率先开源形成“护城河”
值得关注的是,DeepSeek采用了完全开源策略。DeepSeek创始人梁文锋在接受科技媒体暗涌采访时曾说过,“在颠覆性技术面前,闭源形成的护城河是暂时的。即使OpenAI 闭源,也无法阻止他人超越。因此,DeepSeek将价值沉淀在团队建设上,通过不断积累知识和创新文化,形成自身的竞争优势。”
北京大学深圳研究生院副研究员胡国庆认为,开源的优势也意味着越来越多的开发者可以进来,更多开发者加入生态,可以进一步降低开发建设的成本,同时逐步形成自己的生态。正如开源的安卓在很快时间就形成气候一样,生态构建需要开发者八方合力。
美国Meta公司很快就要求团队针对DeepSeek的路线进行拷贝重现。同时,国内不少大模型也开始复制DeepSeek的路线。这是否意味着DeepSeek刚刚得来的头把交椅会很快易主?
对此,田丰告诉记者,具有全球领先性的DeepSeek率先开源,形成了全球开发者的“虹吸效应”,即便后面OpenAI再开源,开发者投入DeepSeek的学习时间和开发资源都将成为开源竞争的护城河。
田丰认为,媒体关注的所谓模型排名,只是科技创新竞争的表象。“如果仔细观察来看,模型的算力、价格、排名几乎每个月甚至每周都在变化。真正需要重视的则是科技创新的速度和加速度,倘若创新加速度领先,那就会在长跑中始终保持优秀。”
田丰介绍,由于DeepSeek是开放权重模型,且对下游基于该模型的商业开发没有做出限制,论文中也透露出很多训练细节,属于目前开放性最好的开源模型,超过了美国开源龙头Meta的Llama系列模型,所以让DeepSeek广受开发者喜爱。
DeepSeek爆火之后,其鲇鱼效应正在不断发酵,各家AI巨头开始纷纷效仿。OpenAI在大年初四推出了o3推理模型,随后又免费开放了搜索功能;谷歌紧随其后,Gemini2.0模型全面开放,而在2月7日,OpenAI则进一步打算跟进DeepSeek的“开放”战略, 宣布公开最新模型o3-mini系列模型的思维链,让用户也能看到模型的思考过程。
为什么火出圈了?
迎来自己的“微信时刻”
先行者ChatGPT问世已超过两年。这两年里,国内外多个大模型在各类排行榜中争夺激烈,但其使用者往往还是小范围的科技工作者、程序员等。普通人总觉得,好用的AI大模型距离太远。
直到这次,针对普通用户免费下载使用、回答有趣的DeepSeek,让AI大模型首次在国内走进千家万户。
田丰观察到,春节期间,不单单是一线城市的开发者们,连四五线县城的老人,都会用AI去查菜谱。正如媒体所言,大模型真正来到了人人可用的“微信时代”。
“四五线城市的很多用户连DeepSeek这个英文名字都不会念,但是他知道一个D打头的AI很厉害,就会下载这个应用。”田丰说。
春节期间,不少网友在社交网络上晒出自己与DeepSeek对话的截图,有护士希望在有限的时间让AI教自己如何赚外快,有人希望AI帮自己安排过年走亲戚的规划,还有人贴出AI给出的新年投资计划,并感慨“像大师的水平”……
田丰觉得,DeepSeek的一个亮点在于,其在给出结论的同时,还把它的“思维过程”写出来了,“这对于用户来说是非常友好的,可以看到这个AI是怎么一步一步推导出结论的,有新意,这是之前很多模型都没有打开的‘黑盒’。”田丰以自身为例说,“我就比较喜欢,不光看结果,更喜欢看它的推导过程。”
会带来新的变革吗?
AI产业有望从烧钱转向赚钱
“我相信在最近两个月内,有很多基于DeepSeek的行业模型,会有明显的台阶式的性能提升。”田丰说。他以ChatGPT为例介绍,当ChatGPT4版本发布后,得益于这一版本逻辑推理能力的提升,使得AI编程达到了商业化需求的基准线。相应地,DeepSeek因其优秀的逻辑推理能力,在医疗、科研、金融、编程等领域有望实现商业应用。
胡国庆也分析,可以预见两到三年内,各种细分领域的AI产品,包括AI大模型、AI终端甚至AI机器人等将不断融入各行各业,各种细分品类的大模型也将不断涌现。
在田丰看来,DeepSeek对于各个行业的影响仍在不断发酵,但有一点毋庸置疑,那就是创新的信心:“此前,美国的垄断让人们误以为在这场竞赛中他人已毫无机会,而DeepSeek的这次突围,就给了所有人信心。”
他表示,DeepSeek带来了巨大的希望:之前不管是美国还是中国的大公司,大模型都是几千人在做,投入的算力至少是几万张显卡,10万张卡、20万张卡甚至更高。但DeepSeek出现后,大家会发现原来用5万张卡,150人青年科学家的团队,就可以把这个世界领先的模型做出来。
他进一步表示,之前大家一直说AI是在不断地烧钱,现在因为基础模型和算力带来的成本持续的下降,AI大模型有望到达成本拐点,也即从烧钱转变为赚钱,从而带来产业应用的繁荣。
由此,上游的云计算、基础模型厂商、芯片厂商都会从商业利润中受益。“用户愿意为大模型的应用去付费了,整个的商业模式就通了,之后不管是算力层面还是芯片研发层面,和原来只是靠投资或者国家的大基金支持又会不一样,它将会有非常好的商业良性循环。”田丰说。
按照DeepSeek该团队过去每季度推出新版本的节奏,相信今年春天我们就可以看到更强的DeepSeek。越强的模型必然带来越加繁荣的人工智能应用市场,而市场的利润最终也将再次回流到研发。可以预见,一个属于AI的春天已经来了。
南方日报记者 徐勉 王诗
南方日报、南方+客户端原创,未经授权不得转载
编辑 余佩 李江萍
校对 黄买冰
本文网址: