梁文锋专访:伟大不能被计划,DeepSeek创新靠什么?
来源:搜狐 发表于2025-02-10 18:51:50 编辑:时寒峰
摘要: 原标题:梁文锋专访:伟大不能被计划,DeepSeek创新靠什么? 给孩子受益终生的人文底色 中国大模型DeepSeek实在太火了 。它在所有应用商店榜单上超越了美

  原标题:梁文锋专访:伟大不能被计划,DeepSeek创新靠什么?

  给孩子受益终生的人文底色

  中国大模型DeepSeek实在太火了 。它在所有应用商店榜单上超越了美国的竞争对手ChatGPT,触发科技股市高达1万亿美元的抛售,并在硅谷引发末日般的评论。

  最近网上很多人都在往国运、国与国斗争上引话题,但其实反过来想:一个原本名不见经传的“小透明”如何成长为AI世界的“鲶鱼”? 创新何来?是因为顶层设计吗?

  一向低调的梁文锋接受采访说,创新 不是被顶层设计出来的,而是靠每个人自由生长,不断试错,创新也不是纯靠资本堆出来的,首先是一个信念问题,为什么硅谷创新能力强?因为他们敢。

  “暗涌”记者在去年7月,也就是V2模型一举成名后不久,就曾对鲜少露面的DeepSeek创始人梁文锋有过一次独家采访。访谈内容,无论是对中国AI未来,还是对个人成长,都会有启发。

  报道发于英文网站“The China Academy”,本文为原文翻译。

  01

  价格战第一枪使如何打响的?

  暗涌:DeepSeek V2模型发布后,迅速引发了大模型行业的激烈价格战。有人认为你们是市场的颠覆者。

  梁文锋(DeepSeek创始人):我们从未想过要成为颠覆者,这一切只是意外发生的。

  暗涌: 在此之前,大多数中国公司只是复制Llama的模型架构来开发应用。为什么你们选择专注于模型结构本身?

  梁文锋:如果目标是做应用,采用Llama的架构快速上线产品是合理的选择。但我们的目标是AGI(通用人工智能),这要求我们探索新的模型架构,在有限的资源下,实现更强的能力。这是规模化发展的基础性研究。除了架构,我们还深入研究了数据构造和类人推理能力,这些都在我们的模型中有所体现。而且,Llama的训练效率和推理成本相比全球最前沿的标准,估计也有两代差距。

  暗涌:这两代的差距主要体现在哪里?

  梁文锋:首先是训练效率的差距。我们估算,中国目前最好的模型,在算力相同的情况下,可能需要两倍的计算资源才能达到全球顶尖模型的水平。这是由于架构和训练策略的差距。其次是数据利用效率,中国的模型大约只有全球最优水平的一半,也就是说,同样的结果需要两倍的数据和计算量。两者叠加,意味着整体资源消耗是四倍。我们的目标是不断缩小这个差距。

  暗涌:大多数中国公司都会同时布局模型和应用,为什么DeepSeek只专注于研究?

  梁文锋: 因为我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式并非理所当然。 这一次,我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。

  暗涌:互联网和移动互联网时代的普遍共识是,美国擅长创新,而中国擅长应用落地。

  梁文锋:我们认为,随着经济的发展,中国必须逐步从技术的受益者转变为贡献者,而不是一直搭便车。在过去30年的IT革命中,我们几乎没有真正参与核心技术创新。

  我们习惯了摩尔定律“从天而降”——只需躺上18个月,就能获得更先进的硬件和软件。同样,我们对大模型的“规模定律”也是如此。但事实上,这些技术进步是西方科技社区几代人持续努力的结果。由于我们长期未能深度参与这一进程,反而渐渐忽视了其真正的价值。

  02

  真正的差距在原创性,而不仅仅是时间

  暗涌:为什么DeepSeek V2会让硅谷许多人感到意外?

  梁文锋:在美国,每天都有各种创新出现,从这个角度看,我们的突破并不算特别。但他们惊讶的是, 一家中国公司不仅仅是跟随者,而是以创新者的身份加入了他们的竞争。这与大多数中国企业习惯的模式完全不同。

  暗涌:但在中国的现实环境下,单纯追求创新似乎是一种奢侈。大模型研发本身极其烧钱,不是每家公司都能在商业化之前只专注于研究。

  梁文锋:创新当然成本高昂,而过去我们倾向于采用现成技术,主要是和过去的国情有关。但今天,中国的经济规模以及字节跳动、腾讯等巨头的盈利能力,已经具有全球影响力。 我们真正缺乏的不是资金,而是信心,以及组织高水平人才进行有效创新的能力。

  暗涌:为什么即使是资金充足的中国科技巨头,也往往更重视快速商业化?

  梁文锋:过去30年,我们更关注赚钱,而不是创新。但创新不仅仅是商业驱动的,它需要好奇心和创造的野心。我们被过去的习惯束缚住了,但这只是一个阶段。

  暗涌:但DeepSeek毕竟是一家企业,而不是非营利的研究机构。如果你们进行创新,并且像5月发布的MLA架构那样开源突破性成果,竞争对手岂不是很快就能复制?你们的护城河在哪里?

  梁文锋: 在颠覆性技术领域,闭源形成的护城河并不持久。即便是OpenAI的闭源模式,也无法阻止其他公司迎头赶上。

  因此, 我们真正的护城河在于团队的成长— —我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化。开源和发论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。 开源不仅仅是商业策略,更是一种文化。回馈社区是一种荣誉,同时也能吸引更多优秀人才。

  ▲Meta首席科学家杨杨立坤社交媒体截图:开源模型,正在超越闭源系统。

  暗涌:你怎么看待市场派的观点,比如朱啸虎的立场(他主张AI公司应优先商业化,而不是进行基础研究,并认为AGI是不切实际的)?

  梁文锋:朱啸虎的逻辑适用于短期盈利项目,但美国最赚钱的公司,往往是那些依靠长期研发建立技术壁垒的科技巨头。

  暗涌:但在AI领域,单纯的技术领先还不够。DeepSeek在更长远的层面上,究竟押注的是什么?

  梁文锋: 我们认为,中国的AI不能永远做跟随者。人们常说,中国AI比美国落后一到两年,但真正的差距在于“原创”与“模仿”。如果不改变这一点,中国永远只能追赶别人,而不是引领方向。有些探索是无法回避的。

  英伟达的成功并不仅仅是自身努力的结果,而是西方科技生态系统长期合作,共同规划下一代技术路线的成果。中国也需要类似的生态体系。 国内许多芯片失败,不是因为资金不足,而是因为缺乏支撑性技术社区,仅依赖二手信息。必须有人走在前沿。

  03

  更多资金≠ 更多创新

  暗涌:DeepSeek现在给人的感觉很像OpenAI早期的理想主义阶段,而且你们坚持开源。未来会像OpenAI或Mistral那样,转向闭源吗?

  梁文锋: 我们不会闭源。我们认为,建立一个强大的技术生态,比封闭式的商业模式更重要。

  暗涌:有没有融资计划?有媒体报道,幻方计划将DeepSeek拆分上市。硅谷的AI初创公司最终难免会与大公司结盟,你们会跟随这种趋势吗?

  梁文锋:短期内没有融资计划。我们真正的挑战从来不是资金,而是高端芯片的出口禁令。

  暗涌:许多人认为,AGI的发展需要高调的合作和行业影响力,而不像量化投资那样适合低调运作。你认同这种观点吗?

  梁文锋:更多的投资并不一定能带来更多的创新。如果资本堆砌就能推动技术突破,那大公司早就垄断了所有创新。

  暗涌:DeepSeek不做应用,是因为缺乏运营基因吗?

  梁文锋:我们认为,当前阶段是技术创新期,而不是应用爆发期。从长远来看,我们希望建立一个生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。如果产业链完整,我们无需亲自做应用。当然,如果有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。

  暗涌:为什么客户会选择DeepSeek的API,而不是更大的玩家?

  梁文锋:未来的世界很可能是一个高度分工协作的世界。基础AI模型需要持续创新,而大公司也有自身的局限,并不一定最适合承担这一角色。

  暗涌:但仅凭技术,真的能拉开足够大的竞争差距吗?你之前也提到过,并没有绝对的“秘密”。

  梁文 锋:技术没有秘密,但复制需要时间和成本。英伟达的GPU理论上没有什么神秘之处,但要赶上他们,就必须重建团队、追赶下一代技术——这才是真正的护城河。

  暗涌:你们降价后,字节跳动是第一家跟进的公司,说明他们感受到了竞争压力。你如何看待创业公司和大厂之间竞争的新解法?

  梁文 锋:说实话,我们并不太在意。降价只是顺手而为。提供云服务并不是我们的核心目标,我们的目标是实现AGI。

  目前没有看到什么新解法。大公司虽然有用户,但它们的现金流业务也束缚了自身,给了创业公司颠覆它们的机会。

  暗涌:你怎么看 DeepSeek之外,中国目前的6家大模型创业公司的结局?

  梁文 锋:可能最终会剩下2-3家。目前大家都在“烧钱”,但能活下来的,一定是那些战略清晰、执行力强的公司。其他的可能会转型。有价值的东西不会消失,只是会以不同的形式存在。

  暗涌:你的竞争哲学是什么?

  梁文 锋: 我经常思考的是,一项技术是否提升了社会效率,以及我们是否能在行业分工链中找到擅长的位置。只要终局是让社会效率提高,就是有意义的。很多竞争都是阶段性的,过于纠结于短期竞争,反而容易迷失方向。

  04

  V2模型:完全由本土人才打造

  暗涌:OpenAI前政策主管、Anthropic联合创始人Jack Clark曾提到,DeepSeek吸引了一批“难以捉摸的天才”,他们打造了DeepSeek V2。这些人有什么特点?

  梁文 锋:其实没有什么“难以捉摸的天才”,只是来自顶尖高校的应届生、博士生(甚至是四五年级的实习生),以及一些有几年经验的年轻人。

  暗涌:许多AI大厂热衷于全球招募顶级人才,有人认为全球前50的AI科学家,很难会在中国的公司任职。你的团队来自哪里?

  梁文 锋: DeepSeek V2团队成员,没有海归,完全是由本土人才打造的。目前,全球前50的AI人才可能确实不在中国,但我们希望自己培养出这样的团队。

  暗涌:MLA架构创新是怎么诞生的?听说最初是某个年轻研究员的个人兴趣?

  梁文 锋:他在总结主流Attention架构的关键演化规律后,突然灵感迸发,设计出了一种新的替代方案。但从想法到现实,是一个漫长的过程。我们组建了团队,花了几个月时间验证它的可行性。

  暗涌:这种自发的创新似乎和你们扁平化的组织结构有关。在幻方,你们避免了自上而下的管理。但AGI是一个高不确定性的前沿探索,你们会不会有更多的管理干预?

  梁文 锋:DeepSeek依然是完全自下而上的。我们也不预先设定角色,分工是自然形成的。每个人都带着自己的经验和想法,不需要被推动。当他们遇到挑战时,会自发地拉上别人讨论。不过,一旦某个想法被证明有潜力,我们就会从上层投入资源,推动它的发展。

  暗涌:我们听说 DeepSeek 在计算资源和人员调配方面非常灵活。

  梁文锋:我们的计算资源和团队成员的使用没有限制。如果有人有想法,他们可以随时调用我们的训练集群,无需审批。此外,由于我们没有严格的层级架构或部门壁垒,只要彼此感兴趣,团队成员可以自由协作。

  梁文锋:我们的招聘标准一直基于热爱和好奇心。我们的团队成员背景各异,充满个性和趣味性,他们对研究的渴望远超对金钱的关注。

  暗涌:Transformer 诞生于谷歌的AI Lab,ChatGPT 来自 OpenAI。在你看来,大公司 AI 实验室与创业公司在创新方面有何不同?

  梁文锋:无论是 Google 研究院、OpenAI,还是国内科技巨头的 AI 实验室,它们都提供了重要价值。OpenAI 之所以能最终取得突破,也有一定的历史偶然性。

  暗涌:所以你认为创新主要靠运气?你们的办公室设计中有会议室,两侧的门可以轻松打开。你的同事们提到,这种设计让“偶然相遇”成为可能。这让我想起 Transformer 的诞生——当时一位路过的研究员无意间听到讨论,帮助将其发展成了通用架构。

  梁文锋:我认为, 创新首先是一种信念。 为什么硅谷的创新能力强?因为他们敢。ChatGPT 出现时,中国在前沿研究上信心不足。从投资人到大公司,很多人认为差距太大,转而专注于应用。但创新需要信心,而年轻人往往更具信心。

  ▲2025年1月底以来,DeepSeek应用迅速登顶140个国家苹果App Store免费应用榜首

  暗涌:与其他 AI 公司积极寻求融资和媒体关注不同,DeepSeek 一直相对低调。你如何确保 DeepSeek 成为 AI 人才的首选?

  梁文锋:因为我们在解决最难的问题。 对于顶尖人才来说,最具吸引力的就是挑战世界上最困难的问题。事实上,中国的顶尖人才经常被低估,因为硬核创新稀缺,他们很少得到认可。而我们正好提供了他们渴望的舞台。

  暗涌:最近 OpenAI 的发布会上并未推出 GPT-5,许多人认为行业的技术增长曲线正在放缓,一些人开始质疑 Scaling Law【规模法则】。你怎么看?

  梁文锋:我们仍然保持乐观。行业的进展依然符合预期。OpenAI 不是神,他们不可能永远领先。

  暗涌:你认为实现 AGI 需要多长时间?在 V2 之前,你们发布了代码/数学模型,并从Dense架构转向 MoE【混合专家模型】。你们的AGI 路线图是什么?

  梁文锋:可能是两年,五年,或者十年——但一定会在我们这一代人有生之年发生。至于我们的路线图,即便在公司内部也没有统一结论。但我们正在下注以下三个方向。

  1.数学与代码:它们是 AGI 的天然试验场,就像围棋一样,是封闭且可验证的系统,自学习有可能孕育高度智能。

  2.多模态:让 AI 直接接触现实世界进行学习。

  3.自然语言:它是类人智能的基石。

  我们对一切可能性保持开放态度。

  暗涌:你认为大模型的终局形态会是什么?

  梁文锋:未来会有专门提供基础模型和服务的公司,形成一个长产业链的专业分工体系。更多公司将在这些基础之上,为社会的多元需求提供解决方案。

  05

  所有套路都是上一代的产物

  暗涌:过去一年,中国的大模型创业格局发生了许多变化。例如,曾经高调入局的王慧文【美团联合创始人】中途退出,而新晋选手正在逐步形成差异化。

  梁文锋:王慧文承担了所有损失,让其他人全身而退。他做出了对自己最不利、但对大家最有利的决定。我很敬佩他的担当。

  暗涌:你目前最关注的是什么?

  梁文锋:我最关注的是下一代大模型的研究,因为还有很多问题没有解决。

  暗涌:许多 AI 创业公司坚持模型研发和应用并重,因为技术领导力并非永久优势。为什么 DeepSeek 仍然坚定地专注于研究?是因为你们的模型还不够强吗?

  梁文锋: 所有套路都是上一代的产物,未来未必仍然适用。用互联网时代的商业逻辑讨论 AI 的未来盈利模式,就像把腾讯早期的发展轨迹拿来对比通用电气或可口可乐——这就像“刻舟求剑”。

  暗涌:过去幻方拥有强大的技术和创新基因,发展轨迹也相对顺利。这是否让你对技术驱动的创新更有信心?

  梁文锋:幻方在一定程度上增强了我们对技术驱动创新的信心,但它的成长并非一路平坦。我们经历了漫长的积累。人们只看到了 2015 年之后的爆发,但实际上,我们已经沉淀了 16 年。

  暗涌:回到原创性创新的问题——在经济放缓、资本降温的背景下,这是否会抑制颠覆性的研发?

  梁文锋:不一定。中国产业格局的重塑将越来越依赖深度科技创新。随着快速获利的机会减少,更多人会转向真正的创新。

  暗涌:所以你对此持乐观态度?

  梁文锋:我在 1980 年代成长于广东的一个五线城市,父亲是一名小学教师。上世纪 90 年代,广东有很多赚钱的机会,很多家长来我家争论,说读书没用。但回头看,现在的观点已经变了。赚钱不再像过去那么容易——连开出租车的机会可能都没了。仅仅一代人的时间,环境已经发生了巨大变化。

  未来,硬核创新只会越来越多。现在大家对它的理解还不够深,因为整个社会需要被事实教育。当社会开始认可深度科技创新者的成功时,集体认知自然会改变。 我们需要的,只是更多真实的成功案例,以及时间让这一过程发生。

投稿邮箱:qingjuedu@163.com
相关推荐
梁文锋专访:伟大不能被计划,DeepSeek创新靠什么?
梁文锋专访:伟大不能被计划,DeepSeek创新靠什么?

原标题:梁文锋专访:伟大不能被计划,DeepSeek创新靠什么? 给孩子受益终生的

人物4分钟前

“高考神童”何碧玉,和“高考神人”王端鹏,10年后
“高考神童”何碧玉,和“高考神人”王端鹏,10年后

原标题: 高考神童何碧玉,和高考神人王端鹏,10年后的生活如何 高考成绩揭

人物22小时前

18年前,高考900分成状元,考上北大的广东才子谭志佳
18年前,高考900分成状元,考上北大的广东才子谭志佳

原标题:18年前,高考900分成状元,考上北大的广东才子谭志佳,现咋样了 长风

人物23小时前

他放弃美国国籍,退任清华校长,花500亿打造新大学立
他放弃美国国籍,退任清华校长,花500亿打造新大学立

原标题:他放弃美国国籍,退任清华校长,花500亿打造新大学立志超越清华 在

人物2025-02-08 10:19:30

替女儿写作业找工作 枪手妈妈投出100份简历
替女儿写作业找工作 枪手妈妈投出100份简历

原标题:替女儿写作业找工作 枪手妈妈投出100份简历 摘要:社交平台上,有哲

人物2025-01-26 13:12:23

辍学生小吴,在“不能有一个辍学生”的乡镇
辍学生小吴,在“不能有一个辍学生”的乡镇

原标题:辍学生小吴,在不能有一个辍学生的乡镇 一年多前,研究中国县域教

人物2025-01-20 15:54:36

没有挂科!高考16次唐尚珺公布期末成绩:英语考得好
没有挂科!高考16次唐尚珺公布期末成绩:英语考得好

原标题:没有挂科!高考16次唐尚珺公布期末成绩:英语考得好有87分,高数不

人物2025-01-19 17:32:28

清华硕士失业后去蓝翔学厨,等待机会再出发
清华硕士失业后去蓝翔学厨,等待机会再出发

原标题:清华硕士失业后去蓝翔学厨,等待机会再出发 近段时间,因去蓝翔技

人物2025-01-18 19:32:04

含“研”率100%!上海理工大学这个寝室全员保研
含“研”率100%!上海理工大学这个寝室全员保研

原标题:含研率100%!上海理工大学这个寝室全员保研 从传播通往世界这是上海

人物2025-01-14 19:08:33

北大才女唐晓琳赴美留学,7年内申请博士均被拒,最后
北大才女唐晓琳赴美留学,7年内申请博士均被拒,最后

原标题:北大才女唐晓琳赴美留学,7年内申请博士均被拒,最后一跃而亡 压力

人物2025-01-11 19:18:51