梁文锋专访：伟大不能被计划，DeepSeek创新靠什么？-梁文|锋|专访|人物-青橘网

我们只关注教育

梁文锋专访：伟大不能被计划，DeepSeek创新靠什么？

来源：搜狐发表于2025-02-10 18:51:50 编辑：时寒峰

摘要: 原标题：梁文锋专访：伟大不能被计划，DeepSeek创新靠什么？给孩子受益终生的人文底色中国大模型DeepSeek实在太火了。它在所有应用商店榜单上超越了美

　　原标题：梁文锋专访：伟大不能被计划，DeepSeek创新靠什么？

　　给孩子受益终生的人文底色

　　中国大模型DeepSeek实在太火了。它在所有应用商店榜单上超越了美国的竞争对手ChatGPT，触发科技股市高达1万亿美元的抛售，并在硅谷引发末日般的评论。

　　最近网上很多人都在往国运、国与国斗争上引话题，但其实反过来想：一个原本名不见经传的“小透明”如何成长为AI世界的“鲶鱼”？创新何来？是因为顶层设计吗？

　　一向低调的梁文锋接受采访说，创新不是被顶层设计出来的，而是靠每个人自由生长，不断试错，创新也不是纯靠资本堆出来的，首先是一个信念问题，为什么硅谷创新能力强？因为他们敢。

　　“暗涌”记者在去年7月，也就是V2模型一举成名后不久，就曾对鲜少露面的DeepSeek创始人梁文锋有过一次独家采访。访谈内容，无论是对中国AI未来，还是对个人成长，都会有启发。

　　报道发于英文网站“The China Academy”，本文为原文翻译。

　　价格战第一枪使如何打响的？

　　暗涌：DeepSeek V2模型发布后，迅速引发了大模型行业的激烈价格战。有人认为你们是市场的颠覆者。

　　梁文锋（DeepSeek创始人）：我们从未想过要成为颠覆者，这一切只是意外发生的。

　　暗涌：在此之前，大多数中国公司只是复制Llama的模型架构来开发应用。为什么你们选择专注于模型结构本身？

　　梁文锋：如果目标是做应用，采用Llama的架构快速上线产品是合理的选择。但我们的目标是AGI（通用人工智能），这要求我们探索新的模型架构，在有限的资源下，实现更强的能力。这是规模化发展的基础性研究。除了架构，我们还深入研究了数据构造和类人推理能力，这些都在我们的模型中有所体现。而且，Llama的训练效率和推理成本相比全球最前沿的标准，估计也有两代差距。

　　暗涌：这两代的差距主要体现在哪里？

　　梁文锋：首先是训练效率的差距。我们估算，中国目前最好的模型，在算力相同的情况下，可能需要两倍的计算资源才能达到全球顶尖模型的水平。这是由于架构和训练策略的差距。其次是数据利用效率，中国的模型大约只有全球最优水平的一半，也就是说，同样的结果需要两倍的数据和计算量。两者叠加，意味着整体资源消耗是四倍。我们的目标是不断缩小这个差距。

　　暗涌：大多数中国公司都会同时布局模型和应用，为什么DeepSeek只专注于研究？

　　梁文锋：因为我们认为当下最重要的，是参与全球科技创新。长期以来，中国企业习惯于利用海外的技术创新，并通过应用层面进行商业化，但这种模式并非理所当然。这一次，我们的目标不是快速盈利，而是推动技术前沿的发展，从根本上促进整个生态的成长。

　　暗涌：互联网和移动互联网时代的普遍共识是，美国擅长创新，而中国擅长应用落地。

　　梁文锋：我们认为，随着经济的发展，中国必须逐步从技术的受益者转变为贡献者，而不是一直搭便车。在过去30年的IT革命中，我们几乎没有真正参与核心技术创新。

　　我们习惯了摩尔定律“从天而降”——只需躺上18个月，就能获得更先进的硬件和软件。同样，我们对大模型的“规模定律”也是如此。但事实上，这些技术进步是西方科技社区几代人持续努力的结果。由于我们长期未能深度参与这一进程，反而渐渐忽视了其真正的价值。

　　真正的差距在原创性，而不仅仅是时间

　　暗涌：为什么DeepSeek V2会让硅谷许多人感到意外？

　　梁文锋：在美国，每天都有各种创新出现，从这个角度看，我们的突破并不算特别。但他们惊讶的是，一家中国公司不仅仅是跟随者，而是以创新者的身份加入了他们的竞争。这与大多数中国企业习惯的模式完全不同。

　　暗涌：但在中国的现实环境下，单纯追求创新似乎是一种奢侈。大模型研发本身极其烧钱，不是每家公司都能在商业化之前只专注于研究。

　　梁文锋：创新当然成本高昂，而过去我们倾向于采用现成技术，主要是和过去的国情有关。但今天，中国的经济规模以及字节跳动、腾讯等巨头的盈利能力，已经具有全球影响力。我们真正缺乏的不是资金，而是信心，以及组织高水平人才进行有效创新的能力。

　　暗涌：为什么即使是资金充足的中国科技巨头，也往往更重视快速商业化？

　　梁文锋：过去30年，我们更关注赚钱，而不是创新。但创新不仅仅是商业驱动的，它需要好奇心和创造的野心。我们被过去的习惯束缚住了，但这只是一个阶段。

　　暗涌：但DeepSeek毕竟是一家企业，而不是非营利的研究机构。如果你们进行创新，并且像5月发布的MLA架构那样开源突破性成果，竞争对手岂不是很快就能复制？你们的护城河在哪里？

　　梁文锋：在颠覆性技术领域，闭源形成的护城河并不持久。即便是OpenAI的闭源模式，也无法阻止其他公司迎头赶上。

　　因此，我们真正的护城河在于团队的成长— —我们的同事在这个过程中得到成长，积累很多know-how,形成可以创新的组织和文化。开源和发论文不会带来重大损失。对于技术人员来说，被同行追随本身就是一种成就。开源不仅仅是商业策略，更是一种文化。回馈社区是一种荣誉，同时也能吸引更多优秀人才。

　　▲Meta首席科学家杨杨立坤社交媒体截图：开源模型，正在超越闭源系统。

　　暗涌：你怎么看待市场派的观点，比如朱啸虎的立场（他主张AI公司应优先商业化，而不是进行基础研究，并认为AGI是不切实际的）？

　　梁文锋：朱啸虎的逻辑适用于短期盈利项目，但美国最赚钱的公司，往往是那些依靠长期研发建立技术壁垒的科技巨头。

　　暗涌：但在AI领域，单纯的技术领先还不够。DeepSeek在更长远的层面上，究竟押注的是什么？

　　梁文锋：我们认为，中国的AI不能永远做跟随者。人们常说，中国AI比美国落后一到两年，但真正的差距在于“原创”与“模仿”。如果不改变这一点，中国永远只能追赶别人，而不是引领方向。有些探索是无法回避的。

　　英伟达的成功并不仅仅是自身努力的结果，而是西方科技生态系统长期合作，共同规划下一代技术路线的成果。中国也需要类似的生态体系。国内许多芯片失败，不是因为资金不足，而是因为缺乏支撑性技术社区，仅依赖二手信息。必须有人走在前沿。

　　更多资金≠ 更多创新

　　暗涌：DeepSeek现在给人的感觉很像OpenAI早期的理想主义阶段，而且你们坚持开源。未来会像OpenAI或Mistral那样，转向闭源吗？

　　梁文锋：我们不会闭源。我们认为，建立一个强大的技术生态，比封闭式的商业模式更重要。

　　暗涌：有没有融资计划？有媒体报道，幻方计划将DeepSeek拆分上市。硅谷的AI初创公司最终难免会与大公司结盟，你们会跟随这种趋势吗？

　　梁文锋：短期内没有融资计划。我们真正的挑战从来不是资金，而是高端芯片的出口禁令。

　　暗涌：许多人认为，AGI的发展需要高调的合作和行业影响力，而不像量化投资那样适合低调运作。你认同这种观点吗？

　　梁文锋：更多的投资并不一定能带来更多的创新。如果资本堆砌就能推动技术突破，那大公司早就垄断了所有创新。

　　暗涌：DeepSeek不做应用，是因为缺乏运营基因吗？

　　梁文锋：我们认为，当前阶段是技术创新期，而不是应用爆发期。从长远来看，我们希望建立一个生态系统，让行业直接使用我们的技术和成果，其他公司基于我们的模型开发B2B/B2C服务，而我们专注于基础研究。如果产业链完整，我们无需亲自做应用。当然，如果有必要，我们完全有能力去做，但研究和创新始终是我们的核心优先级。

　　暗涌：为什么客户会选择DeepSeek的API，而不是更大的玩家？

　　梁文锋：未来的世界很可能是一个高度分工协作的世界。基础AI模型需要持续创新，而大公司也有自身的局限，并不一定最适合承担这一角色。

　　暗涌：但仅凭技术，真的能拉开足够大的竞争差距吗？你之前也提到过，并没有绝对的“秘密”。

　　梁文锋：技术没有秘密，但复制需要时间和成本。英伟达的GPU理论上没有什么神秘之处，但要赶上他们，就必须重建团队、追赶下一代技术——这才是真正的护城河。

　　暗涌：你们降价后，字节跳动是第一家跟进的公司，说明他们感受到了竞争压力。你如何看待创业公司和大厂之间竞争的新解法？

　　梁文锋：说实话，我们并不太在意。降价只是顺手而为。提供云服务并不是我们的核心目标，我们的目标是实现AGI。

　　目前没有看到什么新解法。大公司虽然有用户，但它们的现金流业务也束缚了自身，给了创业公司颠覆它们的机会。

　　暗涌：你怎么看 DeepSeek之外，中国目前的6家大模型创业公司的结局？

　　梁文锋：可能最终会剩下2-3家。目前大家都在“烧钱”，但能活下来的，一定是那些战略清晰、执行力强的公司。其他的可能会转型。有价值的东西不会消失，只是会以不同的形式存在。

　　暗涌：你的竞争哲学是什么？

　　梁文锋：我经常思考的是，一项技术是否提升了社会效率，以及我们是否能在行业分工链中找到擅长的位置。只要终局是让社会效率提高，就是有意义的。很多竞争都是阶段性的，过于纠结于短期竞争，反而容易迷失方向。

　　V2模型：完全由本土人才打造

　　暗涌：OpenAI前政策主管、Anthropic联合创始人Jack Clark曾提到，DeepSeek吸引了一批“难以捉摸的天才”，他们打造了DeepSeek V2。这些人有什么特点？

　　梁文锋：其实没有什么“难以捉摸的天才”，只是来自顶尖高校的应届生、博士生（甚至是四五年级的实习生），以及一些有几年经验的年轻人。

　　暗涌：许多AI大厂热衷于全球招募顶级人才，有人认为全球前50的AI科学家，很难会在中国的公司任职。你的团队来自哪里？

　　梁文锋： DeepSeek V2团队成员，没有海归，完全是由本土人才打造的。目前，全球前50的AI人才可能确实不在中国，但我们希望自己培养出这样的团队。

　　暗涌：MLA架构创新是怎么诞生的？听说最初是某个年轻研究员的个人兴趣？

　　梁文锋：他在总结主流Attention架构的关键演化规律后，突然灵感迸发，设计出了一种新的替代方案。但从想法到现实，是一个漫长的过程。我们组建了团队，花了几个月时间验证它的可行性。

　　暗涌：这种自发的创新似乎和你们扁平化的组织结构有关。在幻方，你们避免了自上而下的管理。但AGI是一个高不确定性的前沿探索，你们会不会有更多的管理干预？

　　梁文锋：DeepSeek依然是完全自下而上的。我们也不预先设定角色，分工是自然形成的。每个人都带着自己的经验和想法，不需要被推动。当他们遇到挑战时，会自发地拉上别人讨论。不过，一旦某个想法被证明有潜力，我们就会从上层投入资源，推动它的发展。

　　暗涌：我们听说 DeepSeek 在计算资源和人员调配方面非常灵活。

　　梁文锋：我们的计算资源和团队成员的使用没有限制。如果有人有想法，他们可以随时调用我们的训练集群，无需审批。此外，由于我们没有严格的层级架构或部门壁垒，只要彼此感兴趣，团队成员可以自由协作。

　　梁文锋：我们的招聘标准一直基于热爱和好奇心。我们的团队成员背景各异，充满个性和趣味性，他们对研究的渴望远超对金钱的关注。

　　暗涌：Transformer 诞生于谷歌的AI Lab，ChatGPT 来自 OpenAI。在你看来，大公司 AI 实验室与创业公司在创新方面有何不同？

　　梁文锋：无论是 Google 研究院、OpenAI，还是国内科技巨头的 AI 实验室，它们都提供了重要价值。OpenAI 之所以能最终取得突破，也有一定的历史偶然性。

　　暗涌：所以你认为创新主要靠运气？你们的办公室设计中有会议室，两侧的门可以轻松打开。你的同事们提到，这种设计让“偶然相遇”成为可能。这让我想起 Transformer 的诞生——当时一位路过的研究员无意间听到讨论，帮助将其发展成了通用架构。

　　梁文锋：我认为，创新首先是一种信念。为什么硅谷的创新能力强？因为他们敢。ChatGPT 出现时，中国在前沿研究上信心不足。从投资人到大公司，很多人认为差距太大，转而专注于应用。但创新需要信心，而年轻人往往更具信心。

　　▲2025年1月底以来，DeepSeek应用迅速登顶140个国家苹果App Store免费应用榜首

　　暗涌：与其他 AI 公司积极寻求融资和媒体关注不同，DeepSeek 一直相对低调。你如何确保 DeepSeek 成为 AI 人才的首选？

　　梁文锋：因为我们在解决最难的问题。对于顶尖人才来说，最具吸引力的就是挑战世界上最困难的问题。事实上，中国的顶尖人才经常被低估，因为硬核创新稀缺，他们很少得到认可。而我们正好提供了他们渴望的舞台。

　　暗涌：最近 OpenAI 的发布会上并未推出 GPT-5，许多人认为行业的技术增长曲线正在放缓，一些人开始质疑 Scaling Law【规模法则】。你怎么看？

　　梁文锋：我们仍然保持乐观。行业的进展依然符合预期。OpenAI 不是神，他们不可能永远领先。

　　暗涌：你认为实现 AGI 需要多长时间？在 V2 之前，你们发布了代码/数学模型，并从Dense架构转向 MoE【混合专家模型】。你们的AGI 路线图是什么？

　　梁文锋：可能是两年，五年，或者十年——但一定会在我们这一代人有生之年发生。至于我们的路线图，即便在公司内部也没有统一结论。但我们正在下注以下三个方向。

　　1.数学与代码：它们是 AGI 的天然试验场，就像围棋一样，是封闭且可验证的系统，自学习有可能孕育高度智能。

　　2.多模态：让 AI 直接接触现实世界进行学习。

　　3.自然语言：它是类人智能的基石。

　　我们对一切可能性保持开放态度。

　　暗涌：你认为大模型的终局形态会是什么？

　　梁文锋：未来会有专门提供基础模型和服务的公司，形成一个长产业链的专业分工体系。更多公司将在这些基础之上，为社会的多元需求提供解决方案。

　　所有套路都是上一代的产物

　　暗涌：过去一年，中国的大模型创业格局发生了许多变化。例如，曾经高调入局的王慧文【美团联合创始人】中途退出，而新晋选手正在逐步形成差异化。

　　梁文锋：王慧文承担了所有损失，让其他人全身而退。他做出了对自己最不利、但对大家最有利的决定。我很敬佩他的担当。

　　暗涌：你目前最关注的是什么？

　　梁文锋：我最关注的是下一代大模型的研究，因为还有很多问题没有解决。

　　暗涌：许多 AI 创业公司坚持模型研发和应用并重，因为技术领导力并非永久优势。为什么 DeepSeek 仍然坚定地专注于研究？是因为你们的模型还不够强吗？

　　梁文锋：所有套路都是上一代的产物，未来未必仍然适用。用互联网时代的商业逻辑讨论 AI 的未来盈利模式，就像把腾讯早期的发展轨迹拿来对比通用电气或可口可乐——这就像“刻舟求剑”。

　　暗涌：过去幻方拥有强大的技术和创新基因，发展轨迹也相对顺利。这是否让你对技术驱动的创新更有信心？

　　梁文锋：幻方在一定程度上增强了我们对技术驱动创新的信心，但它的成长并非一路平坦。我们经历了漫长的积累。人们只看到了 2015 年之后的爆发，但实际上，我们已经沉淀了 16 年。

　　暗涌：回到原创性创新的问题——在经济放缓、资本降温的背景下，这是否会抑制颠覆性的研发？

　　梁文锋：不一定。中国产业格局的重塑将越来越依赖深度科技创新。随着快速获利的机会减少，更多人会转向真正的创新。

　　暗涌：所以你对此持乐观态度？

　　梁文锋：我在 1980 年代成长于广东的一个五线城市，父亲是一名小学教师。上世纪 90 年代，广东有很多赚钱的机会，很多家长来我家争论，说读书没用。但回头看，现在的观点已经变了。赚钱不再像过去那么容易——连开出租车的机会可能都没了。仅仅一代人的时间，环境已经发生了巨大变化。

　　未来，硬核创新只会越来越多。现在大家对它的理解还不够深，因为整个社会需要被事实教育。当社会开始认可深度科技创新者的成功时，集体认知自然会改变。我们需要的，只是更多真实的成功案例，以及时间让这一过程发生。

投稿邮箱：qingjuedu@163.com