Vibe Coding 2026年实测：16个月数据告诉你真相

核心结论

Andrej Karpathy于2025年2月2日提出"vibe coding"概念。到2026年中，他已称这个词过时，并转向了新的框架。

2025年7月METR研究发现，有经验的开发者使用AI工具后效率反而下降19%，尽管他们预测会提升24%。

据2026年第一季度跨五项独立研究的分析，91.5%的vibe coding应用至少存在一个安全漏洞。

Vibe coding适合的场景：MVP验证、内部工具，以及非开发者快速验证想法。

Vibe coding容易失败的场景：涉及身份验证、支付或用户数据，且缺乏专业审查的项目。

专业演进方向是"agentic engineering"——使用相同的工具，但工程师阅读每一处变更并对结果负责。

2025年2月2日，Andrej Karpathy发了一条他后来称之为"随手一发的脑洞推文"："有一种新的编程方式，我称之为'vibe coding'，你完全沉浸在氛围里，拥抱指数级增长，忘记代码的存在。"

这条推文成为Collins词典2025年度词汇。围绕它构建的市场如今估值已达47亿美元。Lovable作为领先工具之一，到2026年中已实现2亿美元ARR，估值达66亿美元。Y Combinator 2025年冬季批次中，25%的初创公司运行在95%由AI生成的代码库上。

十六个月足够长，让我们不再问"这行得通吗？"，而是开始问"数据说明了什么？"答案比炒作更复杂，比批评更有参考价值，而且对不同的人来说结论确实不同。

生产力数字背后的真相

容易找到的数字听起来很漂亮：项目完成速度提升55%，应用开发速度提升5.8倍，74%的开发者表示生产力有所提升。但这些总结几乎都漏掉了2025年7月的METR研究。

该研究让有经验的软件工程师分别用有无AI编程工具的方式完成真实任务。结果是：使用AI辅助后，他们的效率下降了19%，而他们自己预测会提升24%。预期与现实之间的差距高达43个百分点，方向完全相反。

这并不是反对AI工具的论据，而是一个信号——谁才是真正的受益者。生产力提升是真实存在的，但分布极不均匀：

拥有3年以上经验的高级开发者，在第三方评估的任务中报告了40%至81%的效率提升
初级开发者在实际产出方面没有统计显著的改善
非开发者——占活跃vibe coding用户的63%，包括产品经理、创始人和设计师——获得的是完全不同的东西：以前根本没有的能力

METR的结果在逻辑上是说得通的。AI工具减少了定义明确、模块化任务的摩擦。有经验的工程师把大部分时间花在架构、调试和判断上，而不是敲代码。打字速度快，但瓶颈在于思考，加速打字毫无帮助。与此同时，一个以前根本无法构建原型的创始人，现在能在一个周末搞定。

这个工具确实有用，只是并非对所有人都以同样的方式有用。

漏洞统计数据来自多个独立来源，结论高度一致。OX Security报告称62%的AI生成代码存在安全缺陷。SoftwareSeni于2026年第一季度发布的分析显示，跨五项独立研究的91.5%的vibe coding应用至少存在一个漏洞。Escape.tech扫描了5600个公开可访问的vibe coding应用，在生产系统中记录了超过2000个高危漏洞、400多个暴露的密钥，以及175例暴露个人数据的案例。

91.5%这个数字听起来很触目惊心，确实如此。但理解为什么比光感到恐慌更有价值。

AI根据你的提示生成代码。当你写"帮我建一个带用户账户的待办事项应用"，AI会生成一个能运行的认证功能。但它不会主动添加SQL注入防护、登录频率限制或CSRF令牌——除非你明确要求。这些安全层需要领域知识才能意识到它们的存在。

Escape.tech直接指出了这一规律：vibe coding的失败往往是结构性的——整个安全层从未被实现，因为AI从未被提示去实现它们。这与AI写出有问题的代码不同，AI写的恰恰是你要求的内容，缺失的部分从来没有被请求过。

懂得该问什么的人可以解决这个问题，但靠指望AI自动处理是没有出路的。

CodeRabbit 2025年12月的分析发现，AI协作编写的代码包含的"重大"问题约为人工代码的1.7倍，其中安全漏洞的发生率高出2.74倍。这一数据涵盖所有AI辅助代码，而非仅限于纯vibe coding应用——这表明问题会随着你减少AI监督而同步放大。

理解工具谱系

"Vibe coding"已成为所有提示驱动开发的代称，但这造成了混淆，因为不同工具服务的用户差异很大。

无代码AI构建工具（Lovable、Bolt.new、Replit Agent）让你用自然语言描述需求，平台生成、托管并管理代码，你永远不会看到底层文件。这类工具面向非开发者，以及需要快速验证想法的用户。

AI代码编辑器（Cursor、Windsurf、Claude Code）需要编程基础。它们在你的开发环境中生成代码，你在提交前需要阅读和审查每一处修改。AI是一个速度极快但有时不可靠的协作者，而非自主构建者。

很多团队踩到的坑是：先用Lovable构建到MVP的80%，然后在不了解底层结构的情况下，试图将其扩展为生产系统。无代码生成的代码库往往包含针对生成器优化的模式，而非面向长期可维护性。

一个实用的决策框架：

场景	方式	起步工具
这个周末验证一个想法	完全vibe coding	Lovable、Bolt.new
小团队内部工具	监督式生成	Cursor
有真实用户的SaaS产品	Agentic engineering	Cursor或Claude Code
涉及认证、支付或用户数据	人工主导，AI辅助	必须进行代码审查

Karpathy已经向前走了

发明这个词的人现在说它已经过时了。

在Sequoia Ascent 2026大会上，Karpathy提出了他称之为"agentic engineering"的框架。他的核心论点是：到2025年12月，模型可靠性已大幅提升，真正的瓶颈发生了转移。问题不再是AI能不能写代码，而是人类能不能对AI编写的系统保持有意义的监督。

他划定的区别：

Vibe coding拉高了下限。 任何人都能构建出能用的东西。代码质量通常是Karpathy所说的"臃肿、大量复制粘贴、抽象脆弱"。但它能跑，这本身就有价值。低责任感是合适的，因为风险很低。

Agentic engineering拉高了上限。 专业开发者在编排AI agent的同时，对交付结果保持完全的责任。他们在提示前先设计规格，在合并前审查diff，编写测试，构建评估循环，并严格管理权限。

那次演讲中被引用最多的一句话："你可以把思考外包出去，但你无法把理解外包出去。"

实际上，两种方式的分界线不在于使用哪个工具，而在于AI生成代码之后你做了什么。使用Cursor但不阅读就接受所有建议的开发者，是在vibe coding。而把每一处AI生成的diff都当成初级工程师的PR来逐行审读、拒绝合并任何自己说不清楚的代码的开发者，则是在做agentic engineering。工具相同，纪律不同。

哪些内容应该始终由人工编写或审查

根据已记录的失败模式，无论采用何种方式，以下类别在没有人工审查的情况下不应上线：

身份验证逻辑：密码哈希、会话管理、令牌验证
支付处理：Webhook处理、幂等性键、错误状态恢复
包含用户输入的数据库查询：任何从外部数据构建查询的代码
权限检查：谁能读取、写入或删除哪些记录
密钥处理：环境变量、API密钥轮换、令牌存储

其他内容都可以合理地在审查的前提下使用AI辅助生成。结构性失败集中在这五个类别。

常见问题

非开发者真的能用vibe coding上线生产应用吗？

可以，但要对"生产"的含义做重要区分。5个人使用的内部工具，和为5000名用户存储支付数据的消费级应用，是完全不同的两件事。非开发者正在成功构建和上线前一类产品。对于后者，2026年安全研究者的共识是：用vibe coding验证你的想法，然后在向真实用户提供真实数据之前，请开发者审计安全关键路径。

Lovable和Cursor的实际区别是什么？

Lovable将代码完全抽象掉——你描述需求，它构建，你上线，你从不接触文件。Cursor是一个代码编辑器，AI帮你写得更快，但你始终在代码库中，阅读并提交每一处修改。正确的选择取决于你能不能读代码，而不是哪个工具评分更高。会写代码用Cursor，初学者用Lovable或Bolt。

Vibe coding已经死了吗？

作为一种实践，没有，它已经是主流。GitHub报告称46%的新代码现在由AI生成。作为一个准确描述有经验工程师使用这些工具方式的术语，它正在淡出。Karpathy本人已经向前走了。工具没变，但专业层面对监督的预期已经改变。

Vibe coding入门实际要花多少钱？

Lovable付费计划起价25美元/月（截至2026年6月）。Cursor Pro为20美元/月。Bolt.new有免费套餐，每日token有限。Claude Code按API用量计费，通过Anthropic的API定价。个人创始人构建MVP，低用量下通常能控制在50美元/月以内。大型代码库的生产工作负载，根据token密集型操作的使用频率，可能达到200至500美元/月。