Andrej Karpathy — AGI 仍需十年

内容摘要

本期播客由 Dwarkesh Patel 主持，嘉宾是前 OpenAI 研究员、前特斯拉 AI 高级总监 Andrej Karpathy。对话围绕 AGI 的真实时间线展开，Karpathy 提出”这是代理的十年，而非代理的元年”，并深入剖析了当前大语言模型的认知缺陷、强化学习的根本性局限、人类学习的独特机制，以及为何自动驾驶和 AGI 的部署都需要漫长的”九的进军”。

Karpathy 的核心立场是：AGI 将融入过去两个世纪以来稳定的 2% GDP 增长曲线，而非引发经济爆炸；当前 AI 工程更像是编译器的渐进式改进，而非程序员的完全替代。他对技术长期前景持乐观态度，但对行业内的过度预测保持高度警惕。

章节精读

AGI 仍需十年

Karpathy 提出”这是代理的十年”是对行业内”代理元年”说法的回应。他认为当前代理（Claude、Codex 等）虽然令人印象深刻且他每日使用，但距离真正像员工一样独立工作仍有巨大差距。

主要瓶颈：

智能水平不足，多模态能力有限
无法进行计算机操作等复杂任务
缺乏持续学习——无法记住用户告知的信息
存在认知缺陷，无法完成许多隐含任务

Karpathy 基于近 15 年 AI 领域经验做出十年预测。他回顾了 AI 发展的三次重大转变：

深度学习初期——在多伦多大学师从 Geoff Hinton，当时深度学习还是小众领域
AlexNet 之后——所有人开始训练神经网络，但仍是逐任务的
强化学习游戏时代——2013 年 Atari 深度强化学习，试图让代理不仅感知世界还能采取行动

Karpathy 认为强化学习游戏方向是”误入歧途”。他在 OpenAI 的 Universe 项目试图构建能与网页交互的代理，但当时太早了——奖励太稀疏，无法学到任何东西。“你必须先获得神经网络中的表示能力，然后才能在其上添加其他东西。”

关于动物与 AI 的类比，Karpathy 持谨慎态度。动物是进化而来的，带有大量内置硬件。“斑马出生后几分钟就能跟着母亲跑——这不是强化学习，这是内置的东西。” 他认为当前构建的不是动物，而是”幽灵”——通过模仿人类互联网数据训练出来的纯数字实体。

关于 Sutton 的观点，Karpathy 认为进化做的事情与预训练不同。他称预训练为”蹩脚的进化”——用现有技术实际可行的版本。预训练同时做两件事：获取知识和变得智能（通过观察互联网中的算法模式，启动神经网络内部的电路和算法）。

sourceSnippets：

In my mind, this is more accurately described as the decade of agents.
They don’t have continual learning. You can’t just tell them something and they’ll remember it.
You’re going to burn a forest computing, and you’re never going to get something off the ground.

LLM 认知缺陷

Karpathy 分享了他构建 nanochat 仓库（一个完整的 ChatGPT 克隆端到端实现，约 8000 行代码）时的经验。他发现编码模型对这个项目”几乎没有帮助”。

三种编码方式：

完全拒绝 LLM，从头编写
中间路线（Karpathy 的位置）——自己写很多，但使用模型自动补全
氛围编码（vibe coding）——让模型完成

Karpathy 认为 nanochat 不属于模型擅长的类别，因为：

这不是样板代码，而是”智力密集型代码”
模型有太多来自互联网常规做法的记忆
模型总是试图让他使用标准做法（如 PyTorch 的 DDP 容器），而他有自定义实现
模型”过度防御”，添加大量 try-catch 语句
模型试图构建生产级代码库，而他有很多假设可以简化

关键洞察：模型不擅长从未写过的代码——这正是 AI 研究试图做的事情。这对预测 AI 是否会快速实现自我改进至关重要。

Karpathy 将 AI 视为计算的延伸，有一个”自主性滑块”——人类逐渐减少低级工作，提升抽象层次。这与历史上编译器、IDE 等工具提高程序员生产力的方式类似。

关于上下文学习与预训练的区别，Karpathy 用了一个精彩类比：权重中的知识是”一年前读过的模糊回忆”，而上下文窗口中的内容是”工作记忆”，可以直接访问。这就是为什么给模型完整章节比让它回忆某本书效果好得多。

关于模型架构的未来，Karpathy 基于”时间平移不变性”推测：十年后可能仍然是用梯度下降训练巨型神经网络，但会更大、有更好的稀疏注意力机制和修改过的注意力结构。

sourceSnippets：

The models have so many cognitive deficits.
They’re way too over-defensive. They make all these try-catch statements.
They’re not very good at code that has never been written before.

强化学习很糟糕

Karpathy 对强化学习的评价极为尖锐：“强化学习很糟糕。只是之前更糟。”

RL 的问题：

做数百次尝试，最后只得到一个数字（对/错）
“通过吸管吸取监督信号”——将最终奖励广播到整个轨迹
假设到达正确答案的每一步都是正确的——这不成立
估计器方差大，充满噪声

人类的对比：

不会做数百次 rollout
找到解决方案后会进行复杂的审查过程
“这部分我做得好，这部分做得不好”——有细致的反思

Karpathy 回忆 InstructGPT 论文让他震惊——只需在对话数据上微调，预训练模型就能快速适应成为助手，同时保留所有预训练知识。RL 在此基础上略有提升，可以超越人类示范，发现人类想不到的解决方案。

过程监督的困境：

难点在于如何自动化地分配部分学分
使用 LLM 作为评判器很棘手——LLM 是可被利用的
模型会找到 LLM 评判器的对抗样本
一个著名案例：模型输出”dhdhdhdh”，评判器却给了 100% 奖励

关于模型崩溃（model collapse），Karpathy 指出 LLM 生成的样本”静默地坍缩”——单个样本看起来合理，但分布极其狭窄。“让 ChatGPT 讲笑话，它只有三个笑话。” 人类虽然嘈杂但至少没有偏差，保持了巨大的熵。

Karpathy 预测认知核心可能只需要约 10 亿参数——去掉记忆，只保留思维算法和认知胶水。当前模型记住了太多互联网垃圾数据。

sourceSnippets：

Reinforcement learning is terrible. It just so happens that everything that we had before it is much worse.
You’re sucking supervision through a straw.
You’ll find adversarial examples for your LLM judges, almost guaranteed.

人类如何学习

Karpathy 认为当前 LLM 缺少人类学习的关键机制。

读书的对比：

LLM：拉长文本序列，预测下一个 token
人类：书是”生成合成数据的提示”——通过操作信息获得知识，去读书会讨论

缺失的蒸馏阶段：

人类睡眠时有某种神奇过程，将白天的上下文蒸馏到权重中
LLM 没有等价物——没有分析、综合数据生成、蒸馏回权重的过程
可能需要每个人的小型 LoRA，而非完整权重更新

关于合成数据生成的根本问题：

模型生成的样本分布坍缩
持续训练自己的数据会导致性能下降
人类也会随时间坍缩——“孩子还没过拟合，他们会说出让你震惊的话”

Karpathy 对人类与 LLM 记忆能力的对比很有趣：人类不擅长记忆，这反而是优势——被迫寻找更通用的模式。LLM 极其擅长记忆，甚至能逐字背诵随机序列，但这可能分散了它们学习可泛化成分的注意力。

关于”文化”的概念，Karpathy 认为 LLM 目前没有文化等价物。“为什么 LLM 不能为其他 LLM 写书？为什么其他 LLM 读了这本书后不能受到启发或震惊？” 这涉及两个强大的多智能体概念：文化（LLM 为自己的目的积累知识）和自我对弈（像 AlphaGo 那样自己对抗自己学习）。

当前模型仍然像”小学生”——“他们有完美记忆，能令人信服地制造各种看起来很好的垃圾，但他们真的不知道自己在做什么。”

sourceSnippets：

The book is a set of prompts for me to do synthetic data generation.
All of the samples you get from models are silently collapsed.
We’re forced to find patterns in a more general sense.

AGI 将融入 2% GDP 增长

Karpathy 拒绝用”教育水平”（高中生→大学生→博士）来衡量 AGI 进度。他坚持原始定义：能在人类水平或更好地完成任何有经济价值任务的系统。

关键观察：

当前只考虑数字知识工作——这已经是重大让步（约占经济 10-20%）
社会会根据可自动化程度重新组织任务
不会立即取代人类，而是出现”自主性滑块”——AI 做 80%，人类监督

为什么编码是第一个被自动化的：

编码本质上是基于文本的
LLM 是完美的文本处理器，有大量训练数据
已有完善的基础设施（VS Code、diff 工具等）
对比幻灯片制作——不是纯文本，没有 diff 基础设施

关于 GDP 增长，Karpathy 的核心观点是AGI 将延续既有的 ~2% 增长曲线，而非引发爆炸。计算机、手机等变革性技术都”找不到在 GDP 中的痕迹”——它们缓慢扩散，最终平均到同样的指数曲线中。

关于 ASI（超级智能），Karpathy 视其为自动化的延续。他担心的不是单一实体接管一切，而是多个竞争实体逐渐变得更加自主——“一些实体失控，其他实体与之对抗”。他预测会逐渐失去对正在发生的事情的理解和控制。

sourceSnippets：

AGI was a system you could go to that can do any economically valuable task at human performance or better.
Coding is the perfect first thing for these LLMs and agents.
You can’t find them in GDP. GDP is the same exponential.

智能与文化的进化

Karpathy 对智能的进化感到惊讶。他认为细菌存在了 20 亿年什么都没发生，真核生物的出现可能相当困难。“直觉上，智能的进化应该是一个相当罕见的事件。”

关于智能多次独立出现的证据：

人类智能 vs 鸟类智能（乌鸦等非常聪明，但脑部结构截然不同）
这表明智能可能更容易出现

生态位的概念：

人类有手，奖励工具使用
可以外部化消化，更多能量供给大脑
鸟类大脑变大会从空中掉下来
需要不可预测的环境来激励适应性——“进化无法将算法烘焙到权重中”

关于文化积累，Karpathy 指出 LLM 没有文化的等价物。这涉及两个强大的多智能体概念：文化和自我对弈。目前还没有人令人信服地实现这两种多智能体改进。

sourceSnippets：

The fact that you can get something that creates culture and knowledge and accumulates it is surprising to me.
You want environments that are unpredictable so evolution can’t bake your algorithms into your weights.
They still cognitively feel like a kindergarten or an elementary school student.

自动驾驶为何耗时如此之久

Karpathy 在特斯拉领导自动驾驶 5 年（2017-2022），他对这段经历有深刻反思。

核心概念：九的进军（march of nines）

每个”九”（90%→99%→99.9%）的工作量是恒定的
演示很容易，产品很难
在特斯拉的 5 年里，他们推进了 2-3 个”九”
仍然还有更多”九”要走

与软件工程的类比：

生产级代码同样需要高安全保证
一个 catastrophic 编码错误可能导致数亿人数据泄露
“在某些方面，软件工程是更难的问题——表面积更大”

关于 Waymo 的观察：

部署规模仍然有限，经济上不可行
存在精心设计的远程操作中心——“有人从天空中被传送到车里”
“我们还没有移除人，只是把他们移到了你看不到的地方”

Karpathy 强调自动驾驶尚未完成——“当我说自动驾驶时，我指的是大规模自动驾驶，人们不需要考驾照。”

关于 AI 基础设施的大规模建设，Karpathy 类比铁路或电信行业的历史先例——“预先铺设互联网，十年后才真正使用”。他对技术持乐观态度，认为需求会跟上建设，但对过快的时间线保持警惕。

sourceSnippets：

Every single nine is a constant amount of work.
I’m extremely unimpressed by demos.
We haven’t actually removed the person, we’ve moved them to somewhere where you can’t see them.

教育的未来

Karpathy 解释了他离开 AI 研究、创办教育平台 Eureka 的原因：“我担心这些东西发生在人类的对立面，人类被剥夺权力。” 他不想看到《WALL-E》或《蠢蛋进化论》式的未来。

Starfleet Academy 愿景：

建立一个前沿技术的精英机构
培养”太空船飞行员”——掌握技术知识的人才
物理和数字两个层次

关于 AI 导师的高标准： Karpathy 分享了他学习韩语的经历——从自学到小班课再到一对一导师。好导师能做到：

瞬间理解学生的水平、知道和不知道什么
精确探测学生的世界模型
始终提供”恰到好处的挑战”——不太难也不太简单
“我是唯一的限制因素”

当前能力不足以构建真正的 AI 导师，但他正在构建 LLM101N 课程——nanochat 就是这门课的期末项目。他的核心理念是**“每秒尤里卡”**（eurekas per second）——构建知识的坡道，让理解高效发生。

后 AGI 时代的教育：

“前 AGI 教育有用，后 AGI 教育有趣”
类比健身——我们不需要人力搬重物，但人们仍然去健身房
“因为有趣、健康，有六块腹肌看起来很酷”
学习将变得如此简单，人们会为了乐趣而学习

Karpathy 相信人性的永恒性——“如果你看古希腊或贵族，每当有某种’后 AGI’的小环境时，人们会花大量时间在某种繁荣发展上。” 他真正关心的是人类的状态——“如果最终是《WALL-E》或《蠢蛋进化论》的未来，那即使有戴森球我也不在乎。”

sourceSnippets：

I want humans to be well off in the future.
I almost felt like there’s no way I can build this.
It’s giving you a lot of what I call eurekas per second.

教学建议

Karpathy 分享了他作为教育者的一些核心原则：

物理学思维的价值：

“早期教育不是积累知识，而是启动大脑”
物理学独特地擅长启动大脑——构建模型和抽象
“假设有一头球形牛”—— brilliant 的思维方式
寻找一阶项、二阶项，简化系统

micrograd 的例子：

100 行 Python 代码展示反向传播
“核心智力内容就是 micrograd——其他都是效率”
找到最小的核心概念，放在盘子上呈现

教学技巧：

先呈现痛苦，再呈现解决方案——让学生经历问题空间
“在你猜之前我不会给你答案——那是在浪费你的机会”
始终提示学生——“你会怎么解决这个问题？”
最大化”每个新事实增加的知识量”

知识的诅咒：

专家会理所当然地认为某些事情很简单
无法站在初学者的角度
Karpathy 建议学生分享与 ChatGPT 的”愚蠢对话”，帮助教育者重新理解初学者的困境

学习策略：

按需学习（depth-wise）——为了完成项目而学习，有奖励
与广度学习（breadth-wise）交替
向他人解释——如果无法解释，说明你没真正理解
“如果我不理解某件事，我就无法解释它——这很烦人，但会迫使你面对理解中的空白”

sourceSnippets：

Everything else is efficiency.
You’re presenting the pain before you present a solution.
If I don’t really understand something, I can’t explain it.

关键要点总结

主题	核心观点
AGI 时间线	约十年，当前代理仍有认知缺陷
强化学习	”通过吸管吸取监督信号”——低效、噪声大
持续学习	LLM 缺少蒸馏阶段，无法将经验固化到权重
模型大小	认知核心可能只需 ~10 亿参数
经济影响	AGI 将融入 2% GDP 增长，不会爆炸
自动驾驶	”九的进军”——每个可靠性提升需要恒定工作量
教育愿景	构建”知识坡道”，实现”每秒尤里卡”
后 AGI 教育	从”有用”变为”有趣”，类比健身文化
教学方法	先呈现痛苦再给方案，最大化理解效率

Andrej Karpathy — AGI 仍需十年（精校版）

Andrej Karpathy — AGI 仍需十年

内容摘要

章节精读

AGI 仍需十年

LLM 认知缺陷

强化学习很糟糕

人类如何学习

AGI 将融入 2% GDP 增长

智能与文化的进化

自动驾驶为何耗时如此之久

教育的未来

教学建议

关键要点总结