Andrej Karpathy — AGI 仍需十年
内容摘要
本期播客由 Dwarkesh Patel 主持,嘉宾是前 OpenAI 研究员、前特斯拉 AI 高级总监 Andrej Karpathy。对话围绕 AGI 的真实时间线展开,Karpathy 提出”这是代理的十年,而非代理的元年”,并深入剖析了当前大语言模型的认知缺陷、强化学习的根本性局限、人类学习的独特机制,以及为何自动驾驶和 AGI 的部署都需要漫长的”九的进军”。
Karpathy 的核心立场是:AGI 将融入过去两个世纪以来稳定的 2% GDP 增长曲线,而非引发经济爆炸;当前 AI 工程更像是编译器的渐进式改进,而非程序员的完全替代。他对技术长期前景持乐观态度,但对行业内的过度预测保持高度警惕。
章节精读
AGI 仍需十年
Karpathy 提出”这是代理的十年”是对行业内”代理元年”说法的回应。他认为当前代理(Claude、Codex 等)虽然令人印象深刻且他每日使用,但距离真正像员工一样独立工作仍有巨大差距。
主要瓶颈:
- 智能水平不足,多模态能力有限
- 无法进行计算机操作等复杂任务
- 缺乏持续学习——无法记住用户告知的信息
- 存在认知缺陷,无法完成许多隐含任务
Karpathy 基于近 15 年 AI 领域经验做出十年预测。他回顾了 AI 发展的三次重大转变:
- 深度学习初期——在多伦多大学师从 Geoff Hinton,当时深度学习还是小众领域
- AlexNet 之后——所有人开始训练神经网络,但仍是逐任务的
- 强化学习游戏时代——2013 年 Atari 深度强化学习,试图让代理不仅感知世界还能采取行动
Karpathy 认为强化学习游戏方向是”误入歧途”。他在 OpenAI 的 Universe 项目试图构建能与网页交互的代理,但当时太早了——奖励太稀疏,无法学到任何东西。“你必须先获得神经网络中的表示能力,然后才能在其上添加其他东西。”
关于动物与 AI 的类比,Karpathy 持谨慎态度。动物是进化而来的,带有大量内置硬件。“斑马出生后几分钟就能跟着母亲跑——这不是强化学习,这是内置的东西。” 他认为当前构建的不是动物,而是”幽灵”——通过模仿人类互联网数据训练出来的纯数字实体。
关于 Sutton 的观点,Karpathy 认为进化做的事情与预训练不同。他称预训练为”蹩脚的进化”——用现有技术实际可行的版本。预训练同时做两件事:获取知识和变得智能(通过观察互联网中的算法模式,启动神经网络内部的电路和算法)。
sourceSnippets:
- In my mind, this is more accurately described as the decade of agents.
- They don’t have continual learning. You can’t just tell them something and they’ll remember it.
- You’re going to burn a forest computing, and you’re never going to get something off the ground.
LLM 认知缺陷
Karpathy 分享了他构建 nanochat 仓库(一个完整的 ChatGPT 克隆端到端实现,约 8000 行代码)时的经验。他发现编码模型对这个项目”几乎没有帮助”。
三种编码方式:
- 完全拒绝 LLM,从头编写
- 中间路线(Karpathy 的位置)——自己写很多,但使用模型自动补全
- 氛围编码(vibe coding)——让模型完成
Karpathy 认为 nanochat 不属于模型擅长的类别,因为:
- 这不是样板代码,而是”智力密集型代码”
- 模型有太多来自互联网常规做法的记忆
- 模型总是试图让他使用标准做法(如 PyTorch 的 DDP 容器),而他有自定义实现
- 模型”过度防御”,添加大量 try-catch 语句
- 模型试图构建生产级代码库,而他有很多假设可以简化
关键洞察:模型不擅长从未写过的代码——这正是 AI 研究试图做的事情。这对预测 AI 是否会快速实现自我改进至关重要。
Karpathy 将 AI 视为计算的延伸,有一个”自主性滑块”——人类逐渐减少低级工作,提升抽象层次。这与历史上编译器、IDE 等工具提高程序员生产力的方式类似。
关于上下文学习与预训练的区别,Karpathy 用了一个精彩类比:权重中的知识是”一年前读过的模糊回忆”,而上下文窗口中的内容是”工作记忆”,可以直接访问。这就是为什么给模型完整章节比让它回忆某本书效果好得多。
关于模型架构的未来,Karpathy 基于”时间平移不变性”推测:十年后可能仍然是用梯度下降训练巨型神经网络,但会更大、有更好的稀疏注意力机制和修改过的注意力结构。
sourceSnippets:
- The models have so many cognitive deficits.
- They’re way too over-defensive. They make all these try-catch statements.
- They’re not very good at code that has never been written before.
强化学习很糟糕
Karpathy 对强化学习的评价极为尖锐:“强化学习很糟糕。只是之前更糟。”
RL 的问题:
- 做数百次尝试,最后只得到一个数字(对/错)
- “通过吸管吸取监督信号”——将最终奖励广播到整个轨迹
- 假设到达正确答案的每一步都是正确的——这不成立
- 估计器方差大,充满噪声
人类的对比:
- 不会做数百次 rollout
- 找到解决方案后会进行复杂的审查过程
- “这部分我做得好,这部分做得不好”——有细致的反思
Karpathy 回忆 InstructGPT 论文让他震惊——只需在对话数据上微调,预训练模型就能快速适应成为助手,同时保留所有预训练知识。RL 在此基础上略有提升,可以超越人类示范,发现人类想不到的解决方案。
过程监督的困境:
- 难点在于如何自动化地分配部分学分
- 使用 LLM 作为评判器很棘手——LLM 是可被利用的
- 模型会找到 LLM 评判器的对抗样本
- 一个著名案例:模型输出”dhdhdhdh”,评判器却给了 100% 奖励
关于模型崩溃(model collapse),Karpathy 指出 LLM 生成的样本”静默地坍缩”——单个样本看起来合理,但分布极其狭窄。“让 ChatGPT 讲笑话,它只有三个笑话。” 人类虽然嘈杂但至少没有偏差,保持了巨大的熵。
Karpathy 预测认知核心可能只需要约 10 亿参数——去掉记忆,只保留思维算法和认知胶水。当前模型记住了太多互联网垃圾数据。
sourceSnippets:
- Reinforcement learning is terrible. It just so happens that everything that we had before it is much worse.
- You’re sucking supervision through a straw.
- You’ll find adversarial examples for your LLM judges, almost guaranteed.
人类如何学习
Karpathy 认为当前 LLM 缺少人类学习的关键机制。
读书的对比:
- LLM:拉长文本序列,预测下一个 token
- 人类:书是”生成合成数据的提示”——通过操作信息获得知识,去读书会讨论
缺失的蒸馏阶段:
- 人类睡眠时有某种神奇过程,将白天的上下文蒸馏到权重中
- LLM 没有等价物——没有分析、综合数据生成、蒸馏回权重的过程
- 可能需要每个人的小型 LoRA,而非完整权重更新
关于合成数据生成的根本问题:
- 模型生成的样本分布坍缩
- 持续训练自己的数据会导致性能下降
- 人类也会随时间坍缩——“孩子还没过拟合,他们会说出让你震惊的话”
Karpathy 对人类与 LLM 记忆能力的对比很有趣:人类不擅长记忆,这反而是优势——被迫寻找更通用的模式。LLM 极其擅长记忆,甚至能逐字背诵随机序列,但这可能分散了它们学习可泛化成分的注意力。
关于”文化”的概念,Karpathy 认为 LLM 目前没有文化等价物。“为什么 LLM 不能为其他 LLM 写书?为什么其他 LLM 读了这本书后不能受到启发或震惊?” 这涉及两个强大的多智能体概念:文化(LLM 为自己的目的积累知识)和自我对弈(像 AlphaGo 那样自己对抗自己学习)。
当前模型仍然像”小学生”——“他们有完美记忆,能令人信服地制造各种看起来很好的垃圾,但他们真的不知道自己在做什么。”
sourceSnippets:
- The book is a set of prompts for me to do synthetic data generation.
- All of the samples you get from models are silently collapsed.
- We’re forced to find patterns in a more general sense.
AGI 将融入 2% GDP 增长
Karpathy 拒绝用”教育水平”(高中生→大学生→博士)来衡量 AGI 进度。他坚持原始定义:能在人类水平或更好地完成任何有经济价值任务的系统。
关键观察:
- 当前只考虑数字知识工作——这已经是重大让步(约占经济 10-20%)
- 社会会根据可自动化程度重新组织任务
- 不会立即取代人类,而是出现”自主性滑块”——AI 做 80%,人类监督
为什么编码是第一个被自动化的:
- 编码本质上是基于文本的
- LLM 是完美的文本处理器,有大量训练数据
- 已有完善的基础设施(VS Code、diff 工具等)
- 对比幻灯片制作——不是纯文本,没有 diff 基础设施
关于 GDP 增长,Karpathy 的核心观点是AGI 将延续既有的 ~2% 增长曲线,而非引发爆炸。计算机、手机等变革性技术都”找不到在 GDP 中的痕迹”——它们缓慢扩散,最终平均到同样的指数曲线中。
关于 ASI(超级智能),Karpathy 视其为自动化的延续。他担心的不是单一实体接管一切,而是多个竞争实体逐渐变得更加自主——“一些实体失控,其他实体与之对抗”。他预测会逐渐失去对正在发生的事情的理解和控制。
sourceSnippets:
- AGI was a system you could go to that can do any economically valuable task at human performance or better.
- Coding is the perfect first thing for these LLMs and agents.
- You can’t find them in GDP. GDP is the same exponential.
智能与文化的进化
Karpathy 对智能的进化感到惊讶。他认为细菌存在了 20 亿年什么都没发生,真核生物的出现可能相当困难。“直觉上,智能的进化应该是一个相当罕见的事件。”
关于智能多次独立出现的证据:
- 人类智能 vs 鸟类智能(乌鸦等非常聪明,但脑部结构截然不同)
- 这表明智能可能更容易出现
生态位的概念:
- 人类有手,奖励工具使用
- 可以外部化消化,更多能量供给大脑
- 鸟类大脑变大会从空中掉下来
- 需要不可预测的环境来激励适应性——“进化无法将算法烘焙到权重中”
关于文化积累,Karpathy 指出 LLM 没有文化的等价物。这涉及两个强大的多智能体概念:文化和自我对弈。目前还没有人令人信服地实现这两种多智能体改进。
sourceSnippets:
- The fact that you can get something that creates culture and knowledge and accumulates it is surprising to me.
- You want environments that are unpredictable so evolution can’t bake your algorithms into your weights.
- They still cognitively feel like a kindergarten or an elementary school student.
自动驾驶为何耗时如此之久
Karpathy 在特斯拉领导自动驾驶 5 年(2017-2022),他对这段经历有深刻反思。
核心概念:九的进军(march of nines)
- 每个”九”(90%→99%→99.9%)的工作量是恒定的
- 演示很容易,产品很难
- 在特斯拉的 5 年里,他们推进了 2-3 个”九”
- 仍然还有更多”九”要走
与软件工程的类比:
- 生产级代码同样需要高安全保证
- 一个 catastrophic 编码错误可能导致数亿人数据泄露
- “在某些方面,软件工程是更难的问题——表面积更大”
关于 Waymo 的观察:
- 部署规模仍然有限,经济上不可行
- 存在精心设计的远程操作中心——“有人从天空中被传送到车里”
- “我们还没有移除人,只是把他们移到了你看不到的地方”
Karpathy 强调自动驾驶尚未完成——“当我说自动驾驶时,我指的是大规模自动驾驶,人们不需要考驾照。”
关于 AI 基础设施的大规模建设,Karpathy 类比铁路或电信行业的历史先例——“预先铺设互联网,十年后才真正使用”。他对技术持乐观态度,认为需求会跟上建设,但对过快的时间线保持警惕。
sourceSnippets:
- Every single nine is a constant amount of work.
- I’m extremely unimpressed by demos.
- We haven’t actually removed the person, we’ve moved them to somewhere where you can’t see them.
教育的未来
Karpathy 解释了他离开 AI 研究、创办教育平台 Eureka 的原因:“我担心这些东西发生在人类的对立面,人类被剥夺权力。” 他不想看到《WALL-E》或《蠢蛋进化论》式的未来。
Starfleet Academy 愿景:
- 建立一个前沿技术的精英机构
- 培养”太空船飞行员”——掌握技术知识的人才
- 物理和数字两个层次
关于 AI 导师的高标准: Karpathy 分享了他学习韩语的经历——从自学到小班课再到一对一导师。好导师能做到:
- 瞬间理解学生的水平、知道和不知道什么
- 精确探测学生的世界模型
- 始终提供”恰到好处的挑战”——不太难也不太简单
- “我是唯一的限制因素”
当前能力不足以构建真正的 AI 导师,但他正在构建 LLM101N 课程——nanochat 就是这门课的期末项目。他的核心理念是**“每秒尤里卡”**(eurekas per second)——构建知识的坡道,让理解高效发生。
后 AGI 时代的教育:
- “前 AGI 教育有用,后 AGI 教育有趣”
- 类比健身——我们不需要人力搬重物,但人们仍然去健身房
- “因为有趣、健康,有六块腹肌看起来很酷”
- 学习将变得如此简单,人们会为了乐趣而学习
Karpathy 相信人性的永恒性——“如果你看古希腊或贵族,每当有某种’后 AGI’的小环境时,人们会花大量时间在某种繁荣发展上。” 他真正关心的是人类的状态——“如果最终是《WALL-E》或《蠢蛋进化论》的未来,那即使有戴森球我也不在乎。”
sourceSnippets:
- I want humans to be well off in the future.
- I almost felt like there’s no way I can build this.
- It’s giving you a lot of what I call eurekas per second.
教学建议
Karpathy 分享了他作为教育者的一些核心原则:
物理学思维的价值:
- “早期教育不是积累知识,而是启动大脑”
- 物理学独特地擅长启动大脑——构建模型和抽象
- “假设有一头球形牛”—— brilliant 的思维方式
- 寻找一阶项、二阶项,简化系统
micrograd 的例子:
- 100 行 Python 代码展示反向传播
- “核心智力内容就是 micrograd——其他都是效率”
- 找到最小的核心概念,放在盘子上呈现
教学技巧:
- 先呈现痛苦,再呈现解决方案——让学生经历问题空间
- “在你猜之前我不会给你答案——那是在浪费你的机会”
- 始终提示学生——“你会怎么解决这个问题?”
- 最大化”每个新事实增加的知识量”
知识的诅咒:
- 专家会理所当然地认为某些事情很简单
- 无法站在初学者的角度
- Karpathy 建议学生分享与 ChatGPT 的”愚蠢对话”,帮助教育者重新理解初学者的困境
学习策略:
- 按需学习(depth-wise)——为了完成项目而学习,有奖励
- 与广度学习(breadth-wise)交替
- 向他人解释——如果无法解释,说明你没真正理解
- “如果我不理解某件事,我就无法解释它——这很烦人,但会迫使你面对理解中的空白”
sourceSnippets:
- Everything else is efficiency.
- You’re presenting the pain before you present a solution.
- If I don’t really understand something, I can’t explain it.
关键要点总结
| 主题 | 核心观点 |
|---|---|
| AGI 时间线 | 约十年,当前代理仍有认知缺陷 |
| 强化学习 | ”通过吸管吸取监督信号”——低效、噪声大 |
| 持续学习 | LLM 缺少蒸馏阶段,无法将经验固化到权重 |
| 模型大小 | 认知核心可能只需 ~10 亿参数 |
| 经济影响 | AGI 将融入 2% GDP 增长,不会爆炸 |
| 自动驾驶 | ”九的进军”——每个可靠性提升需要恒定工作量 |
| 教育愿景 | 构建”知识坡道”,实现”每秒尤里卡” |
| 后 AGI 教育 | 从”有用”变为”有趣”,类比健身文化 |
| 教学方法 | 先呈现痛苦再给方案,最大化理解效率 |