深度访谈 ⏱ 约 1:50:00

AMI 创业、世界模型与 AI 的未来

探讨开放研究哲学、JEPA 架构演变、目标导向 AI 安全,以及对青年学者的长期主义建议

YL

Yann LeCun

Meta 首席 AI 科学家 · 图灵奖得主 · AMI 创始人

核心洞察

1

真正的研究必须公开发表

传统实验室逐渐封闭,研究者若不公开发表易陷入自嗨并脱离社区。公开发表能促使科学家提升方法论严谨性,并保持长效动力。

2

世界模型不是像素级模拟器

世界模型应在抽象表示空间进行演化,而非像素空间预测。如预测行星运行仅需六个数字,模型应仅模拟现实的相关部分。

3

LLM 无法达成人类级现实理解

4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。仅靠文本训练无法让 AI 达到人类级别的现实理解力。

4

目标驱动架构从根源解决安全

AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全,系统在逻辑上无法违背预设的安全约束。

5

优先学习保质期长的基础学科

应优先学习数学、物理、控制论等保质期长的基础学科,而非单纯编程。物理学中"如何建立现实的预测模型"是理解智能最核心的素养。

完整时间轴

00:00:13 AMI 创业背景与开放研究哲学
00:00:13 - 00:04:55 从大公司研究员转向 AMI 创业
  • 环境变迁:受益于投资热潮,初创公司如今可支撑长达数年的基础研究。
  • 开放转向:传统实验室逐渐封闭,离开 Meta 是为在更开放的环境开展研究。
  • 研究定义:真正的研究必须公开发表,否则研究者易陷入自嗨并脱离社区。
00:04:55 - 00:08:24 开放研究的激励机制与 AMI 愿景
  • 激励逻辑:公开发表能促使科学家提升方法论严谨性,并保持长效动力。
  • AMI 核心目标:开发具备"世界模型"且能通过优化进行路径规划的智能系统。
  • 现有技术局限:LLM 无法可靠地处理现实世界的行动规划,AMI 旨在填补此空白。
00:08:24 世界模型与 JEPA 架构演变历程
00:08:24 - 01:13:00 弃绝像素级预测与 JEPA 的诞生
  • LLM 缺陷:LLM 在处理高维、连续、带噪声的非文本数据时表现极差。
  • JEPA 核心思路:在抽象表示空间而非像素空间进行预测,消除不可预测的噪声。
  • 历史回顾:早期通过自动编码器正则化来建立信息瓶颈,防止系统学习恒等函数。
01:13:00 - 01:21:01 解决架构"坍缩"问题的技术探索
  • 坍缩挑战:若不加约束,预测器易产生常数表示以最小化误差,导致系统失效。
  • 对比学习方案:利用正负样本的吸引与排斥机制,强制系统提取差异化特征。
  • 应用起源:该理念最早源于 1993 年为信用卡签名验证开发的孪生网络。
01:21:01 - 01:24:11 从对比学习到信息最大化
  • 技术突破:Barlow Twins 与 Vicreg 等方法实现了无需负样本的表示学习。
  • 最新进展:通过 Sigreg 等正则化手段,确保编码器输出分布接近各向同性。
  • 未来展望:这些技术将是训练能学习抽象表示的世界模型的关键路径。
00:24:11 信息密度、抽象层级与物理常识
00:24:11 - 00:27:31 视频与文本的数据效率对比
  • 信息规模:1.5 万小时视频的数据量等同于全网文本,且结构更加丰富。
  • 感官认知:4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。
  • 结论断言:仅靠文本训练无法让 AI 达到人类级别的现实理解力。
00:27:31 - 00:34:36 世界模型的定义:抽象而非模拟
  • 误区纠偏:世界模型不应是像素级模拟器,而是抽象表示空间的演化模型。
  • 抽象 hierarchy:从量子场论到心理学,每一层抽象都通过忽略细节实现长效预测。
  • 模型本质:如预测行星运行仅需六个数字,世界模型应仅模拟现实的相关部分。
00:34:36 - 00:38:11 学习物理常识与非语言认知
  • 非语言学习:人类幼年通过观察物体坠落、惯性等现象建立直觉物理模型。
  • LLM 的虚假理解:LLM 对物理现象的回答多为语料库背诵,而非真正的动力学模拟。
  • 分层预测:视频生成模型常结合抽象表示空间预测与像素渲染两套系统。
00:38:11 Moravec 悖论与机器智能的局限
00:38:11 - 00:44:40 目标导向学习与游戏 AI 挑战
  • 学习机制:婴儿通过现实世界的惊喜反馈(如违反物体永恒性)调整内部模型。
  • 搜索与博弈:机器在围棋等受限、可搜索领域胜过人类,但在开放世界表现羸弱。
  • 内存瓶颈:人类不擅长宽度优先搜索,而机器擅长处理大规模分支预测。
00:44:40 - 00:48:06 Moravec 悖论的持续性影响
  • 悖论核心:对人类简单的物理运动对 AI 极难,而复杂的逻辑运算却相对简单。
  • 工业现状:游戏 NPC 的 AI 逻辑在过去 20 年几乎停滞,缺乏真正的交互智能。
  • 猫与机器人:目前的顶级机器人仍不如一只猫敏捷、富有创造力和环境适应力。
00:48:06 - 00:51:58 AGI 的定义误区与发展时间线
  • 概念批驳:不存在所谓的通用智能,人类智能也是高度专业化进化的产物。
  • 时间线预测:实现狗级别的智能至少需 5-10 年,达到人类级别可能需 20 年以上。
  • 瓶颈预测:实现 AI 的"物理直觉"比实现语言能力难度更高。
00:51:58 目标导向的 AI 安全与工程可靠性
00:51:58 - 00:56:33 AI 安全与社会心理影响
  • 社会挑战:AI 带来的超级说服力和潜在的心理误导是当前亟需面对的问题。
  • 生命救助:AI 在自动紧急制动(AEBS)等领域的应用显著降低了交通事故率。
  • 工程化安全:技术的安全性是逐步迭代出来的,而非在第一天就完美无瑕。
00:56:33 - 00:59:55 喷气发动机类比与可靠性工程
  • 可靠性演进:AI 需经历类似喷气发动机的发展过程,通过工程迭代实现极高稳定性。
  • 护栏机制:在系统达到人类智力前,必须内置针对潜在危险行为的约束层。
  • 经济驱动:强烈的经济动机将促使行业投入巨资解决 AI 的可靠性与安全性。
00:59:55 - 01:03:52 目标驱动架构:从根源解决安全
  • 架构优势:AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全。
  • 逃逸防御:由于结果由目标函数优化得出,系统在逻辑上无法违背预设的安全约束。
  • 成本问题:目前的生成式 AI 安全过滤极其昂贵且易被通过提示注入破解。
01:03:52 行业格局、硅谷单文化与个人使命
01:03:52 - 01:10:13 Meta 组织结构与行业分析
  • Meta AI 现状:Fair 专注长期研究,TBD 实验室专注大模型开发与产品落地。
  • 竞对观察:Wayve 在自动驾驶领域利用世界模型取得了较领先的进展。
  • 技术分支:行业内存在生成式(像素预测)与表征式(JEPA)两条主要技术路径。
01:10:13 - 01:16:15 走出硅谷的 LLM 盲从文化
  • 羊群效应:硅谷公司为避免落后而盲目追求 LLM 规模化,形成了单一技术文化。
  • 全球竞争:目前最优秀的开源系统多来自中国,这引发了美国业界的某种焦虑。
  • 技术孤岛:AMI 旨在探索与 LLM 规模化路径正交的现实世界数据处理技术。
01:16:15 - 01:21:12 个人使命:放大人类智能
  • 智能愿景:增加全球智能总量是绝对的好事,AI 是人类能力的倍增器。
  • 本质认知:智能与支配欲并无必然联系,AI 不会因变聪明就产生统治人类的欲望。
  • 职业选择:作为教授与研究者,目标始终是让人们更聪明或创造辅助工具。
01:21:12 科学史回顾与教育跨学科建议
01:21:12 - 01:27:56 科学发现的重合性与产品化
  • Scoop 现象:科学想法常在不同领域同步出现,反向传播算法就有多个独立源头。
  • 突破因素:算法、算力与数据的三位一体共振,才促成了过去十年的 AI 爆发。
  • 历史长河:世界模型与系统识别的理念可追溯至 20 世纪 60 年代的控制理论。
01:27:56 - 01:36:03 个人爱好与思维模型
  • 帆船与预测:航海需要大脑实时运行流体力学的抽象预测模型,与 AI 逻辑相通。
  • 多元生活:射电天文学、电子音乐合成器等爱好提供了 concrete 的创造快感。
  • 未来设想:AI 将像 Linux 一样无处不在,成为放大人类文明效能的底层设施。
01:36:03 - 01:49:50 给青年学者的长期主义建议
"应优先学习数学、物理、控制论等保质期长的基础学科,而非单纯编程。"
  • 保质期理论:应优先学习数学、物理、控制论等保质期长的基础学科而非单纯编程。
  • 经济学视角:不应听信科学家谈论经济,历史证明技术革命从未导致长期大规模失业。
  • 学习迁移:物理学中"如何建立现实的预测模型"是理解智能最核心的素养。