Yann LeCun 深度访谈 | AMI、世界模型与 AI 的未来

核心洞察

真正的研究必须公开发表

传统实验室逐渐封闭，研究者若不公开发表易陷入自嗨并脱离社区。公开发表能促使科学家提升方法论严谨性，并保持长效动力。

世界模型不是像素级模拟器

世界模型应在抽象表示空间进行演化，而非像素空间预测。如预测行星运行仅需六个数字，模型应仅模拟现实的相关部分。

LLM 无法达成人类级现实理解

4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。仅靠文本训练无法让 AI 达到人类级别的现实理解力。

目标驱动架构从根源解决安全

AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全，系统在逻辑上无法违背预设的安全约束。

优先学习保质期长的基础学科

应优先学习数学、物理、控制论等保质期长的基础学科，而非单纯编程。物理学中"如何建立现实的预测模型"是理解智能最核心的素养。

完整时间轴

00:00:13 AMI 创业背景与开放研究哲学

00:00:13 - 00:04:55 从大公司研究员转向 AMI 创业

环境变迁：受益于投资热潮，初创公司如今可支撑长达数年的基础研究。
开放转向：传统实验室逐渐封闭，离开 Meta 是为在更开放的环境开展研究。
研究定义：真正的研究必须公开发表，否则研究者易陷入自嗨并脱离社区。

00:04:55 - 00:08:24 开放研究的激励机制与 AMI 愿景

激励逻辑：公开发表能促使科学家提升方法论严谨性，并保持长效动力。
AMI 核心目标：开发具备"世界模型"且能通过优化进行路径规划的智能系统。
现有技术局限：LLM 无法可靠地处理现实世界的行动规划，AMI 旨在填补此空白。

00:08:24 世界模型与 JEPA 架构演变历程

00:08:24 - 01:13:00 弃绝像素级预测与 JEPA 的诞生

LLM 缺陷：LLM 在处理高维、连续、带噪声的非文本数据时表现极差。
JEPA 核心思路：在抽象表示空间而非像素空间进行预测，消除不可预测的噪声。
历史回顾：早期通过自动编码器正则化来建立信息瓶颈，防止系统学习恒等函数。

01:13:00 - 01:21:01 解决架构"坍缩"问题的技术探索

坍缩挑战：若不加约束，预测器易产生常数表示以最小化误差，导致系统失效。
对比学习方案：利用正负样本的吸引与排斥机制，强制系统提取差异化特征。
应用起源：该理念最早源于 1993 年为信用卡签名验证开发的孪生网络。

01:21:01 - 01:24:11 从对比学习到信息最大化

技术突破：Barlow Twins 与 Vicreg 等方法实现了无需负样本的表示学习。
最新进展：通过 Sigreg 等正则化手段，确保编码器输出分布接近各向同性。
未来展望：这些技术将是训练能学习抽象表示的世界模型的关键路径。

00:24:11 信息密度、抽象层级与物理常识

00:24:11 - 00:27:31 视频与文本的数据效率对比

信息规模：1.5 万小时视频的数据量等同于全网文本，且结构更加丰富。
感官认知：4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。
结论断言：仅靠文本训练无法让 AI 达到人类级别的现实理解力。

00:27:31 - 00:34:36 世界模型的定义：抽象而非模拟

误区纠偏：世界模型不应是像素级模拟器，而是抽象表示空间的演化模型。
抽象 hierarchy：从量子场论到心理学，每一层抽象都通过忽略细节实现长效预测。
模型本质：如预测行星运行仅需六个数字，世界模型应仅模拟现实的相关部分。

00:34:36 - 00:38:11 学习物理常识与非语言认知

非语言学习：人类幼年通过观察物体坠落、惯性等现象建立直觉物理模型。
LLM 的虚假理解：LLM 对物理现象的回答多为语料库背诵，而非真正的动力学模拟。
分层预测：视频生成模型常结合抽象表示空间预测与像素渲染两套系统。

00:38:11 Moravec 悖论与机器智能的局限

00:38:11 - 00:44:40 目标导向学习与游戏 AI 挑战

学习机制：婴儿通过现实世界的惊喜反馈（如违反物体永恒性）调整内部模型。
搜索与博弈：机器在围棋等受限、可搜索领域胜过人类，但在开放世界表现羸弱。
内存瓶颈：人类不擅长宽度优先搜索，而机器擅长处理大规模分支预测。

00:44:40 - 00:48:06 Moravec 悖论的持续性影响

悖论核心：对人类简单的物理运动对 AI 极难，而复杂的逻辑运算却相对简单。
工业现状：游戏 NPC 的 AI 逻辑在过去 20 年几乎停滞，缺乏真正的交互智能。
猫与机器人：目前的顶级机器人仍不如一只猫敏捷、富有创造力和环境适应力。

00:48:06 - 00:51:58 AGI 的定义误区与发展时间线

概念批驳：不存在所谓的通用智能，人类智能也是高度专业化进化的产物。
时间线预测：实现狗级别的智能至少需 5-10 年，达到人类级别可能需 20 年以上。
瓶颈预测：实现 AI 的"物理直觉"比实现语言能力难度更高。

00:51:58 目标导向的 AI 安全与工程可靠性

00:51:58 - 00:56:33 AI 安全与社会心理影响

社会挑战：AI 带来的超级说服力和潜在的心理误导是当前亟需面对的问题。
生命救助：AI 在自动紧急制动（AEBS）等领域的应用显著降低了交通事故率。
工程化安全：技术的安全性是逐步迭代出来的，而非在第一天就完美无瑕。

00:56:33 - 00:59:55 喷气发动机类比与可靠性工程

可靠性演进：AI 需经历类似喷气发动机的发展过程，通过工程迭代实现极高稳定性。
护栏机制：在系统达到人类智力前，必须内置针对潜在危险行为的约束层。
经济驱动：强烈的经济动机将促使行业投入巨资解决 AI 的可靠性与安全性。

00:59:55 - 01:03:52 目标驱动架构：从根源解决安全

架构优势：AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全。
逃逸防御：由于结果由目标函数优化得出，系统在逻辑上无法违背预设的安全约束。
成本问题：目前的生成式 AI 安全过滤极其昂贵且易被通过提示注入破解。

01:03:52 行业格局、硅谷单文化与个人使命

01:03:52 - 01:10:13 Meta 组织结构与行业分析

Meta AI 现状：Fair 专注长期研究，TBD 实验室专注大模型开发与产品落地。
竞对观察：Wayve 在自动驾驶领域利用世界模型取得了较领先的进展。
技术分支：行业内存在生成式（像素预测）与表征式（JEPA）两条主要技术路径。

01:10:13 - 01:16:15 走出硅谷的 LLM 盲从文化

羊群效应：硅谷公司为避免落后而盲目追求 LLM 规模化，形成了单一技术文化。
全球竞争：目前最优秀的开源系统多来自中国，这引发了美国业界的某种焦虑。
技术孤岛：AMI 旨在探索与 LLM 规模化路径正交的现实世界数据处理技术。

01:16:15 - 01:21:12 个人使命：放大人类智能

智能愿景：增加全球智能总量是绝对的好事，AI 是人类能力的倍增器。
本质认知：智能与支配欲并无必然联系，AI 不会因变聪明就产生统治人类的欲望。
职业选择：作为教授与研究者，目标始终是让人们更聪明或创造辅助工具。

01:21:12 科学史回顾与教育跨学科建议

01:21:12 - 01:27:56 科学发现的重合性与产品化

Scoop 现象：科学想法常在不同领域同步出现，反向传播算法就有多个独立源头。
突破因素：算法、算力与数据的三位一体共振，才促成了过去十年的 AI 爆发。
历史长河：世界模型与系统识别的理念可追溯至 20 世纪 60 年代的控制理论。

01:27:56 - 01:36:03 个人爱好与思维模型

帆船与预测：航海需要大脑实时运行流体力学的抽象预测模型，与 AI 逻辑相通。
多元生活：射电天文学、电子音乐合成器等爱好提供了 concrete 的创造快感。
未来设想：AI 将像 Linux 一样无处不在，成为放大人类文明效能的底层设施。

01:36:03 - 01:49:50 给青年学者的长期主义建议

"应优先学习数学、物理、控制论等保质期长的基础学科，而非单纯编程。"

保质期理论：应优先学习数学、物理、控制论等保质期长的基础学科而非单纯编程。
经济学视角：不应听信科学家谈论经济，历史证明技术革命从未导致长期大规模失业。
学习迁移：物理学中"如何建立现实的预测模型"是理解智能最核心的素养。