核心洞察
1
真正的研究必须公开发表
传统实验室逐渐封闭,研究者若不公开发表易陷入自嗨并脱离社区。公开发表能促使科学家提升方法论严谨性,并保持长效动力。
2
世界模型不是像素级模拟器
世界模型应在抽象表示空间进行演化,而非像素空间预测。如预测行星运行仅需六个数字,模型应仅模拟现实的相关部分。
3
LLM 无法达成人类级现实理解
4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。仅靠文本训练无法让 AI 达到人类级别的现实理解力。
4
目标驱动架构从根源解决安全
AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全,系统在逻辑上无法违背预设的安全约束。
5
优先学习保质期长的基础学科
应优先学习数学、物理、控制论等保质期长的基础学科,而非单纯编程。物理学中"如何建立现实的预测模型"是理解智能最核心的素养。
完整时间轴
00:00:13
AMI 创业背景与开放研究哲学
00:00:13 - 00:04:55
从大公司研究员转向 AMI 创业
- 环境变迁:受益于投资热潮,初创公司如今可支撑长达数年的基础研究。
- 开放转向:传统实验室逐渐封闭,离开 Meta 是为在更开放的环境开展研究。
- 研究定义:真正的研究必须公开发表,否则研究者易陷入自嗨并脱离社区。
00:04:55 - 00:08:24
开放研究的激励机制与 AMI 愿景
- 激励逻辑:公开发表能促使科学家提升方法论严谨性,并保持长效动力。
- AMI 核心目标:开发具备"世界模型"且能通过优化进行路径规划的智能系统。
- 现有技术局限:LLM 无法可靠地处理现实世界的行动规划,AMI 旨在填补此空白。
00:08:24
世界模型与 JEPA 架构演变历程
00:08:24 - 01:13:00
弃绝像素级预测与 JEPA 的诞生
- LLM 缺陷:LLM 在处理高维、连续、带噪声的非文本数据时表现极差。
- JEPA 核心思路:在抽象表示空间而非像素空间进行预测,消除不可预测的噪声。
- 历史回顾:早期通过自动编码器正则化来建立信息瓶颈,防止系统学习恒等函数。
01:13:00 - 01:21:01
解决架构"坍缩"问题的技术探索
- 坍缩挑战:若不加约束,预测器易产生常数表示以最小化误差,导致系统失效。
- 对比学习方案:利用正负样本的吸引与排斥机制,强制系统提取差异化特征。
- 应用起源:该理念最早源于 1993 年为信用卡签名验证开发的孪生网络。
01:21:01 - 01:24:11
从对比学习到信息最大化
- 技术突破:Barlow Twins 与 Vicreg 等方法实现了无需负样本的表示学习。
- 最新进展:通过 Sigreg 等正则化手段,确保编码器输出分布接近各向同性。
- 未来展望:这些技术将是训练能学习抽象表示的世界模型的关键路径。
00:24:11
信息密度、抽象层级与物理常识
00:24:11 - 00:27:31
视频与文本的数据效率对比
- 信息规模:1.5 万小时视频的数据量等同于全网文本,且结构更加丰富。
- 感官认知:4 岁儿童积累的视觉信息量远超 LLM 训练所用的万亿级 Token。
- 结论断言:仅靠文本训练无法让 AI 达到人类级别的现实理解力。
00:27:31 - 00:34:36
世界模型的定义:抽象而非模拟
- 误区纠偏:世界模型不应是像素级模拟器,而是抽象表示空间的演化模型。
- 抽象 hierarchy:从量子场论到心理学,每一层抽象都通过忽略细节实现长效预测。
- 模型本质:如预测行星运行仅需六个数字,世界模型应仅模拟现实的相关部分。
00:34:36 - 00:38:11
学习物理常识与非语言认知
- 非语言学习:人类幼年通过观察物体坠落、惯性等现象建立直觉物理模型。
- LLM 的虚假理解:LLM 对物理现象的回答多为语料库背诵,而非真正的动力学模拟。
- 分层预测:视频生成模型常结合抽象表示空间预测与像素渲染两套系统。
00:38:11
Moravec 悖论与机器智能的局限
00:38:11 - 00:44:40
目标导向学习与游戏 AI 挑战
- 学习机制:婴儿通过现实世界的惊喜反馈(如违反物体永恒性)调整内部模型。
- 搜索与博弈:机器在围棋等受限、可搜索领域胜过人类,但在开放世界表现羸弱。
- 内存瓶颈:人类不擅长宽度优先搜索,而机器擅长处理大规模分支预测。
00:44:40 - 00:48:06
Moravec 悖论的持续性影响
- 悖论核心:对人类简单的物理运动对 AI 极难,而复杂的逻辑运算却相对简单。
- 工业现状:游戏 NPC 的 AI 逻辑在过去 20 年几乎停滞,缺乏真正的交互智能。
- 猫与机器人:目前的顶级机器人仍不如一只猫敏捷、富有创造力和环境适应力。
00:48:06 - 00:51:58
AGI 的定义误区与发展时间线
- 概念批驳:不存在所谓的通用智能,人类智能也是高度专业化进化的产物。
- 时间线预测:实现狗级别的智能至少需 5-10 年,达到人类级别可能需 20 年以上。
- 瓶颈预测:实现 AI 的"物理直觉"比实现语言能力难度更高。
00:51:58
目标导向的 AI 安全与工程可靠性
00:51:58 - 00:56:33
AI 安全与社会心理影响
- 社会挑战:AI 带来的超级说服力和潜在的心理误导是当前亟需面对的问题。
- 生命救助:AI 在自动紧急制动(AEBS)等领域的应用显著降低了交通事故率。
- 工程化安全:技术的安全性是逐步迭代出来的,而非在第一天就完美无瑕。
00:56:33 - 00:59:55
喷气发动机类比与可靠性工程
- 可靠性演进:AI 需经历类似喷气发动机的发展过程,通过工程迭代实现极高稳定性。
- 护栏机制:在系统达到人类智力前,必须内置针对潜在危险行为的约束层。
- 经济驱动:强烈的经济动机将促使行业投入巨资解决 AI 的可靠性与安全性。
00:59:55 - 01:03:52
目标驱动架构:从根源解决安全
- 架构优势:AMI 倡导的目标驱动 AI 通过硬性约束而非微调来实现内在安全。
- 逃逸防御:由于结果由目标函数优化得出,系统在逻辑上无法违背预设的安全约束。
- 成本问题:目前的生成式 AI 安全过滤极其昂贵且易被通过提示注入破解。
01:03:52
行业格局、硅谷单文化与个人使命
01:03:52 - 01:10:13
Meta 组织结构与行业分析
- Meta AI 现状:Fair 专注长期研究,TBD 实验室专注大模型开发与产品落地。
- 竞对观察:Wayve 在自动驾驶领域利用世界模型取得了较领先的进展。
- 技术分支:行业内存在生成式(像素预测)与表征式(JEPA)两条主要技术路径。
01:10:13 - 01:16:15
走出硅谷的 LLM 盲从文化
- 羊群效应:硅谷公司为避免落后而盲目追求 LLM 规模化,形成了单一技术文化。
- 全球竞争:目前最优秀的开源系统多来自中国,这引发了美国业界的某种焦虑。
- 技术孤岛:AMI 旨在探索与 LLM 规模化路径正交的现实世界数据处理技术。
01:16:15 - 01:21:12
个人使命:放大人类智能
- 智能愿景:增加全球智能总量是绝对的好事,AI 是人类能力的倍增器。
- 本质认知:智能与支配欲并无必然联系,AI 不会因变聪明就产生统治人类的欲望。
- 职业选择:作为教授与研究者,目标始终是让人们更聪明或创造辅助工具。
01:21:12
科学史回顾与教育跨学科建议
01:21:12 - 01:27:56
科学发现的重合性与产品化
- Scoop 现象:科学想法常在不同领域同步出现,反向传播算法就有多个独立源头。
- 突破因素:算法、算力与数据的三位一体共振,才促成了过去十年的 AI 爆发。
- 历史长河:世界模型与系统识别的理念可追溯至 20 世纪 60 年代的控制理论。
01:27:56 - 01:36:03
个人爱好与思维模型
- 帆船与预测:航海需要大脑实时运行流体力学的抽象预测模型,与 AI 逻辑相通。
- 多元生活:射电天文学、电子音乐合成器等爱好提供了 concrete 的创造快感。
- 未来设想:AI 将像 Linux 一样无处不在,成为放大人类文明效能的底层设施。
01:36:03 - 01:49:50
给青年学者的长期主义建议
"应优先学习数学、物理、控制论等保质期长的基础学科,而非单纯编程。"
- 保质期理论:应优先学习数学、物理、控制论等保质期长的基础学科而非单纯编程。
- 经济学视角:不应听信科学家谈论经济,历史证明技术革命从未导致长期大规模失业。
- 学习迁移:物理学中"如何建立现实的预测模型"是理解智能最核心的素养。