MIT Media Lab · 交互式中文课

如何用 AI
搞定几乎任何事

MIT 媒体实验室 Paul Liang 教授的研究生课。视频是英文的——这门交互课会用中文把每个知识点讲透，并按大脑记忆规律，一步一步带你走。

怎么用 · 一看就会

每一屏只讲一件事，看懂点右下角「下一步」。顶部圆点是进度，键盘 ← → 也能翻页，随时可点「朗读」听中文讲解。

Paul LiangMIT · 主讲

约 40 分钟本讲：总览

16 步3视频·2测·6卡

学习目标

学完这一讲，
你将能回答：

先把这几个问题装进脑子，带着它们往下走——大脑「带着疑问学」比「被动看」留存高得多。

这门课到底教什么？为什么说它教「原则」而不是「方法」？
「模态 / 多模态」是什么意思？
整门课分哪四大模块？成绩怎么算？

记忆科学

这叫预先提问：先给问题、再给内容，大脑会主动「找答案」，吸收效率显著高于平铺直叙。

先想一想 · 01

一块芯片，
怎么能「闻」出花生？

视频里有这样一幕：一块小芯片，凑近蛋糕、花生酱，就能报警「有花生」——对花生过敏的人，这是救命功能。

看这一幕~~闻花生的芯片~~04:04

先别往下

气味，凭什么也能被 AI 处理？记住这个疑问——它的答案，就是整门课的核心。

再想一想 · 02

机器人被「模拟地震」乱晃，
为什么还能完成任务？

机械臂能感觉抓的是硬物还是软物。研究者故意乱晃它「模拟地震」、用挡板遮住摄像头「模拟下雨大雾」——它照样把事做完。

看这一幕~~触觉机器人~~02:55

关键

传感器越多，它们越能互相补位——看不见就靠「摸」，摸不准就靠「看」。

最后一个 · 03

「帮我买副 4.5 星以上的耳机」
——AI 真的自己下单了

它会搜索、按评分排序、按你偏好选颜色、加购物车、结账。这不再是「回答一个问题」，而是连续做一串动作替你办事。

看这一幕~~会网购的 AI~~06:12

揭晓

这三件事，
就是这门课的全部

闻花生、触觉机器人、网购 AI——它们指向同一个主题：让 AI 能接收并处理世界上几乎任何一种信号。

课程一句话

多感官智能Multi-Sensory Intelligence

世界本就是多感官的：语言、视觉、声音、气味、触觉……这门课教你怎么让 AI 接收这些「新感官」，而且是去帮助人类，不只是替代人类。

记住一个词：模态（modality） = 一种信息通道。这是全课最高频的词。

把它收进框架

AI 能做的事，分三层

刚才三个例子，恰好对应 AI 的三种能力。把它们记成一条线：

感知

给数据
预测一步

生成

一种模态
造出另一种

行动

连续多步
替你办事

记忆科学

为什么拆成三层？因为工作记忆一次只装得下几个组块。切成感知/生成/行动三块，比一股脑灌给你好记得多。

自测 · 主动回忆

那块「闻花生」的芯片，
展示了哪个核心理念？

正确是 B。嗅觉是典型的「新模态」——这门课第一大主题，就是教你把 AI 用到视觉/语言/音频之外的新感官上。闻花生芯片正是这个理念的招牌案例。

课程的灵魂

它教「原则」，
不教「方法」

传统 AI 课是 15 周、一周一个算法，盯着模型本身。这门课不一样——它教你思考的原则，让你以后能为自己的新问题设计方案。原则就是一条完整流水线：

1

数据

需要什么
怎么收集

2

架构

什么模型
怎么改造

3

评估

怎么实验
成没成功

4

部署

上线前
哪些顾虑

听这段~~原则 vs 方法~~07:30

课程地图

整学期分四大模块

先把这张地图记住，往后每一讲你都知道自己「走到哪了」。每块约 3–4 周：

1

模块一

AI 基础

数据 → 模型架构 → 学习与泛化

2

模块二

多模态 AI 基础

模态为何相连、如何学到连接、融合与跨模态迁移

3

模块三

大模型与现代 AI

预训练、微调、大型多模态、生成式

4

模块四

交互式 AI

多步推理 → 具身 AI → 人机交互安全

听这段~~四大模块拆解~~13:42

自测 · 主动回忆

这门课和「传统机器学习入门课」
最大的不同是？

正确是 B。传统课「一周一个算法」盯着模型；这门课教可迁移的原则，让你能为任何新模态自己设计方案。这是它的灵魂。

玩法规则

怎么算分：
40% 讨论 + 60% 项目

这是一门「研究型」课，不是刷题课。成绩两大块：

阅读 + 讨论　约 7 次论文阅读，周四分组讨论、互相批判观点
研究项目　像写一篇 AI 论文：开题 10% → 中期 50% → 终期 25% → 双周进度 10%

课程节奏

每周二、四 1–2pm。周二偏讲座，周四偏动手 / 讨论。还有免责卡可延期 24 小时。

听这段~~评分体系~~18:36

最有意思的设计

读同一篇论文，
扮 7 种角色

Paul 让学生扮不同身份读论文——这是训练批判思维的妙招。挑你喜欢的，读任何资料都能用：

01

同行评审
挑优缺点、找错误

02

考古学家
放进历史脉络看

03

学术研究者
提新想法新方向

04

产业从业者
说服老板「能赚钱」

05

黑客
怎么快速做 demo

06

私家侦探
追查作者为何做它

听这段~~讨论角色设计~~22:05

记忆卡 · 先想后翻

翻卡自测

先看问题，在脑子里答一遍，再点开核对。「先回忆、后核对」比直接看答案记得牢约 2 倍。

CARD 01

「模态」是什么意思？

点击翻转 →

一种信息通道 / 感官类型。文字、图像、声音、触觉、气味各是一个模态。

CARD 02

课程两大主题？

点击翻转 →

① 把 AI 用到新模态　② 学习多种模态之间的连接（多模态 AI）。

CARD 03

「原则」指哪 4 环？

点击翻转 →

数据 → 架构 → 评估 → 部署。一条从想数据到上线的流水线。

CARD 04

四大模块依次是？

点击翻转 →

① AI 基础　② 多模态 AI 基础　③ 大模型与现代 AI　④ 交互式 AI。

CARD 05

成绩怎么分？

点击翻转 →

40% 阅读 + 讨论，60% 研究项目（开题10/中期50/终期25/双周10）。

CARD 06

感知/生成/行动各指啥？

点击翻转 →

感知 = 预测一步；生成 = 跨模态造内容；行动 = 连续做多步任务。

串联回顾

把今天的珠子，
串成一条线

这门课要让 AI 感知一切模态（闻花生、触觉机器人）；它会做三件事：感知 → 生成 → 行动（自动网购）；它教的是原则（数据→架构→评估→部署）而非算法；整学期分四大模块；玩法是 40% 讨论 + 60% 研究项目。

间隔复习 · 把记忆焊牢

记忆会随时间衰退。按下面节奏回来翻一遍记忆卡，每次几分钟，就能把这一讲从短期记忆搬进长期记忆。

第 1 天今天学完 + 翻一遍记忆卡

第 2 天只看记忆卡正面，先自己答

第 4 天重做 2 道自测题

第 7 天把上面这条「线」复述一遍

第 1 讲 · 完成

你已经掌握了整门课的地图和玩法。下一讲将进入「AI 研究入门」——怎么读论文、找想法、快速验证。

如何用 AI搞定几乎任何事

学完这一讲，你将能回答：

一块芯片，怎么能「闻」出花生？

机器人被「模拟地震」乱晃，为什么还能完成任务？

「帮我买副 4.5 星以上的耳机」——AI 真的自己下单了

这三件事，就是这门课的全部

多感官智能Multi-Sensory Intelligence

AI 能做的事，分三层

那块「闻花生」的芯片，展示了哪个核心理念？

它教「原则」，不教「方法」

整学期分四大模块

AI 基础

多模态 AI 基础

大模型与现代 AI

交互式 AI

这门课和「传统机器学习入门课」最大的不同是？

怎么算分：40% 讨论 + 60% 项目

读同一篇论文，扮 7 种角色

翻卡自测

把今天的珠子，串成一条线

第 1 讲 · 完成

如何用 AI
搞定几乎任何事

学完这一讲，
你将能回答：

一块芯片，
怎么能「闻」出花生？

机器人被「模拟地震」乱晃，
为什么还能完成任务？

「帮我买副 4.5 星以上的耳机」
——AI 真的自己下单了

这三件事，
就是这门课的全部

那块「闻花生」的芯片，
展示了哪个核心理念？

它教「原则」，
不教「方法」

这门课和「传统机器学习入门课」
最大的不同是？

怎么算分：
40% 讨论 + 60% 项目

读同一篇论文，
扮 7 种角色

把今天的珠子，
串成一条线