Mar 16, 2026

從普通研究者到 AI 創業家：謝賽寧 7 小時深度專訪，談世界模型、表示學習與 Yann LeCun 的革命之路

原始影片：從普通研究者到 AI 創業家：謝賽寧 7 小時深度專訪，談世界模型、表示學習與 Yann LeCun 的革命之路

Original Video Description

In the spring of 2026, as China celebrated the Chinese New Year with humanoid robots dancing on the national stage, New York was reeling from a brutal blizzard—the harshest winter the city had seen in years. In a cluttered apartment in Brooklyn, my conversation with Saining Xie began.

By March 2026, Xie, alongside Turing Award laureate Yann LeCun, had embarked on a high-stakes venture into "World Models." Their brainchild, AMI Labs (Advanced Machine Intelligence Labs), consists of just 25 people and zero products. Yet, it has already secured a $1.03 billion Seed round at a pre-money valuation of$ 3.5 billion.

This is the titan among 2026’s "AI Neo Labs," setting a record for the largest Seed round in European history. Statistically, its initial funding ranks second globally among Neo Labs, trailing only Thinking Machines Lab, founded by former OpenAI CTO Mira Murati ($2 billion Seed).

"Silicon Valley is very LLM-pilled," says Xie, AMI’s co-founder and Chief Science Officer. "The Valley is deep in the trenches of Large Language Models—it’s completely hypnotized."

Born in 1990, the Chinese scientist is an alumnus of Shanghai Jiao Tong University and UC San Diego, and currently holds a faculty position at NYU. Before venturing into the startup world, he was a Research Scientist at Google DeepMind and spent four years at Meta’s FAIR. With nearly 100,000 citations to his name, he is best known for co-authoring Diffusion Transformers (DiT).

This is Xie’s first-ever in-depth interview. On a snowy afternoon in February 2026, we began what turned into an unexpected marathon, starting at 2 PM and only dispersing in the early hours of the morning.

Under the neon-soaked, pitch-black streets of New York, Xie’s rhetoric echoed the city’s own grit—a complex blend of sharpness and nuance. When it comes to the prevailing AI dogma, he doesn't pull his punches:

"I don’t see LLMs as a success story for the 'Bitter Lesson'—in fact, they are a rebellion against it."
"There is significant 'water'—inflation—in the Scaling Laws of language models."
"Language is 'poison,' or perhaps, an 'opium.'"
"I am deeply concerned about the 'pollution' of vision by language. Actually, it’s already happening."

This dialogue is a complete odyssey through the technological upheavals of the last 15 years and the people who forged them. Often, when the topic drifted, Xie insisted on circling back to finish his "portraits"—perhaps because his original dream was to be a film director. While that dream was shattered early on, it has found a new form of expression here.

It is this very quality that makes this "anti-OpenAI," "anti-Silicon Valley," and "anti-hegemony" dialogue feel so profoundly human.

In this world, he says, "Only the sincere exchange between human beings matters. Perhaps nothing else does."

Disclaimer: This content does not constitute investment advice.

2026年春节，在中国机器人登上春晚的喜乐时分，纽约刚下过一场暴雪——这是近几年以来纽约最凛冽的一个冬天。在布鲁克林一栋略显凌乱的楼房，我与谢赛宁开始了这场对话。

2026年3月，他与图灵奖得主杨立昆（Yann LeCun）等，踏上了一条关于“世界模型”的创业旅程。他们创立的AMI Labs（Advanced Machine Intelligence Labs），目前仅25人、在没有任何产品的情况下，完成10.3亿美元Seed轮融资，投前估值35亿美元。

这是2026年新创的AI Neo Labs中备受瞩目的一家，创造了欧洲历史最大Seed轮。从统计看，它的第一笔融资在Neo Labs中位居世界第二，仅次于前OpenAI CTO Mira Murati创立的Thinking Machines Lab（20亿美元Seed轮融资）。

“Silicon Valley is very LLM-pilled。”AMI联合创始人兼首席科学官谢赛宁说道，“硅谷已经深陷于LLM（大语言模型），完全被它催眠了。”

这位出生于1990年的华人科学家，毕业于上海交通大学与加利福尼亚大学圣地亚哥分校，现于纽约大学任教。创业之前，他曾在Google DeepMind担任研究科学家。更早之前，他在Meta的FAIR实验室担任研究科学家4年。他的论文总计引用数近10万次，曾共同提出Diffusion Transformers（DiT）。

这是谢赛宁第一次接受访谈。2026年2月雪后的一天，我们从下午2点，开启了一场始料未及的马拉松式访谈，直到凌晨时分散去。

在黑暗浸透的霓虹纽约街头，空气中弥漫着没化完冰雪与难闻烟雾的混合味道。就像谢赛宁的表达，总是带着多重的混合感。

在人工智能的思想上，他不乏尖锐言论：

“我完全不觉得LLM是Bitter Lesson（专指Richard Sutton提出的《苦涩的教训》）的成功展示，某种程度上，LLM是反Bitter Lesson的”；
“语言模型的Scaling Law里面是有水分的”；
“语言是‘毒药’，或者说，是一剂‘鸦片’”；
“我非常担心语言对视觉的污染，事实上，它已经发生了”。

但他又不厌其烦地，枚举了影响他学术生涯的每一个人，并反反复复口头描摹这些人的人物特征。

这里面有：写《交大生存手册》的侯晓迪，初来乍到美国还不会用Linux的何恺明，活得像65岁青春期少年的杨立昆，捱过许多艰难时刻、以勇气与坚持让AI看见世界的李飞飞，等等。

这场对话涵盖了过去15年间，他对于AI技术变革兼塑造这些变革背后的人的完整游历。很多次我们的话题早就转移了，他坚持要绕回来，把人物素描完成——也许是因为，他人生最初的梦想是成为一名导演，尽管这个梦想很快就破灭了，却以一种新的形式延续下去。

但正是这些，让这篇“反OpenAI”、“反硅谷”、“反霸权”的对话，又充斥着人性的温度。

他说，在这个世界上，“只有人与人之间真诚的交流是重要的，也许其他都不重要”。

免责声明：本内容不作为投资建议。

OUTLINE: 00:01:19 The Normal One —— 普通人 00:35:40 The World Won't Let Me Do Vision —— 世界不让我做视觉研究 00:52:06 Academic Nomadism —— 学术流浪 00:57:43 A Friendship with Kaiming He —— 与何恺明的友谊 01:05:35 Turning Down Ilya Twice —— 两次拒绝Ilya 01:08:26 Memories of Yann LeCun and Fei-Fei Li —— 杨立昆与李飞飞往事 01:12:18 Hidden Clues: A World of Representations —— 隐藏的线索：表征的世界 02:43:55 Research Taste and the Diamond Sutra —— 研究品味与《金刚经》 04:11:07 What is a World Model? —— 什么是世界模型？ 04:29:47 From Downloading the Internet to Downloading Humanity —— 从下载互联网，到下载人类 04:58:17 The Genesis of AMI Labs with Yann LeCun —— 与杨立昆共同创立AMI始末 05:45:53 "Silicon Valley is Hypnotized" —— "硅谷已被催眠了" 06:07:17 The Arrogance of Mankind —— 人类的自大！ 06:18:45 "42" —— "42"

這是一場長達 7 小時的馬拉松訪談，NYU 教授兼 AMI Labs 共同創辦人謝賽寧分享了他從上海交大 ACM 班到 FAIR、再到與 Yann LeCun 共同創立 AI 新創公司的完整歷程。謝賽寧強調自己是一個「普通人」而非「天選之人」，他的研究之路充滿了偶然與必然的交織。訪談中，他深入探討了表示學習（Representation Learning）作為 AI 核心問題的重要性，分析了語言模型與世界模型的根本差異，並預言未來 AI 系統必須建立在視覺理解的基礎上。他特別提到與 Kaiming He 在 FAIR 的合作經驗，以及如何在一個月內完成 ResNeXt 論文。訪談還涵蓋了他對 DiT 論文被 CVPR 拒絕的反思、拒絕 OpenAI 的決定、以及對當前 AI 軍備競賽的批評。這是一個關於科研本質、研究品味與創業勇氣的深度對話。

講者介紹

謝賽寧 (Saining Xie) — 共同創辦人暨首席科學官, AMI Labs

1990 年出生的華人科學家，上海交通大學 ACM 班畢業、加州大學聖地亞哥分校（UCSD）博士。曾任 Meta FAIR 研究科學家四年，期間與何愷明合作完成 ResNeXt 等重要研究；後轉任 Google DeepMind 研究科學家。他是 Diffusion Transformer（DiT）架構的主要作者，該架構後來被 OpenAI Sora 採用為骨幹。論文總引用數近十萬次，曾獲 ICCV Marr Prize Honorable Mention、NSF CAREER Award、PAMI Young Researcher Award 等殊榮。2025 年底與圖靈獎得主 Yann LeCun 共同創立 AMI Labs（Advanced Machine Intelligence Labs），專注世界模型研究，已完成 10.3 億美元種子輪融資、投前估值 35 億美元，為歐洲史上最大種子輪。現於 NYU 任副教授（2026 年春夏學期休假投入創業）。

張小珺 (Zhang Xiaojun) — 科技記者暨 Podcast 主持人

前《財經》雜誌記者，現為騰訊新聞科技主筆，主持《張小珺 Jun｜商業訪談錄》Podcast。該節目專注 AI、科技巨頭與創投領域的長篇深度對話，曾專訪眾多 AI 公司高層與投資人。她專程從中國赴紐約，以長達 7 小時的馬拉松式訪談，從謝賽寧最早的成長記憶開始，完整挖掘其研究歷程與創業心路。X: @zhang_benita

一個「普通人」的成長之路

從「天選之人」到「普通人」的自我認知

在整個 7 小時的訪談中，謝賽寧最核心的自我介紹不是他的學術成就，而是一個深刻的自我認知：他不是「天選之人」，而是一個「普通人」。

他認為自己屬於「B級」軌跡，與那些從高中就是頂尖、進入最佳大學、然後到四大讀博的傳統精英路徑不同。他的成長環境相對輕鬆自由：父親是心理學背景，曾在電視台從事媒體工作；母親經商，經常帶他旅行。家庭氛圍讓他形成了開放的世界觀。

9 歲時，他獲得第一台電腦，開始玩遊戲，這是他與電腦科學的第一次接觸。高中期間（2007年），他獲得資訊學和數學競賽獎項，透過上海交大 ACM 班提前招生，放弃了傳統高考這條路。

選擇上海交大而非清華姚班的決定，反映了他獨立的思考方式。他後來回想：「如果你問我那個選擇是否正確，我無法回答。但如果沒有那個選擇，就不會有今天的我。」

選擇導師比選擇學校更重要

謝賽寧的博士申請經歷充滿了戲劇性。他寫「冷郵件」聯繫 Tu Zhuowen 教授，凌晨 3 點與教授通電話，最終選擇跟隨教授去 UCSD，而非留在 UCLA。這段經歷展現了他的主動出擊精神。

他強調：「選導師比選學校重要。」一個好的導師不僅能指導學術研究，更能塑造研究者的思維方式和價值觀。

視覺為什麼是智能的核心

視覺演化的哲學思考

謝賽寧對電腦視覺的熱情源於一個深刻的哲學觀察：視覺是人類感知世界的主要方式。他引用了一個有趣的觀點——眼睛是唯一暴露在真實世界中的大腦部分。

他更提出了「寒武紀大爆發理論」：5.3 億年前，由於視覺的演化（捕食者與獵物的軍備競賽），導致了物種大爆發。這說明視覺不僅是人類獨有的，所有動物都是「視覺動物」。

他的核心信念是：「Solve vision, solve intelligence」——解決視覺問題本質上就是解決智能問題。

計算機視覺作為「視角」而非「任務」

在訪談中，謝賽寧提出了一个深刻的定義：「計算機視覺是一個視角（perspective），不是具體任務或特定領域。」

視覺處理的信號特點包括：

連續空間：與語言的離散符號不同
高維度：像素空間的維度遠超語言Token
噪聲信號：需要處理真實世界的不確定性

他特別強調層次化表徵（Hierarchical Representation）的重要性，以及大規模並行化處理能力。

研究的本質：非線性的無限遊戲

研究週期的六個月理論

謝賽寧分享了他對研究週期的深刻理解。一個完整的研究週期大約需要六個月：

探索期（1-2 個月）：不斷 hack、玩弄程式碼、閱讀論文、尋找連結
擴展期（2-3 個月）：逐漸擴展想法、scale up
寫作期（1-2 個月）：完成論文

他特別強調：「研究是非線性的，最好的工作往往是『繞了很遠的路』才到達終點。最差的研究是起點的想法等於終點的想法——沒有遇到任何障礙。」

引用 Bill Freeman 的研究圖表

訪談中引用了 MIT 教授 Bill Freeman 的一個圖表：

橫軸：論文質量（很差 → 還不錯 → 很好 → 傑出）
縱軸：對整個生涯的影響
結論：不是線性關係。普通論文幾乎無影響，傑出論文影響力瞬間飆升

這意味著研究者的優化目標不是平均值（average），而是最大值（maximum）。研究者一生只需要成功一次或幾次——這是「無限遊戲」。

在 FAIR 的歲月：與 Kaiming He 的合作

一個月完成 ResNeXt

在 FAIR 期間，謝賽寧與 Kaiming He（何愷明，ResNet 發明人）合作完成了一項重要工作：ResNeXt。他們在一個月內完成了這篇論文，ImageNet 挑戰賽獲得第二名。

談到 Kaiming He 的研究方法，謝賽寧觀察到：

極端專注：每天只思考一個問題，能進入心流狀態
研究品味：能剝離表象，提取關鍵點，建立高維抽象空間中的連結
想法來源：非憑空想像，而是來自持續探索、廣泛閱讀、廣泛思考，一點一滴推導而來
工程能力：重視基礎設施（infrastructure）建設，認為研究的天花板取決於 baseline 的質量

Kaiming 的遠見：Scaling 的早期預測

謝賽寧透露，2018-2019 年時，Kaiming 就告訴他要把模型「bigger and bigger」，這是後來所謂「Scaling Laws」的早期遠見。當時整個領域還沒有意識到這一點。

Kaiming 的建議是：「實習要去不同的地方，這樣才能最大化收獲。」謝賽寧博士期間做了 5 次實習（NEC Labs America、Adobe、Meta、Google Research、DeepMind），「就像小時候旅行一樣，想看看這個世界上不同的地方、不同的組織在做什麼」。

FAIR 的文化：業界中最像學術界的地方

謝賽寧認為 FAIR 是業界中最像學術界的地方：

高度自由：可以選擇自己想做的題目
資源遠超學術界
文化相對開放

但他提到，ChatGPT 出現後，FAIR 開始有文化轉變：焦點不再放在研究上，充斥數小時的「對齊會議」（alignment meetings）討論「未來一兩年應該做什麼」。這與「研究應該是 bottom-up（由下而上）的邏輯」完全相反。

DiT 論文：從被拒到被 Sora 採用

戲劇性的開發歷程

DiT（Diffusion Transformer）論文是謝賽寧研究生涯中的一個重要轉折點：

最初兩個月：探索表徵學習（representation learning）
發現：Diffusion Model 的表徵比自監督學習差很多
最後一個月：轉向架構創新——為何不用 ViT 而用 U-Net？
結果：ViT-based Diffusion Model 更高效、更可擴展、更穩定

被 CVPR 拒絕的經歷

這篇論文投稿 CVPR 時被拒，理由是「創新性不足、數學不夠多」。但後來在其他會議獲得 Oral Paper 肯定。

更戲劇性的是：OpenAI 的 Sora 採用 DiT 作為骨幹架構，這是對這项工作巨大肯定。謝賽寧坦言：「Sora 採用 DiT 作為骨幹是其巨大肯定。」

表示學習：AI 領域的核心問題

「這個世界上只有一件事是重要的」

訪談中，謝賽寧提出了一個大膽的觀點：「這個世界上只有一件事是重要的——學習表示（representation）。當你有了足夠好的表示，在此基礎上處理其他問題都很簡單。」

他將表徵比喻為樹根，下游應用是樹枝：「要在根部扎根，而非只在樹枝上延伸。」

表示學習 vs 潮流性主題

謝賽寧認為相較於 NAS（Neural Architecture Search）這類潮流性主題，表示學習不會過時。他批評 NAS「浪費了整個領域約兩年時間，是錯誤方向」。

他對馬毅教授的觀點深感認同：「不要害怕高維度。」高維度空間能解決低維度無法解決的問題，這是機器學習中非常重要的基石。

語言模型 vs 世界模型

語言模型的局限性

謝賽寧對當前 LLM 熱潮保持清醒的認識：

語言是一種「溝通工具」，不是「思考地圖」，也不是「決策工具」
語言模型無法完整描述這個世界：有很多事情是無法透過語言描述的
LLM 不符合 Bitter Lesson：因為語言本身是人類極度聰明的設計產物，充滿了精心設計的結構

他擔心語言「污染」視覺（language contaminating vision），這已經在發生。

為什麼需要世界模型

他引用了 Kenneth Craik（1943年）提出的世界模型概念：給定一個系統或狀態 S_t，以及一個干預或動作 a_t，學習一個預測函數 F，能根據當前狀態和動作預測下一個狀態 S_{t+1}。

世界模型需要具備的特徵：

理解物理世界（Physical World Understanding）
足夠大的關聯記憶（Associative Memory）
推理與規劃能力（Reasoning & Planning）
反事實推理/因果推斷（Counterfactual Reasoning / Causal Inference）
可控且安全（Controllable & Safe）

Yann LeCun 的「蛋糕比喻」

訪談中多次提到 Yann LeCun 的經典比喻：

蛋糕本體（body） = Self-Supervised Learning（自監督學習）
糖霜（icing） = Supervised Learning（監督學習）
櫻桃（cherry） = Reinforcement Learning（強化學習）

Yann 認為沒有蛋糕本體，無法達到智慧，僅靠櫻桃是不夠的。

LLM 是「拐杖」

Yann LeCun 有一個深刻的比喻：LLM 是「虛擬智慧」，在數位空間運作；真實智慧需要與現實世界互動。視覺是「一條腿」——語言模型是拐杖，可以走路但不能跑步。

謝賽寧補充：一個 4 歲孩子看過的視頻，已經超過訓練所有 LLM 使用的 token 數量（30兆 tokens）。

與 Yann LeCun 共同創業

AMI Labs 的誕生

2023 年，謝賽寧與 Yann LeCun 共同創立了 AMI Labs。這段經歷充滿了戲劇性：

創業決定：被形容為「形而上學的決定」，認為在學術界資源有限，可能陷入「中等論文陷阱」
關鍵對話：兩週後的週一與 Yann LeCun 一對一會議，Yann 表示想離開 Meta 創業
公司定位：既不是純學術機構，也不是傳統 FAIR 或 Google GenAI，而是兩者之間的平衡點

為什麼選擇紐約而非矽谷

謝賽寧分享了選擇紐約的原因：

個人因素：在 NYU 多年，紐約是「更真實的世界」
文化因素：矽谷是「純科技泡沫」，每個人只想做產品；紐約有更強烈做基礎性研究的渴望
地理優勢：Dumbo 區有 Hugging Face、Runway 等 AI 公司，產業與學術結合的機會

公司現況

截至訪談時：

成立時間：約 6 個月
團隊規模：約 15 人，目標初期 25 人
6 位共同創辦人，包括 CEO、COO、VP of world models（來自 JEPA 團隊的 Mike）、CRIO（Pascale Fung）

Yann LeCun 的為人

謝賽寧對 Yann LeCun 的描述充滿敬意：

原則性強：基於對問題的深刻理解，不受他人意見影響
願景型領導：透過願景和價值觀吸引人才，給予很大自由度
工程思維：談論 World Model 時會寫出公式，而非空泛的抽象概念
個人魅力：願意與人自拍，沒有距離感，可以直接挑戰他的觀點

對 AI 產業的批評與反思

軍備競賽的問題

謝賽寧對當前 AI 產業的現狀提出了深刻批評：

軍備競賽問題：所有公司都陷入只追求在排行榜領先的競爭，擠壓研究空間
缺乏問題定義能力：在大公司中，核心模型訓練部門處於高度競爭的軍備競賽中，無法進行真正的探索性研究
資源配置偏移：研究人員認為需要做的研究（如視頻理解）在現有價值鏈中無法獲得資源
視頻理解被忽視：業界資源流向視頻生成而非視頻理解，因為只有生成能間接參與價值鏈

數據收集的困境

他提到了數據收集的巨大挑戰：

四個月大的嬰兒所見的資訊相當於 30 分鐘的 YouTube 上傳量
目前訓練數據達數兆 tokens，兩者差距巨大
YouTube 數據收集面臨版權問題、服務條款禁止爬蟲、IP 封鎖機制

研究的目的：理解而非影響

引用 Hannah Arendt

訪談中，謝賽寧引用了哲學家 Hannah Arendt 的觀點：「impact」這個詞太具攻擊性和男性特質。研究的目的是「尋求被理解」，而非「創造影響」。

Kaiming 說過：「發表論文的目的是讓別人理解後，能拓寬視野。」

對年輕研究者的建議

找到真正熱愛的問題：研究與創業都是漫長旅程，沒有熱情很難堅持
願意在基礎上下功夫：不要跳過基礎知識
找到好的導師：周圍的人會對你的成長產生巨大影響
追求簡潔優雅的解決方案：遵循 MDL（Minimum Description Length）原則
具備「反脆弱」特質：從失敗中學習

研究與電影製作的類比

謝賽寧提出了一個有趣的比喻：研究過程與電影製作「其實沒那麼不同」。好的研究論文必須像好電影一樣——由衝突（conflict）驅動，透過衝突發現問題的核心與解決方案。

他推薦了一本關於編劇的書籍：Robert McKee 的《Story》。

對 AGI 的看法與 JEPA

AGI 是「錯誤的前提」

謝賽寧同意 Yann LeCun 的觀點：「AGI 是錯誤的前提。」

他引用了 Rich Sutton 的觀點：「松鼠的智能才是真正的智能難題。」一旦解決了松鼠級別的智能（能在真實世界中生存、有自己的目標和情緒），寫代碼、登陸火星等任務反而變得簡單。

JEPA 的三個階段

謝賽寧描述了對 JEPA（聯合嵌入預測架構）經歷的三個階段：

懷疑 JEPA：剛開始做自監督學習時，JEPA 看起來只是一個新的自監督學習算法
理解 JEPA：發現 JEPA 實際上比想像的更深層，包含底層邏輯和數學原理
成為 JEPA：JEPA 不是一個具體的模型或算法，而是一個完整的認知架構（cognitive architecture）和認知系統（cognitive system）

他將 JEPA 比喻為「一片非常廣闘的海洋」，可以在這片海洋上航行許多船隻。

人生哲學：「非天選之人」

引用克洛普與利物浦精神

謝賽寧將自己定位為「非天選之人」（not the chosen one），而是「普通人」。這個概念來自利物浦足球俱樂部教練克洛普（Jürgen Klopp）的名言。

他自稱是 20 年的利物浦球迷（KOP），認為 Yann LeCun 之所以保持樂觀，是因為他經歷過 AI 寒冬並最終證明自己是對的。

滑雪的比喻

他用滑雪來比喻創業：

滑雪是關於平衡的運動
必須無畏並將肩膀指向山坡
這是反直覺的——當你面對下坡時，總想往後靠，但這會讓你失去控制
只有完全放下恐懼，勇往直前，才能變得更穩定

關於命運

訪談結尾，他說：「每個人都是獨特的變數。每個人的背景、經歷、閱讀的書、與人的對話都不同，這些獨特經歷塑造了獨特的研究路徑。」

「如果我們不做這件事，這個世界就不會發生這件事。你是這個世界最重要的變數。」

結語

這場 7 小時的訪談不僅是謝賽寧個人研究歷程的回顧，更是對 AI 領域未來方向的深度思考。從表示學習到世界模型，從學術研究到創業實踐，他的觀點始終圍繞著一個核心問題：我們如何才能構建真正理解這個世界的 AI 系統？

他的答案很明確：必須從視覺、從表示學習、從與真實世界的互動出發，而非僅僅依賴語言模型。這是一條漫長的道路，但正如他所說：「科研是長期積累的過程——我希望自己處於一種安靜的長期建設狀態，而非一時的激素爆發。」