李飛飛談 LLM 下一步:AI 必須擁有「空間智慧」才能理解真實世界,Marble 如何實現?

動區BlockTempo

World Labs 創辦人,有「AI 教母」美譽的李飛飛接受專訪,討論 AI 需超越語言,發展「空間智慧」,讓機器真正理解並建構 3D 物理世界。 (前情提要:a16z 前合夥人重磅科技報告:AI 如何吞噬世界?) (背景補充:橋水達利歐:現在拋售AI股票還太早!因為「刺破泡沫的針」還沒上場) 在大型語言模型席捲全球的當下,被譽為「AI 教母」的史丹佛大學教授李飛飛(Fei-Fei Li),已經將目光投向了人工智慧的下一個疆界:空間智慧(Spatial Intelligence)。 在離開 Google Cloud 後,李飛飛創辦了備受矚目的新創公司 World Labs,並推出了首款世界模型產品 Marble。在本次《Eye on AI》的深度訪談中,李飛飛詳細闡述了為何 AI 不能僅止於理解文字,而必須具備「看見」、「感知」並「構建」3D 世界的能力。 本篇訪談觸及了許多核心議題,包括: 超越語言: 為什麼人類知識無法完全被文字捕捉,AI 需要多模態的學習? 技術解密: World Labs 的「RTFM」模型如何僅用一張 GPU 就能生成具備幾何一致性的 3D 世界? 學術觀點: 李飛飛的方法論與 Meta 首席 AI 科學家 Yann LeCun 的世界模型理念有何異同? 未來展望: AI 何時能真正理解物理定律,甚至展現出科學探索的創造力? 以下是本次精彩對話的完整中譯。 主持人: 我不想花太多時間談論 Marble——也就是妳那個能生成讓觀眾在其中移動的、具有一致性和持久性 3D 世界的新模型,雖然它真的很棒。我想更多地探討妳為什麼專注於「世界模型」和「空間智慧」?為什麼這對於超越語言學習是必要的?以及妳的方法與 Yann LeCun(楊立昆)的方法有何不同? 首先能請妳談談,世界模型是從妳在環境智慧(Ambient Intelligence)的研究中衍生出來的,還是一個平行的研究軌道? 李飛飛: 過去幾年我一直在思考的空間智慧工作,確實是我整個職業生涯專注於電腦視覺和視覺智慧的延續。我之所以強調「空間」,是因為我們的技術已經發展到一個程度,其複雜度和深層能力不再僅止於看圖或理解簡單影片。它是深度的感知、空間性的,並且連接到機器人技術、具身 AI 和環境 AI。所 以從這個角度來看,這真的是我在電腦視覺和 AI 領域生涯的延續。 主持人: 關於空間智慧的重要性,我在這個 Podcast 上也談過一陣子。語言模型是從編碼在文字中的人類知識學習的,但那只是人類知識的一小部分。正如妳和其他許多人指出的,人類很多時候是在沒有語言的情況下透過與世界互動來學習的。所以這很重要,儘管目前的 LLM 很驚人,但我們若要超越它們,就需要開發出能更直接體驗世界、直接從世界中學習的模型。 妳的方法——當然 Marble 是個例子——是提取模型學到的世界內部表徵(internal representations),並用這些表徵創造出一個外部的視覺實境。而 LeCun(楊立昆) 的方法則是從直接體驗或影片輸入中建立內部表徵,讓模型學習運動物理定律之類的東西。這兩者之間有平行關係嗎?這兩種方法是互補的還是重疊的? 李飛飛: 首先,我其實不會把我與 Yann 對立起來,因為我認為我們都處於通往空間智慧和世界模型的學術光譜上。妳可能讀過我最近發表的長文《空間智慧宣言(Manifesto of Spatial Intelligence)》,我在裡面說得很清楚。我實際上認為,如果我們最終要考慮一個通用的、全能的世界模型,那麼「隱式表徵(implicit representation)」和最終某種程度的「顯式表徵(explicit representation)」——特別是在輸出層——可能都是需要的。它們各自扮演不同的角色。 例如,World Labs 目前的世界模型 Marble 確實會明確輸出 3D 表徵,但在模型內部,除了顯式輸出外,其實也存在隱式表徵。老實說,我認為最終我們兩者都需要。 至於輸入模態,是的,從影片中學習非常重要。整個世界是由大量連續幀數組成的輸入,但對於智慧體或僅僅是動物來說,世界不僅是被動的觀看。它還包含運動、互動、觸覺體驗、聲音、氣味以及物理力、溫度等具身(embodied)體驗。所以我認為這是深度的多模態(multimodal)。 當然,Marble 作為一個模型只是第一步,但在我們幾天前發布的技術文章中,我們很清楚地表明,我們相信多模態既是一種學習範式,也是一種輸入範式。關於這一點有很多學術討論,這也顯示了這個領域早期的興奮感。所以我不會說我們已經完全探索完了確切的模型架構和表徵形式。 主持人: 在妳的世界模型中,輸入主要是影片,然後模型會建立一個世界的內部表徵嗎? 李飛飛: 不完全是。如果你體驗過我們的世界模型 Marble,它的輸入其實非常多模態。你可以使用純文字、單張或多張圖片、影片,也可以輸入粗略的 3D 佈局(如方塊或體素 Voxels)。所以它是多模態的,而且我們會隨著發展繼續深化這一點。 主持人: 除了作為一個擁有許多應用的出色產品外,妳的野心是否在於建立一個系統——就像我說輸入是影片那樣——一個能從直接經驗中學習的系統?無論是透過影片還是其他模態,而不是透過像文字這樣的次級媒介來學習? 李飛飛: 是的,我認為世界模型就是關於學習這個世界,而世界是非常多模態的。無論是機器還是動物,我們都是多重感官的。學習是透過感知進行的,而感知有不同的模態。 文字是其中一種形式。這也是我們與動物不同的地方,因為大多數動物不透過複雜的語言學習,但人類會。不過,今天的 AI 世界模型會從大量的語言輸入以及其他模態中學習,但不會僅僅被限縮在語言這一種管道中。 主持人: LLM 的限制之一是模型參數在訓練後就固定了,模型不會持續學習。雖然在測試推論(inference)時有一定程度的學習,但這也是你們在世界模型中要解決的問題嗎?因為照理說,世界模型在遇到新環境時應該要能持續學習。 李飛飛: 是的…

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento