楊立昆:單靠LLM想實現AGI是胡說八道,AI未來需要JEPA世界模型(GTC大會萬字訪談)

動區BlockTempo
AGI-2,28%

本文整理 Meta 首席 AI 科學家、圖靈獎得主楊立昆(Yann LeCun)與 NVIDIA 首席科學家 Bill Dally 的公開對談逐字稿。LeCun 解釋為何他認為大型語言模型 (LLM) 永遠無法真的實現 AGI? (前情提要:OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破) (背景補充:OpenAI 傳秘密打造「自家社群平台」,劍指死對頭馬斯克的 X) 當大型語言模型 (LLM) 正在加速推動世界擁抱 AI 的當下,被譽為卷積神經網路之父、現任 Meta 首席 AI 科學家的楊立昆(Yann LeCun)近期卻語出驚人地表示,他對 LLM 的興趣已減退,甚至認為已接近 LLM 發展瓶頸。 在人工智慧社群引發廣大討論, 上個月在一場與 NVIDIA 首席科學家 Bill Dally 的深度對談中,LeCun 詳述了他對 AI 未來發展方向的獨到見解,強調理解物理世界、持久記憶、推理與規劃能力,以及開源生態的重要性,才是引領下一波 AI 革命的關鍵,下文為您做重點整理。 Bill Dally: Yann,過去一年 AI 領域發生了很多有趣的事情。在你看来,過去一年最令人興奮的發展是什麼? Yann LeCun: 多到數不清,但我告訴你一件事,可能會讓你們中的一些人感到驚訝。我對大型語言模型(LLM)不再那麼感興趣了。 LLM 已經有點步入尾端,它們掌握在產業的產品人員手中,只是在邊際層面上進行改進,試圖獲取更多數據、更多計算能力、生成合成數據。我認為在四個領域有更有趣的問題: 如何讓機器理解物理世界、如何讓它們擁有持久性記憶,這一點沒有太多人談論、最後兩個是,如何讓它們進行推理和規劃。 當然,有一些努力讓 LLM 進行推理,但在我看來,這是一種非常簡化的看待推理的方式。我認為可能有更好的方法來做到這一點。所以,我對那些科技社群中的很多人可能五年後才會感到興奮的事情感到雀躍。但現在,它們看起來不那麼令人興奮,因為它們是一些晦澀的學術論文。 世界模型與物理世界的理解 Bill Dally: 但如果不是 LLM 在推理物理世界、擁有持久性記憶和規劃,那會是什麼呢?底層模型會是什麼? Yann LeCun: 所以,很多人正在研究世界模型。什麼是世界模型? 我們所有人的腦海中都有世界模型。這基本上是讓我們能夠操縱思想的東西。我們有一個關於當前世界的模型。你知道如果我從上面推這個瓶子,它很可能會翻倒,但如果我從底部推它,它會滑動。如果我壓得太用力,它可能會爆開。 Yann LeCun 受訪截圖 我們擁有關於物理世界的模型,這是在我們生命的最初幾個月獲得的,這使我們能夠應對真實世界。應對真實世界比應對語言要困難得多。我們需要的系統架構,要能夠真正處理真實世界的系統,與我們目前處理的完全不同。LLM 預測 token,但 token 可以是任何東西。我們的自動駕駛汽車模型使用來自感測器的 token,並產生驅動車輛的 token。在某種意義上,它是在推理物理世界,至少是關於哪裡開車安全以及你不會撞到柱子。 Bill Dally: 為什麼 token 不是表示物理世界的正確方式? Yann LeCun: Token 是離散的。當我們談論 token 時,我們通常指的是一個有限的可能性集合。在典型的 LLM 中,可能的 token 數量大約在 10 萬左右。當你訓練一個系統來預測 token 時,你永遠無法訓練它預測出文本序列中確切跟隨的 token。 你可以產生一個關於你字典中所有可能 token 的機率分佈,這只是一個包含 10 萬個介於零和一之間且總和為一的數字的長向量。我們知道如何做到這一點,但我們不知道如何處理影片,處理那些高維度且連續的自然數據。每一次試圖讓系統理解世界或建立世界的心理模型,通過訓練它預測像素級別的影片,基本上都失敗了。 即使是訓練一個像某種神經網路的系統來學習圖像的良好表示,所有通過從損壞或轉換過的版本重建圖像的技術都失敗了。它們有點效果,但不如我們稱之為聯合嵌入(joint embedding)的替代架構效果好,後者基本上不試圖在像素級別進行重建。它們試圖學習圖像、影片或正在訓練的自然訊號的抽象表示,以便你可以在該抽象表示空間中進行預測。 Yann LeCun: 我經常使用的例子是,如果我拍攝這個房間的影片,移動攝影機並停在這裡,然後要求系統預測該影片的後續內容,它可能會預測這是一個房間,裡面坐著人等等。它無法預測你們每個人長什麼樣子。這從影片的初始片段來看是完全不可預測的。 世界上有很多事情就是無法預測的。如果你訓練一個系統在像素級別進行預測,它會把所有資源都花在試圖找出它根本無法發明的細節上。這完全是浪費資源。我們嘗試過的每一次,而且我已經研究這個 20 年了,通過預測影片來使用自我監督學習訓練系統都行不通。只有在表示層面進行才有效。這意味著那些架構不是生成式的。 Bill Dally: 如果你基本上是說 transformer 沒有這個能力,但是人們有 vision transformer 並且得到了很好的結果。 Yann LeCun: 我不是這個意思,因為你可以為此使用 transformer。你可以在那些架構中放入 transformer。只是我談論的那種架構被稱為聯合嵌入預測架構(joint embedding predictive architecture)。所以,取一段影片或一張圖片或其他什麼,通過一個編碼器運行它,你得到一個表示,然後取該文本、影片或圖像的轉換版本的後續部分,也通過一個編碼器運行它,現在嘗試在那個表示空間中進行預測,而不是在輸入空間中進行。 你可以使用相同的訓練方法,即填空,但你是在這個潛在空間(latent space)而不是在原始表示中進行。 Yann LeCun: 困難點在於,如果你不小心並且不使用聰明的技術,系統會崩潰。它會完全忽略輸入,只產生一個恆定的、對輸入資訊量不…

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento