楊立昆對LLM已不敢興趣!AI接下來有四大方向...

在NVIDIA GTC 2025的重磅對談中,Meta首席AI科學家楊立昆(Yann LeCun,2018年圖靈獎得主,卷積神經網絡之父)與NVIDIA研究主管比爾・達利(Bill Dally,NVIDIA首席科學家及高級副總裁)深入討論了人工智慧的未來發展方向,楊立昆特別提出當前大型語言模型(LLM)已不再是AI發展的主要焦點,而是朝向建構「世界模型」(World Models)的方向發展,這一觀點可能會徹底改變AI產業的發展軌跡。
大型語言模型已非關注重點
「我對LLM不再那麼感興趣了,」楊立昆在對談一開始便直言不諱地表示。他認為目前的LLM發展方向已趨於邊際改善,主要側重於增加資料量、運算能力以及生成合成資料,這些改進方向已逐漸掌握在產業界手中。
楊立昆指出,未來AI發展的四個更具潛力的研究方向為:理解物理世界、實現持續性記憶、推理能力以及規劃能力。這些核心能力的研究目前可能看起來不那麼吸引人,但可能在未來五年內成為技術社群的熱點。
何謂世界模型?為何它比LLM更重要?
「世界模型是讓我們能夠操縱思想的內部表徵,」楊立昆解釋,「我們都在腦中擁有世界模型。你知道如果我從頂部推這個瓶子,它可能會翻倒;但如果從底部推,它只會滑動;如果按得太用力,可能會爆裂。」
他強調,我們在生命初期幾個月就建立了這些物理世界的模型,而處理真實世界遠比處理語言複雜得多。「處理物理世界所需的架構類型與我們目前使用的完全不同,」楊立昆表示。
世界模型本質上是對真實世界的內部表徵,使AI系統能夠:
- 發展常識性推理:超越純粹的模式識別,理解物理世界的運作原理
- 儲存持續性記憶:隨著時間推移改進學習效果
- 對新資訊動態調整:類似人類的適應能力
楊立昆指出:「一隻狗對物理世界的常識理解都比當今任何AI系統強。」這一簡單但有力的比喻突顯了當前LLM在理解現實世界方面的根本侷限。
LLM的根本侷限:為何無法真正理解世界?
楊立昆解釋,LLM預測的是離散的tokens,這種方法對語言這類離散系統有效,但在處理高維度、連續性的現實世界數據(如影片)則成效不彰。「每一次嘗試通過訓練系統在像素級別預測影片來理解世界或建立世界心智模型的努力基本上都失敗了,」他強調,「它只有在表徵層面上進行才有效。」
這是因為真實世界有太多細節是根本無法預測的。楊立昆舉例:「如果我拍攝這個房間的影片,然後停在這裡,要求系統預測影片的後續內容,它可能會預測有一個房間和坐著的人。但它絕不可能預測每個人的確切外貌,這是完全不可預測的。」
他進一步說明:「如果你訓練系統在像素層面上預測,它會將所有資源花在嘗試捕捉無法想像的細節上,這完全是資源浪費。」
JEPA:新一代AI架構
作為替代方案,楊立昆提出聯合嵌入預測架構(Joint Embedding Predictive Architecture,JEPA)。這種架構不是直接在輸入空間(如像素)預測,而是在抽象表徵空間中進行預測。
「JEPA的工作方式是,」楊立昆解釋,「你取一段影片或圖像或其他內容,通過編碼器運行,得到表徵。然後取該內容的延續部分,同樣通過編碼器,嘗試在表徵空間而非輸入空間中做預測。」
JEPA的預測器接收當前世界狀態和想像中的行動,然後預測下一個世界狀態。「如果你有這樣一個系統,那麼你就可以規劃一系列行動來達到特定結果。這是我們所有人進行規劃和推理的真正方式——我們不是在token空間中完成這些。」
人類思考與世界模型的相似性
楊立昆提供了一個直觀範例:「如果我告訴你想像一個浮在面前的立方體,然後將它繞垂直軸旋轉90度。你可以在腦中完成這個任務,這與語言無關。貓也可以做到這點。」
他進一步解釋:「當貓計劃跳到傢俱上的軌跡時,它做的事情比這複雜得多。這與語言無關,也肯定不是在token空間中完成的,而是在某種抽象的心智空間中進行。」
這種能力——在抽象空間中進行思考、預測和規劃——正是世界模型旨在賦予AI系統的能力。
先進機器智慧的時間表
談到人工通用智慧(AGI)的實現時間,楊立昆表示他更喜歡使用「先進機器智慧」(Advanced Machine Intelligence,AMI)這一詞彙,因為人類智慧本身就是高度專業化的。
「人類智慧是超級專業化的,所以稱之為『通用』,我認為是用詞不當,」他解釋道。
他預測,能夠學習世界抽象心智模型並用於推理和規劃的系統,可能在未來三到五年內實現小規模運作。但他警告說,將這些系統擴展到人類水平的智慧還需要更長時間,並批評了業界對於LLM擴展即可實現人類水平智慧的過度樂觀預期。
「AI歷史上,每隔約10年就會有一代研究者發現新的範式並宣稱:『就是這個了,在10年或5年內,我們將擁有人類水平的智慧。』這種情況已經持續了70年,」楊立昆提醒道,「目前這一波預測同樣是錯誤的。」
他特別批評了一些業內人士認為只需擴展大型語言模型(LLM)就能在短期內實現人類水平智慧的觀點。「認為你只需擴展LLM或讓它們生成數千個token序列並選擇好的那些,就能在幾年內實現人類水平智慧的想法是毫無意義的。」
視覺信息量遠超文本:為何僅靠文本訓練不夠
為什麼僅靠文本訓練無法實現真正的智慧?楊立昆提供了一個令人震驚的對比:
「目前的LLM通常訓練於大約30兆個tokens,約合10的14次方位元組的數據。讀完這些文本需要40萬年。而心理學家告訴我們,一個四歲的孩子醒著的時間總共為16,000小時,通過視覺皮層每秒接收約2MB的信息,總計也是約10的14次方位元組的數據。」
換言之,「四年通過視覺接收的數據量,相當於需要閱讀40萬年的文本。這告訴我們,僅通過文本訓練永遠無法實現AGI或AMI,這根本不可能發生。」
AI的最具價值應用
對於AI最有價值的應用領域,楊立昆強調了AI在科學和醫學領域的巨大影響,包括蛋白質摺疊、藥物設計和醫學影像分析。他指出,目前許多救生的AI應用,如汽車的駕駛輔助系統和自動緊急制動系統,實際上都不是基於生成式AI或LLM,而是基於感知技術。
「在美國,當你進行醫學影像檢查時,通常已經有AI參與其中,」他解釋道,「如果是乳房X光檢查,可能會使用深度學習系統對腫瘤進行預篩選。如果你進行MRI檢查,由於我們現在可以用更少的數據恢復高解析度的MRI圖像,你在MRI機器中花費的時間可能會減少四分之三。」
同樣,他提到大多數汽車現在都配備了駕駛輔助系統或自動緊急煞車系統,「這些系統減少了40%的碰撞事故,挽救了生命。這些都是顯著的應用。」
楊立昆強調,最有用的AI系統是那些使人們更具生產力和創造力的系統。「我們與未來AI系統的關係是,我們將是它們的老闆。我喜歡與比我聰明的人一起工作,這是世界上最棒的事情。」
開源AI平台的重要性
楊立昆強烈支持開源AI平台的發展,認為這對AI技術的全球創新至關重要。「沒有人能壟斷好的想法,」他表示,「好的想法來自於許多人的互動和思想交流。」
「開源確實對那些期望直接從AI服務中獲取收入的公司來說有一定弊端,」楊立昆在對談中表示,「但如果像Meta或谷歌這樣的公司,收入來源於其他管道,如廣告,那麼重要的不是短期內能產生多少收入,而是能否構建所需功能並吸引全球最聰明的人才參與。」
Meta的LLaMA模型自開源以來已有超過10億次下載,這一驚人數字突顯了開源模型的吸引力和影響力。LeCun特別指出,開源策略有助於促進廣泛採用並吸引更多開發者的貢獻。
開源:AI民主化的關鍵
在楊立昆看來,開源AI平台的最根本原因是哲學性的。「不久的將來,我們與數位世界的每一次互動都將由AI系統調解,」他指出,「我們不認為人們會想要一個單一的助手,或者這些助手只來自美國西海岸或中國的少數幾家公司。」
他強調需要多樣化的AI助手,能夠理解全球所有語言、文化和價值觀。「我們需要多樣化的助手,就像我們需要多樣化的新聞媒體一樣。否則,我們都將從相同的來源獲取相同的資訊,這對民主和其他方面都不利。」
分散式訓練的未來
根據楊立昆的預測,未來的基礎模型將更依賴分散式訓練,因為沒有單一實體能夠收集所有必要的資料。
「世界各地的區域會希望將自己的資料貢獻給全球基礎模型,但不會真正交出自己的資料,」楊立昆解釋道,「他們可能會貢獻訓練全球模型,但保留資料所有權。」
這種模式意味著基礎模型將在全球各地的資料中心分散訓練,每個中心能夠訪問不同的資料子集,共同訓練出一個「共識模型」。
他斷言:「這使得開源平台完全不可避免,而專有平台我認為會逐漸消失。」
AI硬體需求持續飆升
「繼續推進,因為我們需要所有能獲得的計算能力,」當被問及未來AI硬體需求時,楊立昆如此回應。過去十年,GPU的AI訓練和推理能力提升了5,000到10,000倍,從開普勒(Kepler)架構到最新的黑維爾(Blackwell)架構,但楊立昆認為這仍然不夠。
特別是他提出的聯合嵌入預測架構(JEPA)這類新型AI系統,需要在抽象空間中進行推理,這將是計算密集型的操作,對運算能力提出了更高要求。
系統1與系統2:計算需求的分水嶺
楊立昆借用心理學中的「系統1」(自動、潛意識過程)和「系統2」(有意識、深思熟慮的推理)概念,解釋了不同AI技術對硬體的差異化需求。
「當前的LLM擅長系統1任務,但JEPA旨在解決系統2推理問題,這在計算上將非常昂貴,」楊立昆解釋道。系統2代表著更高級的認知能力,需要更強大的計算資源支持。
舉例來說,楊立昆指出一個四歲孩子在醒著的16,000小時中,通過視覺系統接收的信息量約為10的14次方位元組,這相當於需要讀40萬年才能讀完的文本量。這一驚人對比說明了處理真實世界資料對計算能力的巨大需求,也暗示了純粹基於文本訓練的AI系統的局限性。
神經形態計算的前景與挑戰
當談到神經形態硬體(如脈衝神經網路)時,楊立昆表達了謹慎的態度。「近期內不太可能,」他直言,回顧了自己在貝爾實驗室研究類比硬體實現神經網路的經歷。
他指出神經形態計算面臨幾個根本挑戰:
- 硬體重複使用困難:類比硬體難以實現多工處理,導致難以在單個晶片上容納足夠大的神經網路
- 跨晶片通訊效率低:即使實現了高速計算,跨晶片通訊的需求會大大降低整體效率
- 需要數位通訊:為了抗噪,最終仍需要數位通訊方式,即使在類比計算層面
有趣的是,楊立昆指出即使生物大腦中的神經元也主要使用數位通訊(脈衝)而非類比方式,這暗示了純類比計算系統的局限性。
記憶體處理器技術的潛力
與神經形態計算相比,楊立昆對記憶體處理器(Processor In Memory;PIM)技術持更樂觀態度,尤其是對於需要連續視覺處理的應用,如智慧眼鏡。
「資料的移動才是耗能的主要來源,而非計算本身,」楊立昆解釋,「在感測器上直接進行處理是一個潛在的解決方案,這樣就不必將資料傳出晶片。」
他指出生物學已經解決了這個問題:人類視網膜有大約六千萬個光感應器,但視神經只有一百萬根纖維。這是因為視網膜前方有四層透明神經元進行信號處理,壓縮和特徵提取,這種「感測器上處理」的模式可能為未來AI硬體設計提供靈感。
量子計算和光學計算前景堪憂
對於其他新興技術,楊立昆的評價不一:
- 超導技術:「可能有前景,但我對此了解不足」
- 光學計算:「令人失望...我還記得1980年代關於光學實現神經網路的令人驚嘆的演講,但它們最終都沒有實現」
- 量子計算:「我對量子計算持極度懷疑態度...我看到的唯一中期應用是模擬量子系統」
這些見解對於評估新興計算技術的投資價值提供了重要參考。
視頻處理的巨大計算挑戰
楊立昆分享了一個令人深思的例子,說明了AI系統理解物理世界的巨大計算需求。他描述了一個名為MAE(Masked Autoencoder)的項目,它試圖通過像素級重建來學習視頻表示。
「為了冷卻運行這些液體冷卻的GPU叢集,你必須煮沸一個小池塘,」楊立昆半開玩笑地表示,「當我們嘗試將這種方法應用於視頻時,需要煮沸的是一個小湖,而非小池塘。」最終該項目因資源需求過高而失敗。
相比之下,楊立昆的團隊開發的VJEPA(Video Joint Embedding Predictive Architecture)在表徵層面而非像素層面進行預測,效果更好,計算需求也更低。這表明未來AI架構的演進將同時關注算法效率和硬體能力。
企業應關注的技術時間表
根據楊立昆的觀點,企業在制定AI戰略時應考慮以下時間表:
- 0-2年:關注能增強人類生產力和創造力的AI工具,尤其是專門針對特定領域的模型
- 3-5年:為「世界模型」(學習抽象表徵和推理規劃能力的系統)的小規模實現做準備
- 5-10年:這些系統會逐步擴展,但可能仍未達到全面的人類水平智慧
- 10年以上:更接近人類水平的AI才可能實現,但仍將是漸進過程而非突然出現
對臺灣產業的啟示
LeCun的觀點為臺灣半導體和ICT產業提供了幾個關鍵啟示:
- AI加速器多元化:未來AI模型將不止於LLM,多樣化的架構將需要專門設計的加速器
- 邊緣AI處理的增長:在感測器上直接處理資料的需求將推動邊緣運算芯片的發展
- 記憶體與處理器整合:處理器內存技術的潛力暗示了記憶體與處理單元更緊密整合的趨勢
- 功耗效率至關重要:特別是對於可穿戴設備和邊緣設備,降低能耗的創新將獲得溢價
- 專注於已被證實的技術路線:相比量子計算等尚不成熟的技術,優化現有GPU架構和探索PIM可能是更明智的投資方向
對於臺灣企業,在開源AI時代的策略方向包括:
- 專注於特定領域的AI應用:利用開源基礎模型,通過行業專業知識創造獨特價值
- 投資資料資產:在開源AI時代,專有資料將成為主要競爭優勢
- 思考計算基礎設施:運行和微調大型AI模型需要強大的計算能力,這可能為臺灣半導體產業創造新機會
- 多樣化AI工具:開發針對臺灣及亞洲市場的特定語言和文化AI助手,填補全球巨頭可能忽視的市場缺口
結語:平衡樂觀與現實
「我們與未來AI系統的關係,包括超級智慧系統,是我們將成為它們的老闆,」楊立昆總結道,「我們將擁有一批超智慧的虛擬員工為我們工作。」
AI的進步將需要全球合作與開源平台,人類水平AI的發展將是一個漸進過程,而非單一事件。他強調開放研究和開源平台的重要性,以確保廣泛參與,防止AI發展被少數實體控制。
「我們未來會有多樣化的AI助手,可供所有人使用,」楊立昆展望道,「我們需要更便宜、更高效的硬體來支持這一願景。」
對於企業領導者而言,這種平衡的觀點至關重要:AI不會在短期內徹底改變一切,但也不應該被低估。最明智的做法是基於楊立昆提出的更為謹慎的時間表,制定穩健而有前瞻性的AI戰略,為未來3-5年內可能出現的重大技術突破做好準備。