「取代人類」只是神話?AI代理的真實與想像

「什麼是AI代理(Agent)?」的問題展開了深入的辯論。正如其中一位專家所言:「我幾乎覺得,對於我們所描述的所有用例,所有代理都有一個共同元素,那就是推理和決策。」這段對話道出了當前科技界對AI代理既熱切又模糊的認知狀態——我們正在談論的技術,或許正在改變人類與機器協作的方式,但其定義卻仍存在諸多爭議。
這場討論從技術實現、商業模式、系統架構等多個角度,共同探討了AI代理的本質與未來。在充滿變數的AI發展浪潮中,代理技術正逐漸從概念走向現實應用,但它究竟會如何重塑我們的工作方式與生活?它是否真能取代人類工作?它的技術邊界與商業潛力又在哪裡?
AI代理的定義爭議
「我認為有一些事情可能比較容易說出來,那就是對於什麼是代理,存在著大量的分歧。」討論一開始,專家們就指出了定義問題的核心挑戰——無論是在技術層面還是行銷層面,人們對「代理」一詞有著各種不同的理解。
從技術角度看,AI代理似乎存在一個連續譜系:「最簡單的被稱為代理的東西,基本上就是在某種知識庫或某種上下文上的一個聰明的提示,它有一個聊天類型的界面。」而在譜系的另一端,「有些人基本上認為,要成為一個真正的代理,它必須是接近AGI(通用人工智慧)的東西,它需要持續存在很長時間,它需要能夠學習,它需要有知識庫,它需要能夠獨立解決問題。」
有趣的是,當討論到這個最廣泛的定義時,專家們達成了一個共識:「這還不存在,儘管它將來是否會存在,那是一個哲學問題。」

來自Anthropic的定義:「代理是在循環中使用工具的LLM(大型語言模型)。」這一定義包含兩個重要部分:首先,這不僅僅是單一的提示或靜態的提示序列,而是LLM將提示的輸出反饋給自身,並基於此決定下一個提示;其次,它還包含決定何時終止任務的能力。
然而,這一定義也引發了進一步的疑問:如果按此標準,每個聊天機器人不就是代理了嗎?一位專家指出,判斷系統是否為代理可能不應基於用戶輸入的內容,因為「這些系統設計上接受非結構化輸入,它們會接受任何內容」,這使得界定變得複雜。
AI代理的核心技術特徵
儘管定義存在爭議,專家們試圖找出代理行為的共同要素。「推理和決策」被反覆提及為核心特徵:「這實際上感覺像是一個多步驟的LLM鏈,帶有決策樹。一個動態的決策樹。」
在探討代理與共同駕駛(Co-pilot)的區別時,專家們指出了用戶界面模型的差異。共同駕駛強調用戶與LLM之間的緊密反饋循環,用戶希望在執行任務時得到即時回應。而代理更像是後端系統,用戶可能會拋出一個任務,回答幾個問題後,系統會盡量最大化代理獨立工作的時間。
「我們已經描述的所有用例中,所有代理都有一個共同元素,那就是推理和決策」,一位專家總結道。「你會不會將簡單地調用LLM將文本轉換為JSON的操作稱為代理?那可能不是代理。但如果你讓LLM決定這個回應應該去哪裡並為你路由它,那感覺比之前更像一個代理。」
這場討論也揭示了計算機科學家面對模糊概念時的認知挑戰:「我們是計算機科學家,所以當一個位不只是0或1時,我們可能不太擅長處理。它可能介於兩者之間,我們只是談論很多,直到我們試圖將其強制轉換為一個值或另一個值。」
AI代理的系統架構
從系統架構的角度看,AI代理與典型的SaaS軟件在構建方式上可能沒有本質區別。一位專家分析道:「從架構上講,今天的典型SaaS軟件和代理在如何構建方面真的沒有區別。」

具體來說,代理系統的架構包括幾個關鍵部分:
- LLM本身通常在單獨的基礎設施上運行,因為它需要特殊的GPU集群
- 狀態管理通常在外部數據庫中進行
- 核心邏輯相對輕量級,主要涉及從數據庫檢索上下文、組裝提示、運行提示並調用工具
「核心循環實際上相當輕量級,我可以在一台服務器上運行許多代理。我不需要很多計算性能。」這表明代理系統的主要複雜性不在於運行時的計算需求,而在於如何處理LLM輸出的非確定性。
「當你試圖將LLM的輸出實際納入程序的控制流程時,這是一個非常難、非常未解決的問題。」這一挑戰可能會推動未來架構的重大變化。
AI代理的商業模式與定價策略
討論中出現了一個有趣的商業角度:AI代理正被一些創業公司用作提高軟件定價的理由。「我們可以將我們正在構建的軟體定價得高得多,因為這是一個代理。所以我們可以去一家公司說,你用這個代理取代了一個人類工作者,這個人類工作者每年賺5萬美元,因此這個代理你只需要支付3萬美元一年。」
這種比較定價策略在早期階段很容易理解,尤其對於需要做出購買決策的人來說。然而,專家們指出,「產品的成本隨著時間的推移會趨向於生產的邊際成本」。以翻譯為例,過去可能需要支付譯者費用,但現在使用API時,可能只需支付「微小的一小部分錢」。
一位專家提出了有趣的對比:「當我是一名寶可夢GO玩家時,當我收集了足夠的寶可夢,我的口袋裡的存儲空間就用完了。所以我需要額外付費購買一個新的包來放更多的寶可夢。」作為基礎設施投資者,他發現為額外支付30個寶可夢的費用比真實存儲成本貴了數千倍。這表明,在使用者看重的應用層壟斷情況下,使用者願意為能力而非底層技術支付溢價。

AI代理與人類工作的關係
關於AI代理是否會取代人類工作的問題,專家們表達了謹慎的觀點。一位專家直言:「在很少的情況下,人類會被AI取代。在大多數情況下,兩個人會被一個使用AI更高效的人取代。」另一位補充道:「或者他們保留兩名員工,然後變成三名員工,因為現在他們的效率更高了。」
討論中,專家們質疑了「代理」這個術語本身可能隱含的假設——我們將開發人類替代品的想法。「在我們談論'代理'之前,'代理'是人的名稱。我們仍然有各種被稱為代理的人。」一位專家指出,「這種情況似乎並沒有發生,至少在替代的意義上沒有。」
專家們認為,幾乎所有人類工作中都有根本性的創造性成分,而AI系統缺乏真正的決策能力或意圖。「這些系統仍然需要有人按下按鈕。它可能在某處運行,它可能做得很好,但有人要告訴它給它一個提示並執行。」
「從我們在矽谷的角度來看,我們有時會忘記,全國各地的人做各種工作,實際上都有困難的工作,不僅是在'有人必須做'的意義上困難,而且在需要思考和人類決策的意義上困難。我不確定AI是否有我們認為的決策能力或意圖。」
數據孤島與代理的挑戰
專家們指出,當今代理面臨的最困難挑戰之一是數據模式,即數據訪問的限制。在某些情況下,這些限制純粹是技術難題,而在其他情況下,則是蓄意的。「我的iPhone上的照片無法通過任何API訪問,因為它是一個封閉的花園。」
討論提到了消費者公司傳統上反對提供自動訪問其服務的情況,因為「他們希望用戶參與。他們希望有時間向用戶做廣告。」這可能會限制代理的部署範圍。
另一方面,專家們預測,隨著模型能力的提升,數據模式可能會發生變化。如果模型具備更強的瀏覽網頁、登錄系統和執行命令的能力,傳統上只有人類才能訪問的數據可能變得可以被代理訪問。
然而,也有可能出現相反的情況:「所有消費者網站都開始使用越來越複雜的反代理驗證碼,試圖阻止代理,因為他們只想要有注意力的人類來到這些網站。」這暗示了一場可能的技術對抗。
AI代理的未來展望
展望未來,專家們提出了多種可能性。從積極的角度看,「兩年後,我們弄清楚了代理如何代表我使用我有權訪問的大多數工具」是一個有吸引力的願景,儘管「我們還沒有弄清楚代理代表我工作的安全性、身份驗證、訪問控制...數據保留...與消費者網站的關係」等眾多挑戰。
有專家認為,多模態能力將是關鍵:「我會押注於多模態性...如果我們用不同的痕跡訓練模型,比如在網站上點擊按鈕、導航網頁、使用不同的設備、繪圖、製作矢量藝術。我認為模型在代理層面上可能會解鎖全新的東西。」
最後,一個有趣的觀點是,如果我們「兩年後或五年後不再使用'代理'這個詞」,那將是一個巨大的勝利。這反映了一個更廣泛的思路——AI最終可能成為像水、電或互聯網一樣的「正常技術」。
「AI是正常技術。其實存在一個錯誤的二分法,認為AI要麼帶來烏托邦,要麼帶來反烏托邦。但如果你只是把它看作正常的東西,比如水、電、互聯網之類的東西,我認為這就是我們正在走向的世界。代理是幫助我們到達那裡的一種方式。」
結論與反思
在定義混亂、技術快速發展和商業模式嘗試的背景下,AI代理既充滿希望又面臨挑戰。專家們的討論揭示了一個核心共識:代理技術的價值在於其能夠進行推理和決策的能力,而不僅僅是執行預定義的任務。
然而,代理是否會取代人類工作,或僅僅是增強人類能力,仍然是一個開放的問題。正如專家們所指出的,人類工作中的創造性和決策性元素使得完全替代變得困難。
最終,AI代理技術的發展可能不是關於創造人類的數字替身,而是建立能夠處理特定領域任務的專業工具。正如一位專家所言:「我認為贏家將是專家,而不是基礎模型,是那些將基於基礎模型構建或微調基礎模型的人。」
隨著技術的成熟,「代理」一詞可能最終會像「電子表格」或「數據庫」一樣,從時髦的營銷術語變成日常工具的平凡描述。在這個過程中,真正的挑戰和機遇在於理解如何最好地協調人類創造力與AI計算能力,以解決實際問題。
AI代理的真正革命,或許不在於它能否像人類一樣行動,而在於它能否幫助人類做得更好。