從J.A.R.V.I.S.到西部世界:智能體和人類共生的未來

2023-08-28 13:38 Empower Labs


1927年、德國導演弗裏茨·朗拍攝的《大都會》在柏林首映,這是人類歷史上第一部涉及人工智能的電影,一個叫瑪麗亞的人形機器人在地下世界掀起了一場風浪。

自此,各類被設定爲擁有高度智慧的人工智能體就开始充斥了各類影視作品。《星球大战》裏 3-CPO 承擔了星際間的翻譯工作,J.A.R.V.I.S.幫鋼鐵俠處理個人和公司事務,《星際穿越》中的TARS不止一次拯救了主角,《西部世界》裏Dolores最終覺醒並發出了怒吼,而《銀翼殺手》上映幾十年後,有人還在爭論主角到底是人還是機器。這些人工智能角色服務着人類,陪伴着人類,甚至最終成爲了人類。在這些作品的影響下,人們逐漸相信未來人工智能會伴隨着每一個人,一切不過是時間問題罷了。

大幕正在拉开

無論是具有物理形態的機器人還是在數字世界中工作的AI程序,都可以被稱爲Intelligent Agent(智能代理)。經典教科書《人工智能:現代方法》曾把人工智能研究定義爲“study and design of intelligent agents”,即 - 人工智能學科的研究目的就是實現更好的智能Agent。

智能Agent其實早就陪着我們了。打开電子郵箱時,有一個Agent正在默默分類郵件並過濾垃圾信息,在搜索框中輸關鍵詞時,另一個Agent正在提供推薦和搜索結果。在火車站、商場,Agent在監控攝像頭背後默默工作,用AI技術來保護公共安全。手機裏的Siri可以理解和回應人們的指令,進行對話。特斯拉的輔助駕駛系統可以分擔部分駕駛員的工作。不過人們對這些智能Agent沒有特別的感知,因爲它們往往在幕後工作,而且不怎么智能,這和電影裏看到的一點都不一樣。

ChatGPT的發布標志着大語言模型技術的突破。而語言不只是交流的工具,它也是人類理解世界和深入思考的關鍵。當AI掌握了語言,它其實也就掌握了對世界的洞察和解決問題的能力。人們开始意識到,大語言模型不只是提供建議的對話夥伴,更可以直接參與到工作裏解決問題完成任務。一時間,大量的人才和資源投入到了這個方向,一個新時代的大幕正被緩緩拉开。

Agent重構經濟體系

Autonomous Agent – 自主代理,AI界的當紅炸子雞。

詞典給“Autonomous”的定義是“Carried on without outside control” - 在沒有外界控制的情況下進行工作。AI技術發展了這么多年,我們其實沒見過幾個有真正自主能力的智能Agent。我在05年买過一個初代iRobot掃地機器人,號稱全自主,能探測地形避障自動充電啥的,开機就不用管了。結果第一次用就被我整崩了,倒不是因爲地形沒探測准,是地上雜物太多,分分鐘就把吸塵口堵死了。這離“自主”顯然還差十萬八千裏。

上面這段視頻展示了Agent的一次工作過程。大兄弟說幫我定張6月10號紐約飛舊金山的機票,他的個人助理Agent馬上开始咔咔幹活 – 它打开瀏覽器,訪問了google flight,篩選出美聯航的直飛航班,並選擇了合適時段的最優惠機票。隨後,它完成了選座並成功支付,任務輕松完成。這是一個初創公司研發的產品,其愿景是打造一個如同鋼鐵俠中的J.A.R.V.I.S.一般的全能AI助理。這一過程恰當地揭示了自主Agent的工作模式:理解任務、制定並執行策略、結果分析、反饋循環,直至任務達成。

獲得測試账號的人們很快發掘出了其他各種功能。定個披薩、沙拉自然不在話下,還有人說我晚上要做意大利千層面,把所有需要的原料給我從沃爾瑪訂回來,也很輕松搞定。還有用它自動發推的、安排會議的、自動填表的、每天自動檢測facebook給當天生日好友發祝福的,甚至還有用它預定婚禮場地並策劃安排婚禮流程的。

處理這些工作說起來倒也不是很難,即使是古早版的AI助理只要想做也還是能做得到的,只不過很麻煩。程序員需要根據每一種場景單獨設計代碼,整合相關的服務。這種Agent的實現方式不僅低效,任務能力也非常低下。一個整合了美團訂餐服務的Agent如果突然連不上“美團”,它並不知道去“餓了么”也能完成訂餐,就算它知道,也只能幹瞪眼,因爲事先沒跟“餓了么”調通接口。

而以大語言模型爲核心的自主Agent在結合了通用工作框架和預設指令集後,能適應各類不同的任務。這使得它能夠輕松完成訂機票、選座位等操作,無需專門訓練。不僅如此,無論是規劃旅行、整理郵件,還是在ebay上實時追蹤商品並與賣家討價還價,它都能勝任。與傳統的AI助理更多只能提供信息和建議不同,自主Agent更強調實際的執行能力。用不了多久,人們在互聯網上的大部分活動都可由Agent接手。

最先進的大語言模型的能力其實遠超過日常輔助工作範疇,更多的Agent开發者把目標放在了更專業的領域:市場研究、銷售輔助、產品开發、甚至科學研究。全世界有十億人工作中的大部分時間都花在了重復性的腦力勞動上,填寫稅表、整理數據、尋找潛在客戶、一遍又一遍的寫郵件。而這類工作中重復性的腦力勞動也將會是Agent很快攻克的战場,它們將精確而高效地處理重復性的、平凡的任務,解放大量的人力。使用者只需要告訴agent要幹啥,用不了多久Agent就會來反饋 “老板,搞定了。”

11x.AI 一個提供AI僱員的初創公司

Agent當然也做不到事事精通。隨着Agent經濟的進化,我認爲會形成多個高度多樣化並且分工明確的Agent市場。復雜的任務將一個綜合Agent牽頭,分析目標,形成任務鏈,把自己無法高效完成的任務發包給各個垂直領域的Agent,共同完成目標。而無論Agent再怎么發達,在相當長的一段時間內很多工作也還是必須依賴人來完成。當遇到這樣的情況,AI反過來僱傭人類也會成爲並不稀奇的現象。

社會我AI哥

智能Agent畢竟只是運行在計算機裏的一段代碼,即使具備了完善的數字世界中的交互能力(事實上還達不到),它能夠實現的交互也僅限於公共互聯網範圍,大家對此並不滿足。如何能夠讓Agent在更廣泛的社會層實現交互和執行事務的能力。

有一個團隊給出了自己答案 - 法律包裝(Legal Wrapper)。如果能夠把Agent和一個法律實體進行關聯並進行合理的授權,Agent就能夠實現更高層面的自主,處理事務的能力也會大幅增加。有了法律實體,當然也得有自己的財務,搞一個給Agent用的銀行账戶,配有一定的資金,讓它進行調用自然也是順理成章的事情。由此,智能Agent就具備了更廣泛的社會層行爲能力,而這種做法也能夠讓Agent的使用者受到有效的法律保護。這套玩法說起來原理並不復雜,但實踐起來無論是技術上還是法律層都有不少難點,還會觸碰到一些監管尚不明確的地帶以及潛在的倫理問題。

不過在我看來給Agent做法律包裝配傳統的銀行账號只是過渡期方案。我們現在依賴的體系是爲人類使用設計的,對於Agent來說它們低效且充滿着障礙。當幾年後這個世界發展到Agent滿地跑的階段時,海量的需求和應用會促使發展出適合智能Agent用的協作體系、金融體系、甚至貨幣,這些體系平行於現有的體系,再通過千百個連接器實現兩個體系的互通。而最終我們大概還會發現Agent長期使用人類語言進行溝通也是不合理的,很有可能還會逐漸進化出一套AI語言。

其實早就有相關的研究,而Facebook更是在早期的AI機器人談判實驗中發現AI發展出了一種非人類溝通方式。


模擬人生

在所有的智能Agent實踐中,擬人智能體模擬吸引了最多的目光。今年3月來自谷歌和斯坦福大學的研究人員做了一項有趣的實驗,他們創建了一個叫smallville的虛擬小鎮,小鎮裏生活25個由大語言模型驅動的智能體。

每個小人都有自己的一些設定,比如:

“友善、耐心的Mei Lin是一位大學教授,也是一位熱衷於幫助人們實現目標的母親。她一直在尋找方法來支持她的學生和家人。Mei Lin 與她的丈夫 John Lin 和兒子 Eddy Lin 住在一起,她正在教授哲學課程並撰寫研究論文。她晚上11點左右睡覺,早上7點左右起牀,下午5點左右喫晚飯。”

在這么簡單的設定下,一個AI組成的小社會就運轉起來了。

John Lin早上 6 點起牀,刷牙、洗澡、穿衣服、喫早餐,然後在查看郵件。他的妻子Mei Ling7點起牀,兒子Eddy在8點起牀,在洗臉刷牙之余又和媽媽談論起了課堂創作等事情。

當更多智能體互動時,甚至實現了復雜的社交行爲。有人提出希望舉辦一場情人節派對,在很短的時間裏,邀請函傳遍了小鎮裏的其他人,最終有5個人選擇參加並到達了派對現場。這一切都不是預先編好的,換句話說,這些智能體確實是在小鎮裏過着自己的“人生”。

一定程度受到斯坦福小鎮的啓發,舊金山一家初創公司利用類似的概念和一些特定的訓練模擬出了一個南方公園小鎮,這是美國最著名的動畫劇集。在整合了文本轉語音技術後一集由AI拍攝的南方公園劇集誕生了。短短幾天這個劇集在Twitter上被播放了700多萬次。福布斯的報道中甚至打出了“AI制作人成爲好萊塢恐懼的總和”這樣的誇張標題。

這個項目的創始人是我的朋友,從我們認識起他就已經在模擬領域裏進行探索。他的探索歷程很有參考性,最初他制作了一部VR互動電影,並因此獲得2019年艾美獎。在這個影片中,觀衆扮演了小女孩Lucy的虛擬朋友。當意識到人們更希望能夠與虛擬人成爲真正的朋友而不是旁觀對方演出的影片,他選擇了用Lucy的形象制作一個AI虛擬人,一個假裝有着“自我”和“人生”,可以用zoom視頻會議的方式和大家進行實時對話的AI智能體。

Lucy在2021年聖丹斯電影節與大家的實時互動。這一場景現在已經不難實現,但在兩年半前還是震驚了很多人。

他很快發現,要讓智能體更像人,僅假裝式的單一模擬是不夠的,而是要讓他們有朋友,有社交,有自己的人生。於是他的方向轉爲AI創造一個虛擬世界,讓它們在其中“生活”。而希望未來有一天,人們也能進入這些世界與AI互動、一起生活。AI拍攝的劇集,只是順帶的成果,因爲“人生”本就如戲。

雖然這類智能體常用於情感陪伴和娛樂,但智能體模擬的應用遠不止此。哈佛與微軟的研究者曾發表如何通過AI模擬消費者做市場調研的論文,揭示其在消費領域的巨大潛力。

麻省理工學院也用AI模擬人類行爲,如觀察AI老板在不同工資和經驗條件下的決策,或是讓AI決策聯邦預算在高速公路安全與汽車安全間的分配。這些都是經濟學上的經典實驗,當把AI放入這些場景,AI作出的的決策與過去人類做過的試驗結果高度相似,意味着這類模擬有巨大的實用價值。有朋友半开玩笑地說兩屆之後的美國總統或許是AI,這話不無道理。

作者用AI模擬人類復刻了1986年Kahneman提出的雪鏟價格試驗

模擬之於人類社會存在着一個更爲大膽的可能。OpenAI的GPT1訓練參數量爲1.17億,在短短幾年時間內進化到了GPT3的1750億,並在這個過程中出現了“湧現”現象,模型的智能程度突然大幅度提升。如果我們把斯坦福小鎮的25個人視爲初代,隨着更多研究力量和計算資源的投入,單一模擬社會中的智能體數量可能很快變成幾千個、幾萬個甚至幾百萬個。這些模擬社會在運行中會發展成什么樣子?這個社會會不會湧現出人類社會從未出現的事情。而生活在這裏的智能體會不會有一天也出現湧現現象,並產生了更接近人類的特質甚至是“自我”意識。

《人工智能中的意識 - 來自意識科學的啓示》

圖靈獎得主Yoshua Bengio上周和多位專家一起發布了一篇名爲“人工智能中的意識”的論文。在論文中他們提供了一種嚴謹的、以經驗爲基礎的方法來評估人工智能系統是否存在意識。盡管評估表明目前的人工智能系統都不具有意識,但也同時給出了一個大膽的結論 - 構建有意識的人工智能系統並不存在明顯的障礙

而就這篇文章寫到一半的時候,OpenAI宣布收購了一個Global Illumination,這家僅有8個人的公司僅有一個產品,一個沙盒類模擬世界的遊戲。公告短短幾行,沒有說明收購的目的和交易細節,可沒有聲音反而說明了一些問題 - 真實的理由可能存在很多的爭議。我想OpenAI肯定不是爲了做一個更好玩的遊戲吧。

AI版“西部大开發”

人類和智能Agent共同生活在“西部世界”的愿景十分美好,但目前“西部世界”仍是一片荒蕪,等待着一場西部大开發的到來。在我看來大开發中有三根主线 :可信,可行動,可持續

可信:模型的能力是不是夠強從而可信?模型的意圖是否可信(AI-human Aligement)?Agent自身(服務提供方)是否可信?Agent與Agent的交互如何保證隱私?如何保證互信?Agent又如何與現實世界中的另一方進行互動同時取得互信等等。

可行動:數字世界的技術層行動力,數字世界裏社會層行動力,人類社會體系中的行動力,通過第三方在物理世界進行行動的能力、自身在物理世界裏行動的能力(具身智能)。

可持續:運行環境的可持續性、計算資源的可控性、自我修復,自我能源管理等等。當AI能力逐漸成爲電力石油這樣不可或缺的基礎資源,無論是個人、機構還是國家、甚至AI自身,都會把存續性放到非常重要的位置。一個真正自主的Agent未來會在一定程度上保證自身的存續。

爲了構建這些基礎設施,我們不僅要依賴人工智能、密碼學、區塊鏈和通信等技術的進步與整合,還必須在經濟學、博弈論、社會學、人類學、法律和政治等不同的社會學科中進行探索。已經有不少創業者和學者投入到了這些領域,比如曾就職於OpenAI的華人創業者David Luan創辦了Adept AI,他們正在建立一套交互模型,讓AI能夠在計算機上完成一切原本需要人類操作的交互。

我不是AI技術專家,對很多事物的理解有所局限,也可能會低估了一些實現難度。但我不認爲我已過於樂觀,相反,我認爲未來一定會以一個更狂野的方式到來。歷史上的每次科技革命都會輕易得突破當時人們想象的極限。我們今天窮盡一切的想象,也許就像久居深山的山民,對生活最大膽的憧憬也不過是能頓頓喫上餃子。

就在我寫這篇文章的時候,天才少年稚暉君發布了一個名爲智元機器人的人形機器人。這類具備物理實體的智能Agent被稱爲具身智能,通過和物理世界進行交互,它們可能給人類社會帶來更直接的衝擊,Agent時代似乎更加的觸手可及。

拍攝於1926年的電影《大都會》想象了一個百年後的世界。它不僅是歷史上首部涉及人工智能的影片,也是首部反烏托邦影片,其深刻的思想內核和視覺奇觀,影響了後續一代又一代的科幻作品,進而影響了這個世界對科技和未來的看法。

身處百年前的導演未能預見信息時代,他在影片中描述的2026年是一個工業高度發達的時代,巨大的機器支撐整個城市的運轉,而大批工人在地下工廠中做機械式工作,扮演着社會中“手的角色。而今我們看到程序員機械地敲代碼,銷售代表反復地推銷產品,這其實與《大都會》中的工人也沒什么不同。影片最終以積極的結局收尾,主角成爲了社會中“腦”和“手”兩個階層之間的橋梁,扮演了社會的“心”,讓不同的階層相互理解和協調。

百年後,面對一個近在咫尺的未來,Agent將如何改變我的日常工作和生活模式?我的現有技能是否會因Agent的出現而變得過時?Agent會如何影響我的經濟情況?這樣一個新時代會給我帶來哪些機會?

而在社會層面,如何處理潛在的失業問題?如何更公平的分配生產力提升所帶來的額外財富?當工作不再是必須時,人們如何在生活找到自己的意義?AI和人類的價值觀如何能夠持續的協調。如何塑造一個樂觀的未來而不是悲觀的未來?

我沒有答案,沒有人有答案。

但每個人都會被這時代洪流夾裹着,一起書寫、奔向那個答案。

作者目前專注在社區驅動/文化驅動、AI + 加密,Agent生態等領域的學習、研究、孵化和相關的投資。文中提到的MULTI.ON/Fable以及未公开名稱的項目均爲作者所投。本文的目的是分享信息,不構成投資建議。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

標題:從J.A.R.V.I.S.到西部世界:智能體和人類共生的未來

地址:https://www.sgitmedia.com/article/8953.html

相關閱讀: