一篇論文奠定現代人工智能：8位谷歌員工的幕後故事

2024-03-22 17:23 AI範兒

來源：AI範兒

8位谷歌員工偶然相遇，共同撰寫了开創性的“變換器”論文，這一技術突破徹底改變了人工智能領域，尤其在理解和生成類似人類的文本方面。

2017年春，一篇名爲《Attention Is All You Need》的科學論文誕生，其上署名的八位作者均來自谷歌，盡管當時已有一名成員離職。資深作者Noam Shazeer在看到初稿時，意外地發現自己的名字排在首位，這似乎意味着他的貢獻最爲重要。對此，他表示：“我並沒有刻意考慮過這個問題。”

在學術界，如何排列作者名字一直是個微妙的平衡問題——誰的名字放在最前面，誰的又放在最後。尤其是在這種每個人都在一個真正的團隊合作中留下了獨特印記的情況下。在匆忙完成論文的過程中，研究團隊最終決定打破常規，不再對貢獻者進行排名。他們在每個名字旁加上了星號和腳注：“平等貢獻者”，並注明“排名順序是隨機的”。這篇論文隨後被提交到了一個享有盛譽的人工智能會議，並在那裏引發了一場革命。

姓名：NOAM SHAZEER / 職業：角色AI的聯合創始人兼首席執行官

如今，隨着“Attention”論文即將迎來七周年，它已經獲得了傳奇般的地位。這篇論文的作者們從一個蓬勃發展的人工智能技術——神經網絡——出發，將其提升到了一個新的高度：他們創造出了一個數字系統，其強大到仿佛擁有外星智能。這種被稱爲“變換器”（transformers）的架構，成爲了所有令人驚嘆的AI產品背後的神祕力量，包括ChatGPT以及圖形生成器Dall-E和Midjourney等。

Shazeer开玩笑說，如果他早知道這篇論文會變得如此著名，他“可能會更加擔心作者名單的排序”。如今，所有八位作者都已經成爲了微型名人。Llion Jones（隨機排在第五位）說：“有人因爲我曾經參與過一篇論文而向我索要自拍。”

姓名：LLION JONES/職業：SAKANA AI的聯合創始人

“沒有變換器，我認爲我們今天不會在這裏，”世界著名AI科學家Geoffrey Hinton說，盡管他並非論文的作者。他指的是我們所處的這個變革時代，OpenAI等公司正在構建的系統在某些方面甚至超越了人類的產出。

這八位作者後來都離开了谷歌。現在，他們和數百萬人一樣，都在以某種方式使用他們2017年創造的技術。我採訪了這八位“變換器”作者，試圖拼湊出這一突破性成果的全貌——一群人類智慧的集合，創造出了一台可能最終自我終結的機器。

變換器的故事始於名單上的第四個名字：Jakob Uszkoreit。他的父親Hans Uszkoreit是一位知名的計算語言學家。Hans在1960年代末因抗議蘇聯入侵捷克斯洛伐克而在東德被監禁了15個月。出獄後，他逃到西德，並在柏林學習計算機和語言學。後來他來到美國，在加利福尼亞州門洛帕克的SRI研究所工作，那時Jakob出生了。最終，他們一家回到了德國，Jakob在那裏上了大學。

姓名：JAKOB USZKOREIT / 職業：INCEPTIVE的聯合創始人兼首席執行官

盡管他原本並未打算專注於語言，但在开始研究生學習時，他在谷歌的山景城辦公室實習，並加入了公司的翻譯團隊。他放棄了博士計劃，2012年決定加入谷歌一個團隊，該團隊致力於开發一個能夠在搜索頁面上直接回答用戶問題的系統，而無需將用戶重定向到其他網站。當時，蘋果剛剛發布了Siri，一個承諾能在隨意對話中提供一次性答案的虛擬助手，谷歌高層認爲Siri可能會威脅到他們的搜索流量。他們开始更加關注Uszkoreit的新團隊。

“這是一場虛假的恐慌，”Uszkoreit說。Siri並沒有真正威脅到谷歌。但他歡迎有機會深入研究計算機與人類對話的系統。當時，循環神經網絡——一度是學術界的邊緣領域——突然开始超越其他AI工程方法。這些網絡由多層構成，信息在這些層中反復傳遞，以識別最佳響應。

神經網絡在圖像識別等領域取得了巨大成功，AI復興運動突然興起。谷歌正在瘋狂地調整其勞動力結構，以採用這些技術。公司希望建立能夠產生類似人類響應的系統——比如在電子郵件中自動完成句子，或創建相對簡單的客戶服務聊天機器人。

然而，這個領域遇到了限制。循環神經網絡難以處理較長的文本塊。例如，理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”，語言模型需要記住關於棒球的信息。用人類的話說，它必須保持關注。

當時的解決方案是一種名爲“長短期記憶”（LSTM）的技術，它允許語言模型處理更大、更復雜的文本序列。但計算機仍然嚴格按順序處理這些序列——逐詞處理——並忽略了可能出現在文本後面的上下文线索。“我們正在應用的方法基本上是權宜之計，”Uszkoreit說。“我們無法真正讓正確的東西按規模工作。”

大約在2014年，他开始構思一種不同的方法，他稱之爲自我關注。這種網絡可以通過引用文本的任何其他部分來翻譯一個詞。這些其他部分可以幫助澄清一個詞的意圖，並幫助系統產生一個好的翻譯。“它實際上考慮了一切，並爲你提供了一種同時查看許多輸入的有效方式，然後以相當選擇性的方式取出一些東西，”他說。盡管AI科學家小心翼翼地不將神經網絡的隱喻與生物大腦的實際工作方式混淆，但Uszkoreit似乎相信自我關注與人類處理語言的方式有些相似。

Uszkoreit認爲，自我關注模型可能比循環神經網絡更快、更有效。它處理信息的方式也非常適合支持機器學習熱潮的大規模生產的並行處理芯片。它不是採用线性方法（按順序查看每個詞），而是採用更並行的方法（同時查看多個詞）。如果做得正確，Uszkoreit懷疑，你可以專門使用自我關注來獲得更好的結果。

並不是每個人都認爲這個想法會改變世界，包括Uszkoreit的父親，他在兒子爲公司工作期間獲得了兩項谷歌教職研究獎。“人們對此表示懷疑，因爲它拋棄了所有現有的神經架構，”Jakob Uszkoreit說。告別循環神經網絡？這是異端！“我和爸爸在餐桌上的對話中，我們並不完全一致。”

Uszkoreit說服了一些同事對自我關注進行實驗。他們的工作顯示出前景，並在2016年發表了一篇關於它的論文。Uszkoreit希望將他們的研究推向更遠——團隊的實驗只使用了文本的微小部分——但他的合作者都沒有興趣。相反，他們像賭徒一樣，帶着適度的勝利離开了賭場，將他們所學到的教訓應用於谷歌的各個不同領域，包括搜索和最終的廣告。在許多方面，這是一個驚人的成功，但Uszkoreit不想就此止步。

Uszkoreit認爲自我關注可以承擔更大的任務。他會向任何愿意傾聽的人，甚至一些不愿意的人，闡述他的愿景，並在谷歌校園北緣的查爾斯頓路1945號大樓中，用白板勾勒出他的愿景。

2016年的一天，Uszkoreit正在谷歌咖啡廳與一位名叫Illia Polosukhin的科學家共進午餐。出生於烏克蘭的Polosukhin在谷歌工作了將近三年。他被分配到回答搜索領域直接提出的問題的團隊。情況並不十分順利。“要在Google.com上回答某些東西，你需要一些非常便宜且高性能的東西，”Polosukhin說。“因爲你只有毫秒級的時間來響應。”當Polosukhin表達了他的抱怨時，Uszkoreit毫不猶豫地提出了一個解決方案。“他建議，爲什么不使用自我關注？”Polosukhin說。

姓名：ILLIA POLOSUKHIN/職業：NEAR的聯合創始人

Polosukhin有時與同事Ashish Vaswani合作。Vaswani出生在印度，在中東長大，他去了南加州大學獲得了機器翻譯精英團隊的博士學位。之後，他搬到山景城加入了谷歌——特別是一個名爲谷歌大腦（Google Brain）的新組織。他將大腦描述爲“一個激進的團隊”，相信“神經網絡將推進人類理解”。但他仍在尋找一個大項目來工作。他的團隊在1945號大樓旁邊，即1965號大樓工作，他聽說了自我關注的想法。那會是項目嗎？他同意着手進行。

這三位研究人員共同起草了一份名爲“變換器：迭代自我關注和處理各種任務”的設計文件。他們從“第一天”起就選擇了“變換器”這個名字，Uszkoreit說。這個想法是，這種機制將轉換它所接收的信息，使系統能夠提取盡可能多的理解——或者至少給人這種印象。此外，Uszkoreit對童年時期與孩之寶動作人物玩具一起玩耍有着美好的回憶。“我小時候有兩個小變形金剛玩具，”他說。文件以一張卡通形象的六個變形金剛在山區地形中，相互發射激光的圖片結束。

姓名：ASHISH VASWANI/職業：ESENTIAL AI的聯合創始人兼首席執行官

論文开頭的句子也有些自大：“我們很棒。”

2017年初，Polosukhin離开谷歌創辦了自己的公司。到那時，新的合作者加入了進來。一位名叫Niki Parmar的印度工程師曾在印度爲一家美國軟件公司工作，後來搬到美國。她在2015年從南加州大學獲得了碩士學位，並被所有大型科技公司招募。她選擇了谷歌。當她开始工作時，她加入了Uszkoreit並致力於改進谷歌搜索的模型變體。

另一位新成員是Llion Jones。他在威爾士出生和長大，他喜歡計算機“因爲它不正常”。在伯明翰大學，他上了一門AI課程，並對作爲歷史遺跡介紹的神經網絡產生了好奇心。他在2009年7月獲得了碩士學位，由於在經濟衰退期間找不到工作，他靠救濟金生活了幾個月。他在一家當地公司找到了工作，然後作爲“絕望之舉”申請了谷歌。他得到了這份工作，並最終進入了谷歌研究部門，他的經理是Polosukhin。

有一天，Jones從名叫Mat Kelcey的同事那裏聽說了自我關注的概念，並後來加入了變換器團隊。（後來，Jones遇到了Kelcey，並向他簡要介紹了變換器項目。Kelcey並不买账。“我告訴他，‘我不確定那會有效，’這基本上是我一生中最大的錯誤預測，”Kelcey現在說。）

姓名：NIKI PARMAR / 職業：ESSENTIAL AI的聯合創始人

變換器的工作吸引了其他也在試圖改進大型語言模型的谷歌大腦研究人員。這第三波包括出生於波蘭的理論計算機科學家Łukasz Kaiser和他的實習生Aidan Gomez。Gomez在加拿大安大略省的一個小農場村莊長大，他的家人每年春天都會爲楓糖漿敲擊楓樹。

作爲多倫多大學的大三學生，他對AI“一見鐘情”，加入了機器學習小組——Geoffrey Hinton的實驗室。他开始聯系在谷歌寫過有趣論文的人，提出擴展他們工作的想法。Kaiser上鉤了，並邀請他實習。直到幾個月後，Gomez才知道這些實習是爲博士生准備的，而不是像他這樣的本科生。

Kaiser和Gomez很快意識到，自我關注看起來是解決他們正在解決的問題的一個有前途的、更激進的方案。“我們有意識地討論了是否想要合並這兩個項目，”Gomez說。答案是是的。

變換器團隊开始構建一個自我關注模型，將文本從一種語言翻譯成另一種語言。他們使用一個稱爲BLEU的基准來衡量其性能，該基准將機器的輸出與人類翻譯者的工作進行比較。從一开始，他們的新模型就做得很好。“我們從沒有概念證明到擁有至少與當時LSTM的最佳替代方法相媲美的東西，”Uszkoreit說。但與長短期記憶相比，“它並不更好。”

他們達到了一個平台——直到2017年的一天，Noam Shazeer偶然聽說了他們的項目。Shazeer是一位資深谷歌員工——他於2000年加入公司——並是一個內部傳奇，從他在公司早期廣告系統的工作开始。Shazeer已經從事深度學習工作五年，最近對大型語言模型產生了興趣。但這些模型遠遠沒有產生他認爲可能的流暢對話。

據Shazeer回憶，他正在1965號樓的走廊裏走過Kaiser的工作區。他發現自己在聽一場熱烈的討論。“我記得Ashish正在談論使用自我關注的想法，Niki對此非常興奮。我想，哇，那聽起來是個好主意。這看起來是一個有趣、聰明的團隊，正在做一些有前途的事情。”Shazeer發現現有的循環神經網絡“令人惱火”，並想：“讓我們去替換它們！”

Shazeer加入團隊是關鍵。“這些理論或直覺機制，如自我關注，總是需要非常謹慎的實施，通常由少數經驗豐富的‘魔術師’來展示任何生命跡象，”Uszkoreit說。Shazeer立即开始施展他的魔法。他決定自己編寫變換器團隊代碼的版本。“我拿了基本想法，自己把它做出來了，”他說。

偶爾他會向Kaiser提問，但大多數時候，他說，他“只是做了一段時間，然後回來說，‘看，它工作了。’”使用團隊成員後來用“魔法”、“煉金術”和“鈴鐺和哨子”等詞語描述的東西，他將系統提升到了一個新的水平。

“那引發了一場衝刺，”Gomez說。他們有動力，他們也想要趕上即將到來的截止日期——5月19日，這是在12月舉行的年度最大AI活動，神經信息處理系統會議（Neural Information Processing Systems conference）上發表論文的提交日期。隨着硅谷的冬天轉變成春天，實驗的步伐加快了。他們測試了兩種變換器模型：一種是用12小時訓練生產的，另一種是更強大、被稱爲Big的版本，經過三天半的訓練。他們讓它們开始進行英語到德語的翻譯。

基本模型超越了所有競爭對手——而Big獲得了一個BLEU分數，決定性地打破了以前的記錄，同時在計算上也更有效率。“我們做到了，比任何人都快，”Parmar說。“而且那只是开始，因爲數字不斷在提高。”當Uszkoreit聽到這個消息時，他拿出了他在山地探險卡車裏一直放着的一瓶老香檳慶祝。

在截止日期前的最後兩周，團隊的工作節奏變得瘋狂。盡管官方上一些團隊成員仍然在1945號樓有辦公桌，但他們大多在1965號樓工作，因爲那裏的微型廚房裏有一台更好的濃縮咖啡機。“人們幾乎不睡覺，”Gomez回憶道，作爲實習生，他忙於調試，同時還負責制作論文的可視化和圖表。在這類項目中，通常會進行消融實驗——移除某些部分以驗證剩余部分是否足以完成任務。

“我們嘗試了所有可能的技巧和模塊組合——哪些有用，哪些無用。我們不斷地嘗試和替換，”Gomez說。“爲什么模型會以這種違反直覺的方式運作？哦，因爲我們忘記正確地進行遮蔽。現在它工作了嗎？好的，接下來繼續下一個。我們現在稱之爲變換器的所有這些組成部分都是這種高速、迭代試錯過程的產物。”在Shazeer的代碼實現的幫助下，消融實驗產生了“某種簡約的成果”，Jones評價道。“Noam是個巫師。”

Vaswani記得有一次在辦公室沙發上過夜，當時團隊正在撰寫論文。他盯着分隔沙發和房間其余部分的窗簾，被上面的圖案吸引，那看起來像是突觸和神經元。Gomez當時也在場，Vaswani告訴他，他們正在做的工作將超越機器翻譯。“最終，就像人腦一樣，你需要將所有這些模態——語音、音頻、視覺——統一在一個單一的架構下，”他說。“我有一個強烈的預感，我們正在發現一些更普遍的東西。”

然而，在谷歌的高層，這項工作被視爲只是另一個有趣的AI項目。作者們被問及他們的上司是否經常召集他們更新項目進展，答案並不多。但“我們知道這可能是相當大的一件事，”Uszkoreit說。“這導致我們實際上對論文末尾的一句話着迷了。”

那句話預示了接下來可能發生的事情——變換器模型應用於基本上所有形式的人類表達。“我們對基於注意力的模型的未來感到興奮，”他們寫道。“我們計劃將變換器擴展到涉及除文本以外的輸入和輸出模態的問題”，並研究“圖像、音頻和視頻。”

在截止日期前幾天的一個晚上，Uszkoreit意識到他們需要一個標題。Jones指出，團隊已經對一種技術進行了根本性的拒絕：注意力。披頭士樂隊曾經給一首歌命名爲“你需要的只是愛”。爲什么不把論文命名爲“Attention Is All You Need”呢？

“我是英國人，”Jones說。“這真的只花了五秒鐘的思考。我沒想到他們會用它。”

他們繼續收集實驗結果，直到截止日期。Parmar說：“我們提交論文前五分鐘，英法數字結果出來了。”“我當時坐在1965號樓的微型廚房裏，拿到了最後一個數字。”他們只剩下兩分鐘的時間，匆忙地發送了論文。

谷歌和其他幾乎所有科技公司一樣，迅速對這項工作申請了臨時專利。原因不是爲了阻止他人使用這些想法，而是爲了建立其專利組合以用於防御目的。（公司的理念是“如果技術進步，谷歌將收獲好處。”）

當變換器團隊聽到會議同行評審者的反饋時，反應是混合的。“一個是積極的，一個是極其積極的，一個是，‘這還可以，’”Parmar說。論文被接受在晚上的海報環節中展示。

到了12月，論文开始引起轟動。他們12月6日的四小時會議擠滿了想要了解更多的科學家。作者們談到嗓子都啞了。到了晚上10點半，會議結束時，還有一群人。“保安不得不告訴我們離开，”Uszkoreit說。對他來說，最滿意的時刻可能是計算機科學家Sepp Hochreiter走上前來贊揚這項工作——考慮到Hochreiter是長短期記憶的共同發明者，這是相當大的贊美，而變換器剛剛將其作爲AI工具箱中的首選工具所取代。

變換器並沒有立即接管世界，甚至沒有接管谷歌。Kaiser回憶說，在論文發表前後，Shazeer向谷歌高管提議，公司應該放棄整個搜索索引，用變換器訓練一個巨大的網絡——基本上是用變換器改變谷歌組織信息的方式。在那個時候，即使是Kaiser也認爲這個想法是荒謬的。現在，傳統智慧認爲這只是時間問題。

一個名爲OpenAI的初創公司更快地抓住了機會。論文發表後不久，OpenAI的首席研究員Ilya Sutskever——在谷歌時期就認識變換器團隊——建議其科學家Alex Radford研究這個想法。結果就是第一批GPT產品。正如OpenAI首席執行官Sam Altman去年告訴我的，“當變換器論文出來時，我認爲谷歌沒有人意識到它的意義。”

內部情況更爲復雜。“我們很清楚變換器可以做到真正神奇的事情，”Uszkoreit說。“現在，你可能會問，爲什么2018年谷歌沒有推出ChatGPT？實際上，我們本可以在2019年，也許2020年就有GPT-3甚至3.5。真正的問題不是，他們看到了嗎？問題是，爲什么我們沒有利用我們已經看到的事實做任何事情？答案是復雜的。”

許多科技評論家指出，谷歌從以創新爲中心的遊樂場轉變爲以底线爲中心的官僚機構。正如Gomez告訴《金融時報》的那樣，“他們沒有現代化。他們沒有採用這項技術。”但對於一個技術領先行業數十年並獲得巨大利潤的巨頭公司來說，這需要很大的膽量。谷歌確實开始在2018年將變換器集成到產品中，首先是其翻譯工具。同年，它引入了一個新的基於變換器的語言模型BERT，第二年开始應用於搜索。

姓名：AIDAN GOMEZ/職業：COHERE的聯合創始人兼首席執行官

但與OpenAI的飛躍和微軟大膽將基於變換器的系統整合到其產品线相比，這些幕後的變化似乎膽小。當我問首席執行官Sundar Pichai去年爲什么他的公司沒有像ChatGPT那樣首先推出大型語言模型時，他認爲在這種情況下，谷歌發現讓其他人領先是有利的。“我還不太確定它是否會像現在這樣成功。事實是，人們看到它是如何工作的之後，我們能做得更多，”他說。

不可否認的是，論文的八位作者都離开了谷歌。Polosukhin的公司Near建立了一個區塊鏈，其代幣市值約爲40億美元。Parmar和Vaswani在2021年成爲商業夥伴，共同創立了Adept（估值10億美元），現在正在運營他們的第二家公司，名爲Essential AI（獲得800萬美元投資）。

位於東京的Llion Jones的Sakana AI估值爲2億美元。Shazeer於2021年10月離开後，共同創立了Character AI（估值50億美元）。實習生Aidan Gomez在2019年共同創立了位於多倫多的Cohere（估值22億美元）。Jakob Uszkoreit的生物技術公司Inceptive估值爲3億美元。所有這些公司（除Near外）都基於變換器技術。

姓名：LUKASZ KAISER / 職業：OPENAI的研究員

Kaiser是唯一一個沒有創立公司的人。他加入了OpenAI，並成爲一項名爲Q*的新技術的發明者，Altman去年說這項技術將“推動無知的面紗，並將發現的前沿推向前進。”（當我試圖在我們的採訪中詢問Kaiser關於這個問題時，OpenAI的公關人員幾乎跳過桌子來阻止他。）

谷歌是否想念這些逃兵？當然，除了其他人從公司轉移到新的AI初創公司。（Pichai提醒我，當我問他關於變換器離職的問題時，行業寵兒OpenAI也看到了叛逃：“AI領域非常、非常動態，”他說。）但谷歌可以誇耀的是，它創造了一個支持追求非傳統想法的環境。“在很多方面，谷歌一直領先——他們投資於正確的頭腦，並創造了一個我們可以探索和推動極限的環境，”Parmar說。“它花了時間才被採納並不奇怪。谷歌有更多的利害關系。”

如果沒有那個環境：就沒有變換器。不僅作者們都是谷歌員工，他們也在同一辦公室工作。走廊上的偶遇和午餐時的闲聊導致了重大時刻。該團隊在文化上也是多元化的。八位作者中有六位出生在美國以外；另外兩位是兩位持有綠卡的德國人的孩子，他們暫時在加利福尼亞，以及一位家庭逃離迫害的一代美國人。

Uszkoreit從他在柏林的辦公室說，創新都是關於正確的條件。“這是讓那些對某事非常興奮的人在他們生活的合適時機聚集在一起，”他說。“如果你有這個，並且你在做事時有樂趣，你正在處理正確的問題——而且你很幸運——魔法就會發生。”

Uszkoreit和他著名的父親之間也發生了一些神奇的事情。在所有那些餐桌辯論之後，Hans Uszkoreit，他的兒子報告說，現在共同創立了一家公司，正在構建大型語言模型。當然，使用的是變換器。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：一篇論文奠定現代人工智能：8位谷歌員工的幕後故事

地址：https://www.sgitmedia.com/article/26520.html

上一篇：Starknet 路线圖概覽

下一篇：排名前10的DeFi dApp每年平均產生多少費用？

一篇論文奠定現代人工智能：8位谷歌員工的幕後故事

相關閱讀：

熱門標籤

推薦新聞