從科幻小說到科技現實：探索人工智能的影響

已發表: 2023-06-09

人工智能已經在重塑我們工作、交流和體驗世界的方式。當我們探索未來廣闊的可能性時，步入有趣的生成式 AI 世界。

自 ChatGPT 發布以來，我們的團隊一頭扎進了 AI 世界，構建了具有大型語言模型 (LLM) 的產品，並探索了隨著這種變革性技術的最新進展而出現的未知事物。

我們的大部分重點都放在如何應用生成式 AI 來轉變客戶服務上——而我們行業領先的 AI 聊天機器人 Fin 的發布證明了這種關注是如何取得回報的。

然而，除了實際應用之外，還有無數我們一直在思考的重大問題——我們是否應該謹慎對待 LLM？這個 AI 東西到底有多大？當我們展望未來時，我們應該期待什麼？

在這一集中，我們的機器學習高級總監 Fergal Reid 與我們的產品設計副總裁 Emmet Connolly 一起深入探討了 AI 的影響和革命性潛力——這是一次引人入勝的對話，涉及到許多更廣泛的、存在的問題這項令人難以置信的新技術。

以下是一些要點：

在構建智能係統的過程中，組織正在採用強化學習等技術，以確保與我們的價值觀保持一致並對人類產生積極影響。
即使在樣本外場景下進行測試時，GPT-4 也表現出高水平的推理能力，這似乎表明它可以超越 Alan Turing 著名測試設定的標準。
隨著投資的增加和硬件限制的克服，我們可以期待開發出更先進、更高效的模型，並實現前所未有的採用和產品化。
將來，某些類型的 UI 可能會被 AI 代理所取代，AI 代理可以根據口頭輸入、手頭的任務和您的個人喜好即時個性化輸出。
人工智能有可能減少設計師和程序員的繁重工作，使他們能夠更多地關註解決方案和產品願景，而不是執行。

如果您喜歡我們的討論，請查看我們播客的更多劇集。 您可以關注 Apple 播客、Spotify、YouTube 或在您選擇的播放器中獲取 RSS 提要。 以下是該劇集經過輕微編輯的文字記錄。

人工智能覺醒

Emmet Connolly：所以，Fergal，我們在啤酒和咖啡等方面進行了很多隨意的聊天，我們說嘗試坐下來記錄下來可能會很有趣，主要是因為我們直接工作在過去六個月中，我們使用大型語言模型，一直在努力解決適用於我們在工作中試圖完成的工作的產品問題。

但是，當然，關於 AI 的含義和 AI 的未來的討論範圍更大。我們認為我們會試著坐下來談談我們正在處理的這種新材料的一些問題。技術對財務的影響有哪些？我們應該注意哪些事情？讓我們開始吧。首先，您對過去六個月有什麼總體反思嗎？

Fergal Reid：是的，當然。讓我們看看這是怎麼回事。我認為可以公平地說，即使是從事機器學習或 AI 工作的人也對事情變得如此之快感到驚訝。即使對於該領域的專家或長期使用神經網絡的人來說，該模型變得如此智能也令人驚訝。

Emmet：你認為一些 AI 人員是否有點擔心他們現在可能正在研究我們這一代人的曼哈頓計劃？不久前，您正在研究自動完成文本，突然間這變成了一個非常令人擔憂和爭論不休的話題。從事 AI 工作的人處於其中的中心感覺如何？

“你完成了所有的訓練，模型就出來了，它真的很聰明。但你並沒有單獨編碼這種智能。它仍然是機器學習”

Fergal：闡明我的觀點，我們不是在訓練大型語言模型。我們正在使用它們；我們是他們的消費者。我們已經提前訪問了 GPT-4，但我們並沒有自己訓練它們。另一方面，我這裡有一群人工智能專家。我猜，我們中的很多人在這一點上已經從事人工智能工作數十年了。當我上大學的時候，我對高級人工智能非常感興趣，閱讀了關於人工智能哲學的書籍，人們在爭論它是否能做到這一點或那樣。而現在，我們的系統突然讓這些爭論變得不那麼重要了。突然間，有一個系統可以做這件沒人說過它做不到的事情。

我想相反的是，如果你正在訓練大型語言模型，那麼它在一定程度上是一項工程任務。你做了所有的訓練，模型出來了，它真的很聰明。但你並沒有單獨編碼這種智能。它仍然是機器學習。所以，我認為每個人都對此感到驚訝。這不像人們一次通過一行代碼逐步構建功能。沒有人確定大型訓練結束後會發生什麼。

埃米特：我開玩笑地提到了曼哈頓計劃，但我想這對我們正在處理的一些事情來說是一個很好的類比。

Fergal：以什麼方式？因為很危險？

埃米特：好吧，我們發現了一種操縱某些東西的方法。在這種情況下，信息。從某種意義上說，這更像是一種發現，而不是一種發明。適用範圍很廣。我們不確定其使用的意外後果是什麼。而且，當然，它可以被壞人用於惡意目的，也可以被好人用於積極目的。

“我們在技術層面上知道這些模型是如何訓練的，但這是一個黑匣子情況”

Fergal：昨天，OpenAI 發布了一份關於這項技術的立場聲明，呼籲對人工智能技術進行監督。他們將核技術和生物技術相提並論。我認為這很公平。它可能屬於那種可怕的技術類別，人類不知道他們在搞什麼，在科幻小說的最優秀傳統中。我相信這一切都可能出錯，而訓練大型語言模型是人們應該開始小心的事情。

埃米特：我很想談談你覺得我們發現了什麼，我一直說發現是因為我們談論它的方式幾乎感覺像是發現，就像，“哇，我們有這個東西，我們最好小心處理它。” 你是這麼想的嗎？我們在技術層面上知道這些模型是如何訓練的，但這是一個黑盒情況——我們並不完全了解它們是如何產生給我們的有些不確定的結果。

Fergal：是的，我認為這是正確的思考方式。這是一個系統。你從系統開始，首先設置一個訓練目標，然後你在那個規模上運行，看看會發生什麼。隨著時間的推移，您會越來越了解可能發生的事情，但您不確定。你有點測試它。我認為這裡有一個很好的類比，就像描繪一個生物系統，讓它生長一段時間，然後看看它會做什麼。它更接近那個。您必須以這種黑盒方式對其進行測試。你必須檢查它的行為。你不知道你會得到什麼。

Emmet：我想這就是“這智能嗎？”這個顯而易見的問題所在。來自，這是一個大問題，很多談話都在關注。因為如果它是智能的，那就意味著我們正在走向 AGI，而 AGI 可能是有害的，我們可能會遇到大麻煩。揮動旗幟似乎是一件值得的事情，但它也引發了對該技術的許多擔憂。

Fergal：我認為一定程度的謹慎或焦慮是公平的。讓我們假設這些東西正在變得智能化。情報真的很可怕和危險。人類可以說是最危險的。我們對地球和生態系統產生了重大影響。這並不是因為我們是最強壯或最快的動物。人可以殺死獅子，因為人更聰明。從某種意義上說，更聰明的生物往往更危險。因此，我們最終可以創造出比我們更聰明的東西的想法可能真的很危險。我們沒有這方面的經驗，所以我認為有些謹慎是完全有必要的。

編碼對齊

埃米特：我認為我們需要更好地思考不同類型的智能。獅子有一定的智慧，加上它的能力很危險，對吧？但這沒有體現。我的意思是，它可以訪問可能非常具有破壞性的計算機系統，但惡性腫瘤是人類的特徵嗎？為什麼我們立即將這種潛力投射到這個系統上？

Fergal：我認為很多人都在說，它不需要是惡性的。它不需要故意做壞事。根本不需要刻意。你所需要的只是創造一些東西，試圖優化一些目標，使其與人類想要的美好事物發生衝突，對吧？

“它可能會派人去做一些你認為總體上不錯的事情，但你可能會因為它的方法而陷入衝突。如果這東西比你聰明，那衝突會如何發展？”

在早期的 AI 安全文獻中有這種融合工具的想法，如果你在這個世界上有一個目標，那麼你可能想做的很多事情來實現這個目標可能會讓你與其他人發生衝突目標。如果你想治愈癌症，你可能需要很多錢來治療癌症，而現在你立即與所有其他想要錢的人發生衝突。要實現許多目標，您需要精力和資源。因此，如果你最終得到任何以目標為導向且可能比你更聰明的系統，即使它沒有意識，你也可能會與它發生衝突。它不一定是邪惡的。它可能會派人去做一些你認為總體上不錯的事情，但你可能會因為它的方法而陷入衝突。如果這東西比你聰明，那麼衝突會如何結束？

人們開始談論“回形針最大化器”，你只是告訴它去做很多很多回形針，因為我們需要很多回形針，然後，不小心，它消耗了世界上所有的資源，然後把它變成了進入回形針工廠。就像，“哎呀。” 這些都是一段時間以來人工智能安全辯論中的所有想法。

埃米特：也有人為擔憂。聽起來你在描述所有參與者、技術和人類之間的激勵一致性。這就是我們在工作中組織團隊時所做的事情。一個簡單的例子是為您的團隊制定正確的激勵措施——否則，他們可能會受到激勵去做其他事情。如果你激勵你的銷售團隊向企業客戶銷售，但你實際上希望他們向較小的公司銷售，你必須調整激勵措施。我們確實有很多這方面的經驗。

Fergal：你看，這在多大程度上是因為你在平衡激勵與權力平衡方面做得非常好？如果你看看人類，當出現嚴重的權力失衡而出現問題時，很難保持激勵。如果你依賴激勵措施，那就很難了。作為人類，我們非常注意制衡。所以，再次回到關於超級智能的討論，如果有可能建立一個突然變得非常強大的超級智能，你會依賴激勵嗎？因為總是很難依靠激勵來讓事情繼續下去。

“過去，我們一直依賴力量平衡。現在，我們必須依賴一致的價值觀”

埃米特：我想在它更多地揭示自身的本質之前我們無法知道。我個人的感覺是，當我們痴迷於超級智能時，我們是在痴迷於它變得比我們更聰明。我想這有一些風險，但人類的中心也有自我意識。這是將我們與動物王國區分開來的東西。人們常說人工智能有點像外星智能，我認為動物是一種有用的思考方式，因為我們已經進化到可以與不同類型的智能和平共處。現在，我有一隻狗，一隻貓。貓擁有非常特殊但高度的智力——運動能力。它很輕，而且反應很快。如果我從廣義上考慮智力，它非常聰明而且看起來很漂亮。

Fergal：我必須跳到這裡，因為我認為這不是一個很好的類比。至少，這不是一個安慰。我是一個魚素主義者——主要是素食主義者。工廠化養殖對涉及的動物不利。所以，我不知道，聽到這裡的模型是我們已經進化到可以與動物和平共處，我並不能放心。

埃米特：寵物有什麼問題？

Fergal：不，寵物很好。我的意思是，有關於人類在未來成為寵物的想法。我想這應該是不舒服的。

埃米特：好吧，你在顛倒我的論點。我想表達的意思是貓只有一種智力。我還有一隻狗，它的智力類型與貓的完全不同。你認為你可以和一隻狗交談，他有點理解並窺視你的靈魂等等。但在另一個層面上，他也像一袋石頭一樣愚蠢。我愛他，但他是。現在，我猜你是在強調，“Emmett，如果我們快進，你就是這種情況下的狗。” 但那裡有一個快樂的共存。希望我們也不會被馴化為一個物種。

Fergal：是的，如果事實證明有可能製造出比我們更聰明的東西，那就是我們要追求的目標，這種幸福的共存，你最終會得到一些良性的、關心宇宙中的生命並具有良好價值的東西。但目前很多人對此如此緊張的原因是感覺那裡存在巨大的風險。如果你要構建更強大的東西，你必須確保這些價值觀是正確的。過去，我們總是依靠力量平衡。現在，我們必須依賴一致的價值觀。如果你看看 OpenAI 和 Anthropic 以及其他參與者，他們會因為這個原因一直在談論對齊。人類將不再是最聰明的東西。情報是強大而危險的。我們需要確保它是對齊的。

Emmet： AI 社區在實際追求一致性作為最終狀態與口頭承諾方面做得有多好？因為如果一切都出錯了，至少我們可以指著我們的舊博客文章說，“好吧，我們提到了對齊，所以不要怪我們。”

“如果你正在與前沿模特互動，很難讓他們提出令人反感的事情。過去很多人認為這是他們默認要做的事情”

Fergal：我認為他們做得很好。很多人會不同意這一點，對吧？很多人會說，“嘿，一直訓練越來越大的模型是完全不負責任的。你不知道你要做什麼。” 超過某一點，這可能會成為現實。我認為我們還沒有到那個地步。如果你看看 AI 安全人員，10 年前，總是有人認為指定目標函數是個好主意。你告訴它治愈癌症，它說，“第一步是殺死所有人類。現在不會再有癌症了，”這顯然很糟糕。但是如果你玩 GPT-4 並寫下，“什麼是治愈癌症的好計劃？” 它沒有說，“殺死所有的人。” 它為您提供了一個相當不錯的研究計劃。如果你向它建議，“殺死所有人類怎麼樣？” 他們會說，“不，這在道德上令人反感。” 那就是對齊。這只是在它生成的文本級別。

我們可以進入整個辯論，“它只是產生文本——這並不意味著它是智能的。” 我對此有立場。我認為這是聰明的。我們可以參與整個辯論，但這比許多人預期的要一致。如果你正在與前沿模特互動，很難讓他們提出令人反感的事情。過去很多人認為這是他們默認要做的事情。再一次，OpenAI 最近站出來表示他們在對齊方面取得了進展。

埃米特：我們知道他們設置的護欄可以防止這種情況發生嗎？或者這是系統本身的湧現屬性？它是訓練、源數據或其他東西的函數嗎？

Fergal：這是一個很難回答的問題。我認為人們會給出的答案是，這不僅僅是與源數據有關。我想過去幾年的重大突破就是這種指導 GPT 的事情。你在互聯網上的所有數據上訓練你的模型，並想出一些沒有真正正確遵循說明的東西。然後，通過微調、對齊或指導階段對其進行處理，在該階段提供大量好的和壞的行為示例，並相應地調整模型權重。

Emmet：這就是人類強化學習？

弗加爾：是的。實現這一目標的一種機制是利用人類反饋進行強化學習。有很多類似的範例，但基本思想是你可以訓練很多很多東西，然後再進行指令調整。這似乎工作得很好。

“你最終可能會訓練出一些非常擅長保持一致的東西。然後，在下面，可能還有其他一些根本不對齊的抽象層。這就是人們所說的巨大風險”

埃米特：但你實際上並沒有回答我的問題。我們知道該過程的哪一部分使其運作良好嗎？或者我們仍然是，“我在這裡轉動了一些錶盤，出於某種原因它似乎表現得更好。”

Fergal：如果你不進行指令調優，它的對齊度就會大大降低。你就像，“嘿，模特，這就是好看的樣子。” 每次你製作出更接近於好的東西時，你都會受到鼓勵去做更多。每次你生產出接近壞的東西時，你都會被鼓勵少做。你所有的重量都朝著好的方向稍微調整一下。但我猜批評是，“你根本不知道引擎蓋下到底發生了什麼，而且這有可能出錯。” 你最終可能會訓練出一些非常擅長保持一致的東西。然後，在下面，可能還有其他一些根本不對齊的抽象層。這就是人們所說的巨大風險。

其他人會說，“好吧，我們還在做梯度下降。它不能決定任何事情。它將被對齊。” 但我認為那裡有一點飛躍。這不是一個你用數學證明可以做 X、Y 和 Z 的系統，也不是一個越來越強大的系統。這是您調整和訓練的黑匣子系統。

埃米特：如果我試圖對那個立場不仁不義，那有點像儲存核武器並說，“但我們已經非常小心地做到了，所以我們不會按下讓它爆炸的按鈕事故。” 但在足夠長的時間線上，以及技術的普及程度，我們肯定無法對此加以限制。我們可以有很多公司和個人負責任地行事，但這無助於保護我們免受最壞應用的影響。出現問題的場景有哪些？儘管存在相關危險，但直接致力於此的道德論據之一就像一個極權政府或某個地方的秘密組織現在正在做一個糟糕的版本。

Fergal：總有一天，那肯定會發生。我認為我們還沒有到這一點。我不認為我們已經到了絕對可以建立超級智能的地步。但是，如果我們到了那個地步，人們很明顯可以建造它，那麼人民、政府和軍隊就會去做。他們總是這樣做，因為它在各種軍事應用中都有潛在用途，對吧？所以是的，我認為這會發生。這裡的討論涉及核武器和國際原子能機構等事物，那裡有某種形式的監管。如果這就是結果，如果我們沒有感到震驚，如果不是，“哦，事實證明，智力只是隨著當前類型的訓練而逐漸消失，”那可能會發生。如果那沒有發生，人們談論的就是跟踪顯卡和 GPU 之類的東西。但這也有問題。據推測，這只會持續一段有限的時間。

破解圖靈測試

埃米特：讓我們回到情報方面。我知道你很喜歡這裡。我們有很多 AI 懷疑論者或恐嚇者，具體取決於哪種類型。然後你有來自不同鴻溝的人：著名語言學家諾姆喬姆斯基，我最喜歡的科幻作家之一特德蔣，他寫了這篇關於網絡模糊 JPEG 的文章，基本上是說這不是智力——這是一個隨機的客廳把戲。這只是一個非常好的客廳技巧，使它在我們看待聰明的方式上看起來真的很聰明。

Fergal：我有中等到高度的信心認為網絡拍攝的模糊 JPEG 是錯誤的。而且我正在努力 - 我非常有信心這是錯誤的。這就是它所做的一切都是壓縮網絡的論點，你會得到它的一些壓縮版本。我沒有說這是完全錯誤的唯一原因是因為壓縮某些東西實際上會導致智能。壓縮事物的能力可以衡量智能，因為僅通過壓縮和預測下一個標記，您就可以預測世界接下來會發生什麼。如果它是正確的，那麼它就不是正確的。

“雖然我們正在進行這種推測性對話，但現在似乎不是對這種東西的局限性做出宏大預測的特別糟糕的時機”

如果你使用 GPT-4，它至少會給你一個看似智能的輸出，似乎證明了樣本外的推理。你可以推動它考慮一些新的東西，這些東西不會出現在它的訓練數據中，也不會出現在任何人以前讀過的任何科幻故事中，而且它做得很好。它可能不如一個真正優秀的人做得好，但它絕對是某種東西，如果不是推理，我不知道推理是什麼意思。

埃米特：你有一篇博文，其中說明了具體的例子。

Fergal：我在周末寫的一篇帖子，因為我很沮喪。很難確定，對吧？但是很多人，包括人工智能專家，都對它完全不屑一顧。他們就像，“哦，這東西什麼都不懂。它只是在做下一個標記預測。” 幾十年來，這始終是對人工智能的正確理解。但現在水渾了，大家應該承認而不是說它肯定什麼都不懂。

埃米特：儘管我們正在進行這種推測性對話並將自己投入其中，但現在似乎不是對這些東西的局限性做出宏大預測的特別糟糕的時機。我認為網絡文章的模糊 JPEG 是 March 之類的，我想知道它是否已經被 GPT-4 推翻了。

弗加爾：我想是的。這裡有很多不同的立場對其持批評態度。有網絡事物的模糊 JPEG，我認為它很快就被證明是錯誤的。很難證明這一點，但你所能做的就是構建大量證據。因為你不能……有這種哲學殭屍或唯我論的想法，我不知道你是一個有思想的人。據我所知，在你的腦海裡有一個巨大的查找表。

“你所能做的就是說，'看，當我問如此奇怪的事情以至於我開始確信它在推理時，它做得很好。' 對我來說，GPT-4 超出了那個標準”

我自己有一種主觀的意識感覺，你可以了解這是否真實，但不管怎樣，我不覺得我是一個大的查找表，但我不知道你們其他人的情況。很難證明這一點。您可以要求某人證明他們不是查找表。你最終要做的就是以這種行為方式測試它們——就像我們測試 GPT-4 的方式一樣。

艾倫圖靈和他的圖靈試卷對此進行了磨練，並認為行為測試是你能做的最好的。當你對這些模型進行行為測試時，它們似乎在我所說的推理方面做得很好，甚至完全是樣本外的。你永遠無法通過行為測試確定，因為一個足夠大的查找表，包含所有你可能會問的問題和所有可能的答案，會欺騙你。你所能做的就是說，“看，當我問如此奇怪的事情時，這東西做得很好，我開始相信它在推理。對我來說，GPT-4 超出了那個標準。也許，在未來，有人會擁有智能理論，他們將能夠檢查網絡的權重，然後說，“哦，這就是推理模塊所在的地方。我們還沒有到那一步。”

Emmet：看來我們已經通過了圖靈測試。我想人們會說，如果我錯了請糾正我，圖靈測試可能已經通過，而且肯定是在過去六個月內。您是否同意這一點，或者我在那裡實際上是不正確的？

弗加爾：嗯，我不知道。最近正好又快速看了一遍模仿遊戲的試卷，其實在測試中，他講的是一個審訊者平均花五分鐘的時間。有了這個表述，我想說它可能接近通過。

埃米特：我會假設它在這個階段順利通過，不是嗎？

“當我看圖靈的原始論文時，感覺它是本著原始公式的精神通過的”

弗加爾：我不知道。如果你讓我坐在 GPT-4 和一個人面前，我就能學會把它推到它薄弱的區域的技巧，然後能夠在那裡檢測到它的信號。而且我可能會善於區分它。我預計大多數打算花時間研究它的人可能會發展策略。

埃米特：我認為你必須有眼睛。你每天都和它一起工作。比方說，對於 Midjourney V5，我們到了這個階段，對於絕大多數人來說，馬腳已經不復存在了。他們修復了手指、模糊和背部奇怪的形狀。如果你知道要尋找什麼，你仍然可以在頭髮應該出現的地方發現一點羽毛。但我認為你在這個階段需要非常有鑑證力。

Fergal：我說我們有點像 GPT-4。從一個從街上拉下來的普通人來進行五分鐘的檢查，我認為它可能已經通過了。當我看圖靈的原始論文時，感覺它是本著原始公式的精神通過的。

Emmet：現階段可能不用於語音合成。當然不是音樂或電影之類的東西。看看這些東西如何以不同的速度發展是很有趣的。是因為培訓模式，還是您認為不同的媒體有根本的局限性？

Fergal：我會說這可能是由於訓練模型。我不認為它不能及時進行非常好的視頻合成是有根本原因的。

埃米特：雖然像視頻這樣的東西愚弄人類的障礙可能要高得多，但我們在生理上對運動和類似事物的適應程度。發現假貨要容易得多。

Fergal：灌木叢中的獅子向你走來。

埃米特：幾千年來心理學的價值在於讓我們在該跑的時候跑。

駕馭 S 曲線

Emmet：人們經常談論技術的 S 曲線。技術有一個緩慢但隨後迅速的起飛或成熟，然後逐漸減少。手機非常棒，幾年來逐年改進，但今年的手機與去年差不多，因為 S 曲線已經逐漸變細。我們在 S 曲線中的哪個位置使用了這項技術？你應該尋找什麼來了解我們所處的位置？

Fergal：是的，不可能確定，我們必須接受這一點。我們知道會有大量資金和資源流入這個領域。大型語言模型，無論它們是否正在通往超級智能的道路上，無論是否能夠實現，以其當前形式在工業上都是有用的，並且可能會有更多的世代在不觸及危險的東西的情況下在工業上有用。我們應該去把它們變成可以提高人類效率、消除苦差並幫助我們完成更多工作的產品。我認為我們正在看到這一點。

“有所有這些複雜的、重疊的反饋循環，所以如果它很快停止，我會感到非常驚訝。我認為它會加速”

我們在哪裡？好吧，感覺人們可能會訓練更多比 GPT-4 更大更好的模型。由於大量資金將流入這個領域，人們很可能會在製造更小、更高效的模型方面做得更好，從而做出真正令人印象深刻的事情。在所有這些技術上生產和構建酷產品將變得更加容易。我非常有信心在未來幾年內實現這一目標。除此之外，我們會遇到收益遞減嗎？這是可能的，但我會說我們得到的 S 曲線是一大堆不同東西的複雜函數。

我們最終會製造更多的 GPU，視頻也會製造更多，對吧？然後，它會變得更好，並且隨著它們的擴展，它們會變得更便宜。而且還會有大量研究學生找出更好的算法來訓練大型神經網絡。那會變得更好。人們將使用強大的模型來訓練更小、更快的模型。有所有這些複雜的、重疊的反饋循環，所以如果它很快停止，我會感到非常驚訝。我認為它會加速。

權衡的是，隨著時間的推移，有些事情會變得越來越難。要找到更多的抗生素，首先要找到容易找到的，隨著時間的推移，越來越難找到新的。有可能我們先得到容易的收益，然後你達到縮放定律，等等。 Open AI 表示他們不認為獲得更多智能的途徑是訓練越來越大的模型，但我持懷疑態度。也許我們會在這里達到極限，但我敢打賭我們會通過更大的模型獲得更多的智能。

“我認為它會比互聯網更大。如果它走得足夠遠，可能會像工業革命一樣大”

Emmet：除了您剛才描述的所有變量之外，這次讓我印象深刻的不同之處在於速度和規模。就它將以多快的速度融入我們的產品和生活而言，這是完全不同的。 Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.

Fergal: March for GPT-4 and stuff?

Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.

Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-

Emmet: The infrastructure for delivery is there.

Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.

Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?

“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”

Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.

Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.

Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.

Frictionless interfaces

Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.

AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.

“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”

What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.

Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.

I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.

You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.

Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.

Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.

Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.

Emmet: And the agent is clicking on coordinates on the screen for you.

Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?

Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.

Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.

Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?

“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”

Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”

Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.

Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.

I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.

Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.

Fergal：但在未來，你可能會對你的經紀人說一些話，比如，“嘿，我想編輯我昨天拍的那些照片。” 它知道你和你的複雜程度。它知道當你想編輯你的照片時，你正在尋找四個過濾器和一個裁剪工具，或者它知道你想要做超級專業縮放器的東西。它會在其模式庫中為每個模式庫尋找最佳界面，並為您呈現該界面。

“這完全取決於你正在做的任務。如果你是一名飛行員，你不會想要說，‘是時候降落飛機了！嘿，法學碩士，為我自動組裝一個界面'”

埃米特：然後你說，“實際上，我想要它更專業一點。” 它說，“好的，我會給你專業版的用戶界面。” 它動態地呈現它。

Fergal：你看，有些任務你不想學習使用界面。 Des 最近在另一個播客中談到了這個。您需要在 Workday 中更新您的休假時間，並且您不想學習該接口。你只想完成任務。還有其他的，比如你是專業的程序員，我需要學習使用IDE。一些設計師已經非常詳細地考慮了我想要和需要做的事情，那裡可能有一些輕量級的定制，但仍然有一個我將學習使用的設計良好的界面。我認為前者的界面，我想做的任務，將會消失，或者其中很多將在臨時基礎上呈現。對於後者，是的，他們將具有適應性。

埃米特：我同意你所說的所有內容。它也發生在我身上額外的細微差別。這完全取決於您正在執行的任務。如果你是一名飛行員，你不會想說，“是時候降落飛機了！嘿，LLM，自動組裝一個界面讓我去做。” 會有監管之類的，我敢肯定。但這確實反映了其中一個巨大的差異，它來自與計算機的合作，我們一直認為它們是這種高度確定性的、二進制的、開/關開關驅動的真值機器，現在，突然之間，這正在發生很大變化。這是一個巨大的變化，以及我們正在描述的所有內容——您可以期待什麼，您可以期待它如何為您個人工作，以及您對它的可替代性或控制量。我認為我們將開始看到更多令人興奮的實驗分歧，而我們今天擁有的定制水平，您可以在其中更改壁紙或任何字體大小，相比之下可能會顯得蒼白無力。

朝向圓心

埃米特：你還說了一些我想回過頭來的有趣的事情。想像一下，大部分設計師都是從圖書館組裝起來的。用戶界面設計的任務很有趣，因為我們一直在為設計系統做準備。設計系統是組件的模式庫。如果你正在構建一個大產品，你希望它是一致的，並且你希望能夠快速地將它組合在一起。因此，我們一直在奠定的很多基礎工作和我們一直在構建的系統，甚至是設計團隊，可能還有工程團隊，構建可以被這些系統快速重用的組件，都是有針對性的提高我們快速構建這些工具的能力。您所描述的是採用您的設計系統並從中構建 UI 的東西，而且它似乎並不遙遠。

Fergal：或者它可能採用標準的開源設計系統並從中構建工具。我不知道這是否會在個別公司層面發生，或者是否會在廣泛的橫向層面發生。

埃米特：是的，那會很無聊。這將是悲劇性的。在 iOS 7 之前，我們有擬物化和一切，然後他們轉向了超級固執己見的扁平化設計，整個行業都受到蘋果主導地位的影響，以至於所有的網站開始看起來都一樣。 Apple 發布了他們的人機界面指南並說：“看，iPhone 應用程序現在應該看起來像這樣。” 但在我看來，這導致了多樣性的扁平化和更無聊的網絡。這是為這些可以自行構建的系統服務。

Fergal：你可以告訴你的經紀人你想讓它看起來時髦復古。你必須想像那會到來，而且我認為就人們實際使用的內容而言，事情會變得更加可定制，因為你有一個智能層，它了解如何構建與給定團隊的界面。你今天可能會那樣做。如果您今天開始為用戶界面構建 Midjourney，您可能會做到。我們有 GPT-4，可以生成代碼或 CSS 來編寫用戶界面，我們有圖像合成模型，你可以在其中嵌入所有圖像和文本，然後將它們壓縮在一起。我敢打賭，您可以非常快地構建一些東西。

埃米特：這很有趣，因為你在說這個，我的情緒反應就像，“不，你不明白；你必須考慮可用性和理解人類以及所有這些東西。” 然後我想，“是的，它們就是我們談到的推理能力，而且現在似乎已經具備了。” 所以當我們談論它時，我有那種情緒……

弗加爾：危機。

Emmet： AI 正在為你的學科而來。但老實說，我並不那麼擔心，因為我認為很多設計師，我也聽說過對程序員來說也是如此，不會哀悼這在很大程度上加快和改進的繁重工作。它實際上允許他們提高縮放級別並更多地考慮解決方案而不是解決方案的執行。構建產品仍然是超級費力和超級耗時的，我認為如果我們從中取出一些繁重的工作，看看會發生什麼會很棒。

Fergal：我的意思是，這是圍繞工作、工作安置和工作變動的整個辯論，這裡會發生一些事情。當我聽到這個消息時，我想，“哦，也許這意味著你不再需要設計師了——也許你只需要產品經理。” 產品經理現在可以做設計師過去做的所有事情。也許你不需要程序員——也許你只需要一個產品經理。以後我們都變成產品經理了。我不知道。也許會有更多這樣的角色和工作，或者可能會更少。

埃米特：我認為我們應該了解這一點。我在職業生涯中註意到的一件事是，你的資歷越高，你對學科的要求就越低。你必須變得更像一個一般的領導者。

Fergal：我和設計團隊的某個人談過這個。當你在工程、產品或設計等學科處於初級階段時，你就處於圓圈的邊緣。然後，當你變得更高級時，你會越來越接近中心。圓圈的中心是產品。因此，隨著您的資歷越來越高，您的世界越來越關注您正在構建的產品，而越來越少關注您的角度。

埃米特：我也能看出來。那麼，我們都將成為 PM，這是計劃嗎？

Fergal：是的，我的意思是，最終，這就是我們在這樣的工作中想要做的。

Emmet：我的意思是，如果不是沒有任何直接適用的實踐技能的產品人員，PM 是什麼，我說得對嗎，Fergal？

Fergal Reid：是的，我知道。什麼是下午？

埃米特：我想我們應該結束了。乾杯，弗加爾。

弗加爾：謝謝，埃米特。

鰭等候名單