从科幻小说到科技现实:探索人工智能的影响
已发表: 2023-06-09人工智能已经在重塑我们工作、交流和体验世界的方式。 当我们探索未来广阔的可能性时,步入有趣的生成式 AI 世界。
自 ChatGPT 发布以来,我们的团队一头扎进了 AI 世界,构建了具有大型语言模型 (LLM) 的产品,并探索了随着这种变革性技术的最新进展而出现的未知事物。
我们的大部分重点都放在如何应用生成式 AI 来转变客户服务上——而我们行业领先的 AI 聊天机器人 Fin 的发布证明了这种关注是如何取得回报的。
然而,除了实际应用之外,还有无数我们一直在思考的重大问题——我们是否应该谨慎对待 LLM? 这个 AI 东西到底有多大? 当我们展望未来时,我们应该期待什么?
在这一集中,我们的机器学习高级总监 Fergal Reid 与我们的产品设计副总裁 Emmet Connolly 一起深入探讨了 AI 的影响和革命性潜力——这是一次引人入胜的对话,涉及到许多更广泛的、存在的问题这项令人难以置信的新技术。
以下是一些要点:
- 在构建智能系统的过程中,组织正在采用强化学习等技术,以确保与我们的价值观保持一致并对人类产生积极影响。
- 即使在样本外场景下进行测试时,GPT-4 也表现出高水平的推理能力,这似乎表明它可以超越 Alan Turing 著名测试设定的标准。
- 随着投资的增加和硬件限制的克服,我们可以期待开发出更先进、更高效的模型,并实现前所未有的采用和产品化。
- 将来,某些类型的 UI 可能会被 AI 代理所取代,AI 代理可以根据口头输入、手头的任务和您的个人喜好即时个性化输出。
- 人工智能有可能减少设计师和程序员的繁重工作,使他们能够更多地关注解决方案和产品愿景,而不是执行。
如果您喜欢我们的讨论,请查看我们播客的更多剧集。 您可以关注 Apple 播客、Spotify、YouTube 或在您选择的播放器中获取 RSS 提要。 以下是该剧集经过轻微编辑的文字记录。
人工智能觉醒
Emmet Connolly:所以,Fergal,我们在啤酒和咖啡等方面进行了很多随意的聊天,我们说尝试坐下来记录下来可能会很有趣,主要是因为我们直接工作在过去六个月中,我们使用大型语言模型,一直在努力解决适用于我们在工作中试图完成的工作的产品问题。
但是,当然,关于 AI 的含义和 AI 的未来的讨论范围更大。 我们认为我们会试着坐下来谈谈我们正在处理的这种新材料的一些问题。 技术对财务的影响有哪些? 我们应该注意哪些事情? 让我们开始吧。 首先,您对过去六个月有什么总体反思吗?
Fergal Reid:是的,当然。 让我们看看这是怎么回事。 我认为可以公平地说,即使是从事机器学习或 AI 工作的人也对事情变得如此之快感到惊讶。 即使对于该领域的专家或长期使用神经网络的人来说,该模型变得如此智能也令人惊讶。
Emmet:你认为一些 AI 人员是否有点担心他们现在可能正在研究我们这一代人的曼哈顿计划? 不久前,您正在研究自动完成文本,突然间这变成了一个非常令人担忧和争论不休的话题。 从事 AI 工作的人处于其中的中心感觉如何?
“你完成了所有的训练,模型就出来了,它真的很聪明。 但你并没有单独编码这种智能。 它仍然是机器学习”
Fergal:阐明我的观点,我们不是在训练大型语言模型。 我们正在使用它们; 我们是他们的消费者。 我们已经提前访问了 GPT-4,但我们并没有自己训练它们。 另一方面,我这里有一群人工智能专家。 我猜,我们中的很多人在这一点上已经从事人工智能工作数十年了。 当我上大学的时候,我对高级人工智能非常感兴趣,阅读了关于人工智能哲学的书籍,人们在争论它是否能做到这一点或那样。 而现在,我们的系统突然让这些争论变得不那么重要了。 突然间,有一个系统可以做这件没人说过它做不到的事情。
我想相反的是,如果你正在训练大型语言模型,那么它在一定程度上是一项工程任务。 你做了所有的训练,模型出来了,它真的很聪明。 但你并没有单独编码这种智能。 它仍然是机器学习。 所以,我认为每个人都对此感到惊讶。 这不像人们一次通过一行代码逐步构建功能。 没有人确定大型训练结束后会发生什么。
埃米特:我开玩笑地提到了曼哈顿计划,但我想这对我们正在处理的一些事情来说是一个很好的类比。
Fergal:以什么方式? 因为很危险?
埃米特:好吧,我们发现了一种操纵某些东西的方法。 在这种情况下,信息。 从某种意义上说,这更像是一种发现,而不是一种发明。 适用范围很广。 我们不确定其使用的意外后果是什么。 而且,当然,它可以被坏人用于恶意目的,也可以被好人用于积极目的。
“我们在技术层面上知道这些模型是如何训练的,但这是一个黑匣子情况”
Fergal:昨天,OpenAI 发布了一份关于这项技术的立场声明,呼吁对人工智能技术进行监督。 他们将核技术和生物技术相提并论。 我认为这很公平。 它可能属于那种可怕的技术类别,人类不知道他们在搞什么,在科幻小说的最优秀传统中。 我相信这一切都可能出错,而训练大型语言模型是人们应该开始小心的事情。
埃米特:我很想谈谈你觉得我们发现了什么,我一直说发现是因为我们谈论它的方式几乎感觉像是发现,就像,“哇,我们有这个东西,我们最好小心处理它。” 你是这么想的吗? 我们在技术层面上知道这些模型是如何训练的,但这是一个黑盒情况——我们并不完全了解它们是如何产生给我们的有些不确定的结果。
Fergal:是的,我认为这是正确的思考方式。 这是一个系统。 你从系统开始,首先设置一个训练目标,然后你在那个规模上运行,看看会发生什么。 随着时间的推移,您会越来越了解可能发生的事情,但您不确定。 你有点测试它。 我认为这里有一个很好的类比,就像描绘一个生物系统,让它生长一段时间,然后看看它会做什么。 它更接近那个。 您必须以这种黑盒方式对其进行测试。 你必须检查它的行为。 你不知道你会得到什么。
Emmet:我想这就是“这智能吗?”这个显而易见的问题所在。 来自,这是一个大问题,很多谈话都在关注。 因为如果它是智能的,那就意味着我们正在走向 AGI,而 AGI 可能是有害的,我们可能会遇到大麻烦。 挥动旗帜似乎是一件值得的事情,但它也引发了对该技术的许多担忧。
Fergal:我认为一定程度的谨慎或焦虑是公平的。 让我们假设这些东西正在变得智能化。 情报真的很可怕和危险。 人类可以说是最危险的。 我们对地球和生态系统产生了重大影响。 这并不是因为我们是最强壮或最快的动物。 人可以杀死狮子,因为人更聪明。 从某种意义上说,更聪明的生物往往更危险。 因此,我们最终可以创造出比我们更聪明的东西的想法可能真的很危险。 我们没有这方面的经验,所以我认为有些谨慎是完全有必要的。
编码对齐
埃米特:我认为我们需要更好地思考不同类型的智能。 狮子有一定的智慧,加上它的能力很危险,对吧? 但这没有体现。 我的意思是,它可以访问可能非常具有破坏性的计算机系统,但恶性肿瘤是人类的特征吗? 为什么我们立即将这种潜力投射到这个系统上?
Fergal:我认为很多人都在说,它不需要是恶性的。 它不需要故意做坏事。 根本不需要刻意。 你所需要的只是创造一些东西,试图优化一些目标,使其与人类想要的美好事物发生冲突,对吧?
“它可能会派人去做一些你认为总体上不错的事情,但你可能会因为它的方法而陷入冲突。 如果这东西比你聪明,那冲突会如何发展?”
在早期的 AI 安全文献中有这种融合工具的想法,如果你在这个世界上有一个目标,那么你可能想做的很多事情来实现这个目标可能会让你与其他人发生冲突目标。 如果你想治愈癌症,你可能需要很多钱来治疗癌症,而现在你立即与所有其他想要钱的人发生冲突。 要实现许多目标,您需要精力和资源。 因此,如果你最终得到任何以目标为导向且可能比你更聪明的系统,即使它没有意识,你也可能会与它发生冲突。 它不一定是邪恶的。 它可能会派人去做一些你认为总体上不错的事情,但你可能会因为它的方法而陷入冲突。 如果这东西比你聪明,那么冲突会如何结束?
人们开始谈论“回形针最大化器”,你只是告诉它去做很多很多回形针,因为我们需要很多回形针,然后,不小心,它消耗了世界上所有的资源,然后把它变成了进入回形针工厂。 就像,“哎呀。” 这些都是一段时间以来人工智能安全辩论中的所有想法。
埃米特:也有人为担忧。 听起来你在描述所有参与者、技术和人类之间的激励一致性。 这就是我们在工作中组织团队时所做的事情。 一个简单的例子是为您的团队制定正确的激励措施——否则,他们可能会受到激励去做其他事情。 如果你激励你的销售团队向企业客户销售,但你实际上希望他们向较小的公司销售,你必须调整激励措施。 我们确实有很多这方面的经验。
Fergal:你看,这在多大程度上是因为你在平衡激励与权力平衡方面做得非常好? 如果你看看人类,当出现严重的权力失衡而出现问题时,很难保持激励。 如果你依赖激励措施,那就很难了。 作为人类,我们非常注意制衡。 所以,再次回到关于超级智能的讨论,如果有可能建立一个突然变得非常强大的超级智能,你会依赖激励吗? 因为总是很难依靠激励来让事情继续下去。
“过去,我们一直依赖力量平衡。 现在,我们必须依赖一致的价值观”
埃米特:我想在它更多地揭示自身的本质之前我们无法知道。 我个人的感觉是,当我们痴迷于超级智能时,我们是在痴迷于它变得比我们更聪明。 我想这有一些风险,但人类的中心也有自我意识。 这是将我们与动物王国区分开来的东西。 人们常说人工智能有点像外星智能,我认为动物是一种有用的思考方式,因为我们已经进化到可以与不同类型的智能和平共处。 现在,我有一只狗,一只猫。 猫拥有非常特殊但高度的智力——运动能力。 它很轻,而且反应很快。 如果我从广义上考虑智力,它非常聪明而且看起来很漂亮。
Fergal:我必须跳到这里,因为我认为这不是一个很好的类比。 至少,这不是一个安慰。 我是一个鱼素主义者——主要是素食主义者。 工厂化养殖对涉及的动物不利。 所以,我不知道,听到这里的模型是我们已经进化到可以与动物和平共处,我并不能放心。
埃米特:宠物有什么问题?
Fergal:不,宠物很好。 我的意思是,有关于人类在未来成为宠物的想法。 我想这应该是不舒服的。
埃米特:好吧,你在颠倒我的论点。 我想表达的意思是猫只有一种智力。 我还有一只狗,它的智力类型与猫的完全不同。 你认为你可以和一只狗交谈,他有点理解并窥视你的灵魂等等。 但在另一个层面上,他也像一袋石头一样愚蠢。 我爱他,但他是。 现在,我猜你是在强调,“Emmett,如果我们快进,你就是这种情况下的狗。” 但那里有一个快乐的共存。 希望我们也不会被驯化为一个物种。
Fergal:是的,如果事实证明有可能制造出比我们更聪明的东西,那就是我们要追求的目标,这种幸福的共存,你最终会得到一些良性的、关心宇宙中的生命并具有良好价值的东西。 但目前很多人对此如此紧张的原因是感觉那里存在巨大的风险。 如果你要构建更强大的东西,你必须确保这些价值观是正确的。 过去,我们总是依靠力量平衡。 现在,我们必须依赖一致的价值观。 如果你看看 OpenAI 和 Anthropic 以及其他参与者,他们会因为这个原因一直在谈论对齐。 人类将不再是最聪明的东西。 情报是强大而危险的。 我们需要确保它是对齐的。
Emmet: AI 社区在实际追求一致性作为最终状态与口头承诺方面做得有多好? 因为如果一切都出错了,至少我们可以指着我们的旧博客文章说,“好吧,我们提到了对齐,所以不要怪我们。”
“如果你正在与前沿模特互动,很难让他们提出令人反感的事情。 过去很多人认为这是他们默认要做的事情”
Fergal:我认为他们做得很好。 很多人会不同意这一点,对吧? 很多人会说,“嘿,一直训练越来越大的模型是完全不负责任的。 你不知道你要做什么。” 超过某一点,这可能会成为现实。 我认为我们还没有到那个地步。 如果你看看 AI 安全人员,10 年前,总是有人认为指定目标函数是个好主意。 你告诉它治愈癌症,它说,“第一步是杀死所有人类。 现在不会再有癌症了,”这显然很糟糕。 但是如果你玩 GPT-4 并写下,“什么是治愈癌症的好计划?” 它没有说,“杀死所有的人。” 它为您提供了一个相当不错的研究计划。 如果你向它建议,“杀死所有人类怎么样?” 他们会说,“不,这在道德上令人反感。” 那就是对齐。 这只是在它生成的文本级别。
我们可以进入整个辩论,“它只是产生文本——这并不意味着它是智能的。” 我对此有立场。 我认为这是聪明的。 我们可以参与整个辩论,但这比许多人预期的要一致。 如果你正在与前沿模特互动,很难让他们提出令人反感的事情。 过去很多人认为这是他们默认要做的事情。 再一次,OpenAI 最近站出来表示他们在对齐方面取得了进展。
埃米特:我们知道他们设置的护栏可以防止这种情况发生吗? 或者这是系统本身的涌现属性? 它是训练、源数据或其他东西的函数吗?
Fergal:这是一个很难回答的问题。 我认为人们会给出的答案是,这不仅仅是与源数据有关。 我想过去几年的重大突破就是这种指导 GPT 的事情。 你在互联网上的所有数据上训练你的模型,并想出一些没有真正正确遵循说明的东西。 然后,通过微调、对齐或指导阶段对其进行处理,在该阶段提供大量好的和坏的行为示例,并相应地调整模型权重。
Emmet:这就是人类强化学习?
弗加尔:是的。 实现这一目标的一种机制是利用人类反馈进行强化学习。 有很多类似的范例,但基本思想是你可以训练很多很多东西,然后再进行指令调整。 这似乎工作得很好。
“你最终可能会训练出一些非常擅长保持一致的东西。 然后,在下面,可能还有其他一些根本不对齐的抽象层。 这就是人们所说的巨大风险”
埃米特:但你实际上并没有回答我的问题。 我们知道该过程的哪一部分使其运作良好吗? 或者我们仍然是,“我在这里转动了一些表盘,出于某种原因它似乎表现得更好。”
Fergal:如果你不进行指令调优,它的对齐度就会大大降低。 你就像,“嘿,模特,这就是好看的样子。” 每次你制作出更接近于好的东西时,你都会受到鼓励去做更多。 每次你生产出接近坏的东西时,你都会被鼓励少做。 你所有的重量都朝着好的方向稍微调整一下。 但我猜批评是,“你根本不知道引擎盖下到底发生了什么,而且这有可能出错。” 你最终可能会训练出一些非常擅长保持一致的东西。 然后,在下面,可能还有其他一些根本不对齐的抽象层。 这就是人们所说的巨大风险。
其他人会说,“好吧,我们还在做梯度下降。 它不能决定任何事情。 它将被对齐。” 但我认为那里有一点飞跃。 这不是一个你用数学证明可以做 X、Y 和 Z 的系统,也不是一个越来越强大的系统。 这是您调整和训练的黑匣子系统。
埃米特:如果我试图对那个立场不仁不义,那有点像储存核武器并说,“但我们已经非常小心地做到了,所以我们不会按下让它爆炸的按钮事故。” 但在足够长的时间线上,以及技术的普及程度,我们肯定无法对此加以限制。 我们可以有很多公司和个人负责任地行事,但这无助于保护我们免受最坏应用的影响。 出现问题的场景有哪些? 尽管存在相关危险,但直接致力于此的道德论据之一就像一个极权政府或某个地方的秘密组织现在正在做一个糟糕的版本。
Fergal:总有一天,那肯定会发生。 我认为我们还没有到这一点。 我不认为我们已经到了绝对可以建立超级智能的地步。 但是,如果我们到了那个地步,人们很明显可以建造它,那么人民、政府和军队就会去做。 他们总是这样做,因为它在各种军事应用中都有潜在用途,对吧? 所以是的,我认为这会发生。 这里的讨论涉及核武器和国际原子能机构等事物,那里有某种形式的监管。 如果这就是结果,如果我们没有感到震惊,如果不是,“哦,事实证明,智力只是随着当前类型的训练而逐渐消失,”那可能会发生。 如果那没有发生,人们谈论的就是跟踪显卡和 GPU 之类的东西。 但这也有问题。 据推测,这只会持续一段有限的时间。
破解图灵测试
埃米特:让我们回到情报方面。 我知道你很喜欢这里。 我们有很多 AI 怀疑论者或恐吓者,具体取决于哪种类型。 然后你有来自不同鸿沟的人:著名语言学家诺姆乔姆斯基,我最喜欢的科幻作家之一特德蒋,他写了这篇关于网络模糊 JPEG 的文章,基本上是说这不是智力——这是一个随机的客厅把戏。 这只是一个非常好的客厅技巧,使它在我们看待聪明的方式上看起来真的很聪明。
Fergal:我有中等到高度的信心认为网络拍摄的模糊 JPEG 是错误的。 而且我正在努力 - 我非常有信心这是错误的。 这就是它所做的一切都是压缩网络的论点,你会得到它的一些压缩版本。 我没有说这是完全错误的唯一原因是因为压缩某些东西实际上会导致智能。 压缩事物的能力可以衡量智能,因为仅通过压缩和预测下一个标记,您就可以预测世界接下来会发生什么。 如果它是正确的,那么它就不是正确的。
“虽然我们正在进行这种推测性对话,但现在似乎不是对这种东西的局限性做出宏大预测的特别糟糕的时机”
如果你使用 GPT-4,它至少会给你一个看似智能的输出,似乎证明了样本外的推理。 你可以推动它考虑一些新的东西,这些东西不会出现在它的训练数据中,也不会出现在任何人以前读过的任何科幻故事中,而且它做得很好。 它可能不如一个真正优秀的人做得好,但它绝对是某种东西,如果不是推理,我不知道推理是什么意思。
埃米特:你有一篇博文,其中说明了具体的例子。
Fergal:我在周末写的一篇帖子,因为我很沮丧。 很难确定,对吧? 但是很多人,包括人工智能专家,都对它完全不屑一顾。 他们就像,“哦,这东西什么都不懂。 它只是在做下一个标记预测。” 几十年来,这始终是对人工智能的正确理解。 但现在水浑了,大家应该承认而不是说它肯定什么都不懂。
埃米特:尽管我们正在进行这种推测性对话并将自己投入其中,但现在似乎不是对这些东西的局限性做出宏大预测的特别糟糕的时机。 我认为网络文章的模糊 JPEG 是 March 之类的,我想知道它是否已经被 GPT-4 推翻了。
弗加尔:我想是的。 这里有很多不同的立场对其持批评态度。 有网络事物的模糊 JPEG,我认为它很快就被证明是错误的。 很难证明这一点,但你所能做的就是构建大量证据。 因为你不能……有这种哲学僵尸或唯我论的想法,我不知道你是一个有思想的人。 据我所知,在你的脑海里有一个巨大的查找表。
“你所能做的就是说,'看,当我问如此奇怪的事情以至于我开始确信它在推理时,它做得很好。' 对我来说,GPT-4 超出了那个标准”
我自己有一种主观的意识感觉,你可以了解这是否真实,但不管怎样,我不觉得我是一个大的查找表,但我不知道你们其他人的情况。 很难证明这一点。 您可以要求某人证明他们不是查找表。 你最终要做的就是以这种行为方式测试它们——就像我们测试 GPT-4 的方式一样。
艾伦图灵和他的图灵试卷对此进行了磨练,并认为行为测试是你能做的最好的。 当你对这些模型进行行为测试时,它们似乎在我所说的推理方面做得很好,甚至完全是样本外的。 你永远无法通过行为测试确定,因为一个足够大的查找表,包含所有你可能会问的问题和所有可能的答案,会欺骗你。 你所能做的就是说,“看,当我问如此奇怪的事情时,这东西做得很好,我开始相信它在推理。 对我来说,GPT-4 超出了那个标准。 也许,在未来,有人会拥有智能理论,他们将能够检查网络的权重,然后说,“哦,这就是推理模块所在的地方。 我们还没有到那一步。”
Emmet:看来我们已经通过了图灵测试。 我想人们会说,如果我错了请纠正我,图灵测试可能已经通过,而且肯定是在过去六个月内。 您是否同意这一点,或者我在那里实际上是不正确的?
弗加尔:嗯,我不知道。 最近正好又快速看了一遍模仿游戏的试卷,其实在测试中,他讲的是一个审讯者平均花五分钟的时间。 有了这个表述,我想说它可能接近通过。
埃米特:我会假设它在这个阶段顺利通过,不是吗?
“当我看图灵的原始论文时,感觉它是本着原始公式的精神通过的”
弗加尔:我不知道。 如果你让我坐在 GPT-4 和一个人面前,我就能学会把它推到它薄弱的区域的技巧,然后能够在那里检测到它的信号。 而且我可能会善于区分它。 我预计大多数打算花时间研究它的人可能会发展策略。
埃米特:我认为你必须有眼睛。 你每天都和它一起工作。 比方说,对于 Midjourney V5,我们到了这个阶段,对于绝大多数人来说,马脚已经不复存在了。 他们修复了手指、模糊和背部奇怪的形状。 如果你知道要寻找什么,你仍然可以在头发应该出现的地方发现一点羽毛。 但我认为你在这个阶段需要非常有鉴证力。
Fergal:我说我们有点像 GPT-4。 从一个从街上拉下来的普通人来进行五分钟的检查,我认为它可能已经通过了。 当我看图灵的原始论文时,感觉它是本着原始公式的精神通过的。
Emmet:现阶段可能不用于语音合成。 当然不是音乐或电影之类的东西。 看看这些东西如何以不同的速度发展是很有趣的。 是因为培训模式,还是您认为不同的媒体有根本的局限性?
Fergal:我会说这可能是由于训练模型。 我不认为它不能及时进行非常好的视频合成是有根本原因的。
埃米特:虽然像视频这样的东西愚弄人类的障碍可能要高得多,但我们在生理上对运动和类似事物的适应程度。 发现假货要容易得多。
Fergal:灌木丛中的狮子向你走来。
埃米特:几千年来心理学的价值在于让我们在该跑的时候跑。
驾驭 S 曲线
Emmet:人们经常谈论技术的 S 曲线。 技术有一个缓慢但随后迅速的起飞或成熟,然后逐渐减少。 手机非常棒,几年来逐年改进,但今年的手机与去年差不多,因为 S 曲线已经逐渐变细。 我们在 S 曲线中的哪个位置使用了这项技术? 你应该寻找什么来了解我们所处的位置?
Fergal:是的,不可能确定,我们必须接受这一点。 我们知道会有大量资金和资源流入这个领域。 大型语言模型,无论它们是否正在通往超级智能的道路上,无论是否能够实现,以其当前形式在工业上都是有用的,并且可能会有更多的世代在不触及危险的东西的情况下在工业上有用。 我们应该去把它们变成可以提高人类效率、消除苦差并帮助我们完成更多工作的产品。 我认为我们正在看到这一点。
“有所有这些复杂的、重叠的反馈循环,所以如果它很快停止,我会感到非常惊讶。 我认为它会加速”
我们在哪里? 好吧,感觉人们可能会训练更多比 GPT-4 更大更好的模型。 由于大量资金将流入这个领域,人们很可能会在制造更小、更高效的模型方面做得更好,从而做出真正令人印象深刻的事情。 在所有这些技术上生产和构建酷产品将变得更加容易。 我非常有信心在未来几年内实现这一目标。 除此之外,我们会遇到收益递减吗? 这是可能的,但我会说我们得到的 S 曲线是一大堆不同东西的复杂函数。
我们最终会制造更多的 GPU,视频也会制造更多,对吧? 然后,它会变得更好,并且随着它们的扩展,它们会变得更便宜。 而且还会有大量研究学生找出更好的算法来训练大型神经网络。 那会变得更好。 人们将使用强大的模型来训练更小、更快的模型。 有所有这些复杂的、重叠的反馈循环,所以如果它很快停止,我会感到非常惊讶。 我认为它会加速。
权衡的是,随着时间的推移,有些事情会变得越来越难。 要找到更多的抗生素,首先要找到容易找到的,随着时间的推移,越来越难找到新的。 有可能我们先得到容易的收益,然后你达到缩放定律,等等。 Open AI 表示他们不认为获得更多智能的途径是训练越来越大的模型,但我持怀疑态度。 也许我们会在这里达到极限,但我敢打赌我们会通过更大的模型获得更多的智能。
“我认为它会比互联网更大。 如果它走得足够远,可能会像工业革命一样大”
Emmet:除了您刚才描述的所有变量之外,这次让我印象深刻的不同之处在于速度和规模。 就它将以多快的速度融入我们的产品和生活而言,这是完全不同的。 比尔盖茨最近发表了这篇文章,他说这是自 70 年代微处理器以来技术领域最大的一笔交易。 它让你思考。 When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.
Fergal: March for GPT-4 and stuff?
Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.
Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. 现在-
Emmet: The infrastructure for delivery is there.
Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.
Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?
“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”
Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.
Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.
Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.
Frictionless interfaces
Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.
AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.
“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”
What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.
Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.
I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.
You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.
Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.
Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.
Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.
Emmet: And the agent is clicking on coordinates on the screen for you.
Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?
Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.
Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.
Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?
“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”
Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”
Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.
Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.
I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.
Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.
Fergal:但在未来,你可能会对你的经纪人说一些话,比如,“嘿,我想编辑我昨天拍的那些照片。” 它知道你和你的复杂程度。 它知道当你想编辑你的照片时,你正在寻找四个过滤器和一个裁剪工具,或者它知道你想要做超级专业缩放器的东西。 它会在其模式库中为每个模式库寻找最佳界面,并为您呈现该界面。
“这完全取决于你正在做的任务。 如果你是一名飞行员,你不会想要说,‘是时候降落飞机了! 嘿,法学硕士,为我自动组装一个界面'”
埃米特:然后你说,“实际上,我想要它更专业一点。” 它说,“好的,我会给你专业版的用户界面。” 它动态地呈现它。
Fergal:你看,有些任务你不想学习使用界面。 Des 最近在另一个播客中谈到了这个。 您需要在 Workday 中更新您的休假时间,并且您不想学习该接口。 你只想完成任务。 还有其他的,比如你是专业的程序员,我需要学习使用IDE。 一些设计师已经非常详细地考虑了我想要和需要做的事情,那里可能有一些轻量级的定制,但仍然有一个我将学习使用的设计良好的界面。 我认为前者的界面,我想做的任务,将会消失,或者其中很多将在临时基础上呈现。 对于后者,是的,他们将具有适应性。
埃米特:我同意你所说的所有内容。 它也发生在我身上额外的细微差别。 这完全取决于您正在执行的任务。 如果你是一名飞行员,你不会想说,“是时候降落飞机了! 嘿,LLM,自动组装一个界面让我去做。” 会有监管之类的,我敢肯定。 但这确实反映了其中一个巨大的差异,它来自与计算机的合作,我们一直认为它们是这种高度确定性的、二进制的、开/关开关驱动的真值机器,现在,突然之间,这正在发生很大变化。 这是一个巨大的变化,以及我们正在描述的所有内容——您可以期待什么,您可以期待它如何为您个人工作,以及您对它的可替代性或控制量。 我认为我们将开始看到更多令人兴奋的实验分歧,而我们今天拥有的定制水平,您可以在其中更改壁纸或任何字体大小,相比之下可能会显得苍白无力。
朝向圆心
埃米特:你还说了一些我想回过头来的有趣的事情。 想象一下,大部分设计师都是从图书馆组装起来的。 用户界面设计的任务很有趣,因为我们一直在为设计系统做准备。 设计系统是组件的模式库。 如果你正在构建一个大产品,你希望它是一致的,并且你希望能够快速地将它组合在一起。 因此,我们一直在奠定的很多基础工作和我们一直在构建的系统,甚至是设计团队,可能还有工程团队,构建可以被这些系统快速重用的组件,都是有针对性的提高我们快速构建这些工具的能力。 您所描述的是采用您的设计系统并从中构建 UI 的东西,而且它似乎并不遥远。
Fergal:或者它可能采用标准的开源设计系统并从中构建工具。 我不知道这是否会在个别公司层面发生,或者是否会在广泛的横向层面发生。
埃米特:是的,那会很无聊。 这将是悲剧性的。 在 iOS 7 之前,我们有拟物化和一切,然后他们转向了超级固执己见的扁平化设计,整个行业都受到苹果主导地位的影响,以至于所有的网站开始看起来都一样。 Apple 发布了他们的人机界面指南并说:“看,iPhone 应用程序现在应该看起来像这样。” 但在我看来,这导致了多样性的扁平化和更无聊的网络。 这是为这些可以自行构建的系统服务。
Fergal:你可以告诉你的经纪人你想让它看起来时髦复古。 你必须想象那会到来,而且我认为就人们实际使用的内容而言,事情会变得更加可定制,因为你有一个智能层,它了解如何构建与给定团队的界面。 你今天可能会那样做。 如果您今天开始为用户界面构建 Midjourney,您可能会做到。 我们有 GPT-4,可以生成代码或 CSS 来编写用户界面,我们有图像合成模型,你可以在其中嵌入所有图像和文本,然后将它们压缩在一起。 我敢打赌,您可以非常快地构建一些东西。
埃米特:这很有趣,因为你在说这个,我的情绪反应就像,“不,你不明白; 你必须考虑可用性和理解人类以及所有这些东西。” 然后我想,“是的,它们就是我们谈到的推理能力,而且现在似乎已经具备了。” 所以当我们谈论它时,我有那种情绪……
弗加尔:危机。
Emmet: AI 正在为你的学科而来。 但老实说,我并不那么担心,因为我认为很多设计师,我也听说过对程序员来说也是如此,不会哀悼这在很大程度上加快和改进的繁重工作。 它实际上允许他们提高缩放级别并更多地考虑解决方案而不是解决方案的执行。 构建产品仍然是超级费力和超级耗时的,我认为如果我们从中取出一些繁重的工作,看看会发生什么会很棒。
Fergal:我的意思是,这是围绕工作、工作安置和工作变动的整个辩论,这里会发生一些事情。 当我听到这个消息时,我想,“哦,也许这意味着你不再需要设计师了——也许你只需要产品经理。” 产品经理现在可以做设计师过去做的所有事情。 也许你不需要程序员——也许你只需要一个产品经理。 以后我们都变成产品经理了。 我不知道。 也许会有更多这样的角色和工作,或者可能会更少。
埃米特:我认为我们应该了解这一点。 我在职业生涯中注意到的一件事是,你的资历越高,你对学科的要求就越低。 你必须变得更像一个一般的领导者。
Fergal:我和设计团队的某个人谈过这个。 当你在工程、产品或设计等学科处于初级阶段时,你就处于圆圈的边缘。 然后,当你变得更高级时,你会越来越接近中心。 圆圈的中心是产品。 因此,随着您的资历越来越高,您的世界越来越关注您正在构建的产品,而越来越少关注您的角度。
埃米特:我也能看出来。 那么,我们都将成为 PM,这是计划吗?
Fergal:是的,我的意思是,最终,这就是我们在这样的工作中想要做的。
Emmet:我的意思是,如果不是没有任何直接适用的实践技能的产品人员,PM 是什么,我说得对吗,Fergal?
Fergal Reid:是的,我知道。 什么是下午?
埃米特:我想我们应该结束了。 干杯,弗加尔。
弗加尔:谢谢,埃米特。