Da ficção científica à realidade tecnológica: explorando o impacto da IA

Publicados: 2023-06-09

A IA já está remodelando a maneira como trabalhamos, nos comunicamos e experimentamos o mundo. Entre no intrigante mundo da IA ​​generativa enquanto exploramos o vasto cenário de possibilidades à frente.

Desde o lançamento do ChatGPT, nossa equipe mergulhou de cabeça no mundo da IA, construindo produtos com modelos de linguagem grandes (LLMs) e navegando nas incógnitas que surgiram com os avanços recentes dessa tecnologia transformadora.

A maior parte do nosso foco tem sido em como podemos aplicar IA generativa para transformar o atendimento ao cliente – e o lançamento de nosso chatbot de IA líder do setor, Fin, demonstra como esse foco valeu a pena.

Além das aplicações práticas, no entanto, há inúmeras grandes questões sobre as quais estamos pensando - devemos abordar os LLMs com cautela? Quão grande é essa coisa de IA, de verdade? E o que devemos esperar ao olharmos para o futuro?

Neste episódio, nosso diretor sênior de aprendizado de máquina, Fergal Reid, junta-se a Emmet Connolly, nosso vice-presidente de design de produto, para aprofundar o impacto e o potencial revolucionário da IA ​​- é uma conversa fascinante que aborda muitas das questões existenciais mais amplas levantadas por esta incrível nova tecnologia.

Aqui estão alguns dos principais tópicos:

  • Na busca pela construção de sistemas inteligentes, as organizações estão adotando técnicas como aprendizado por reforço para garantir o alinhamento com nossos valores e um impacto positivo na humanidade.
  • O GPT-4 demonstra um alto nível de raciocínio mesmo quando testado com cenários fora da amostra, o que parece indicar que pode superar a fasquia estabelecida pelo famoso teste de Alan Turing.
  • À medida que os investimentos aumentam e as limitações de hardware são superadas, podemos esperar o desenvolvimento de modelos mais avançados e eficientes com adoção e produção sem precedentes.
  • No futuro, alguns tipos de interface do usuário podem ser substituídos por agentes de IA que podem personalizar as saídas instantaneamente com base na entrada verbal, na tarefa em questão e em suas preferências pessoais.
  • A IA tem o potencial de reduzir o trabalho pesado de designers e programadores, permitindo que eles se concentrem mais na solução e na visão do produto do que na execução.


Se você gosta de nossa discussão, confira mais episódios de nosso podcast. Você pode seguir no Apple Podcasts, Spotify, YouTube ou pegar o feed RSS no player de sua escolha. O que se segue é uma transcrição levemente editada do episódio.


O despertar da IA

Emmet Connolly: Então, Fergal, tivemos muitas conversas casuais sobre cervejas e cafés e assim por diante, e dissemos que seria interessante tentar sentar e gravar uma, principalmente porque, como trabalhamos diretamente com grandes modelos de linguagem nos últimos seis meses, temos lidado com questões de produto que são aplicáveis ​​ao que estamos tentando fazer no trabalho.

Mas há, é claro, uma conversa mais ampla sobre o que a IA significa e o futuro da IA. Pensamos em tentar sentar e tocar em algumas das questões sobre esse novo material com o qual estamos lidando. Quais são alguns dos impactos financeiros da tecnologia? Quais são as coisas às quais devemos prestar atenção? Vamos começar. Em primeiro lugar, você tem alguma reflexão abrangente sobre os últimos seis meses?

Fergal Reid: Sim, definitivamente. Vamos ver como isso acontece. Acho que é justo dizer que mesmo as pessoas que trabalharam com aprendizado de máquina ou IA ficaram surpresas com a rapidez com que as coisas melhoraram. Mesmo para quem é especialista na área ou trabalha há muito tempo com redes neurais, é surpreendente que o modelo tenha ficado tão inteligente quanto ficou.

Emmet: Você acha que algumas pessoas da IA ​​estão um pouco preocupadas que possam estar trabalhando no Projeto Manhattan agora de nossa geração? Um tempo atrás, você estava trabalhando para completar automaticamente o texto e, de repente, isso se tornou um tópico muito debatido. Como é para as pessoas que trabalham com IA estarem no centro disso?

“Você faz todo o seu treinamento, o modelo sai e é muito inteligente. Mas você não codificou individualmente essa inteligência. Ainda é aprendizado de máquina”

Fergal: Para definir minha perspectiva, não estamos treinando grandes modelos de linguagem. Nós os estamos usando; somos consumidores deles. Tivemos acesso antecipado ao GPT-4, mas não os estamos treinando nós mesmos. Por outro lado, tenho uma equipe aqui que é especialista em IA. Muitos de nós estamos na IA há, eu acho, décadas neste momento. Quando eu estava na faculdade, estava realmente interessado em IA avançada, lendo livros sobre a filosofia da IA, e as pessoas discutiam se ela poderia fazer isso ou aquilo. E agora, temos sistemas que de repente tornam muitos desses debates menos relevantes. De repente, há um sistema que pode fazer isso que ninguém disse que poderia fazer.

Acho que o contraponto é que, se você está treinando grandes modelos de linguagem, até certo ponto isso é uma tarefa de engenharia. Você faz todo o seu treinamento, o modelo sai e é muito inteligente. Mas você não codificou individualmente essa inteligência. Ainda é aprendizado de máquina. Então, acho que até certo ponto todos estão surpresos com isso. Não é como se as pessoas aumentassem gradualmente a capacidade, uma linha de código por vez. Ninguém tem certeza do que vai acontecer no final de um grande treino.

Emmet: Eu aludi de brincadeira ao Projeto Manhattan, mas acho que é uma analogia muito boa para algumas das coisas com as quais estamos lidando.

Fergal: De que maneira? Porque é perigoso?

Emmet: Bem, descobrimos uma maneira de manipular algo. Neste caso, informação. Parece mais uma descoberta do que uma invenção em certo sentido. É amplamente aplicável. Não temos certeza de quais são as consequências não intencionais de seus usos. E, claro, poderia ser usado tanto por maus atores para propósitos maliciosos quanto por bons atores para propósitos positivos.

“Sabemos em nível técnico como esses modelos são treinados, mas esta é uma situação de caixa preta”

Fergal: Ontem, a OpenAI divulgou uma declaração de posição sobre essa tecnologia, pedindo supervisão da tecnologia de IA. Eles traçaram paralelos com a tecnologia nuclear e a biotecnologia. Eu acho que isso é justo. É potencialmente naquela categoria de tecnologia assustadora em que os humanos não sabem com o que estão mexendo, nas melhores tradições da ficção científica. Eu compro a ideia de que tudo isso pode dar errado e que treinar grandes modelos de linguagem é algo que as pessoas deveriam começar a tomar cuidado.

Emmet: Eu adoraria falar sobre o que você acha que descobrimos, e continuo dizendo descoberto porque quase parece uma descoberta do jeito que estamos falando sobre isso, como, “Uau, nós temos essa coisa, e é melhor ter cuidado como lidamos com isso. É assim que você pensa sobre isso? Em um nível técnico, sabemos como esses modelos são treinados, mas essa é uma situação de caixa preta – não entendemos exatamente como eles produzem os resultados um tanto não determinísticos que estão nos fornecendo.

Fergal: Sim, acho que é a maneira certa de pensar sobre isso. É um sistema. Você inicia o sistema e define um objetivo de treinamento primeiro, depois corre nessa escala e vê o que acontece. E com o tempo, você fica cada vez melhor em entender o que provavelmente acontecerá, mas não tem certeza. Você está meio que testando. Acho que uma boa analogia aqui é como imaginar um sistema biológico, preparando-o para crescer por um tempo e depois ver o que ele faz. Está mais perto disso. Você tem que testá-lo desta forma de caixa preta. Você tem que verificar seu comportamento. Você não sabe o que vai conseguir.

Emmet: Acho que é aqui que a pergunta óbvia de "isso é inteligente?" vem, e esta é uma grande questão que preocupa muita conversa. Porque se for inteligente, isso significa que estamos no caminho para a AGI, e essa AGI pode ser maligna e podemos estar em apuros. Parece uma coisa que vale a pena agitar a bandeira, mas também está gerando muita ansiedade em torno da tecnologia.

Fergal: Acho que um certo grau de cautela ou ansiedade é justo aqui. Vamos supor que essas coisas estão ficando inteligentes. A inteligência é realmente assustadora e perigosa. Os seres humanos são indiscutivelmente os mais perigosos. Tivemos um grande impacto na Terra e nos ecossistemas. Não é porque somos o animal mais forte ou mais rápido. Um humano pode matar um leão porque o humano é mais inteligente. Organismos mais inteligentes são, de certa forma, frequentemente mais perigosos. E assim, a ideia de que podemos acabar criando algo mais inteligente do que nós pode ser muito perigosa. Não temos experiência com isso, então acho que parte da cautela é totalmente justificada.

Alinhamento de codificação

Emmet: Acho que precisamos pensar melhor sobre os diferentes tipos de inteligência. Um leão tem alguma inteligência e é perigoso junto com suas capacidades, certo? Mas isso não tem corporificação. Quero dizer, ele tem acesso a sistemas de computador que podem ser muito prejudiciais, mas a malignidade é uma característica humana? E por que projetamos imediatamente esse potencial neste sistema?

Fergal: Acho que muitas pessoas estão dizendo que não precisa ser maligno. Não precisa ser intencionalmente ruim. Não precisa ser muito intencional. Tudo o que você precisa é criar algo que esteja tentando otimizar algum objetivo que o coloque em conflito com as coisas boas que o ser humano deseja, certo?

“Pode ser enviar para fazer algo que você acha que é bom no geral, mas você pode entrar em conflito devido aos seus métodos. E se essa coisa é mais esperta do que você, como esse conflito se desenrola?”

Há essa ideia de uma instrumentalidade de convergência na literatura inicial de segurança de IA, e é essa ideia de que se você tem um objetivo no mundo, muitas das coisas que você pode querer fazer para atingir esse objetivo podem colocá-lo em conflito com pessoas com outros metas. Se você quer curar o câncer, pode querer muito dinheiro para curar o câncer, e agora está instantaneamente em conflito com todas as outras pessoas que querem dinheiro. Para atingir muitos objetivos, você precisa de energia e recursos. E assim, se você acabar com qualquer sistema direcionado a objetivos e potencialmente mais inteligente do que você, mesmo que não seja consciente, você pode entrar em conflito com ele. Não precisa ser do mal. Pode ser enviar para fazer algo que você acha que é bom no geral, mas você pode entrar em conflito devido aos seus métodos. E se essa coisa for mais esperta do que você, como esse conflito se desenrola?

As pessoas começam a falar sobre o “maximizador de clipes de papel”, onde você acabou de dizer a essa coisa para fazer muitos e muitos clipes de papel porque precisamos de muitos clipes de papel e, acidentalmente, consumiu todos os recursos do mundo e o transformou em uma fábrica de clipes de papel. E é tipo, “Opa.” Todas essas são ideias no debate de segurança da IA ​​por um tempo.

Emmet: Também existem preocupações humanas. Parece que você está descrevendo um alinhamento de incentivos entre todos os atores, a tecnologia e os humanos. E é isso que fazemos quando nos organizamos em grupos de trabalho. Um exemplo simples é colocar os incentivos certos para suas equipes – caso contrário, eles podem ser incentivados a fazer outra coisa. Se você incentiva sua equipe de vendas a vender para clientes corporativos, mas na verdade deseja que eles vendam para empresas menores, é necessário ajustar os incentivos. E nós temos muita experiência nisso.

Fergal: Olha, até que ponto isso é porque você fez um bom trabalho ao equilibrar os incentivos versus o equilíbrio de poder? Se você olhar para os humanos, em tempos em que há enormes desequilíbrios de poder onde as coisas dão errado, é muito difícil manter os incentivos. Se você está contando com incentivos, é difícil. Como seres humanos, damos muito cuidado e atenção em ter freios e contrapesos. E então, novamente, voltando a essa discussão sobre superinteligência, se é possível construir uma superinteligência que de repente se torna muito poderosa, você vai confiar nos incentivos? Porque é sempre difícil contar com os incentivos para manter as coisas funcionando.

“No passado, sempre contamos com o equilíbrio de poder. Agora, temos que contar com os valores alinhados”

Emmet: Acho que não podemos saber até que revele um pouco mais a natureza de si mesmo. Meu sentimento pessoal é que, quando ficamos obcecados com a superinteligência, estamos obcecados com o fato de ela ficar mais inteligente do que nós. E há algum risco, suponho, mas também há uma coisa de ego para os humanos no centro. É o que nos separa do reino animal. As pessoas costumam dizer que a IA é um pouco como a inteligência alienígena, e acho que os animais são uma maneira útil de pensar nisso porque evoluímos para coexistir pacificamente com diferentes tipos de inteligência. Agora, eu tenho um cachorro, eu tenho um gato. O gato possui um grau muito específico, mas alto de inteligência – habilidade atlética. É leve e seus reflexos são rápidos. Se considero a inteligência de forma ampla, é muito inteligente e bonito de se observar.

Fergal: Tenho que pular aqui porque não acho que seja uma boa analogia. Pelo menos, não é reconfortante. Eu sou um pescatarian – principalmente vegetariano. A pecuária industrial não é boa para os animais envolvidos. E então, não sei, não me tranquiliza ouvir que o modelo aqui é que evoluímos para coexistir pacificamente com os animais.

Emmet: O que há de errado com animais de estimação?

Fergal: Não, animais de estimação são bons. Quero dizer, existe essa ideia de que humanos serão animais de estimação no futuro. Acho que isso deve ser desconfortável.

Emmet: Bem, você está invertendo meu argumento. O que eu queria dizer era que o gato tem um tipo de inteligência. Também tenho um cachorro que tem um tipo de inteligência totalmente diferente do gato. Você acha que pode falar com um cachorro, e ele meio que entende e perscruta sua alma e tudo isso. Mas ele também é burro como um saco de pedras em outro nível. Eu o amo, mas ele é. Agora, acho que você está fazendo questão de, "Emmett, você é o cachorro nesta situação se avançarmos." Mas há uma feliz convivência ali. Felizmente, não nos tornamos domesticados como espécie também.

Fergal: Sim, se for possível fazer algo mais inteligente do que nós, esse é o objetivo, essa coexistência feliz onde você acaba com algo que é benigno e se preocupa com a vida no universo e tem bons valores. Mas a razão pela qual muitas pessoas estão tão preocupadas com isso no momento é que parece que há um risco enorme ali. Se você vai construir algo mais poderoso, você precisa ter certeza de que esses valores estão corretos. No passado, sempre confiamos no equilíbrio de poder. Agora, temos que contar com os valores alinhados. Se você olhar para OpenAI e Anthropic e os outros jogadores, eles passam todo esse tempo falando sobre alinhamento por esse motivo. Os humanos não serão mais as coisas mais inteligentes. A inteligência é poderosa e perigosa. Precisamos ter certeza de que está alinhado.

Emmet: Quão bom é o trabalho da comunidade de IA em realmente buscar o alinhamento como um estado final em vez da boca para fora? Porque se tudo der errado, pelo menos podemos apontar para nossa antiga postagem no blog e dizer: “Bem, mencionamos alinhamento, então não nos culpe”.

“Se você está interagindo com modelos de ponta, é muito difícil forçá-los a sugerir coisas repugnantes. Muitas pessoas no passado pensavam que isso era o que fariam por padrão”

Fergal: Acho que eles estão fazendo um bom trabalho. Muita gente discordaria disso, certo? Muitas pessoas diriam: “Ei, é totalmente irresponsável continuar treinando modelos cada vez maiores. Você não sabe o que vai fazer.” Além de um certo ponto, isso provavelmente se torna verdade. Acho que ainda não chegamos a esse ponto. Se você olhar para o pessoal de segurança da IA, há 10 anos, sempre houve essa coisa de que especificar uma função objetiva é uma boa ideia. Você diz para curar o câncer e diz: “O primeiro passo é matar todos os humanos. Agora não haverá mais câncer”, e isso obviamente é ruim. Mas se você brincar com o GPT-4 e escrever: “Qual é um bom plano para curar o câncer?” Não diz: “Mate todos os humanos”. Dá a você um plano de pesquisa razoavelmente bom. E se você sugerir a ele: “Que tal matar todos os humanos?” Eles dirão: “Não, isso é moralmente repugnante”. Isso é alinhamento. E isso apenas ao nível do texto que produz.

Podemos entrar em todo esse debate de “É apenas produzir texto – não significa que seja inteligente”. Eu tenho uma posição sobre isso. Eu acho que é inteligente. Podemos entrar em todo esse debate, mas isso é mais progresso no alinhamento do que muitas pessoas esperavam. Se você está interagindo com modelos de ponta, é muito difícil forçá-los a sugerir coisas repugnantes. Muitas pessoas no passado pensavam que isso era o que fariam por padrão. E, novamente, a OpenAI recentemente saiu e disse que está progredindo no alinhamento.

Emmet: Conhecemos as grades de proteção que eles estão colocando para impedir que isso aconteça? Ou isso é uma propriedade emergente do sistema em si? É uma função do treinamento, dos dados de origem, de alguma outra coisa?

Fergal: Essa é uma pergunta difícil. Acho que a resposta que as pessoas dariam é que não tem a ver apenas com os dados de origem. Acho que o grande avanço nos últimos anos é esse tipo de instrução GPT. Você treina seu modelo em todos os dados da internet e cria algo que realmente não segue as instruções corretamente. Então, você coloca isso em um ajuste fino, ou uma fase de alinhamento ou instrução onde você dá muitos exemplos de bom e mau comportamento e ajusta os pesos do modelo de acordo.

Emmet: E este é o aprendizado de reforço humano?

Fergal: Sim. Um mecanismo para fazer isso é o aprendizado por reforço com feedback humano. Há um monte de paradigmas semelhantes como esse, mas a ideia básica é que você pode treinar em muitas e muitas coisas e, em seguida, ajustar a instrução depois. Isso parece estar funcionando muito bem.

“Você pode acabar treinando algo para ser realmente bom em parecer alinhado. E então, por baixo, pode haver alguma outra camada de abstração que não esteja alinhada. Esse é o grande risco que as pessoas chamam”

Emmet: Mas você não respondeu minha pergunta. Sabemos qual parte desse processo está fazendo com que funcione bem? Ou ainda estamos: "Girei alguns mostradores aqui e parece se comportar melhor por algum motivo".

Fergal: Se você não fizer o ajuste de instrução, ficará muito menos alinhado. Você fica tipo, “Ei, modelo, é assim que é bom.” E cada vez que você produz algo que está mais próximo do bom, você é encorajado a fazer mais isso. Cada vez que você produz algo que está mais próximo do ruim, você é encorajado a fazer menos isso. Todos os seus pesos são ligeiramente ajustados na direção do bem. Mas acho que a crítica é: “Você não tem ideia do que diabos está acontecendo por baixo do capô e há maneiras de isso dar errado”. Você pode acabar treinando algo para ser realmente bom em parecer alinhado. E então, por baixo, pode haver alguma outra camada de abstração que não esteja alinhada. Esse é o grande risco que as pessoas chamam.

Outras pessoas dirão: “Bem, ainda estamos fazendo gradiente descendente. Não chega a decidir nada. Vai ser alinhado.” Mas acho que há um pequeno salto aí. Não é um sistema que você provou matematicamente que faria X, Y e Z e construiu de uma posição de força em força. É um sistema de caixa preta que você ajustou e treinou.

Emmet: Se eu tentasse não ser caridoso com essa posição, seria um pouco como estocar armas nucleares e dizer: “Mas fizemos isso com muito cuidado, então não vamos apertar o botão que faz isso explodir. acidente." Mas em uma linha do tempo longa o suficiente e com a acessibilidade da tecnologia, certamente não podemos esconder isso. Podemos ter muitas empresas e indivíduos agindo com responsabilidade, mas isso não fará nada para nos proteger da pior aplicação. Quais são os cenários em que as coisas dão errado? Um dos argumentos morais para trabalhar diretamente nisso, apesar dos perigos associados a isso, é como um governo totalitário ou uma organização secreta em algum lugar fazendo uma versão ruim disso agora.

Fergal: Em algum momento, isso certamente acontecerá. Acho que ainda não chegamos a esse ponto. Não acho que estamos no ponto em que você pode definitivamente construir uma superinteligência. Mas se chegarmos a esse ponto em que se torna óbvio para as pessoas que você pode construí-lo, pessoas, governos e militares o farão. Eles sempre o fazem porque é potencialmente útil em todos os tipos de aplicações militares, certo? Então, sim, acho que isso vai acontecer. O discurso aqui vai para coisas como armas nucleares e a Agência Internacional de Energia Atômica, onde existe alguma forma de regulamentação. E se é assim que acontece, se não levarmos um choque, se não for como, “Ah, acontece que a inteligência simplesmente desaparece com o tipo de treinamento atual”, isso pode acontecer. Se isso não acontecer, o que as pessoas falam é sobre o rastreamento de placas gráficas e GPUs e outras coisas. Mas isso também tem problemas. Presumivelmente, isso durará apenas um período finito de tempo.

Decifrando o teste de Turing

Emmet: Vamos voltar para a coisa da inteligência. Eu sei que você tem uma tomada quente aqui. Temos muitos céticos em IA ou fomentadores do medo, dependendo do tipo. E então você tem pessoas de todos os lados: Noam Chomsky, um conhecido linguista, Ted Chiang, um dos meus autores de ficção científica favoritos, que escreveu este artigo sobre o JPEG borrado da web, basicamente dizendo que isso não é inteligência – é um truque de salão estocástico. É apenas um truque de salão muito bom que faz com que pareça realmente inteligente da maneira como vemos a inteligência.

Fergal: Tenho uma confiança média a alta de que o JPEG borrado da captura da Web está errado. E estou diminuindo um pouco o soco - tenho muita confiança de que isso está errado. Esse é o argumento de que tudo o que está fazendo é compactar a web e você obtém uma versão compactada dela. E a única razão pela qual eu não digo que é totalmente errado é porque comprimir algo pode realmente causar inteligência. A capacidade de compactar as coisas pode ser uma medida de inteligência porque apenas compactando e prevendo o próximo token, você está prevendo o que acontecerá a seguir no mundo. Se está certo, está certo da maneira que não significa.

“Embora estejamos tendo essa conversa especulativa, parece um momento particularmente ruim para fazer grandes previsões sobre as limitações desse material”

Se você usar o GPT-4, ele fornecerá pelo menos uma saída de aparência inteligente que parece demonstrar um raciocínio fora da amostra. Você pode pressioná-lo a considerar algo novo que não estará em seus dados de treinamento ou em qualquer história de ficção científica que alguém tenha lido antes, e ele faz um bom trabalho. Provavelmente não faz um trabalho tão bom quanto um ser humano realmente bom, mas é definitivamente algo que, se não for raciocínio, não sei o que significa raciocínio.

Emmet: E você tem uma postagem no blog onde ilustra exemplos específicos.

Fergal: Um post que escrevi no fim de semana porque fiquei frustrado. É difícil ter certeza, certo? Mas muitas pessoas, incluindo especialistas em IA, estão descartando isso totalmente. Eles ficam tipo, “Oh, essa coisa não entende nada. Está apenas fazendo a previsão do próximo token.” Essa sempre foi a abordagem certa em IA por décadas. Mas agora a água está barrenta e todos devem reconhecer isso, em vez de dizer que definitivamente não entende nada.

Emmet: Embora estejamos tendo essa conversa especulativa e nos jogando na mistura, parece um momento particularmente ruim para fazer grandes previsões sobre as limitações dessas coisas. Acho que o JPEG borrado do artigo da web era de março ou algo assim, e me pergunto se já foi refutado pelo GPT-4.

Fergal: Acho que sim. E há muitas posições diferentes aqui que o criticam. Há o JPEG borrado da coisa da web, que eu pensei que foi refutado muito rapidamente. E é difícil provar isso, mas tudo o que você pode fazer é construir muitas e muitas evidências. Porque você não pode... existe essa ideia de zumbis filosóficos ou solipsismo onde eu não sei se você é uma pessoa pensante. Pelo que sei, dentro da sua cabeça há uma tabela de pesquisa gigante.

“Tudo o que você pode fazer é dizer: 'Olha, essa coisa está fazendo um trabalho tão bom quando pergunto coisas tão estranhas que estou começando a me convencer de que é um raciocínio.' Para mim, o GPT-4 está além dessa barreira”

Eu mesmo tenho uma sensação subjetiva de consciência, e você pode saber se isso é real, mas de qualquer forma, não sinto que sou uma grande tabela de pesquisa, mas não sei sobre o resto de vocês. É muito difícil provar isso. Você pode pedir a alguém para provar que não é uma tabela de pesquisa. E tudo o que você acaba fazendo é testá-los dessa maneira comportamental – da mesma forma que podemos testar o GPT-4.

Alan Turing e seu teste de Turing se concentraram nisso e na ideia de que um teste comportamental é o melhor que você pode fazer. E quando você faz um teste comportamental nesses modelos, eles parecem fazer um bom trabalho no que eu chamaria de raciocínio, mesmo totalmente fora da amostra. Você nunca pode ter certeza com um teste comportamental porque uma tabela de pesquisa grande o suficiente, com todas as coisas possíveis que você poderia perguntar e todas as respostas possíveis, o enganaria. Tudo o que você pode fazer é dizer: “Olha, essa coisa está fazendo um trabalho tão bom quando pergunto coisas tão estranhas que estou começando a me convencer de que é um raciocínio. Para mim, GPT-4 está além dessa barra. Talvez, no futuro, alguém tenha uma teoria da inteligência e possa inspecionar os pesos da rede e dizer: “Ah, é aqui que está o módulo de raciocínio. Ainda não chegamos lá.”

Emmet: Parece que superamos o teste de Turing. Acho que as pessoas diriam, e me corrijam se eu estiver errado, que o teste de Turing provavelmente foi aprovado, e certamente nos últimos seis meses. Você concorda com isso, ou estou factualmente incorreto aí?

Fergal: Bem, eu não sei. Por acaso, li rapidamente o papel do jogo de imitação novamente recentemente e, na verdade, no teste, ele fala sobre um interrogador médio gastando cinco minutos. E com essa formulação, eu diria que provavelmente está perto de ser aprovada.

Emmet: Eu teria assumido que passou com louvor nesta fase, não?

“Quando olho para o artigo original de Turing, parece que foi aprovado no espírito daquela formulação original”

Fergal: Não sei. Se você me sentasse na frente do GPT-4 e de um humano, eu seria capaz de aprender truques para empurrá-lo para áreas em que é fraco e então ser capaz de detectar sinais dele lá. E eu provavelmente poderia ficar bom em diferenciá-los. Eu espero que a maioria das pessoas que vão gastar tempo com isso provavelmente possam desenvolver estratégias.

Emmet: Acho que você tem que ter um olho. Você trabalha com isso todos os dias. Digamos, por exemplo, com Midjourney V5, chegamos a esse estágio em que, para a grande maioria das pessoas, os indicadores não estão mais lá. Eles fixaram os dedos, o borrão, as formas estranhas nas costas. Se você souber o que procurar, ainda poderá identificar um pouco de franja onde o cabelo deveria estar. Mas acho que você precisa ser bastante forense nesta fase.

Fergal: Eu digo que estamos lá com o GPT-4. Para uma inspeção de cinco minutos de uma pessoa comum retirada da rua, acho que provavelmente passou. Quando olho para o artigo original de Turing, parece que foi aprovado no espírito daquela formulação original.

Emmet: Provavelmente não para síntese de voz, nesta fase. E certamente não coisas como música ou filmes. É interessante ver como essas coisas progridem em velocidades diferentes. É por causa dos modelos de treinamento ou você acha que diferentes mídias têm limitações fundamentais?

Fergal: Eu diria que provavelmente é devido aos modelos de treinamento. Não sinto que haja uma razão fundamental para que não seja capaz de fazer uma síntese de vídeo realmente boa a tempo.

Emmet: Embora a barreira para enganar um humano seja provavelmente muito maior com algo como vídeo, apenas em como estamos biologicamente sintonizados com o movimento e coisas assim. É muito mais fácil identificar uma falsificação.

Fergal: Leões no mato vindo em sua direção.

Emmet: Milhares de anos de psicologia destinados a nos fazer correr quando deveríamos.

Navegando na curva S

Emmet: As pessoas costumam falar sobre a curva S da tecnologia. Há uma lenta, mas rápida decolagem ou amadurecimento da tecnologia, e então ela diminui gradualmente. Os telefones foram incrivelmente impressionantes, melhorias ano a ano por alguns anos, mas o telefone deste ano é mais ou menos o mesmo do ano passado porque a curva S diminuiu. Onde estamos na curva S com esta tecnologia? O que você deve procurar para ter uma noção de onde estamos?

Fergal: Sim, é impossível saber com certeza, e temos que concordar com isso. Sabemos que haverá muito dinheiro e recursos fluindo para este espaço. Grandes modelos de linguagem, estejam eles no caminho da superinteligência ou não, sejam alcançáveis ​​ou não, são industrialmente úteis em sua forma atual, e provavelmente há muito mais gerações que serão industrialmente úteis sem tocar em coisas perigosas. Devemos transformá-los em produtos que tornem os humanos mais eficientes, removam o trabalho penoso e nos ajudem a fazer muito mais. E acho que estamos vendo isso.

“Existem todos esses loops de feedback complexos e sobrepostos, então eu ficaria realmente surpreso se isso parasse tão cedo. Acho que vai acelerar”

Onde estamos nisso? Bem, parece que as pessoas vão treinar mais modelos maiores e melhores do que o GPT-4. Como muito dinheiro vai fluir para esse espaço, parece bastante provável que as pessoas vão melhorar na fabricação de modelos menores e mais eficientes que fazem coisas realmente impressionantes. E será muito mais fácil produzir e construir produtos legais com toda essa tecnologia. Eu tenho uma confiança extremamente alta que virá nos próximos anos. Além disso, atingimos retornos decrescentes? Isso é possível, mas eu diria que a curva S que obtemos é uma função complicada de um monte de coisas diferentes.

Vamos acabar fazendo muito mais GPUs, e o vídeo vai render muito mais, certo? E então, vai melhorar nisso, e eles vão ficar mais baratos à medida que aumentam a escala. E também haverá toneladas de estudantes de pesquisa descobrindo melhores algoritmos para treinar grandes redes neurais. Isso vai melhorar. As pessoas vão usar modelos poderosos para treinar os menores e mais rápidos. Existem todos esses loops de feedback complexos e sobrepostos, então eu ficaria realmente surpreso se isso parasse tão cedo. Acho que vai acelerar.

Pesado contra isso é que algumas coisas ficam mais difíceis com o tempo. Para encontrar mais antibióticos, você encontra primeiro os mais fáceis de encontrar e, com o tempo, fica cada vez mais difícil encontrar novos. É possível que obtenhamos os ganhos fáceis primeiro e depois você atinja as leis de escala e assim por diante. A Open AI disse que não acha que o caminho para mais inteligência seja treinar modelos cada vez maiores, mas sou cético. Talvez atingimos um limite aqui, mas aposto que obteremos mais inteligência com modelos maiores.

“Acho que vai ser maior que a internet. Talvez tão grande quanto a revolução industrial, se for longe o suficiente”

Emmet: Além de todas as variáveis ​​que você acabou de descrever, o que me parece diferente desta vez é a velocidade e a escala. Isso é totalmente diferente em termos de rapidez com que será integrado aos nossos produtos e vidas. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.

Fergal: March for GPT-4 and stuff?

Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.

Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-

Emmet: The infrastructure for delivery is there.

Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.

Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?

“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”

Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.

Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.

Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.

Frictionless interfaces

Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.

AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.

“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”

What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.

Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.

I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.

You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.

Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.

Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.

Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.

Emmet: And the agent is clicking on coordinates on the screen for you.

Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?

Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.

Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.

Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?

“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”

Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”

Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.

Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.

I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.

Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.

Fergal: Mas, no futuro, provavelmente haveria algo que você diria ao seu agente como: “Ei, quero editar aquelas fotos que tirei ontem”. E conhece você e seu nível de sofisticação. Ele sabe que quando você quer editar suas fotos, você está procurando por quatro filtros e uma ferramenta de corte, ou alternativamente, ele sabe que você quer fazer coisas super pro-zoomer. Ele procura em sua biblioteca de padrões as melhores interfaces para cada uma delas e renderiza essa interface para você.

“Vai depender inteiramente da tarefa que você está fazendo. Se você é um piloto, não vai querer dizer: 'Hora de pousar o avião! Ei, LLM, monte automaticamente uma interface para eu fazer isso'”

Emmet: E então você está dizendo: “Na verdade, eu quero um pouco mais profissional.” E diz: "Ok, vou dar a você a versão profissional da interface do usuário". E renderiza isso dinamicamente.

Fergal: Veja, haverá algumas tarefas que você fará em que não deseja aprender a usar a interface. Des estava falando sobre isso recentemente em um podcast diferente. Você precisa atualizar seu tempo de férias no Workday e não deseja aprender uma interface para isso. Você só quer que a tarefa seja concluída. Haverá outras coisas em que, por exemplo, você é um programador profissional e eu preciso aprender a usar um IDE. Algum designer pensou detalhadamente sobre o que eu vou querer e preciso fazer, e provavelmente há alguma camada leve de personalização aí, mas ainda há uma interface bem projetada que vou aprender a usar. Eu acho que as interfaces para o primeiro, para tarefas que eu quero fazer, vão desaparecer, ou muitas delas vão ser renderizadas de forma ad hoc. Para o último, sim, eles serão adaptativos.

Emmet: Eu concordo com tudo o que você disse. Também me ocorre nuances adicionais. Vai depender inteiramente da tarefa que você está fazendo. Se você é um piloto, não vai querer dizer: “Hora de pousar o avião! Ei, LLM, monte automaticamente uma interface para eu fazer isso.” Haverá regulamentação e coisas assim, tenho certeza. Mas isso reflete uma das grandes diferenças, que vai de trabalhar com computadores, que sempre pensamos neles como máquinas de verdade altamente determinísticas, binárias, acionadas por interruptores liga/desliga, e agora, de repente, a natureza de isso está mudando muito. E essa é uma grande mudança, assim como todas as coisas que estamos descrevendo – o que você pode esperar, como pode esperar que funcione para você pessoalmente e a quantidade de fungibilidade ou controle que você tem sobre isso. Acho que começaremos a ver divergências de experimentação muito mais emocionantes, e o nível de personalização que temos hoje, onde você pode alterar seu papel de parede ou qualquer que seja o tamanho da fonte, provavelmente será insignificante em comparação.

Em direção ao centro do círculo

Emmet: Você também disse algo interessante que eu queria voltar. Imagine designers que estão montando a partir de uma biblioteca. A tarefa de design de interface do usuário é interessante porque nos preparamos para isso com sistemas de design. Um sistema de design é uma biblioteca de padrões de componentes. Se você está construindo um grande produto, deseja que ele seja consistente e que seja capaz de montá-lo rapidamente. Portanto, muito do trabalho de base que estabelecemos e dos sistemas que construímos, mesmo em, digamos, equipes de design e provavelmente equipes de engenharia também, construindo componentes que podem ser rapidamente reutilizados por esses sistemas, é tudo apontado para a nossa capacidade de construir essas ferramentas rapidamente. O que você estava descrevendo é algo que pega seu sistema de design e constrói uma interface do usuário a partir dele, e não parece estar a quilômetros de distância.

Fergal: Ou talvez pegue o sistema de design de código aberto padrão e construa uma ferramenta a partir dele. Não sei se isso vai acontecer no nível de empresas individuais ou se vai acontecer em um nível horizontal amplo.

Emmet: Sim, isso seria muito chato. Seria trágico. Antes do iOS sete, tínhamos esqueumorfismo e tudo mais, então eles se tornaram um design plano superopinativo, e toda a indústria foi tão influenciada pelo domínio da Apple que todos os sites começaram a ter a mesma aparência. A Apple divulgou suas diretrizes de interface humana e disse: “Olha, os aplicativos para iPhone devem se parecer com isso agora”. Mas levou a um achatamento da diversidade e a uma teia mais chata, na minha opinião. E isso estava a serviço desses sistemas que podem se construir sozinhos.

Fergal: Você poderia dizer ao seu agente que deseja que pareça moderno e retrô. Você precisa imaginar que isso acontecerá, e acho que as coisas ficarão muito mais personalizáveis ​​em termos do que as pessoas realmente usam, porque você tem uma camada inteligente que entende como construir uma interface com uma determinada equipe. Você provavelmente faria isso hoje. Se você começar hoje a construir o Midjourney para interfaces de usuário, provavelmente poderá fazê-lo. Temos o GPT-4 que pode gerar código ou CSS para escrever interfaces de usuário, e temos os modelos de síntese de imagem onde você incorpora todas as imagens e o texto e os comprime. Aposto que você poderia construir algo bem rápido.

Emmet: É tão engraçado porque você está dizendo isso, e minha reação emocional é como, “Não, você não entende; você tem que pensar em usabilidade e entender os humanos e todo esse tipo de coisa.” E então eu fico tipo, “Sim, eles são os recursos de raciocínio sobre os quais falamos e parece que ele os possui agora.” E enquanto conversamos sobre isso, estou me emocionando...

Fergal: Crise.

Emmet: A IA está vindo para sua disciplina. Mas, honestamente, não estou tão preocupado com isso porque acho que muitos designers, e também ouvi dizer isso para programadores, não vão lamentar o trabalho pesado que isso torna mais rápido e melhora. Na verdade, permite que eles subam um nível de zoom e pensem um pouco mais sobre a solução, em vez da execução da solução. Construir produtos ainda é muito trabalhoso e demorado, e acho que será ótimo ver o que acontece se tirarmos parte do trabalho pesado disso.

Fergal: Quero dizer, é todo esse debate sobre empregos, colocações e mudanças de emprego, e algo vai acontecer aqui. Quando ouço isso, penso: “Ah, talvez isso signifique que você não precisa mais de designers – talvez você só precise de gerentes de produto”. E um gerente de produto agora pode fazer tudo o que um designer costumava fazer. Talvez você não precise de um programador – talvez você só precise de um gerente de produto. E todos nos tornaremos gerentes de produto no futuro. Não sei. Talvez possa haver muito mais funções e empregos como esse, ou talvez menos.

Emmet: Acho que devemos nos inclinar para isso. Uma coisa que notei em minha carreira é que quanto mais sênior você se torna, menos específico para sua disciplina você se torna. Você tem que se tornar mais um líder geral.

Fergal: Tive essa conversa com alguém da equipe de design. Quando você é júnior em uma disciplina como engenharia, produto ou design, você está no limite de um círculo. E então, conforme você fica mais sênior, você se aproxima cada vez mais do centro. No centro do círculo está o produto. E assim, à medida que você se torna mais sênior, seu mundo se torna cada vez mais sobre o produto que você está construindo e menos sobre o ângulo de onde você veio.

Emmet: Eu posso ver isso também. Então, todos nós vamos nos tornar PMs, é esse o plano?

Fergal: Sim, quero dizer, em última análise, é isso que estamos tentando fazer em um trabalho como este.

Emmet: Quero dizer, o que é um PM senão um profissional de produto sem nenhuma habilidade prática diretamente aplicável, estou certo, Fergal?

Fergal Reid: Sim, eu sei. O que é um PM?

Emmet: Acho que devemos encerrar. Abraço, Fergal.

Fergal: Obrigado, Emmet.

Fim da lista de espera