De la ciencia ficción a la realidad tecnológica: explorando el impacto de la IA

Publicado: 2023-06-09

La IA ya está remodelando la forma en que trabajamos, nos comunicamos y experimentamos el mundo. Ingrese al intrigante mundo de la IA generativa mientras exploramos el vasto panorama de posibilidades que tenemos por delante.

Desde el lanzamiento de ChatGPT, nuestro equipo se ha adentrado de cabeza en el mundo de la IA, creando productos con modelos de lenguaje extenso (LLM) y navegando por las incógnitas que han surgido con los avances recientes de esta tecnología transformadora.

La mayor parte de nuestro enfoque se ha centrado en cómo podemos aplicar la IA generativa para transformar el servicio al cliente, y el lanzamiento de nuestro chatbot de IA líder en la industria, Fin, demuestra cómo ese enfoque ha valido la pena.

Sin embargo, más allá de las aplicaciones prácticas, hay innumerables preguntas importantes en las que hemos estado pensando: ¿deberíamos abordar los LLM con precaución? ¿Qué tan grande es esto de la IA, en verdad? ¿Y qué debemos esperar al mirar hacia el futuro?

En este episodio, nuestro director sénior de aprendizaje automático, Fergal Reid, se une a Emmet Connolly, nuestro vicepresidente de diseño de productos, para profundizar en el impacto y el potencial revolucionario de la IA: es una conversación fascinante que aborda muchos de los problemas existenciales más amplios planteados por esta increíble nueva tecnología.

Estos son algunos de los puntos clave:

  • En la búsqueda de construir sistemas inteligentes, las organizaciones están adoptando técnicas como el aprendizaje reforzado para garantizar la alineación con nuestros valores y un impacto positivo en la humanidad.
  • GPT-4 demuestra un alto nivel de razonamiento incluso cuando se prueba con escenarios fuera de la muestra, lo que parece indicar que puede superar el listón establecido por la famosa prueba de Alan Turing.
  • A medida que aumentan las inversiones y se superan las limitaciones de hardware, podemos esperar el desarrollo de modelos más avanzados y eficientes con una adopción y producción sin precedentes.
  • En el futuro, algunos tipos de interfaz de usuario pueden reemplazarse con agentes de IA que pueden personalizar las salidas sobre la marcha en función de la entrada verbal, la tarea en cuestión y sus preferencias personales.
  • La IA tiene el potencial de reducir el trabajo duro de los diseñadores y programadores, lo que les permite centrarse más en la solución y la visión del producto que en la ejecución.


Si disfruta de nuestra discusión, vea más episodios de nuestro podcast. Puede seguir en Apple Podcasts, Spotify, YouTube o tomar la fuente RSS en su reproductor de elección. Lo que sigue es una transcripción ligeramente editada del episodio.


El despertar de la IA

Emmet Connolly: Entonces, Fergal, hemos tenido muchas charlas informales con cervezas, cafés y demás, y dijimos que sería interesante tratar de sentarnos, tener una y grabarla, principalmente porque, como hemos trabajado directamente con grandes modelos de lenguaje en los últimos seis meses, hemos estado lidiando con preguntas sobre productos que son aplicables a lo que estamos tratando de hacer en el trabajo.

Pero, por supuesto, hay una conversación más amplia sobre lo que significa la IA y el futuro de la IA. Pensamos en tratar de sentarnos y tocar algunas de las preguntas sobre este nuevo material con el que estamos tratando. ¿Cuáles son algunos de los impactos financieros de la tecnología? ¿Cuáles son las cosas a las que deberíamos prestar atención? Empecemos. En primer lugar, ¿tiene alguna reflexión general sobre los últimos seis meses?

Fergal Reid: Sí, definitivamente. Vamos a ver cómo va esto. Creo que es justo decir que incluso las personas que han trabajado en aprendizaje automático o IA se han sorprendido por lo rápido que mejoraron las cosas. Incluso para las personas que son expertas en el campo o que han trabajado con redes neuronales durante mucho tiempo, ha sido sorprendente que el modelo se haya vuelto tan inteligente como lo fue.

Emmet: ¿Crees que algunas personas de IA están un poco preocupadas de que podrían estar trabajando en el Proyecto Manhattan ahora de nuestra generación? Hace un tiempo, estaba trabajando para autocompletar texto y, de repente, se ha convertido en un tema muy debatido. ¿Cómo se siente que las personas que trabajan en IA estén en el centro de eso?

“Haces todo tu entrenamiento, sale el modelo y es realmente inteligente. Pero no codificaste individualmente esa inteligencia. Todavía es aprendizaje automático”

Fergal: Para exponer mi perspectiva, no estamos entrenando grandes modelos de lenguaje. Los estamos usando; somos consumidores de ellos. Hemos tenido acceso temprano a GPT-4, pero no los estamos entrenando nosotros mismos. Por otro lado, tengo un equipo de personas aquí que son expertos en IA. Muchos de nosotros hemos estado en IA durante, supongo, décadas en este momento. Cuando estaba en la universidad, estaba realmente interesado en la IA avanzada, leía libros sobre la filosofía de la IA y la gente debatía si alguna vez podría hacer esto o aquello. Y ahora, tenemos sistemas que de repente hacen que muchos de esos debates sean menos relevantes. De repente, hay un sistema que puede hacer esto que nadie dijo que pudiera hacer.

Supongo que el contrapunto es que si estás entrenando modelos de lenguaje grandes, hasta cierto punto es una tarea de ingeniería. Haces todo tu entrenamiento, sale el modelo y es realmente inteligente. Pero no codificaste individualmente esa inteligencia. Todavía es aprendizaje automático. Entonces, hasta cierto punto creo que todo el mundo está sorprendido por esto. No es que las personas desarrollen la capacidad de forma incremental una línea de código a la vez. Nadie está seguro de lo que sucederá al final de una gran carrera de entrenamiento.

Emmet: Aludí en broma al Proyecto Manhattan, pero supongo que es una muy buena analogía con algunas de las cosas con las que estamos lidiando.

Fergal: ¿ De qué manera? ¿Porque es peligroso?

Emmet: Bueno, hemos descubierto una manera de manipular algo. En este caso, información. Se siente más como un descubrimiento que como una invención en cierto sentido. Es muy ampliamente aplicable. No estamos seguros de cuáles son las consecuencias no deseadas de sus usos. Y, por supuesto, los malos actores podrían utilizarlo con fines maliciosos tanto como los buenos actores con fines positivos.

“Sabemos a nivel técnico cómo se entrenan estos modelos, pero esta es una situación de caja negra”

Fergal: Ayer, OpenAI publicó una declaración de posición en torno a esta tecnología, en la que pedía la supervisión de la tecnología de IA. Dibujaron paralelismos con la tecnología nuclear y la biotecnología. Creo que eso es justo. Es potencialmente en esa categoría de tecnología aterradora donde los humanos no saben con qué se están metiendo, en las mejores tradiciones de la ciencia ficción. Compro la idea de que todo esto podría salir mal y que entrenar modelos de lenguaje grandes es algo con lo que la gente debería empezar a tener cuidado.

Emmet: Me encantaría hablar sobre lo que sientes que hemos descubierto, y sigo diciendo descubierto porque casi se siente como un descubrimiento en la forma en que estamos hablando de eso, como, "Vaya, tenemos esta cosa, y será mejor que tengamos cuidado de cómo lo manejamos”. ¿Es así como lo piensas? Sabemos a nivel técnico cómo se entrenan estos modelos, pero esta es una situación de caja negra: no entendemos exactamente cómo producen los resultados un tanto no deterministas que nos brindan.

Fergal: Sí, creo que esa es la forma correcta de pensarlo. es un sistema Inicia el sistema y establece un objetivo de entrenamiento primero, y luego corre en esa escala y ve qué sucede. Y con el tiempo, se vuelve cada vez mejor en la comprensión de lo que es probable que suceda, pero no está seguro. Lo estás probando. Creo que una buena analogía aquí es como imaginar un sistema biológico, ponerlo a crecer por un tiempo y luego ver lo que hace. Está más cerca de eso. Tienes que probarlo en esta forma de caja negra. Tienes que comprobar su comportamiento. No sabes lo que te vas a encontrar.

Emmet: Supongo que aquí es donde la pregunta obvia de "¿es esto inteligente?" proviene, y esta es una gran pregunta que preocupa mucho de la conversación. Porque si es inteligente, eso significa que estamos en camino a AGI, y que AGI podría ser maligno y podríamos estar en un gran problema. Parece que vale la pena ondear la bandera, pero también genera mucha ansiedad en torno a la tecnología.

Fergal: Creo que un grado de precaución o ansiedad es justo aquí. Supongamos que estas cosas se están volviendo inteligentes. La inteligencia es realmente aterradora y peligrosa. Los humanos son posiblemente los más peligrosos. Hemos tenido un gran impacto en la Tierra y los ecosistemas. No es porque seamos los animales más fuertes o más rápidos. Un humano puede matar a un león porque el humano es más inteligente. Los organismos más inteligentes son, en cierto sentido, a menudo más peligrosos. Entonces, la idea de que podríamos terminar creando algo que sea más inteligente que nosotros podría ser realmente peligrosa. No tenemos experiencia con eso, por lo que creo que parte de la precaución está totalmente justificada.

Alineación de codificación

Emmet: Creo que debemos mejorar al pensar en diferentes tipos de inteligencia. Un león tiene algo de inteligencia y es peligroso junto con sus capacidades, ¿verdad? Pero esto no tiene encarnación. Quiero decir, tiene acceso a sistemas informáticos que podrían ser muy dañinos, pero ¿la malignidad es un rasgo humano? ¿Y por qué proyectamos inmediatamente ese potencial en este sistema?

Fergal: Creo que mucha gente dice que no es necesario que sea maligno. No es necesario que sea intencionalmente malo. No necesita ser mucho intencional en absoluto. Todo lo que necesitas es crear algo que intente optimizar algún objetivo que lo ponga en conflicto con las cosas buenas que los humanos quieren, ¿verdad?

“Podría ser enviar a hacer algo que crees que es bueno en general, pero podrías entrar en conflicto debido a sus métodos. Y si esta cosa es más inteligente que tú, ¿cómo se desarrolla ese conflicto?

Existe esta idea de un instrumento de convergencia en la literatura temprana de seguridad de la IA, y es esta idea de que si tienes un objetivo en el mundo, muchas de las cosas que podrías querer hacer para lograr ese objetivo podrían ponerte en conflicto con personas con otros. objetivos. Si quieres curar el cáncer, es posible que quieras mucho dinero para curar el cáncer, y ahora estás instantáneamente en conflicto con todas las demás personas que quieren dinero. Para alcanzar muchas metas, necesitas energía y recursos. Y así, si terminas con un sistema dirigido a objetivos y potencialmente más inteligente que tú, incluso si no es consciente, puedes entrar en conflicto con él. No tiene que ser malvado. Podría estar enviando para hacer algo que cree que es bueno en general, pero podría entrar en conflicto debido a sus métodos. Y si esta cosa es más inteligente que tú, ¿cómo se desarrolla ese conflicto?

La gente empieza a hablar del "maximizador de clips", en el que simplemente le dices a esta cosa que vaya y haga montones, montones de clips porque necesitamos muchos clips, y luego, accidentalmente, se fue y consumió todos los recursos del mundo y lo convirtió. en una fábrica de clips. Y es como, "Ups". Todas estas son ideas en el debate de seguridad de la IA por un tiempo.

Emmet: También hay preocupaciones humanas. Parece que estás describiendo una alineación de incentivos entre todos los actores, la tecnología y los humanos. Y eso es lo que hacemos cuando nos organizamos como grupos en el trabajo. Un ejemplo simple es establecer los incentivos correctos para sus equipos; de lo contrario, podrían verse incentivados para hacer otra cosa. Si incentiva a su equipo de ventas para que venda a clientes empresariales, pero en realidad desea que vendan a empresas más pequeñas, debe ajustar los incentivos. Y tenemos mucha experiencia en eso.

Fergal: Mira, ¿hasta qué punto se debe a que hiciste un muy buen trabajo al equilibrar los incentivos frente al equilibrio de poder? Si nos fijamos en los humanos, en momentos en que hay desequilibrios de poder masivos donde las cosas van mal, es muy difícil mantener los incentivos. Si confía en los incentivos, es difícil. Como seres humanos, ponemos mucho cuidado y atención en tener controles y equilibrios. Entonces, de nuevo, volviendo a esta discusión sobre la superinteligencia, si es posible construir una superinteligencia que de repente se vuelve muy poderosa, ¿vas a confiar en los incentivos? Porque siempre es difícil confiar en los incentivos para que las cosas sigan funcionando.

“En el pasado, siempre confiamos en el equilibrio de poder. Ahora, tenemos que confiar en los valores alineados”

Emmet: Supongo que no podemos saberlo hasta que revele un poco más su naturaleza. Mi sensación personal es que cuando nos obsesionamos con la superinteligencia, nos obsesionamos con que se vuelva más inteligente que nosotros. Y hay algo de riesgo, supongo, pero también hay algo de ego para los humanos en el centro. Es lo que nos separa del reino animal. La gente suele decir que la IA es un poco como la inteligencia extraterrestre, y creo que los animales son una forma útil de pensar en ello porque hemos evolucionado para coexistir pacíficamente con diferentes tipos de inteligencia. Ahora, tengo un perro, tengo un gato. El gato posee un grado de inteligencia muy específico pero alto: capacidad atlética. Es ligero, y sus reflejos son rápidos. Si considero la inteligencia en términos generales, es muy inteligente y hermoso de ver.

Fergal: Tengo que saltar aquí porque no creo que esta sea una gran analogía. Al menos, no es reconfortante. Soy pescetariano, principalmente vegetariano. La ganadería industrial no es buena para los animales involucrados. Entonces, no sé, no me tranquiliza escuchar que el modelo aquí es que hemos evolucionado para coexistir en paz con los animales.

Emmet: ¿Qué les pasa a las mascotas?

Fergal: No, las mascotas son buenas. Quiero decir, existe esta idea de que los humanos serán mascotas en el futuro. Creo que esto debería ser incómodo.

Emmet: Bueno, estás cambiando mi argumento. El punto que estaba tratando de hacer es que el gato tiene un tipo de inteligencia. También tengo un perro que tiene un tipo de inteligencia totalmente diferente al del gato. Crees que puedes hablar con un perro, y él entiende y mira dentro de tu alma y todo eso. Pero también es tonto como un saco de piedras en otro nivel. Lo amo, pero lo es. Ahora, supongo que estás diciendo: "Emmett, tú eres el perro en esta situación si avanzamos rápido". Pero hay una convivencia feliz allí. Con suerte, no nos domesticaremos también como especie.

Fergal: Sí, si resulta que es posible hacer algo más inteligente que nosotros, ese es el objetivo, esta coexistencia feliz donde terminas con algo que es benigno y se preocupa por la vida en el universo y tiene buenos valores. Pero la razón por la que mucha gente está tan preocupada por esto en este momento es que parece que hay un gran riesgo allí. Si va a construir algo más poderoso, debe asegurarse de que esos valores sean correctos. En el pasado, siempre hemos confiado en el equilibrio de poder. Ahora, tenemos que confiar en los valores alineados. Si miras a OpenAI, Anthropic y los otros jugadores, pasan todo este tiempo hablando de alineación por este motivo. Los humanos ya no van a ser las cosas más inteligentes. La inteligencia es poderosa y peligrosa. Tenemos que asegurarnos de que esté alineado.

Emmet: ¿Qué tan buen trabajo está haciendo la comunidad de IA al buscar la alineación como un estado final versus un servicio de boquilla? Porque si todo sale mal, al menos podemos señalar nuestra antigua publicación de blog y decir: "Bueno, mencionamos la alineación, así que no nos culpen".

“Si estás interactuando con modelos de vanguardia, es bastante difícil presionarlos para que sugieran cosas repugnantes. Mucha gente en el pasado pensó que eso era lo que iban a hacer por defecto”

Fergal: Creo que están haciendo un buen trabajo. Mucha gente no estaría de acuerdo con eso, ¿verdad? Mucha gente diría: “Oye, es totalmente irresponsable seguir entrenando modelos cada vez más grandes. No sabes lo que vas a hacer”. Más allá de cierto punto, eso probablemente se vuelve cierto. No creo que estemos en ese punto todavía. Si nos fijamos en la gente de seguridad de la IA, hace 10 años, siempre existió la idea de que especificar una función objetivo es una buena idea. Le dices que cure el cáncer y dice: “El primer paso es matar a todos los humanos. Ahora ya no habrá más cáncer”, y eso obviamente es malo. Pero si juegas con GPT-4 y escribes, "¿Cuál es un buen plan para curar el cáncer?" No dice: "Mata a todos los humanos". Te da un plan de investigación bastante bueno. Y si le sugieres, "¿Qué hay de matar a todos los humanos?" Dirán: "No, eso es moralmente repugnante". Eso es alineación. Y eso es solo al nivel del texto que produce.

Podemos entrar en todo este debate de "solo está produciendo texto, no significa que sea inteligente". Tengo una posición al respecto. Creo que es inteligente. Podemos entrar en todo ese debate, pero eso es más progreso en la alineación de lo que mucha gente esperaba. Si está interactuando con modelos de vanguardia, es bastante difícil presionarlos para que sugieran cosas repugnantes. Mucha gente en el pasado pensó que eso era lo que iban a hacer por defecto. Y nuevamente, OpenAI recientemente salió y dijo que están progresando en la alineación.

Emmet: ¿Sabemos las barandillas que están poniendo para evitar que eso suceda? ¿O es una propiedad emergente del sistema en sí mismo? ¿Es una función del entrenamiento, de los datos fuente, de algo más?

Fergal: Esa es una pregunta difícil. Creo que la respuesta que daría la gente es que no se trata solo de los datos de origen. Supongo que el gran avance en los últimos años es este tipo de instrucción GPT. Entrenas a tu modelo con todos los datos en Internet y se te ocurre algo que realmente no sigue las instrucciones correctamente. Luego, lo somete a un ajuste fino, o una fase de alineación o instrucción en la que le da muchos ejemplos de buen y mal comportamiento y ajusta los pesos del modelo en consecuencia.

Emmet: ¿Y este es el aprendizaje de refuerzo humano?

Fergal: Si. Un mecanismo para hacerlo es el aprendizaje por refuerzo con retroalimentación humana. Hay un montón de paradigmas similares como ese, pero la idea básica es que puedes entrenar en muchas, muchas cosas y luego ajustar las instrucciones. Eso parece estar funcionando bastante bien.

“Podrías terminar entrenando algo para que sea realmente bueno para parecer alineado. Y luego, debajo, puede haber alguna otra capa de abstracción que no está alineada en absoluto. Ese es el gran riesgo que la gente grita”

Emmet: Pero en realidad no respondiste mi pregunta. ¿Sabemos qué parte de ese proceso está haciendo que funcione bien? ¿O todavía estamos, "giré algunos diales aquí, y parece comportarse mejor por alguna razón".

Fergal: Si no haces el ajuste de instrucciones, estará mucho menos alineado. Estás como, "Oye, modelo, así es como se ve lo bueno". Y cada vez que produce algo que está más cerca de lo bueno, se anima a hacerlo más. Cada vez que produce algo que está más cerca de lo malo, se anima a hacerlo menos. Todos sus pesos se ajustan ligeramente en la dirección del bien. Pero supongo que la crítica es: "No tienes idea de qué diablos está pasando debajo del capó, y hay formas en que esto podría salir mal". Podrías terminar entrenando algo para que sea realmente bueno y parezca estar alineado. Y luego, debajo, puede haber alguna otra capa de abstracción que no está alineada en absoluto. Ese es el gran riesgo que la gente grita.

Otras personas dirán: “Bueno, todavía estamos haciendo descenso de gradiente. No llega a decidir nada. Se va a alinear”. Pero creo que hay un pequeño salto allí. No es un sistema que probó matemáticamente que iba a hacer X, Y y Z y construido desde una posición de fuerza a fuerza a fuerza. Es un sistema de caja negra que sintonizaste y entrenaste.

Emmet: Si intentara ser poco caritativo con ese puesto, sería un poco como almacenar armas nucleares y decir: "Pero lo hemos hecho con mucho cuidado, así que no vamos a presionar el botón que hace que se dispare". accidente." Pero en una línea de tiempo lo suficientemente larga, y con lo accesible que es la tecnología, seguramente no podemos controlar eso. Podemos tener muchas empresas e individuos actuando de manera responsable, pero no hará nada para protegernos de la peor aplicación. ¿Cuáles son los escenarios en los que las cosas van mal? Uno de los argumentos morales para trabajar directamente en esto, a pesar de los peligros asociados con ello, es como si un gobierno totalitario o una organización secreta en algún lugar estuviera haciendo una mala versión de esto ahora mismo.

Fergal: En algún momento, eso seguramente sucederá. No creo que estemos en este punto todavía. No creo que estemos en el punto en el que definitivamente puedas construir una superinteligencia. Pero si alguna vez llegamos a ese punto en el que se vuelve obvio para la gente que se puede construir, la gente, los gobiernos y los militares lo harán. Siempre lo hacen porque es potencialmente útil en todo tipo de aplicaciones militares, ¿verdad? Así que sí, creo que eso va a suceder. El discurso aquí se dirige a cosas como las armas nucleares y la Agencia Internacional de Energía Atómica, donde existe algún tipo de regulación. Y si así es como se desarrolla, si no nos sorprendemos, si no es como, "Oh, resulta que la inteligencia simplemente se agota con el tipo de entrenamiento actual", eso podría suceder. Si eso no sucede, de lo que la gente habla es de rastrear tarjetas gráficas y GPU y esas cosas. Pero eso también tiene problemas. Presumiblemente, eso solo durará un período de tiempo finito.

Descifrando la prueba de Turing

Emmet: Volvamos a lo de la inteligencia. Sé que tienes una toma caliente aquí. Tenemos muchos escépticos de la IA o traficantes de miedo, según el tipo. Y luego tienes gente de todos lados: Noam Chomsky, un conocido lingüista, Ted Chiang, uno de mis autores de ciencia ficción favoritos, que escribió este artículo sobre el JPEG borroso de la web, básicamente diciendo que esto no es inteligencia: es un truco de salón estocástico. Es simplemente un truco de salón muy bueno que hace que parezca realmente inteligente en la forma en que vemos la inteligencia.

Fergal: Tengo una confianza entre media y alta de que el JPEG borroso de la toma web está mal. Y estoy midiendo un poco mi golpe: tengo mucha confianza en que está mal. Ese es el argumento de que todo lo que hace es comprimir la web y obtienes una versión comprimida de ella. Y la única razón por la que no digo que esté completamente mal es porque comprimir algo en realidad puede causar inteligencia. La capacidad de comprimir cosas puede ser una medida de inteligencia porque con solo comprimir y predecir el próximo token, estás prediciendo lo que sucederá a continuación en el mundo. Si es correcto, es correcto en la forma en que no significa.

"Aunque estamos teniendo esta conversación especulativa, parece un mal momento para hacer grandes predicciones sobre las limitaciones de este material".

Si usa GPT-4, le brinda al menos una salida aparentemente inteligente que parece demostrar el razonamiento fuera de la muestra. Puede presionarlo para que considere algo nuevo que no estará en sus datos de entrenamiento o en ninguna historia de ciencia ficción que alguien haya leído antes, y hace un trabajo bastante bueno. Probablemente no haga un trabajo tan bueno como un humano realmente bueno, pero definitivamente es algo que, si no es razonamiento, no sé qué significa razonamiento.

Emmet: Y tienes una publicación de blog donde ilustras ejemplos específicos.

Fergal: Un post que escribí el fin de semana porque me frustré. Es difícil estar seguro, ¿verdad? Pero muchas personas, incluidos los expertos en IA, lo descartan por completo. Son como, “Oh, esta cosa no entiende nada. Solo está haciendo la predicción del siguiente token”. Esa fue siempre la opinión correcta sobre la IA durante décadas. Pero ahora el agua está turbia, y todo el mundo debería reconocerlo en lugar de decir que definitivamente no entiende nada.

Emmet: Aunque estamos teniendo esta conversación especulativa y nos lanzamos a la mezcla, parece un mal momento para hacer grandes predicciones sobre las limitaciones de este material. Creo que el JPEG borroso del artículo web era de marzo o algo así, y me pregunto si GPT-4 ya lo ha refutado.

fergal: eso creo Y hay muchas posiciones diferentes aquí que lo critican. Está el JPEG borroso de la web, que pensé que se refutó muy rápido. Y es difícil probar esto, pero todo lo que puedes hacer es construir montones, montones de pruebas. Porque no puedes… existe esta idea de zombis filosóficos o solipsismo donde no sé si eres una persona pensante. Por lo que sé, dentro de tu cabeza hay una tabla de búsqueda gigante.

“Todo lo que puedes hacer es decir: 'Mira, esta cosa está haciendo un trabajo tan bueno cuando pregunto cosas tan raras que estoy empezando a convencerme de que está razonando'. Para mí, GPT-4 está más allá de esa barra”

Yo mismo tengo una sensación subjetiva de conciencia, y pueden determinar si eso es real, pero de cualquier manera, no siento que sea una gran mesa de consulta, pero no sé sobre el resto de ustedes. Es muy difícil probar eso. Puede pedirle a alguien que demuestre que no es una tabla de búsqueda. Y todo lo que termina haciendo es probarlos de esta manera conductual, de la misma manera que podemos probar GPT-4.

Alan Turing y su prueba de Turing se centraron en esto y en la idea de que una prueba de comportamiento es lo mejor que puedes hacer. Y cuando haces una prueba de comportamiento en estos modelos, parecen hacer un buen trabajo en lo que yo llamaría razonamiento incluso totalmente fuera de la muestra. Nunca puede estar seguro con una prueba de comportamiento porque una tabla de búsqueda lo suficientemente grande, con todas las cosas posibles que podría preguntar y todas las respuestas posibles, lo engañaría. Todo lo que puedes hacer es decir, “Mira, esta cosa está haciendo un buen trabajo cuando pregunto cosas tan raras que estoy empezando a convencerme de que es un razonamiento. Para mí, GPT-4 está más allá de esa barra. Tal vez, en el futuro, alguien tendrá una teoría de la inteligencia y podrá inspeccionar los pesos de la red y decir: “Oh, aquí es donde está el módulo de razonamiento. Todavía no hemos llegado”.

Emmet: Parece que nos hemos apresurado a pasar la prueba de Turing. Creo que la gente diría, y corríjanme si me equivoco, que probablemente se haya superado la prueba de Turing, y ciertamente en los últimos seis meses. ¿Estaría de acuerdo con eso, o estoy de hecho incorrecto allí?

Fergal: Bueno, no lo sé. Recientemente volví a leer rápidamente el documento del juego de imitación y, de hecho, en la prueba, habla de un interrogador promedio que pasa cinco minutos. Y con esa formulación, diría que probablemente esté cerca de aprobarse.

Emmet: Habría asumido que pasó con gran éxito en esta etapa, ¿no?

“Cuando miro el artículo original de Turing, siento que ha sido aprobado con el espíritu de esa formulación original”

fergal: no lo se Si me sentara frente a GPT-4 y un humano, podría aprender trucos para empujarlo hacia áreas en las que es débil y luego podría detectar señales allí. Y probablemente podría ser bueno distinguiéndolo. Espero que la mayoría de las personas que van a pasar tiempo con él probablemente puedan desarrollar estrategias.

Emmet: Creo que tienes que tener ojo. Trabajas con él todos los días. Digamos, por ejemplo, que con Midjourney V5 llegamos a esta etapa en la que, para la gran mayoría de las personas, las señales ya no existen. Arreglaron los dedos, la borrosidad, las formas raras en la espalda. Si sabe qué buscar, aún puede detectar un poco de plumaje donde debería estar el cabello. Pero creo que necesitas ser bastante forense en esta etapa.

Fergal: Yo digo que ya estamos ahí con GPT-4. Para una inspección de cinco minutos de una persona promedio sacada de la calle, creo que probablemente lo haya superado. Cuando miro el artículo original de Turing, siento que ha sido aprobado con el espíritu de esa formulación original.

Emmet: Probablemente no para la síntesis de voz, en esta etapa. Y ciertamente no cosas como la música o las películas. Es interesante ver cómo estas cosas progresan a diferentes velocidades. ¿Se debe a los modelos de formación o cree que los diferentes medios tienen limitaciones fundamentales?

Fergal: Yo diría que probablemente se deba a los modelos de entrenamiento. No siento que haya una razón fundamental por la que no pueda hacer una síntesis de video realmente buena a tiempo.

Emmet: Aunque la barrera para engañar a un humano es probablemente mucho más alta con algo como un video, solo depende de cuán sintonizados biológicamente estemos con el movimiento y cosas así. Es mucho más fácil detectar una falsificación.

Fergal: Leones en el monte que vienen hacia ti.

Emmet: Miles de años de psicología con la intención de hacernos correr cuando se supone que debemos hacerlo.

Navegando por la curva S

Emmet: La gente suele hablar de la curva S de la tecnología. Hay un despegue o maduración lento, pero luego rápido, de la tecnología, y luego se desvanece. Los teléfonos fueron asombrosamente increíbles, con mejoras año tras año durante algunos años, pero el teléfono de este año es similar al del año pasado porque la curva S se ha reducido. ¿En qué parte de la curva S estamos con esta tecnología? ¿Qué debe buscar para tener una idea de dónde estamos?

Fergal: Sí, es imposible saberlo con seguridad, y tenemos que estar de acuerdo con eso. Sabemos que habrá una tonelada de dinero y recursos que fluirán a este espacio. Los grandes modelos de lenguaje, ya sea que estén en el camino hacia la superinteligencia o no, ya sea que se pueda lograr o no, son industrialmente útiles en su forma actual, y es probable que haya muchas más generaciones que sean industrialmente útiles sin tocar cosas peligrosas. Deberíamos ir y convertirlos en productos que hagan que los humanos sean más eficientes, eliminen el trabajo pesado y nos ayuden a hacer mucho más. Y creo que lo estamos viendo.

“Existen todos estos bucles de retroalimentación complejos y superpuestos, por lo que me sorprendería mucho si se detuviera pronto. Creo que se va a acelerar”

¿Dónde estamos en eso? Bueno, parece probable que la gente entrene más modelos que sean más grandes y mejores que GPT-4. Debido a que va a fluir tanto dinero en este espacio, parece bastante probable que las personas mejoren en la fabricación de modelos más pequeños y eficientes que hacen cosas realmente impresionantes. Y va a ser mucho más fácil producir y crear productos geniales con toda esta tecnología. Tengo una confianza extremadamente alta en lo que vendrá en los próximos años. Más allá de eso, ¿obtenemos rendimientos decrecientes? Eso es posible, pero yo diría que la curva en S que obtenemos es esta función complicada de un montón de cosas diferentes.

Terminaremos fabricando muchas más GPU, y el video producirá muchas más, ¿verdad? Y luego, mejorará y se volverán más baratos a medida que lo escalan. Y también habrá toneladas de estudiantes de investigación que descubrirán mejores algoritmos para entrenar grandes redes neuronales. Eso va a mejorar. La gente va a utilizar modelos potentes para entrenar modelos más pequeños y rápidos. Hay todos estos bucles de retroalimentación complejos y superpuestos, por lo que me sorprendería mucho si se detuviera pronto. Creo que se va a acelerar.

En contra de eso, algunas cosas se vuelven más difíciles con el tiempo. Para encontrar más antibióticos, busque primero los fáciles de encontrar y, con el tiempo, se vuelve cada vez más difícil encontrar nuevos. Es posible que obtengamos las ganancias fáciles primero, y luego llegues a las leyes de escala, y así sucesivamente. Open AI ha dicho que no cree que el camino hacia una mayor inteligencia sea entrenar modelos cada vez más grandes, pero soy escéptico. Tal vez alcancemos un límite aquí, pero apuesto a que obtendremos más inteligencia con modelos más grandes.

“Creo que va a ser más grande que Internet. Tal vez tan grande como la revolución industrial si va lo suficientemente lejos”

Emmet: Además de todas las variables que acabas de describir, lo que me llama la atención que es diferente esta vez es la velocidad y la escala. This is totally different in terms of how quickly it's going to get integrated into our products and lives. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.

Fergal: March for GPT-4 and stuff?

Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.

Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-

Emmet: The infrastructure for delivery is there.

Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.

Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?

“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”

Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.

Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.

Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.

Frictionless interfaces

Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.

AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.

“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”

What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.

Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.

I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.

You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.

Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.

Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.

Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.

Emmet: And the agent is clicking on coordinates on the screen for you.

Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?

Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.

Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.

Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?

“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”

Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”

Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.

Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.

I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.

Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.

Fergal: Pero en el futuro, probablemente habrá algo que le digas a tu agente como: "Oye, quiero editar esas fotos que tomé ayer". Y te conoce a ti y a tu nivel de sofisticación. Sabe que cuando quieres editar tus fotos, estás buscando cuatro filtros y una herramienta de recorte, o alternativamente, sabe que quieres hacer cosas súper pro-zoomer. Va y busca en su biblioteca de patrones las mejores interfaces para cada uno de ellos y presenta esa interfaz para usted.

“Dependerá completamente de la tarea que estés haciendo. Si eres piloto, no querrás decir: '¡Es hora de aterrizar el avión! Oye, LLM, ensambla automáticamente una interfaz para que yo lo haga'”

Emmet: Y luego dices: "En realidad, lo quiero un poco más profesional". Y dice: "Está bien, te daré la versión pro de la interfaz de usuario". Y lo hace dinámicamente.

Fergal: Mira, habrá algunas tareas que hagas en las que no quieras aprender a usar la interfaz. Des estaba hablando de esto recientemente en un podcast diferente. Necesita actualizar su tiempo de vacaciones en Workday y no quiere aprender una interfaz para eso. Solo quieres completar la tarea. Habrá otras cosas en las que, por ejemplo, eres un programador profesional y necesito aprender a usar un IDE. Algún diseñador ha pensado en gran detalle sobre lo que voy a querer y necesitar hacer, y probablemente haya una ligera capa de personalización allí, pero todavía hay una interfaz bien diseñada que voy a aprender a usar. Creo que las interfaces para lo primero, para las tareas que quiero hacer, van a desaparecer, o muchas de ellas se van a renderizar ad hoc. Para este último, sí, serán adaptables.

Emmet: Estoy de acuerdo con todo lo que dijiste. También se me ocurre un matiz adicional. Dependerá completamente de la tarea que estés haciendo. Si eres piloto, no querrás decir: “¡Es hora de aterrizar el avión! Oye, LLM, monta automáticamente una interfaz para que yo lo haga”. Habrá regulación y cosas así, estoy seguro. Pero eso sí refleja una de las grandes diferencias, que va desde trabajar con computadoras, que siempre hemos pensado en ellas como estas máquinas de la verdad altamente deterministas, binarias, activadas por interruptores de encendido/apagado, y ahora, de repente, la naturaleza de eso esta cambiando mucho. Y ese es un gran cambio, así como todo lo que estamos describiendo: lo que puede esperar, cómo puede esperar que funcione para usted personalmente y la cantidad de fungibilidad o control que tiene sobre él. Creo que comenzaremos a ver una divergencia de experimentación mucho más emocionante, y el nivel de personalización que tenemos hoy, donde puedes cambiar tu fondo de pantalla o cualquier tamaño de fuente, probablemente palidecerá en comparación.

Hacia el centro del círculo

Emmet: También dijiste algo interesante sobre lo que quería volver. Imagine diseñadores que en su mayoría ensamblan desde una biblioteca. La tarea del diseño de la interfaz de usuario es interesante porque nos hemos estado preparando para eso con los sistemas de diseño. Un sistema de diseño es una biblioteca de patrones de componentes. Si está creando un gran producto, quiere que sea consistente y quiere poder armarlo rápidamente. Así que gran parte del trabajo preliminar que hemos estado sentando y los sistemas que hemos estado construyendo, incluso en, digamos, equipos de diseño, y probablemente también equipos de ingeniería, que construyen componentes que estos sistemas pueden reutilizar rápidamente, todo apunta a hacia nuestra capacidad para construir estas herramientas con bastante rapidez. Lo que estaba describiendo es algo que toma su sistema de diseño y crea una interfaz de usuario a partir de él, y no parece estar a kilómetros de distancia.

Fergal: O tal vez toma el sistema de diseño estándar de código abierto y crea una herramienta a partir de él. No sé si esto sucederá a nivel de empresas individuales o si sucederá a un nivel horizontal amplio.

Emmet: Sí, eso sería muy aburrido. Sería trágico. Antes de iOS siete, teníamos skeuomorfismo y todo, luego se volvió un diseño plano súper testarudo, y toda la industria estaba tan influenciada por el dominio de Apple que todos los sitios web comenzaron a tener el mismo aspecto. Apple publicó sus pautas de interfaz humana y dijo: "Mira, las aplicaciones de iPhone deberían verse así ahora". Pero condujo a un aplanamiento de la diversidad y una red más aburrida, en mi opinión. Y eso estaba al servicio de estos sistemas que pueden construirse a sí mismos.

Fergal: Podrías decirle a tu agente que quieres que se vea original y retro. Tienes que imaginar que vendrá, y creo que las cosas se volverán mucho más personalizables en términos de lo que la gente realmente usa porque tienes una capa inteligente que entiende cómo construir una interfaz con un equipo determinado. Probablemente harías eso hoy. Si comienza hoy a desarrollar Midjourney para interfaces de usuario, probablemente podría hacerlo. Tenemos GPT-4 que puede generar código o CSS para escribir interfaces de usuario, y tenemos los modelos de síntesis de imágenes en los que incrustas todas las imágenes y el texto, y los aplastas. Apuesto a que podrías construir algo bastante rápido.

Emmet: Es tan gracioso porque estás diciendo esto, y mi reacción emocional es como, “No, no lo entiendes; tienes que pensar en la usabilidad y la comprensión de los humanos y todo este tipo de cosas”. Y luego digo: "Sí, son las capacidades de razonamiento de las que hablamos, y parece que ahora las tiene". Y así como estamos hablando de eso, estoy teniendo ese emocional...

Fergal: Crisis.

Emmet: La IA viene por tu disciplina. Pero, sinceramente, no estoy tan preocupado por eso porque creo que muchos diseñadores, y también he oído decir esto de los programadores, no van a lamentar el trabajo duro que esto hace que sea más rápido y mejore en gran medida. De hecho, les permite subir un nivel de zoom y pensar un poco más en la solución en lugar de en la ejecución de la solución. La creación de productos sigue siendo muy laboriosa y requiere mucho tiempo, y creo que será genial ver qué sucede si eliminamos parte del trabajo duro.

Fergal: Quiero decir, es todo este debate sobre los trabajos y las colocaciones laborales y el cambio de trabajo, y algo va a pasar aquí. Cuando escucho eso, pienso: "Oh, tal vez eso signifique que ya no necesitas diseñadores, tal vez solo necesites gerentes de producto". Y un gerente de producto ahora puede hacer todo lo que solía hacer un diseñador. Tal vez no necesite un programador, tal vez solo necesite un gerente de producto. Y todos nos convertimos en gerentes de producto en el futuro. No sé. Tal vez podría haber muchos más roles y trabajos como ese, o tal vez serán menos.

Emmet: Creo que deberíamos apoyarnos en eso. Una cosa que noté en mi carrera es que cuanto más senior te vuelves, menos específico eres para tu disciplina. Tienes que convertirte más en un líder general.

Fergal: Tuve esta conversación con alguien del equipo de diseño. Cuando eres junior en una disciplina como ingeniería, producto o diseño, estás al borde de un círculo. Y luego, a medida que te vuelves mayor, te acercas más y más al centro. En el centro del círculo está el producto. Y así, a medida que te vuelves más y más mayor, tu mundo se vuelve cada vez más sobre el producto que estás construyendo y cada vez menos sobre el ángulo de donde vienes.

Emmet: Puedo ver eso también. Entonces, todos nos convertiremos en PM, ¿es ese el plan?

Fergal: Sí, quiero decir, en última instancia, eso es lo que estamos tratando de hacer en un trabajo como este.

Emmet: Quiero decir, ¿qué es un PM sino una persona de productos sin ninguna habilidad práctica directamente aplicable, verdad, Fergal?

Fergal Reid: Sí, lo sé. ¿Qué es un PM?

Emmet: Creo que deberíamos terminar. Saludos, Fergal.

Fergal: Gracias, Emmet.

Lista de espera de aletas