Una nueva era de UX: evolución de su enfoque de diseño para productos de IA
Publicado: 2024-01-18Antes de que ChatGPT apareciera en escena hace un año, la inteligencia artificial (IA) y el aprendizaje automático (ML) eran herramientas misteriosas de expertos y científicos de datos: equipos con mucha experiencia en nichos y conocimiento de dominio especializado. Ahora las cosas son diferentes.
Probablemente esté leyendo esto porque su empresa ha decidido utilizar GPT de OpenAI u otro LLM (modelo de lenguaje grande) para incorporar funciones de IA generativa en su producto. Si ese es el caso, es posible que se sienta entusiasmado (“¡Es muy fácil crear una característica nueva excelente!”) o abrumado (“¿Por qué obtengo resultados diferentes cada vez y cómo hago para que haga lo que quiero?”)o ¡Quizás estés sintiendo ambas cosas!
Trabajar con IA puede ser un nuevo desafío, pero no tiene por qué ser intimidante. Esta publicación resume mi experiencia de años dedicados al diseño de enfoques de aprendizaje automático "tradicionales" en un conjunto simple de preguntas que lo ayudarán a avanzar con confianza al comenzar a diseñar para IA.
Un tipo diferente de diseño UX
Primero, algunos antecedentes sobre en qué se diferencia el diseño AI UX de lo que estás acostumbrado a hacer. (Nota: usaré AI y ML indistintamente en esta publicación). Es posible que esté familiarizado con el modelo de diseño UX de 5 capas de Jesse James Garrett.
Diagrama de elementos de la experiencia del usuario de Jesse James Garrett
El modelo de Garrett funciona bien para sistemas deterministas, pero no captura los elementos adicionales de los proyectos de aprendizaje automático que afectarán las consideraciones de UX posteriores. Trabajar con ML significa agregar una serie de capas adicionales al modelo, dentro y alrededor de la capa de estrategia. Ahora, además de lo que estás acostumbrado a diseñar, también necesitas una comprensión más profunda de:
- Cómo está construido el sistema.
- Qué datos están disponibles para su función, qué incluye, qué tan buena y confiable es.
- Los modelos de ML que utilizarás, así como sus fortalezas y debilidades.
- Los resultados que generará su función, cómo variarán y cuándo fallarán.
- Cómo los humanos podrían reaccionar a esta característica de manera diferente a lo que esperarías o desearías.
En lugar de preguntarse "¿Cómo podríamos hacer esto?" En respuesta a un problema conocido y de alcance, es posible que se pregunte: "¿Podemos hacer esto?"
Especialmente si está utilizando LLM, probablemente estará trabajando al revés a partir de una tecnología que desbloquea capacidades completamente nuevas, y tendrá que determinar si son apropiadas para resolver problemas que conoce o incluso problemas que nunca consideró solucionables. antes. Es posible que necesite pensar en un nivel superior al habitual; en lugar de mostrar unidades de información, es posible que desee sintetizar grandes cantidades de información y presentar tendencias, patrones y predicciones.
“Estás diseñando un sistema probabilístico que es dinámico y que reacciona a las entradas en tiempo real”
Lo más importante es que, en lugar de diseñar un sistema determinista que hace lo que usted le dice que haga, está diseñando un sistema probabilístico que es dinámico y que reacciona a las entradas en tiempo real, con resultados y comportamientos que en ocasiones serán inesperados o inexplicables. y donde sopesar las compensaciones podría ser un ejercicio turbio. Aquí es donde entra en juego mi conjunto de cinco preguntas clave: no para brindarle respuestas, sino para ayudarlo a dar el siguiente paso frente a la incertidumbre. Vamos a sumergirnos.
1. ¿Cómo garantizará buenos datos?
A los científicos de datos les encanta decir "Basura entra, basura sale". Si comienza con datos incorrectos, generalmente no hay forma de terminar con una buena función de IA.
Por ejemplo, si está creando un chatbot que genera respuestas basadas en una colección de fuentes de información, como artículos en un centro de ayuda en línea, los artículos de baja calidad garantizarán un chatbot de baja calidad.
Cuando el equipo de Intercom lanzó Fin a principios de 2023, nos dimos cuenta de que muchos de nuestros clientes no tenían una idea precisa de la calidad de su contenido de ayuda hasta que comenzaron a usar Fin y descubrieron qué información estaba o no presente o clara en su contenido. El deseo de una función útil de IA puede ser una excelente función para obligar a los equipos a mejorar la calidad de sus datos.
Entonces, ¿qué son buenos datos? Los buenos datos son:
- Preciso: Los datos representan correctamente la realidad. Es decir, si mido 1,7m, eso es lo que pone en mi expediente médico. No dice que mido 1,9 m.
- Completo: los datos incluyen los valores requeridos. Si necesitamos medir la altura para hacer una predicción, ese valor está presente en los registros médicos de todos los pacientes.
- Consistente: los datos no contradicen otros datos. No tenemos dos campos para la altura, uno que diga 1,7 m y el otro que diga 1,9 m.
- Fresco: los datos son recientes y están actualizados. Su registro de salud no debería reflejar su altura cuando tenía 10 años si ahora es un adulto; si ha cambiado, el registro debería cambiar para reflejarlo.
- Único: Los datos no están duplicados. Mi médico no debería tener dos registros de pacientes para mí, o no sabrán cuál es el correcto.
Es raro tener una gran cantidad de datos de muy alta calidad, por lo que es posible que deba hacer un equilibrio entre calidad y cantidad al desarrollar su producto de IA. Es posible que pueda crear manualmente una muestra más pequeña (pero con suerte aún representativa) de datos, o filtrar datos antiguos e inexactos para crear un conjunto confiable.
Intente comenzar su proceso de diseño con una idea precisa de qué tan buenos son sus datos y un plan para mejorarlos si no son excelentes al principio.
2. ¿Cómo ajustarás tu proceso de diseño?
Como de costumbre, es útil comenzar con una exploración de baja fidelidad para determinar su experiencia de usuario ideal para el problema que espera resolver. Probablemente nunca lo verás en producción, pero esta estrella del norte puede ayudarte a alinearte a ti y a tu equipo, entusiasmarlos y también proporcionar un punto de partida concreto para investigar qué tan factible es en realidad.
"Dedique algún tiempo a comprender cómo funciona el sistema, cómo se recopilan y utilizan los datos y si su diseño captura la variación que puede ver en los resultados del modelo".
Una vez que tenga esto, es hora de diseñar el sistema, los datos y los resultados de contenido. Vuelve a tu estrella del norte y pregúntate: “¿Es realmente posible lo que diseñé? ¿Cuáles son algunas variaciones en caso de que X o Y no funcionen bien?
Dedique algún tiempo a comprender cómo funciona el sistema, cómo se recopilan y utilizan los datos y si su diseño captura la variación que podría ver en los resultados del modelo. Con la IA, un resultado deficiente es una mala experiencia. En el ejemplo del chatbot, esto podría parecer una respuesta que no brinda suficientes detalles, responde a una pregunta tangencial o no aclara la pregunta cuando debería.
Dos ejemplos de cómo se puede mostrar la salida de un chatbot con IA
En la ilustración anterior, el ejemplo de la izquierda es similar a muchos de los primeros resultados que vimos al desarrollar nuestro chatbot Fin, que eran precisos pero no muy informativos ni útiles porque hacían referencia al artículo original en lugar de indicar la respuesta en línea. El diseño le ayuda a llegar al ejemplo de la derecha, que tiene una respuesta más completa con pasos y formato claros.
No deje el contenido del resultado en manos de sus ingenieros: se debe diseñar la experiencia del mismo. Si está trabajando en un producto basado en LLM, esto significa que debe experimentar con ingeniería rápida y desarrollar su propio punto de vista sobre cuál debería ser la forma y el alcance del resultado.
También deberá considerar cómo diseñar para un nuevo conjunto de posibles estados de error, riesgos y restricciones:
Estados de error
- Problema de arranque en frío: es posible que los clientes tengan pocos o ningún dato cuando utilicen su función por primera vez. ¿Cómo obtendrán valor desde el principio?
- Sin predicción: el sistema no tiene respuesta. ¿Qué pasa entonces?
- Mala predicción: el sistema dio un resultado pobre. ¿El usuario sabrá que está mal? ¿Podrán arreglarlo?
Riesgos
- Falsos positivos , como cuando el pronóstico del tiempo predice lluvia, pero no llueve. ¿Habrá un resultado negativo si esto sucede con su producto?
- Falsos negativos , como cuando el pronóstico del tiempo pronostica que no lloverá, pero sí aguacero. ¿Cuál será el resultado si esto sucede con su función?
- Riesgos del mundo real , como cuando los resultados del ML influyen o impactan directamente las vidas, los medios de vida y las oportunidades de las personas. ¿Son aplicables a su producto?
Nuevas restricciones
- Limitaciones del usuario , como modelos mentales incorrectos sobre cómo funciona el sistema, expectativas o temores poco realistas sobre su producto, o la posibilidad de caer en la complacencia con el tiempo.
- Restricciones técnicas , como API o costo de almacenamiento y computación, latencia, tiempo de actividad, disponibilidad de datos, privacidad de datos y seguridad. Estos son principalmente un problema para sus ingenieros, pero también pueden tener un impacto directo en la experiencia del usuario, por lo que debe comprender las limitaciones y posibilidades.
3. ¿Cómo funcionará cuando falle el ML?
Cuándo, nosi. Si le sorprenden las formas en que su producto de IA falla en producción, es que no realizó suficientes pruebas de antemano. Su equipo debe probar su producto y sus resultados durante todo el proceso de creación, no esperar hasta que esté a punto de enviar la función a los clientes. Las pruebas rigurosas le darán una idea sólida de cómo y cuándo podría fallar su producto, de modo que pueda crear experiencias de usuario para mitigar esas fallas. Estas son algunas de las formas en que puede probar eficazmente su producto.
Comience con sus prototipos de diseño
Prototipo con datos reales en la medida de lo posible. “Lorem ipsum” es su enemigo aquí: utilice ejemplos reales para probar su producto. Por ejemplo, al desarrollar nuestro chatbot de IA Fin, era importante probar la calidad de las respuestas dadas a las preguntas reales de los clientes, utilizando artículos reales del centro de ayuda como material fuente.
Un ejemplo de cómo dos diseñadores podrían abordar el diseño de un chatbot que proporcione respuestas generadas por IA
En esta comparación, podemos ver que el ejemplo colorido de la izquierda es más atractivo visualmente, pero no brinda detalles sobre la calidad de la experiencia de generación de respuestas. Tiene alta fidelidad visual pero baja fidelidad de contenido. El ejemplo de la derecha es más informativo para probar y validar que las respuestas de la IA son realmente de buena calidad, porque tiene una alta fidelidad de contenido.
Los diseñadores suelen estar más familiarizados trabajando en el rango de fidelidad visual. Si está diseñando para ML, debe intentar trabajar en todo el espectro de fidelidad del contenido hasta que haya validado completamente que los resultados son de calidad suficiente para sus usuarios.
El colorido diseño de Fin no le ayudará a juzgar si el chatbot puede responder preguntas lo suficientemente bien como para que los clientes paguen por él. Obtendrá mejores comentarios mostrándoles a los clientes un prototipo, por básico que sea, que les muestre resultados reales a partir de sus datos reales.
Prueba a gran escala
Cuando crea que ha logrado resultados consistentemente de buena calidad,realice una prueba retrospectiva para validar la calidad de sus resultados a mayor escala.Esto significa que sus ingenieros regresen y ejecuten el algoritmo con más datos históricos donde usted conozca o pueda juzgar de manera confiable la calidad del resultado. Debería revisar los resultados para comprobar su calidad y coherencia, y para detectar cualquier sorpresa.
Plantéate tu producto mínimo viable (MVP) como prueba
Su MVP o versión beta debería ayudarlo a resolver las preguntas restantes y encontrar más sorpresas potenciales. Piense fuera de lo común para su MVP: puede crearlo en el producto o podría ser simplemente una hoja de cálculo.
“Haga que los resultados funcionen y luego construya la envoltura del producto a su alrededor”
Por ejemplo, si está creando una función que agrupa grupos de artículos en áreas temáticas y luego define los temas, querrá asegurarse de haber realizado la agrupación correctamente antes de crear la interfaz de usuario completa. Si sus clústeres son malos, es posible que deba abordar el problema de manera diferente o permitir diferentes interacciones para ajustar los tamaños de los clústeres.
Es posible que desee “construir” un MVP que sea simplemente una hoja de cálculo de los resultados y los temas nombrados, y ver si sus clientes encuentran valor en la forma en que lo ha hecho. Haga que las salidas funcionen y luego construya la envoltura del producto a su alrededor.
Ejecute una prueba A/B cuando inicie su MVP
Querrá medir el impacto positivo o negativo de su característica. Como diseñador, probablemente no estarás a cargo de configurar esto, pero debes tratar de comprender los resultados. ¿Las métricas indican que su producto es valioso? ¿Hay algún factor de confusión en la UI o UX que quizás debas cambiar según lo que estás viendo?
"Puede utilizar la telemetría del uso de su producto combinada con comentarios cualitativos de los usuarios para comprender mejor cómo interactúan sus usuarios con su función y el valor que obtienen de ella".
En el equipo de Intercom AI, realizamos pruebas A/B cada vez que lanzamos una nueva función con un volumen de interacciones lo suficientemente alto como para determinar la significancia estadística en unas pocas semanas. Sin embargo, para algunas funciones simplemente no tendrá el volumen; en ese caso, puede usar la telemetría del uso de su producto combinada con comentarios cualitativos de los usuarios para comprender mejor cómo interactúan sus usuarios con su función y el valor que obtienen de ella. él.
4. ¿Cómo encajarán los humanos en el sistema?
Hay tres etapas principales del ciclo de vida de uso del producto que debes considerar al crear un producto de IA:
- Configuración de la función antes de usarla .Esto podría incluir elegir un nivel de autonomía con el que funcionará el producto, seleccionar y filtrar datos que se utilizarán para predicciones y establecer controles de acceso. Un ejemplo de esto es el marco de automatización de vehículos autónomos de SAE International, que describe lo que el vehículo puede hacer por sí solo y cuánta intervención humana se permite o requiere.
- Monitorear la función mientras está en funcionamiento.¿El sistema necesita un ser humano para mantenerlo encaminado mientras funciona? ¿Necesita un paso de aprobación para garantizar la calidad? Esto podría significar verificaciones operativas, orientación humana o aprobaciones en vivo antes de enviar una salida de IA al usuario final. Un ejemplo de esto podría ser un asistente de redacción de artículos de IA, que sugiere ediciones de un borrador de artículo de ayuda que un escritor debe aprobar antes de publicarlas.
- Evaluación de la función después del lanzamiento.Por lo general, esto significa informar, proporcionar comentarios o tomar medidas y gestionar los cambios de datos a lo largo del tiempo. En esta etapa, el usuario analiza cómo funcionó el sistema automatizado, lo compara con datos históricos o analiza la calidad y decide cómo mejorarla (mediante entrenamiento de modelos, actualizaciones de datos u otros métodos). Un ejemplo de esto podría ser un informe que detalle las preguntas que los usuarios finales le hicieron a su chatbot de IA, cuáles fueron las respuestas y los cambios sugeridos que puede realizar para mejorar las respuestas del chatbot a preguntas futuras.
También puede utilizar estas tres fases para ayudar a informar su hoja de ruta de desarrollo de productos. Podría tener múltiples productos y múltiples UI basadas en la misma tecnología backend de ML o muy similar, y simplemente cambiar en lo que respecta al ser humano. La participación humana en diferentes puntos del ciclo de vida puede cambiar completamente la propuesta del producto.
También puede abordar el diseño de productos de IA en términos de tiempo: cree algo ahora que pueda necesitar un ser humano en un momento determinado, pero con un plan para eliminarlo o moverlo a una etapa diferente una vez que sus usuarios finales se acostumbren a los resultados y la calidad. de la función de IA.
5. ¿Cómo generará la confianza de los usuarios en el sistema?
Cuando introduces IA en un producto, estás introduciendo un modelo con agencia para actuar en el sistema, cuando antes solo los propios usuarios tenían esa agencia. Eso añade riesgo e incertidumbre para sus clientes. Es comprensible que el nivel de escrutinio que reciba su producto aumente y necesitará ganarse la confianza de sus usuarios.
Puedes intentar hacerlo de varias maneras:
- Ofrezca un "lanzamiento oscuro" o una experiencia en paralelo donde los clientes puedan comparar resultados o verlos sin exponerlos a los usuarios finales. Piense en esto como una versión orientada al usuario de las pruebas retrospectivas que realizó anteriormente en el proceso; el objetivo aquí es brindarles a sus clientes confianza en el rango y la calidad de los resultados que ofrecerá su característica o producto. Por ejemplo, cuando lanzamos el chatbot Fin AI de Intercom, ofrecimos una página donde los clientes podían cargar y probar el bot con sus propios datos.
- Primero inicie la función bajo supervisión humana. Después de un tiempo con un buen rendimiento, es probable que sus clientes confíen en que funcionará sin supervisión humana.
- Facilite desactivar la función si no funciona. Es más fácil para los usuarios adoptar una función de IA en su flujo de trabajo (especialmente en un flujo de trabajo empresarial) si no hay riesgo de que estropeen algo y no puedan detenerlo.
- Cree un mecanismo de retroalimentación para que los usuarios puedan informar resultados deficientes e, idealmente, haga que su sistema actúe en función de esos informes para realizar mejoras en el sistema. Sin embargo, asegúrese de establecer expectativas realistas sobre cuándo y cómo se aplicarán los comentarios para que los clientes no esperen mejoras instantáneas.
- Cree mecanismos de generación de informes sólidos para ayudar a sus clientes a comprender cómo se está desempeñando la IA y qué retorno de la inversión obtienen de ella.
Dependiendo de su producto, es posible que desee probar más de uno de estos para alentar a los usuarios a adquirir experiencia y sentirse cómodos con su producto.
La paciencia es una virtud cuando se trata de IA
Espero que estas cinco preguntas le sirvan de guía en su viaje hacia el nuevo y vertiginoso mundo del desarrollo de productos de IA. Un último consejo: tenga paciencia al lanzar su producto. Puede requerir un gran esfuerzo poner en funcionamiento una función de aprendizaje automático y adaptarla a la forma en que le gusta trabajar a una empresa, por lo que la curva de adopción puede ser diferente de lo que cabría esperar.
"Una vez que haya creado algunas funciones de IA, comenzará a tener una mejor idea de cómo reaccionarán sus clientes particulares ante los nuevos lanzamientos".
Es probable que pase un poco de tiempo antes de que sus clientes vean el mayor valor o antes de que puedan convencer a sus partes interesadas de que la IA vale la pena y debe lanzarse de manera más amplia a sus usuarios.
Incluso los clientes que están realmente entusiasmados con su función pueden necesitar tiempo para implementarla, ya sea porque necesitan hacer un trabajo de preparación, como limpiar sus datos, o porque están trabajando para desarrollar la confianza antes de lanzarla. Puede ser difícil anticipar qué adopción debería esperar, pero una vez que haya creado algunas funciones de IA, comenzará a tener una mejor idea de cómo reaccionarán sus clientes particulares ante los nuevos lanzamientos.