UX의 새로운 시대: AI 제품에 대한 디자인 접근 방식의 발전

게시 됨: 2024-01-18

1년 전 ChatGPT가 등장하기 전에는 인공 지능(AI)과 기계 학습(ML)이 전문가와 데이터 과학자, 즉 많은 틈새 경험과 전문 도메인 지식을 갖춘 팀의 신비한 도구였습니다. 이제는 상황이 다릅니다.

아마도 귀하의 회사가 OpenAI의 GPT 또는 다른 LLM(대규모 언어 모델)을 사용하여 귀하의 제품에 생성 AI 기능을 구축하기로 결정했기 때문에 이 글을 읽고 계실 것입니다. 그렇다면 신나는 일이거나(“훌륭한 새로운 기능을 만드는 건 너무 쉬워요!”) 압도당할 수도 있습니다(“왜 매번 다른 결과물이 나오는지, 내가 원하는 대로 만들려면 어떻게 해야 할까요?”). 어쩌면 당신은 둘 다 느낄 수도 있습니다!

AI로 작업하는 것은 새로운 도전일 수 있지만 위협적일 필요는 없습니다. 이 게시물에서는 "전통적인" ML 접근 방식을 설계하는 데 보낸 수년간의 경험을 AI 설계를 시작할 때 자신감을 가지고 앞으로 나아갈 수 있도록 간단한 질문 세트로 정리했습니다.

다양한 종류의 UX 디자인

첫째, AI UX 디자인이 기존 작업과 어떻게 다른지에 대한 배경 지식입니다. (참고: 이 게시물에서는 AI와 ML을 같은 의미로 사용하겠습니다.) Jesse James Garrett의 UX 디자인 5계층 모델에 익숙하실 것입니다.

머신러닝 인라인 이미지를 위한 디자인
Jesse James Garrett의 사용자 경험 요소 다이어그램

Garrett의 모델은 결정론적 시스템에 적합하지만 다운스트림에서 UX 고려 사항에 영향을 미치는 기계 학습 프로젝트의 추가 요소를 포착하지 못합니다. ML을 사용한다는 것은 모델, 전략 레이어 내부 및 주변에 여러 추가 레이어를 추가하는 것을 의미합니다. 이제 디자인에 익숙한 것 외에도 다음 사항에 대한 더 깊은 이해가 필요합니다.

  • 시스템 구축 방법.
  • 기능에 사용할 수 있는 데이터, 포함된 내용, 기능의 우수성과 신뢰성은 무엇입니까?
  • 사용할 ML 모델과 해당 모델의 강점과 약점.
  • 기능이 생성하는 출력, 출력의 변화 방식, 실패 시기.
  • 인간이 이 기능에 대해 기대하거나 원하는 것과 다르게 반응할 수 있는 방식입니다.

스스로에게 “우리가 이것을 어떻게 할 수 있을까?”라고 묻는 대신에. 알려진 범위가 지정된 문제에 대한 응답으로 "우리가 이것을 할 수 있을까?"라고 묻는 자신을 발견할 수도 있습니다.

특히 LLM을 사용하는 경우 완전히 새로운 기능을 잠금 해제하는 기술을 거꾸로 사용하게 될 가능성이 높으며, LLM이 알고 있는 문제 또는 해결할 수 있다고 생각한 적이 없는 문제를 해결하는 데 적합한지 여부를 결정해야 합니다. 전에. 평소보다 더 높은 수준에서 생각해야 할 수도 있습니다. 정보의 단위를 표시하는 대신 많은 양의 정보를 종합하여 추세, 패턴 및 예측을 제시하고 싶을 수도 있습니다.

“동적이며 실시간으로 입력에 반응하는 확률적 시스템을 설계하고 있습니다.”

가장 중요한 것은 지시한 대로 수행하는 결정론적 시스템을 설계하는 대신 동적이며 입력에 실시간으로 반응하는 확률론적 시스템을 설계한다는 것입니다. 결과는 예상치 못하거나 설명할 수 없습니다. 그리고 균형을 맞추는 것이 모호한 일이 될 수도 있습니다. 이것이 제가 다섯 가지 주요 질문 세트를 적용하는 곳입니다. 답변을 제공하는 것이 아니라 불확실성에 직면하여 다음 단계를 밟을 수 있도록 돕기 위한 것입니다. 뛰어 들어 봅시다.

1. 좋은 데이터를 어떻게 확보할 것인가?

데이터 과학자들은 "쓰레기가 들어오면 쓰레기가 나온다"라고 말하는 것을 좋아합니다. 잘못된 데이터로 시작하면 일반적으로 좋은 AI 기능으로 끝날 가능성이 없습니다.

예를 들어 온라인 도움말 센터의 기사와 같은 정보 소스 모음을 기반으로 답변을 생성하는 챗봇을 구축하는 경우 품질이 낮은 기사는 품질이 낮은 챗봇을 보장합니다.

Intercom 팀이 2023년 초에 Fin을 출시했을 때 우리는 많은 고객이 Fin을 사용하기 시작하고 어떤 정보가 존재하거나 존재하지 않거나 명확한지를 발견할 때까지 도움말 콘텐츠의 품질에 대해 정확한 감각을 갖지 못했다는 것을 깨달았습니다. 그들의 콘텐츠. 유용한 AI 기능에 대한 욕구는 팀이 데이터 품질을 개선하도록 하는 훌륭한 강제 기능이 될 수 있습니다.

그렇다면 좋은 데이터란 무엇일까? 좋은 데이터는 다음과 같습니다.

  • 정확성: 데이터가 현실을 정확하게 나타냅니다. 즉, 내 키가 1.7미터라면 건강기록부에 그렇게 나와 있습니다. 내 키가 1.9m라고 말하지는 않네요.
  • 완료: 데이터에 필수 값이 포함되어 있습니다. 예측을 위해 키 측정이 필요한 경우 해당 값은 모든 환자의 건강 기록에 존재합니다.
  • 일관성: 데이터가 다른 데이터와 모순되지 않습니다. 높이에 대한 두 개의 필드가 없습니다. 하나는 1.7m이고 다른 하나는 1.9m입니다.
  • 신선함: 데이터가 최신 상태입니다. 귀하가 이제 성인이 된다면 귀하의 건강 기록은 10세 때의 키를 반영해서는 안 됩니다. 만약 건강 기록이 변경되었다면 이를 반영하도록 기록도 변경되어야 합니다.
  • 고유: 데이터가 중복되지 않습니다. 내 의사는 나를 위해 두 개의 환자 기록을 갖고 있어서는 안 됩니다. 그렇지 않으면 어느 것이 올바른지 알 수 없을 것입니다.

정말 고품질의 데이터를 많이 보유하는 경우는 드물기 때문에 AI 제품을 개발할 때 품질/수량 균형을 맞춰야 할 수도 있습니다. 더 작은(그러나 여전히 대표적인 샘플) 데이터를 수동으로 생성하거나 오래되고 부정확한 데이터를 필터링하여 신뢰할 수 있는 세트를 생성할 수 있습니다.

데이터가 얼마나 좋은지에 대한 정확한 이해와 처음부터 좋지 않은 경우 이를 개선하기 위한 계획을 가지고 디자인 프로세스를 시작하십시오.

2. 디자인 프로세스를 어떻게 조정할 예정인가요?

평소와 마찬가지로 해결하려는 문제에 대한 이상적인 사용자 경험을 결정하기 위해 낮은 충실도의 탐색부터 시작하는 것이 유용합니다. 프로덕션에서는 결코 볼 수 없을 것 같지만, 이 북극성은 귀하와 귀하의 팀을 정렬하고, 흥분하게 만들고, 실제로 얼마나 실현 가능한지 조사하기 위한 구체적인 시작점을 제공하는 데 도움이 될 수 있습니다.

"시스템 작동 방식, 데이터 수집 및 사용 방식, 설계가 모델 출력에서 ​​볼 수 있는 차이를 포착하는지 여부를 이해하는 데 시간을 투자하세요."

이것이 완료되면 이제 시스템, 데이터 및 콘텐츠 출력을 설계할 차례입니다. 당신의 북극성으로 돌아가서 “내가 디자인한 것이 실제로 가능한가?”라고 물어보세요. X나 Y가 잘 작동하지 않는 경우에는 어떤 변형이 있나요?”

시스템 작동 방식, 데이터 수집 및 사용 방식, 설계가 모델 출력에서 ​​볼 수 있는 차이를 포착하는지 여부를 이해하는 데 시간을 투자하세요. AI를 사용하면 결과가 좋지 않으면 경험도 좋지 않습니다. 챗봇 예에서 이는 세부 정보를 충분히 제공하지 않거나, 접선적인 질문에 답변하거나, 질문을 명확하게 설명하지 않는 답변처럼 보일 수 있습니다.

머신러닝 인라인 이미지 2를 위한 디자인 AI 챗봇의 출력이 표시되는 방법에 대한 두 가지 예

위 그림에서 왼쪽 예는 Fin 챗봇을 개발할 때 본 많은 초기 출력과 유사합니다. 이는 정확했지만 답변을 인라인으로 설명하는 대신 원본 기사를 다시 참조했기 때문에 그다지 유익하거나 유용하지 않았습니다. 디자인은 명확한 단계와 형식을 통해 더욱 완전한 답을 제공하는 오른쪽의 예에 도달하는 데 도움이 됩니다.

결과물의 내용을 엔지니어에게 맡기지 마십시오. 결과물의 경험이 디자인되어야 합니다. LLM 기반 제품을 작업하는 경우 이는 즉각적인 엔지니어링을 실험하고 출력의 형태와 범위에 대한 자신만의 관점을 개발해야 함을 의미합니다.

또한 새로운 잠재적 오류 상태, 위험 및 제약 조건을 설계하는 방법도 고려해야 합니다.

오류 상태

  • 콜드 스타트 ​​문제: 고객이 기능을 처음 사용할 때 데이터가 거의 또는 전혀 없을 수 있습니다. 처음부터 어떻게 가치를 얻을 수 있을까요?
  • 예측 없음: 시스템에 답이 없습니다. 그러면 어떻게 되나요?
  • 잘못된 예측: 시스템의 출력이 좋지 않습니다. 사용자가 그것이 틀렸다는 것을 알 수 있습니까? 고칠 수 있나요?

위험

  • 거짓 긍정 (예: 일기 예보에서 비가 올 것으로 예상했지만 비가 내리지 않는 경우) 귀하의 제품에 이런 일이 발생하면 부정적인 결과가 발생합니까?
  • 거짓 부정 (일기예보에서 비가 내리지 않을 것으로 예상했지만 폭우가 내리는 경우). 귀하의 기능에 이런 일이 발생하면 결과는 어떻게 될까요?
  • ML 출력이 사람들의 삶, 생계, 기회에 직접적인 영향을 미치거나 영향을 미치는 경우와 같은 실제 위험입니다 . 귀하의 제품에 이러한 내용이 적용됩니까?

새로운 제약

  • 시스템 작동 방식에 대한 잘못된 정신적 모델, 제품에 대한 비현실적인 기대나 두려움, 시간이 지남에 따라 안주할 가능성과 같은 사용자 제약 .
  • API 또는 스토리지, 컴퓨팅 비용, 대기 시간, 가동 시간, 데이터 가용성, 데이터 개인정보 보호, 보안과 같은 기술적 제약 . 이는 주로 엔지니어의 문제이지만 사용자 경험에 직접적인 영향을 미칠 수도 있으므로 제한 사항과 가능성을 이해해야 합니다.

3. ML이 실패하면 어떻게 작동하나요?

, 그렇지 않은경우. AI 제품이 프로덕션에서 실패하는 방식에 놀랐다면 사전에 충분한 테스트를 수행하지 않은 것입니다. 팀은 고객에게 기능을 제공할 때까지 기다리지 않고 전체 빌드 프로세스 동안 제품과 출력을 테스트해야 합니다. 엄격한 테스트를 통해 제품이 언제 어떻게 실패할 수 있는지에 대한 확실한 아이디어를 얻을 수 있으므로 이러한 실패를 완화하기 위한 사용자 경험을 구축할 수 있습니다. 제품을 효과적으로 테스트할 수 있는 몇 가지 방법은 다음과 같습니다.

디자인 프로토타입으로 시작하세요

최대한 실제 데이터로 프로토타입을 제작하세요. "Lorem ipsum"은 여기서 당신의 적입니다. 실제 사례를 사용하여 제품을 스트레스 테스트하세요. 예를 들어 AI 챗봇 Fin을 개발할 때 실제 도움말 센터 기사를 소스 자료로 사용하여 실제 고객 질문에 대한 답변의 품질을 테스트하는 것이 중요했습니다.

ML 인라인 이미지 3을 위한 디자인
두 명의 디자이너가 AI 생성 답변을 제공하는 챗봇을 디자인하는 방법에 대한 예

이 비교에서 왼쪽의 다채로운 예가 시각적으로 더 매력적이라는 것을 알 수 있지만 답변 생성 경험의 품질에 대한 세부 정보는 제공하지 않습니다. 시각적 충실도는 높지만 콘텐츠 충실도는 낮습니다. 오른쪽의 예는 콘텐츠 충실도가 높기 때문에 AI 응답이 실제로 좋은 품질인지 테스트하고 검증하는 데 더 많은 정보를 제공합니다.

디자이너는 시각적 충실도 범위에서 작업하는 데 더 익숙한 경우가 많습니다. ML용으로 디자인하는 경우 출력의 품질이 사용자에게 충분한지 완전히 검증할 때까지 콘텐츠 충실도의 범위에 따라 작업하는 것을 목표로 해야 합니다.

화려한 핀 디자인은 챗봇이 고객이 비용을 지불할 만큼 질문에 잘 대답할 수 있는지 판단하는 데 도움이 되지 않습니다. 고객에게 실제 데이터의 실제 출력을 보여주는 프로토타입을 보여줌으로써 더 나은 피드백을 얻을 수 있습니다.

대규모 테스트

지속적으로 좋은 품질의 출력을 달성했다고 생각되면백테스트를 통해 출력 품질을 더 큰 규모로 검증하세요.이는 엔지니어가 출력 품질을 알고 있거나 안정적으로 판단할 수 있는 더 많은 과거 데이터에 대해 알고리즘을 실행하도록 하는 것을 의미합니다. 품질과 일관성을 위해 출력을 검토하고 놀라운 점을 표면화해야 합니다.

테스트로 MVP(최소 실행 가능 제품)에 접근하세요.

MVP 또는 베타 릴리스는 남은 질문을 해결하고 잠재적인 놀라움을 찾는 데 도움이 될 것입니다. MVP에 대해 고정관념에서 벗어나 생각해 보세요. 제품 내에서 구축할 수도 있고 스프레드시트일 수도 있습니다.

"출력물이 제대로 작동하도록 만든 다음, 그 주위에 제품 봉투를 구축하세요."

예를 들어 기사 그룹을 주제 영역으로 클러스터링한 다음 주제를 정의하는 기능을 만드는 경우 전체 UI를 구축하기 직전에 클러스터링을 얻었는지 확인해야 합니다. 클러스터가 불량한 경우 문제에 다르게 접근하거나 클러스터 크기를 조정하기 위해 다양한 상호 작용을 허용해야 할 수 있습니다.

결과와 명명된 주제의 스프레드시트인 MVP를 "구축"하고 고객이 귀하가 수행한 방식에서 가치를 찾는지 확인할 수 있습니다. 출력이 작동하도록 만든 다음 그 주위에 제품 봉투를 만듭니다.

MVP를 출시할 때 A/B 테스트를 실행하세요.

기능의 긍정적이거나 부정적인 영향을 측정하고 싶을 것입니다. 디자이너로서 여러분은 아마도 이 설정을 담당하지 않을 것이지만 결과를 이해하려고 노력해야 합니다. 측정항목은 귀하의 제품이 가치가 있음을 나타냅니까? 현재 보고 있는 내용에 따라 변경해야 할 수 있는 UI 또는 UX에 혼란스러운 요소가 있습니까?

“제품 사용에 대한 원격 측정을 정성적인 사용자 피드백과 결합하여 사용자가 기능과 상호 작용하는 방식과 기능에서 파생되는 가치를 더 잘 이해할 수 있습니다.”

Intercom AI 팀에서는 몇 주 내에 통계적 유의성을 판단하기 위해 충분한 양의 상호 작용이 포함된 새로운 기능을 출시할 때마다 A/B 테스트를 실행합니다. 그러나 일부 기능의 경우 용량이 충분하지 않습니다. 이 경우 정성적 사용자 피드백과 결합된 제품 사용에 대한 원격 측정을 사용하여 사용자가 기능과 상호 작용하는 방식 및 사용자가 파생하는 가치를 더 잘 이해할 수 있습니다. 그것.

4. 인간은 시스템에 어떻게 적응할 것인가?

AI 제품을 구축할 때 고려해야 할 제품 사용 수명주기의 세 가지 주요 단계가 있습니다.

  1. 사용하기 전에기능을 설정하세요 .여기에는 제품이 작동할 자율성 수준 선택, 예측에 사용될 데이터 선별 및 필터링, 액세스 제어 설정이 포함될 수 있습니다. 이에 대한 예로는 차량이 스스로 무엇을 할 수 있는지, 그리고 인간의 개입이 얼마나 허용되거나 필요한지를 설명하는 SAE International 자율 차량 자동화 프레임워크가 있습니다.
  2. 기능이 작동하는 동안 모니터링합니다.시스템이 작동하는 동안 이를 계속 추적하려면 사람이 필요합니까? 품질을 보장하기 위해 승인 단계가 필요합니까? 이는 AI 출력이 최종 사용자에게 전송되기 전에 운영 점검, 인간 안내 또는 실시간 승인을 의미할 수 있습니다. 이에 대한 예로는 작성자가 게시하기 전에 승인해야 하는 초안 도움말 기사에 대한 편집을 제안하는 AI 기사 작성 도우미가 있을 수 있습니다.
  3. 출시 후기능을 평가합니다 .이는 일반적으로 보고, 피드백 제공 또는 조치, 시간 경과에 따른 데이터 이동 관리를 의미합니다. 이 단계에서 사용자는 자동화된 시스템의 성능을 되돌아보고 이를 기록 데이터와 비교하거나 품질을 살펴보고 개선 방법(모델 교육, 데이터 업데이트 또는 기타 방법을 통해)을 결정합니다. 이에 대한 예로는 최종 사용자가 AI 챗봇에게 질문한 질문, 응답 내용, 향후 질문에 대한 챗봇의 답변을 개선하기 위해 수행할 수 있는 변경 사항 제안 등을 자세히 설명하는 보고서가 있을 수 있습니다.

이 세 단계를 사용하여 제품 개발 로드맵을 알리는 데도 도움이 될 수 있습니다. 동일하거나 매우 유사한 백엔드 ML 기술을 기반으로 여러 제품과 여러 UI를 보유하고 인간이 관련된 부분을 변경할 수 있습니다. 라이프사이클의 다양한 시점에 사람이 개입하면 제품 제안이 완전히 바뀔 수 있습니다.

시간 측면에서 AI 제품 디자인에 접근할 수도 있습니다. 특정 시점에 인간이 필요할 수 있는 것을 지금 구축하지만 최종 사용자가 출력과 품질에 익숙해지면 이를 제거하거나 다른 단계로 이동할 계획을 가지고 있습니다. AI 기능 중.

5. 시스템에 대한 사용자 신뢰를 어떻게 구축할 예정입니까?

AI를 제품에 도입하면 이전에는 사용자 자신만이 해당 에이전시를 가졌던 시스템에서 작동할 에이전시가 있는 모델을 도입하는 것입니다. 이는 고객에게 위험과 불확실성을 추가합니다. 귀하의 제품에 대한 정밀 조사 수준이 당연히 높아질 것이며 귀하는 사용자의 신뢰를 얻어야 합니다.

다음과 같은 몇 가지 방법으로 이를 시도할 수 있습니다.

  • 고객이 최종 사용자에게 출력을 노출하지 않고도 출력을 비교하거나 볼 수 있는 "다크 론치" 또는 병렬 경험을 제공합니다 . 이를 프로세스 초기에 수행한 백테스팅의 사용자 대상 버전이라고 생각하십시오. 여기서 중요한 점은 귀하의 기능이나 제품이 제공할 출력의 범위와 품질에 대해 고객에게 확신을 주는 것입니다. 예를 들어 Intercom의 Fin AI 챗봇을 출시했을 때 고객이 자신의 데이터에 봇을 업로드하고 테스트할 수 있는 페이지를 제공했습니다.
  • 먼저 사람의 감독하에 기능을 실행하세요. 좋은 성능을 발휘한 후 고객은 사람의 모니터링 없이도 작동할 수 있다고 믿을 것입니다.
  • 기능이 작동하지 않는 경우 쉽게 끌 수 있도록 하세요. 사용자가 작업을 엉망으로 만들거나 중지할 수 없는 위험이 없다면 사용자가 작업 흐름(특히 비즈니스 작업 흐름)에 AI 기능을 채택하는 것이 더 쉽습니다.
  • 사용자가 잘못된 결과를 보고할 수 있도록 피드백 메커니즘을 구축 하고 이상적으로는 시스템이 해당 보고서에 따라 조치를 취하여 시스템을 개선하도록 하세요. 그러나 고객이 즉각적인 개선을 기대하지 않도록 피드백이 언제 어떻게 적용될 것인지에 대해 현실적인 기대치를 설정하십시오.
  • 고객이 AI의 성능과 AI에서 얻는 ROI를 이해할 수 있도록 강력한 보고 메커니즘을 구축하세요 .

제품에 따라 사용자가 제품에 대한 경험을 쌓고 편안함을 느끼도록 장려하기 위해 이들 중 하나 이상을 시도할 수 있습니다.

AI에서는 인내심이 미덕이다

이 다섯 가지 질문이 귀하가 빠르게 변화하는 새로운 AI 제품 개발 세계로 여행할 때 도움이 되기를 바랍니다. 마지막 조언: 제품을 출시할 때 인내심을 가지십시오. ML 기능을 실행하고 회사가 선호하는 방식에 맞게 조정하려면 상당한 노력이 필요할 수 있으므로 채택 곡선이 예상과 다르게 보일 수 있습니다.

“몇 가지 AI 기능을 구축하고 나면 특정 고객이 새로운 출시에 어떻게 반응할지 더 잘 이해할 수 있게 될 것입니다.”

고객이 가장 높은 가치를 확인하거나 AI가 비용 대비 가치가 있으며 사용자에게 더 광범위하게 출시되어야 한다는 점을 이해관계자에게 설득하기까지는 약간의 시간이 걸릴 수 있습니다.

귀하의 기능에 대해 매우 기대하는 고객이라도 데이터 정리와 같은 준비 작업을 수행해야 하거나 기능을 출시하기 전에 신뢰를 쌓기 위해 노력하고 있기 때문에 기능을 구현하는 데 시간이 걸릴 수 있습니다. 어떤 채택을 기대해야 할지 예측하기 어려울 수 있지만 몇 가지 AI 기능을 구축하고 나면 특정 고객이 새로운 출시에 어떻게 반응할지 더 잘 이해하기 시작할 것입니다.

데모 핀 CTA