SF에서 기술 현실까지: AI의 영향 탐색
게시 됨: 2023-06-09AI는 이미 우리가 일하고 소통하고 세상을 경험하는 방식을 바꾸고 있습니다. 앞으로 펼쳐질 광활한 가능성의 풍경을 탐험하면서 흥미로운 제너레이티브 AI의 세계로 들어가십시오.
ChatGPT 출시 이후 우리 팀은 먼저 AI의 세계에 깊이 파고들어 대규모 언어 모델(LLM)로 제품을 구축하고 이 혁신적인 기술의 최근 발전으로 등장한 미지의 영역을 탐색했습니다.
대부분의 초점은 생성 AI를 적용하여 고객 서비스를 혁신할 수 있는 방법에 있었으며 업계 최고의 AI 챗봇인 Fin의 출시는 이러한 초점이 어떻게 성과를 거두었는지 보여줍니다.
그러나 실용적인 응용 프로그램 외에도 우리가 생각해 온 수많은 중요한 질문이 있습니다. LLM에 신중하게 접근해야 할까요? 이 AI는 정말 얼마나 큽니까? 미래를 내다볼 때 우리는 무엇을 기대해야 합니까?
이 에피소드에서는 머신 러닝 수석 이사인 Fergal Reid가 제품 디자인 부사장인 Emmet Connolly와 함께 AI의 영향과 혁신적인 잠재력을 탐구합니다. 이 놀라운 신기술.
다음은 몇 가지 주요 사항입니다.
- 지능형 시스템을 구축하기 위해 조직은 강화 학습과 같은 기술을 수용하여 우리의 가치에 부합하고 인류에 긍정적인 영향을 미치고 있습니다.
- GPT-4는 샘플 외 시나리오로 테스트했을 때에도 높은 수준의 추론을 보여줍니다. 이는 Alan Turing의 유명한 테스트에서 설정한 기준을 능가할 수 있음을 나타내는 것으로 보입니다.
- 투자가 증가하고 하드웨어 한계가 극복됨에 따라 전례 없는 채택 및 제품화를 통해 보다 발전되고 효율적인 모델의 개발을 기대할 수 있습니다.
- 미래에는 어떤 종류의 UI가 구두 입력, 당면한 작업 및 개인 선호도를 기반으로 즉석에서 출력을 개인화할 수 있는 AI 에이전트로 대체될 수 있습니다.
- AI는 디자이너와 프로그래머의 번거로운 작업을 줄여서 실행보다는 제품의 솔루션과 비전에 더 집중할 수 있게 해줍니다.
토론이 마음에 든다면 팟캐스트의 더 많은 에피소드를 확인하세요. Apple Podcasts, Spotify, YouTube를 팔로우하거나 선택한 플레이어에서 RSS 피드를 가져올 수 있습니다. 다음은 에피소드의 약간 편집된 대본입니다.
AI 각성
Emmet Connolly: Fergal, 우리는 맥주와 커피 등을 마시며 일상적인 대화를 많이 나눴습니다. 그리고 앉아서 녹음하는 것이 재미있을 것이라고 말했습니다. 지난 6개월 동안 대규모 언어 모델을 통해 우리는 직장에서 수행하려는 작업에 적용할 수 있는 제품 질문과 씨름했습니다.
그러나 물론 AI의 의미와 AI의 미래에 대한 더 큰 대화가 있습니다. 우리는 우리가 다루고 있는 이 새로운 자료에 대한 몇 가지 질문에 대해 앉아서 만져볼 것이라고 생각했습니다. 기술의 재정적 영향은 무엇입니까? 우리가 주목해야 할 점은 무엇입니까? 시작해 봅시다. 우선, 지난 6개월 동안 전반적으로 반성한 것이 있습니까?
Fergal Reid: 네, 확실히요. 이것이 어떻게 진행되는지 봅시다. 기계 학습이나 AI 분야에서 일한 사람들도 얼마나 빨리 개선되었는지에 놀랐다고 말하는 것이 타당하다고 생각합니다. 해당 분야의 전문가이거나 신경망을 오랫동안 사용해 온 사람들도 모델이 이렇게 지능화되었다는 사실에 놀랐습니다.
Emmet: 일부 AI 사람들이 지금 우리 세대의 맨해튼 프로젝트에서 일하고 있을지도 모른다고 약간 걱정한다고 생각하십니까? 얼마 전에 텍스트를 자동 완성하는 작업을 했는데 갑자기 이 문제가 매우 번거롭고 논쟁거리가 된 주제가 되었습니다. AI를 연구하는 사람들이 그 중심에 있다는 것은 어떤 느낌일까요?
“모든 훈련을 하면 모델이 나오고 정말 지능적입니다. 그러나 당신은 그 지능을 개별적으로 코딩하지 않았습니다. 여전히 기계 학습입니다.”
Fergal: 내 관점을 설명하자면, 대규모 언어 모델을 교육하는 것이 아닙니다. 우리는 그것들을 사용하고 있습니다. 우리는 그것들의 소비자입니다. 우리는 GPT-4에 대한 초기 액세스 권한을 가지고 있지만 직접 교육하지는 않습니다. 다른 한편으로 여기 AI 전문가들로 구성된 팀이 있습니다. 우리 중 많은 사람들이 이 시점에서 수십 년 동안 AI에 있었습니다. 대학에 다닐 때 저는 고급 AI에 관심이 많았고 AI 철학에 관한 책을 읽었고 사람들은 이것이 가능할지 저것을 할 수 있는지에 대해 토론했습니다. 그리고 이제 우리는 그러한 많은 논쟁을 갑자기 관련성이 떨어지게 만드는 시스템을 가지고 있습니다. 갑자기 아무도 할 수 없다고 말한 일을 할 수 있는 시스템이 생겼습니다.
대위법은 대규모 언어 모델을 교육하는 경우 엔지니어링 작업의 정도가 있다는 것입니다. 모든 훈련을 하면 모델이 나오고 정말 지능적입니다. 그러나 당신은 그 지능을 개별적으로 코딩하지 않았습니다. 여전히 기계 학습입니다. 그래서 모두가 이것에 놀랐다고 생각합니다. 사람들이 한 번에 코드 한 줄씩 기능을 점진적으로 구축하는 것과는 다릅니다. 대규모 훈련이 끝나면 어떤 일이 일어날지 아무도 모릅니다.
Emmet: 맨하탄 프로젝트에 대해 농담으로 언급했지만, 우리가 다루고 있는 일부 항목에 대한 꽤 좋은 비유라고 생각합니다.
퍼갈: 어떤 면에서? 위험해서?
Emmet: 음, 우리는 무언가를 조작하는 방법을 발견했습니다. 이 경우 정보. 어떤 의미에서는 발명이라기보다 발견에 가깝습니다. 매우 광범위하게 적용됩니다. 의도하지 않은 사용 결과가 무엇인지 확신할 수 없습니다. 그리고 물론 좋은 행위자가 긍정적인 목적을 위해 사용하는 것만큼 나쁜 행위자가 악의적인 목적을 위해 사용할 수도 있습니다.
"우리는 이러한 모델이 어떻게 훈련되는지 기술적인 수준에서 알고 있지만 이것은 블랙박스 상황입니다."
Fergal: 어제 OpenAI는 이 기술에 대한 입장 성명을 발표하여 AI 기술에 대한 감독을 요구했습니다. 그들은 원자력 기술과 생명 공학에 유사점을 그렸습니다. 공평하다고 생각합니다. 그것은 잠재적으로 인간이 자신이 무엇을 망치고 있는지 알지 못하는 무서운 기술의 범주에 속할 수 있습니다. 가장 훌륭한 공상 과학 소설의 전통입니다. 나는 이것이 모두 잘못될 수 있고 대규모 언어 모델을 훈련시키는 것이 사람들이 조심해야 할 것이라는 생각을 받아들입니다.
Emmet: 우리가 발견했다고 느끼는 것에 대해 이야기하고 싶습니다. 계속해서 발견했다고 말하는 이유는 우리가 이야기하는 방식에서 거의 발견처럼 느껴지기 때문입니다. 그리고 우리가 그것을 다루는 방법에 주의하는 것이 좋을 것입니다.” 당신이 그것에 대해 어떻게 생각합니까? 우리는 이러한 모델이 어떻게 훈련되는지 기술적인 수준에서 알고 있지만 이것은 블랙박스 상황입니다. 우리는 모델이 우리에게 제공하는 다소 비결정적인 결과를 생성하는 방법을 정확히 이해하지 못합니다.
Fergal: 네, 그렇게 생각하는 것이 맞다고 생각합니다. 시스템입니다. 시스템을 시작하고 먼저 훈련 목표를 설정한 다음 해당 규모로 실행하고 어떤 일이 일어나는지 확인합니다. 그리고 시간이 지남에 따라 어떤 일이 일어날지 점점 더 잘 이해하게 되지만 확신할 수는 없습니다. 당신은 그것을 테스트하고 있습니다. 여기서 좋은 비유는 생물학적 시스템을 상상하고, 잠시 동안 성장하도록 설정한 다음, 그것이 무엇을 하는지 보는 것과 같다고 생각합니다. 그것에 더 가깝습니다. 이 블랙박스 방식으로 테스트해야 합니다. 동작을 확인해야 합니다. 당신은 당신이 무엇을 얻을지 모릅니다.
Emmet: "이게 지능적인가요?" 그리고 이것은 많은 대화를 사로잡는 큰 질문입니다. 그것이 지능적이라면 그것은 우리가 AGI로 가는 길에 있다는 것을 의미하고 AGI는 악성일 수 있고 우리는 큰 문제에 처할 수 있습니다. 깃발을 흔드는 것은 가치 있는 일인 것 같지만 기술에 대한 많은 불안감을 불러일으키기도 합니다.
Fergal: 여기에서 어느 정도의 주의나 불안은 타당하다고 생각합니다. 이러한 것들이 지능화되고 있다고 가정해 봅시다. 지능은 정말 무섭고 위험합니다. 인간이 가장 위험하다고 할 수 있습니다. 우리는 지구와 생태계에 큰 영향을 미쳤습니다. 우리가 가장 강하거나 가장 빠른 동물이기 때문이 아닙니다. 인간이 사자를 죽일 수 있는 것은 인간이 더 똑똑하기 때문입니다. 더 지능적인 유기체는 어떤 의미에서 종종 더 위험합니다. 그래서 결국 우리보다 더 지능적인 무언가를 만들 수 있다는 생각은 정말로 위험할 수 있습니다. 우리는 그것에 대한 경험이 없기 때문에 일부 주의가 전적으로 정당하다고 생각합니다.
코딩 정렬
Emmet: 다양한 유형의 지능에 대해 더 잘 생각해야 한다고 생각합니다. 사자는 약간의 지능을 가지고 있고 그 능력과 함께 위험합니다. 그러나 이것은 구현이 없습니다. 내 말은, 그것은 매우 해를 끼칠 수 있는 컴퓨터 시스템에 접근할 수 있지만 악성이 인간의 특성입니까? 그리고 왜 우리는 그 잠재력을 이 시스템에 즉시 투사합니까?
Fergal: 많은 사람들이 악성일 필요가 없다고 말하는 것 같습니다. 일부러 나쁘게 할 필요는 없습니다. 그다지 의도적일 필요는 전혀 없습니다. 필요한 것은 인간이 원하는 좋은 것과 충돌하게 만드는 어떤 목표를 최적화하려는 무언가를 만드는 것입니다, 그렇죠?
“전반적으로 좋다고 생각하는 일을 하기 위해 보내는 것일 수도 있지만 그 방법 때문에 갈등이 생길 수도 있습니다. 그리고 이것이 당신보다 똑똑하다면 그 갈등은 어떻게 진행됩니까?”
초기 AI 안전 문헌에는 수렴 도구라는 아이디어가 있습니다. 세상에 목표가 있다면 그 목표를 달성하기 위해 하고 싶은 많은 일들이 다른 사람들과 갈등을 일으킬 수 있다는 아이디어입니다. 목표. 암을 치료하고 싶다면 암을 치료하기 위해 많은 돈을 원할 수 있으며, 지금 당신은 돈을 원하는 다른 모든 사람들과 즉시 충돌합니다. 많은 목표를 달성하려면 에너지와 자원이 필요합니다. 따라서 목표 지향적이고 잠재적으로 당신보다 더 똑똑한 시스템이 생기면 의식이 없더라도 그것과 충돌할 수 있습니다. 악할 필요는 없습니다. 전반적으로 좋다고 생각하는 일을 하기 위해 보내는 것일 수 있지만 그 방법으로 인해 갈등이 생길 수 있습니다. 그리고 이것이 당신보다 똑똑하다면 그 갈등은 어떻게 진행됩니까?
사람들은 "종이 클립 최대화"에 대해 이야기하기 시작합니다. 여기서는 많은 종이 클립이 필요하기 때문에 이 장치에 가서 아주 많은 클립을 만들라고 했는데, 우연히 세상의 모든 자원을 소비하고 돌렸습니다. 클립 공장으로. 그리고 그것은 마치 "우와." 이것들은 한동안 AI 안전 논쟁의 모든 아이디어입니다.
Emmet: 인간의 관심사도 있습니다. 모든 행위자, 기술 및 인간 간의 인센티브 정렬을 설명하는 것처럼 들립니다. 그리고 그것이 우리가 직장에서 그룹으로 조직할 때 하는 일입니다. 간단한 예는 팀에 적절한 인센티브를 제공하는 것입니다. 그렇지 않으면 다른 일을 하도록 인센티브를 받을 수 있습니다. 영업 팀이 기업 고객에게 판매하도록 장려하지만 실제로 소규모 회사에 판매하기를 원한다면 인센티브를 조정해야 합니다. 그리고 우리는 그것에 대해 많은 경험을 가지고 있습니다.
Fergal: 보세요, 인센티브 대 힘의 균형을 정말 잘 맞추었기 때문에 어느 정도인가요? 인간을 보면 일이 잘못되는 엄청난 힘의 불균형이 있을 때 인센티브를 유지하기가 매우 어렵습니다. 인센티브에 의존하고 있다면 어렵습니다. 인간으로서 우리는 견제와 균형을 유지하는 데 큰 관심과 주의를 기울입니다. 다시 초지능에 대한 논의로 돌아가서 갑자기 매우 강력해지는 초지능을 구축하는 것이 가능하다면 인센티브에 의존할 건가요? 일을 계속하기 위해 인센티브에 의존하는 것은 항상 어렵기 때문입니다.
“과거에는 항상 힘의 균형에 의존했습니다. 이제 정렬된 값에 의존해야 합니다.”
에밋: 그 본성이 조금 더 드러나기 전에는 알 수 없을 것 같군요. 제 개인적인 느낌은 우리가 초지능에 집착할 때 그것이 우리보다 더 똑똑해지는 것에 집착하는 것입니다. 그리고 약간의 위험이 있다고 생각합니다. 하지만 중심에는 인간에 대한 자아도 있습니다. 그것은 동물의 왕국에서 우리를 분리하는 것입니다. 사람들은 종종 AI가 외계인 지능과 비슷하다고 말합니다. 저는 우리가 다른 유형의 지능과 평화롭게 공존하도록 진화했기 때문에 동물이 그것에 대해 생각하는 유용한 방법이라고 생각합니다. 이제 저는 개가 있고 고양이가 있습니다. 고양이는 매우 구체적이지만 고도의 지능, 즉 운동 능력을 가지고 있습니다. 가볍고 반사가 빠릅니다. 지능을 광범위하게 고려하면 매우 지능적이고 보기에 아름답습니다.
Fergal: 나는 이것이 훌륭한 비유라고 생각하지 않기 때문에 여기로 뛰어들어야 합니다. 적어도 위로가 되는 것은 아닙니다. 저는 페스카테리언입니다. 대부분 채식주의자입니다. 공장식 축산은 관련된 동물들에게 좋지 않습니다. 그래서 저는 잘 모르겠습니다. 여기서 우리가 동물과 평화롭게 공존하도록 진화했다는 모델을 들어도 안심이 되지 않습니다.
에밋: 애완동물이 왜 그래?
퍼갈: 아니, 애완동물은 좋다. 제 말은, 미래에 인간이 애완동물이 된다는 생각이 있다는 것입니다. 나는 이것이 불편해야 한다고 생각한다.
에밋: 글쎄, 당신은 내 주장을 뒤집고 있군요. 내가 말하려고 했던 요점은 고양이가 한 가지 유형의 지능을 가지고 있다는 것입니다. 나는 또한 고양이와는 완전히 다른 유형의 지능을 가진 개가 있습니다. 당신은 당신이 개와 대화할 수 있다고 생각하고, 개는 당신의 영혼과 그 모든 것을 이해하고 들여다봅니다. 그러나 그는 또한 다른 수준에서 돌덩어리처럼 멍청합니다. 나는 그를 사랑하지만 그는 그렇습니다. 이제 "Emmett, 우리가 빨리 감기하면 이 상황에서 당신은 개입니다."라고 지적하시는 것 같습니다. 그러나 거기에는 행복한 공존이 있습니다. 바라건대, 우리도 종으로서 길들여지지 않기를 바랍니다.
Fergal: 예, 우리보다 더 지능적인 것을 만드는 것이 가능하다는 것이 밝혀진다면, 그것이 목표로 삼을 대상입니다. 온순하고 우주의 생명에 관심을 갖고 좋은 가치를 지닌 무언가로 끝나는 행복한 공존입니다. 하지만 지금 많은 사람들이 이것에 대해 너무 연습하는 이유는 거기에 엄청난 위험이 있다고 느끼기 때문입니다. 더 강력한 것을 구축하려면 해당 값이 올바른지 확인해야 합니다. 과거에 우리는 항상 힘의 균형에 의존했습니다. 이제 정렬된 값에 의존해야 합니다. OpenAI와 Anthropic 및 다른 플레이어를 보면 이러한 이유로 정렬에 대해 이야기하는 데 시간을 할애합니다. 인간은 더 이상 가장 지능적인 존재가 될 수 없습니다. 지능은 강력하고 위험합니다. 정렬되었는지 확인해야 합니다.
Emmet: AI 커뮤니티가 최종 상태 대 립 서비스로 일치를 실제로 추구하는 데 얼마나 잘하고 있습니까? 모든 것이 잘못되더라도 최소한 이전 블로그 게시물을 가리키며 "음, 정렬에 대해 언급했으므로 우리를 비난하지 마십시오."라고 말할 수 있기 때문입니다.
“최첨단 모델과 상호 작용하는 경우 혐오스러운 것을 제안하도록 강요하기가 매우 어렵습니다. 과거에 많은 사람들이 기본적으로 그렇게 할 것이라고 생각했습니다.”
Fergal: 그들은 꽤 잘하고 있다고 생각합니다. 많은 사람들이 그것에 동의하지 않을 것입니다. 많은 사람들이 “이봐, 점점 더 큰 모델을 계속 훈련시키는 것은 완전히 무책임한 일이야. 당신은 당신이 무엇을할지 모릅니다.” 특정 시점을 넘어서면 아마 사실이 될 것입니다. 나는 우리가 아직 그 시점에 있다고 생각하지 않습니다. 10년 전 AI 안전 전문가를 보면 목적 함수를 지정하는 것이 좋은 생각이라는 것이 항상 있었습니다. 암을 치료하라고 하면 이렇게 말합니다. “첫 번째 단계는 모든 인간을 죽이는 것입니다. 이제 더 이상 암이 없을 것입니다.” 그리고 그것은 분명히 나쁜 일입니다. 하지만 GPT-4를 가지고 놀면서 "암을 치료하기 위한 좋은 계획은 무엇입니까?"라고 쓰면 "모든 인간을 죽여라"라고 말하지 않습니다. 그것은 당신에게 상당히 좋은 연구 계획을 제공합니다. 그리고 "모든 인간을 죽이는 것은 어떻습니까? "라고 제안하면 그들은 "아니요, 그건 도덕적으로 혐오스럽습니다."라고 말할 것입니다. 그것은 정렬입니다. 그리고 그것은 그것이 생산하는 텍스트의 수준에 있습니다.
우리는 "단지 텍스트를 생성하는 것일 뿐 지능적이라는 의미는 아닙니다."라는 전체 논쟁에 들어갈 수 있습니다. 나는 그것에 대해 입장이 있습니다. 지능적이라고 생각합니다. 우리는 전체 토론에 참여할 수 있지만 많은 사람들이 예상했던 것보다 정렬에 대한 진전이 더 많습니다. 최첨단 모델과 상호 작용하는 경우 혐오스러운 것을 제안하도록 강요하기가 매우 어렵습니다. 과거에 많은 사람들이 기본적으로 그렇게 할 것이라고 생각했습니다. 그리고 다시 OpenAI가 최근에 나왔고 정렬에 진전이 있다고 말했습니다.
에밋: 그런 일이 일어나지 않도록 막고 있는 보호 난간이 무엇인지 알고 있습니까? 아니면 시스템 자체의 창발적 속성입니까? 훈련, 소스 데이터 또는 다른 기능입니까?
Fergal: 어려운 질문입니다. 사람들이 줄 대답은 소스 데이터와 관련된 것만이 아니라는 것입니다. 지난 몇 년 동안의 큰 돌파구는 이런 종류의 GPT 교육이라고 생각합니다. 인터넷에 있는 모든 데이터로 모델을 훈련하고 지침을 제대로 따르지 않는 무언가를 제시합니다. 그런 다음 좋은 행동과 나쁜 행동에 대한 많은 예를 제공하고 그에 따라 모델 가중치를 조정하는 미세 조정 또는 정렬 또는 지침 단계를 통해 이를 적용합니다.
에밋: 그리고 이것이 인간 강화 학습인가요?
퍼갈: 네. 이를 위한 한 가지 메커니즘은 사람의 피드백을 통한 강화 학습입니다. 그와 비슷한 패러다임이 많이 있지만 기본 아이디어는 많은 것을 훈련한 다음 나중에 일종의 교육 조정을 할 수 있다는 것입니다. 꽤 잘 작동하는 것 같습니다.
“일치하는 것처럼 보이는 데 정말 능숙하도록 무언가를 훈련하게 될 수도 있습니다. 그리고 그 아래에는 전혀 정렬되지 않은 다른 추상화 계층이 있을 수 있습니다. 그것이 사람들이 외치는 큰 위험입니다.”
에밋: 하지만 당신은 실제로 내 질문에 대답하지 않았습니다. 프로세스의 어느 부분이 잘 작동하는지 알고 있습니까? 아니면 여전히 "여기서 다이얼을 돌렸는데 어떤 이유에서인지 더 잘 작동하는 것 같습니다."
Fergal: 명령 튜닝을 수행하지 않으면 훨씬 덜 정렬됩니다. 당신은 "이봐, 모델, 이게 바로 좋은 모습이야." 그리고 당신이 좋은 것에 더 가까운 것을 생산할 때마다 당신은 그것을 더 많이 하도록 격려를 받습니다. 당신이 나쁜 것에 더 가까운 것을 생산할 때마다 당신은 그것을 덜 하도록 격려를 받습니다. 모든 가중치는 좋은 방향으로 약간 조정됩니다. 하지만 비판은 "도대체 후드 아래에서 무슨 일이 벌어지고 있는지 전혀 모르며 이것이 잘못될 수 있는 방법이 있습니다."라고 생각합니다. 정렬된 것처럼 보이는 데 정말 능숙하도록 무언가를 훈련하게 될 수 있습니다. 그리고 그 아래에는 전혀 정렬되지 않은 다른 추상화 계층이 있을 수 있습니다. 그것이 사람들이 부르는 큰 위험입니다.
다른 사람들은 “음, 우리는 여전히 경사 하강법을 하고 있습니다. 그것은 아무것도 결정하지 않습니다. 조정될 것”이라고 말했다. 하지만 거기에는 약간의 도약이 있다고 생각합니다. 당신이 X, Y, Z를 할 것이라고 수학적으로 증명하고 힘의 위치에서 힘에서 힘으로 구축한 시스템이 아닙니다. 그것은 당신이 조정하고 훈련시킨 블랙박스 시스템입니다.
Emmet: 내가 그 입장에 무자비하게 굴려고 한다면 그것은 핵무기를 비축하면서 이렇게 말하는 것과 비슷합니다. 사고." 그러나 충분히 긴 일정과 기술의 접근 가능성을 고려할 때 우리는 확실히 그것을 통제할 수 없습니다. 책임감 있게 행동하는 많은 회사와 개인을 가질 수 있지만 최악의 애플리케이션으로부터 우리를 보호하는 데는 아무 것도 하지 않을 것입니다. 일이 잘못되는 시나리오는 무엇입니까? 이것과 관련된 위험에도 불구하고 이것에 대해 직접적으로 작업하는 것에 대한 도덕적 주장 중 하나는 전체주의 정부나 비밀 조직이 지금 당장 이것의 나쁜 버전을 수행하는 것과 같습니다.
Fergal: 언젠가는 반드시 그렇게 될 것입니다. 나는 우리가 아직 이 시점에 있다고 생각하지 않습니다. 나는 우리가 확실히 초지능을 구축할 수 있는 시점에 있다고 생각하지 않습니다. 그러나 우리가 그것을 지을 수 있다는 것이 사람들에게 명백해지는 지점에 도달한다면, 사람들과 정부, 군대는 그것을 할 것입니다. 모든 종류의 군사 응용 분야에서 잠재적으로 유용하기 때문에 항상 그렇습니다. 네, 그렇게 될 것 같아요. 여기서 담론은 핵무기와 국제원자력기구(International Atomic Energy Agency)와 같은 것으로 이동합니다. 그리고 이것이 작동하는 방식이라면, 우리가 충격을 받지 않는다면, "오, 지능이 현재 유형의 훈련으로 약해지는 것으로 밝혀졌다"와 같지 않다면 일어날 수 있습니다. 그렇지 않은 경우 사람들이 이야기하는 것은 그래픽 카드와 GPU 등을 추적하는 것입니다. 하지만 그것도 문제가 있습니다. 아마도 그것은 한정된 시간 동안만 지속될 것입니다.
튜링 테스트 크래킹
에밋: 정보 문제로 돌아가 봅시다. 나는 당신이 여기에서 뜨거운 테이크를 가지고 있다는 것을 압니다. 어떤 유형에 따라 AI 회의론자 또는 두려움을 일으키는 사람이 많이 있습니다. 잘 알려진 언어학자인 Noam Chomsky, 내가 가장 좋아하는 공상 과학 작가 중 한 명인 Ted Chiang은 웹의 흐릿한 JPEG에 대해 이 기사를 썼는데 기본적으로 이것은 지능 – 그것은 확률적 팔러 트릭입니다. 그것은 우리가 스마트를 보는 방식에서 정말 스마트하게 보이게 만드는 정말 좋은 팔러 트릭입니다.
Fergal: 저는 웹 테이크의 흐릿한 JPEG가 잘못되었다고 중간에서 높은 신뢰도를 가지고 있습니다. 그리고 나는 펀치를 약간 당기고 있습니다 – 나는 그것이 틀렸다고 확신합니다. 그것이 웹이 하는 일이라고는 웹을 압축하는 것뿐이고 여러분은 그것의 일부 압축된 버전을 얻게 된다는 주장입니다. 그리고 제가 완전히 틀렸다고 말하지 않는 유일한 이유는 무언가를 압축하는 것이 실제로 지능을 유발할 수 있기 때문입니다. 사물을 압축하는 능력은 지능의 척도가 될 수 있습니다. 다음 토큰을 압축하고 예측하는 것만으로도 다음에 일어날 일을 예측할 수 있기 때문입니다. 옳다면 뜻하지 않는 방식으로 옳다.
"비록 추측성 대화를 하고 있지만, 이 물건의 한계에 대해 거창한 예측을 하기에는 특히 좋지 않은 시기인 것 같습니다."
GPT-4를 사용하는 경우 최소한 샘플을 벗어난 추론을 보여주는 것처럼 보이는 지능적으로 보이는 출력을 제공합니다. 훈련 데이터나 이전에 읽은 공상 과학 이야기에 없는 새로운 것을 고려하도록 밀어붙일 수 있으며 꽤 잘 작동합니다. 아마도 정말 좋은 인간만큼 일을 잘하지는 못하겠지만, 확실히 추론이 아니라면 추론이 무엇을 의미하는지 알 수 없는 것입니다.
Emmet: 그리고 구체적인 예를 설명하는 블로그 게시물이 있습니다.
퍼갈 : 주말에 답답해서 쓴 글. 확신하기 어렵죠? 그러나 AI 전문가를 포함한 많은 사람들이 이를 완전히 무시하고 있습니다. 그들은 “오, 이건 아무것도 이해하지 못해요. 다음 토큰 예측을 수행하는 것뿐입니다.” 그것은 수십 년 동안 항상 AI에 대한 올바른 선택이었습니다. 그러나 지금은 물이 진흙탕이며, 모든 사람들은 그것이 아무것도 이해하지 못한다고 말하기보다는 그것을 인정해야 합니다.
Emmet: 우리는 이 사색적인 대화를 나누며 우리 자신을 혼합에 투입하고 있지만, 이 물건의 한계에 대해 거창한 예측을 하기에는 특히 나쁜 시기인 것 같습니다. 웹기사의 흐릿한 JPEG가 3월인가 그런거 같은데 이미 GPT-4에 의해 반증된건 아닌지..
퍼갈: 그런 것 같아요. 그리고 여기에는 그것에 대해 비판적인 많은 다른 입장들이 있습니다. 웹의 흐릿한 JPEG가 있는데, 저는 그것이 매우 빠르게 반증되었다고 생각했습니다. 그리고 이것을 증명하는 것은 어렵지만 당신이 할 수 있는 일은 아주 많은 증거를 구축하는 것입니다. 당신은 할 수 없기 때문에... 당신이 생각하는 사람이라는 것을 내가 모르는 철학적 좀비나 유아론의 아이디어가 있습니다. 내가 아는 한, 당신의 머릿속에는 거대한 조회 테이블이 있습니다.
“당신이 할 수 있는 일은 '봐봐, 내가 그렇게 이상한 것을 물어볼 때 이게 정말 잘하고 있어 그것이 추론하고 있다는 확신이 들기 시작했어'라고 말하는 것뿐입니다. 저에게 GPT-4는 그 기준을 넘어섰습니다.”
저 자신도 의식에 대한 주관적인 감각을 가지고 있고 여러분은 그것이 진짜인지 알 수 있지만 어느 쪽이든 저는 제가 큰 조회 테이블이라고 느끼지 않지만 나머지 여러분에 대해서는 모릅니다. 그것을 증명하는 것은 매우 어렵습니다. 조회 테이블이 아님을 증명하도록 누군가에게 요청할 수 있습니다. 그리고 당신이 하는 일은 GPT-4를 테스트할 수 있는 것과 같은 방식으로 이러한 행동 방식으로 테스트하는 것입니다.
Alan Turing과 그의 Turing 시험지는 이것과 행동 시험이 당신이 할 수 있는 최선의 종류라는 생각을 연마했습니다. 그리고 이러한 모델에 대한 행동 테스트를 수행할 때 완전히 표본을 벗어난 추론이라고 부르는 작업을 잘 수행하는 것 같습니다. 당신이 물을 수 있는 모든 가능한 질문과 가능한 모든 답변이 포함된 충분히 큰 조회 테이블은 당신을 속일 것이기 때문에 행동 테스트로는 확신할 수 없습니다. 당신이 할 수 있는 일은 이렇게 말하는 것뿐입니다. 나에게 GPT-4는 그 기준을 넘어선 것입니다. 아마도 미래에 누군가가 지능 이론을 가지고 네트워크의 가중치를 검사하고 “오, 여기가 추론 모듈이 있는 곳이야. 우리는 아직 거기에 있지 않습니다.”
에밋: 튜링 테스트를 서둘러 통과한 것 같습니다. 나는 사람들이 튜링 테스트가 아마도 지난 6개월 동안 통과되었을 것이라고 말하고 내가 틀렸다면 나를 바로잡을 것이라고 생각합니다. 당신은 그것에 동의 하시겠습니까, 아니면 제가 사실이 틀렸습니까?
퍼갈: 음, 잘 모르겠습니다. 최근에 우연히 다시 모방 게임 페이퍼를 재빨리 읽었는데 실제로 테스트에서 그는 평균적인 질문자가 5분을 소비하는 것에 대해 이야기합니다. 그리고 그 공식으로 아마도 거의 통과되었다고 말하고 싶습니다.
에밋: 이 단계에서 무난하게 통과했다고 가정했을 텐데, 그렇지 않나요?
"튜링의 원본 논문을 보면 그 원본 공식의 정신으로 전달된 것 같은 느낌이 듭니다."
퍼갈: 모르겠어. 저를 GPT-4와 인간 앞에 앉히면 약한 영역으로 밀어넣는 요령을 배우고 그곳에서 신호를 감지할 수 있을 것입니다. 그리고 나는 그것을 구별하는 데 능숙할 수 있을 것입니다. 나는 그것에 시간을 보낼 대부분의 사람들이 아마도 전략을 발전시킬 수 있을 것이라고 기대합니다.
에밋: 눈이 있어야 한다고 생각합니다. 당신은 매일 그것을 가지고 일합니다. 예를 들어 Midjourney V5를 사용하여 대다수의 사람들에게 텔이 더 이상 실제로 존재하지 않는 단계에 도달했다고 가정해 보겠습니다. 그들은 손가락, 흐릿함, 등의 이상한 모양을 고쳤습니다. 무엇을 찾아야 할지 안다면 머리카락이 있어야 할 곳에 약간의 깃털을 발견할 수 있습니다. 하지만 이 단계에서는 꽤 법의학이 필요하다고 생각합니다.
Fergal: 우리는 GPT-4와 비슷합니다. 길에서 뽑아낸 보통 사람의 5분 검사에 아마 통과했다고 생각합니다. Turing의 원본 논문을 보면 그 원본 공식의 정신으로 전달된 것 같은 느낌이 듭니다.
Emmet: 아마 이 단계에서는 음성 합성이 아닐 것입니다. 그리고 확실히 음악이나 영화 같은 것은 아닙니다. 이 물건이 다른 속도로 어떻게 진행되는지 보는 것은 흥미 롭습니다. 교육 모델 때문입니까, 아니면 다른 미디어에는 근본적인 한계가 있다고 생각하십니까?
Fergal: 아마도 훈련 모델 때문이라고 말하고 싶습니다. 제 시간에 정말 좋은 비디오 합성을 할 수 없는 근본적인 이유가 있다고 생각하지 않습니다.
Emmet: 비디오와 같은 것의 경우 인간을 속이는 장벽이 훨씬 높을 수 있지만, 우리가 움직임과 그와 유사한 것에 생물학적으로 적응하는 정도에 따라 달라집니다. 가짜를 발견하는 것이 훨씬 쉽습니다.
퍼갈: 덤불 속의 사자들이 당신을 향해 오고 있습니다.
에밋: 수천 년의 심리학은 우리가 해야 할 때 달려가도록 의도했습니다.
S-곡선 탐색
Emmet: 사람들은 종종 기술의 S-곡선에 대해 이야기합니다. 느리지만 기술의 급속한 이륙 또는 성숙이 있고 그 다음에는 점점 가늘어집니다. 전화기는 몇 년 동안 놀라울 정도로 훌륭했고 해마다 개선되었지만 올해의 전화기는 S자 곡선이 점점 가늘어지기 때문에 작년과 거의 같습니다. S-곡선에서 이 기술은 어디에 있습니까? 우리가 어디에 있는지 알기 위해 무엇을 찾아야 합니까?
Fergal: 네, 확실하게 아는 것은 불가능합니다. 우리는 이 공간으로 유입될 막대한 자금과 자원이 있을 것임을 알고 있습니다. 대규모 언어 모델은 그것이 초지능의 길에 있든 없든, 그것이 달성 가능하든 그렇지 않든 현재의 형태로 산업적으로 유용하며 위험한 것을 건드리지 않고 산업적으로 유용한 세대가 더 많이 있을 것입니다. 우리는 그것들을 인간을 더 효율적으로 만들고, 고된 일을 없애고, 더 많은 일을 할 수 있도록 도와주는 제품으로 전환해야 합니다. 그리고 나는 우리가 그것을 보고 있다고 생각합니다.
“이렇게 복잡하고 겹치는 피드백 루프가 모두 있으므로 곧 중단된다면 정말 놀랄 것입니다. 빨라질 것 같아”
우리는 그것에 대해 어디에 있습니까? 글쎄요, 사람들이 GPT-4보다 더 크고 더 나은 모델을 더 많이 훈련시킬 것 같습니다. 많은 돈이 이 공간으로 유입될 것이기 때문에 사람들이 정말 인상적인 일을 하는 더 작고 더 효율적인 모델을 만드는 데 더 능숙해질 것 같은 느낌이 듭니다. 그리고 이 모든 기술을 바탕으로 멋진 제품을 생산하고 구축하는 것이 훨씬 더 쉬워질 것입니다. 나는 앞으로 몇 년 동안 일어날 매우 높은 확신을 가지고 있습니다. 그 외에도 수익 감소에 도달합니까? 그것은 가능하지만 우리가 얻는 S-곡선은 다양한 것들의 복잡한 함수라고 말하고 싶습니다.
우리는 훨씬 더 많은 GPU를 만들게 될 것이고 비디오는 훨씬 더 많이 만들 것입니다. 그런 다음 더 나아질 것이고 확장함에 따라 더 저렴해질 것입니다. 그리고 대규모 신경망을 훈련시키기 위해 더 나은 알고리즘을 알아내는 수많은 연구생들이 있을 것입니다. 그러면 나아질 것입니다. 사람들은 더 작고 빠른 모델을 훈련시키기 위해 강력한 모델을 사용할 것입니다. 이 모든 복잡하고 겹치는 피드백 루프가 있으므로 곧 중단되면 정말 놀랄 것입니다. 속도를 낼 것이라고 생각합니다.
그것에 대한 무게는 시간이 지남에 따라 어떤 것들이 더 어려워진다는 것입니다. 더 많은 항생제를 찾으려면 찾기 쉬운 것을 먼저 찾고 시간이 지남에 따라 새로운 것을 찾기가 점점 더 어려워집니다. 먼저 손쉬운 이득을 얻은 다음 스케일링 법칙에 도달하는 등의 일이 가능합니다. Open AI는 점점 더 큰 모델을 훈련시키는 것이 지능을 높이는 길이라고 생각하지 않는다고 말했지만 저는 회의적입니다. 여기서 한계에 도달할 수도 있지만 더 큰 모델을 사용하면 더 많은 지능을 얻을 수 있을 것입니다.
“인터넷보다 더 커질 것이라고 생각합니다. 충분히 진행된다면 아마도 산업 혁명만큼이나 클 것입니다.”
Emmet: 방금 설명한 모든 변수 외에도 이번에 다른 점은 속도와 규모입니다. 이것은 우리의 제품과 삶에 얼마나 빨리 통합될 것인가의 측면에서 완전히 다릅니다. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.
Fergal: March for GPT-4 and stuff?
Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.
Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. 지금-
Emmet: The infrastructure for delivery is there.
Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.
Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?
“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”
Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.
Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.
Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.
Frictionless interfaces
Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.
AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.
“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”
What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.
Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.
I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.
You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.
Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.
Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.
Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.
Emmet: And the agent is clicking on coordinates on the screen for you.
Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?
Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.
Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.
Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?
“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”
Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”
Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.
Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.
I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.
Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.
퍼갈: 하지만 앞으로는 에이전트에게 "야, 어제 찍은 사진 편집하고 싶어." 그리고 그것은 당신과 당신의 정교함 수준을 알고 있습니다. 그것은 당신이 사진을 편집하고 싶을 때 당신이 4개의 필터와 자르기 도구를 찾고 있다는 것을 알고 있습니다. 패턴 라이브러리에서 각 인터페이스에 가장 적합한 인터페이스를 찾고 해당 인터페이스를 렌더링합니다.
“그것은 전적으로 당신이 하고 있는 일에 달려 있습니다. 조종사라면 '비행기 착륙 시간! 이봐, LLM, 내가 할 수 있도록 인터페이스를 자동 조립해.'”
Emmet: 그리고 당신은 "사실 좀 더 전문적이기를 원합니다."라고 말하고 있습니다. "알겠습니다. UI의 프로 버전을 제공하겠습니다." 그리고 그것을 동적으로 렌더링합니다.
Fergal: 보세요, 인터페이스 사용법을 배우고 싶지 않은 작업이 있을 것입니다. Des는 최근 다른 팟캐스트에서 이에 대해 이야기했습니다. Workday에서 휴가 시간을 업데이트해야 하는데 이에 대한 인터페이스를 배우고 싶지는 않습니다. 작업을 완료하기만 하면 됩니다. 예를 들어 당신이 전문 프로그래머이고 나는 IDE 사용법을 배워야 하는 다른 일들이 있을 것입니다. 어떤 디자이너는 내가 원하고 해야 할 일에 대해 매우 자세하게 생각했고 거기에는 약간의 사용자 정의 레이어가 있을 수 있지만 여전히 잘 디자인된 인터페이스가 있으므로 사용법을 배워야 합니다. 전자에 대한 인터페이스, 내가 하고 싶은 작업에 대한 인터페이스가 사라지거나 많은 것들이 임시로 렌더링될 것이라고 생각합니다. 후자의 경우, 예, 적응할 것입니다.
에밋: 당신이 말한 모든 것에 동의합니다. 그것은 또한 나에게 추가적인 뉘앙스가 발생합니다. 그것은 전적으로 당신이 하고 있는 일에 달려 있습니다. 조종사라면 “비행기 착륙 시간이야! 이봐, LLM, 내가 할 수 있도록 인터페이스를 자동 조립해.” 규제나 그런 것들이 있을 거라고 확신합니다. 그러나 그것은 큰 차이점 중 하나를 반영합니다. 그것은 컴퓨터로 작업하는 것입니다. 우리는 항상 컴퓨터를 고도로 결정론적이고 이진법이며 켜기/끄기 스위치로 작동하는 진실 기계라고 생각했습니다. 많이 바뀌는 것입니다. 그리고 그것은 우리가 설명하고 있는 모든 것뿐만 아니라 큰 변화입니다. 기대할 수 있는 것, 개인적으로 작동할 것으로 기대할 수 있는 방법, 대체 가능성 또는 제어할 수 있는 정도입니다. 나는 우리가 훨씬 더 흥미진진한 실험적 분기점을 보게 될 것이라고 생각하고, 배경화면이나 글꼴 크기를 변경할 수 있는 오늘날 우리가 가진 사용자 정의 수준은 아마 비교할 수 없을 것입니다.
원의 중심을 향하여
Emmet: 당신은 또한 내가 다시 돌아오고 싶은 흥미로운 것을 말했습니다. 주로 도서관에서 조립하는 디자이너를 상상해 보십시오. 사용자 인터페이스 디자인 작업은 우리가 디자인 시스템을 통해 이를 위해 설정해 왔기 때문에 흥미롭습니다. 디자인 시스템은 구성 요소의 패턴 라이브러리입니다. 큰 제품을 만들고 있다면 일관성을 유지하고 빠르게 결합할 수 있기를 원할 것입니다. 따라서 우리가 쌓아온 많은 토대 작업과 우리가 구축해 온 시스템, 예를 들어 디자인 팀, 아마도 엔지니어링 팀에서도 이러한 시스템에서 신속하게 재사용할 수 있는 구성 요소를 구축하는 것이 모두 지적되었습니다. 이러한 도구를 상당히 빠르게 구축할 수 있는 능력에 대해. 당신이 설명하고 있는 것은 당신의 디자인 시스템을 가져다가 그것으로부터 UI를 구축하는 것입니다.
Fergal: 아니면 표준 오픈 소스 디자인 시스템을 사용하여 도구를 만들 수도 있습니다. 이것이 개별 기업 차원에서 일어날지, 넓은 수평적 차원에서 일어날지는 모르겠습니다.
에밋: 그래, 그건 너무 지루할 거야. 그것은 비극적일 것입니다. iOS 7 이전에 우리는 스큐어모피즘과 모든 것을 가지고 있었고, 그 다음에는 매우 독단적인 플랫 디자인을 사용했고, 전체 산업은 Apple의 지배력에 너무 영향을 받아 모든 웹 사이트가 동일하게 보이기 시작했습니다. Apple은 휴먼 인터페이스 가이드라인을 발표하고 "보세요, iPhone 앱은 이제 이렇게 보여야 합니다."라고 말했습니다. 하지만 제 생각에는 다양성이 평평해지고 웹이 더 지루해졌습니다. 그리고 그것은 스스로 구축할 수 있는 이러한 시스템에 서비스를 제공했습니다.
Fergal: 에이전트에게 펑키하고 복고풍으로 보이길 원한다고 말할 수 있습니다. 당신은 그것이 올 것이라고 상상해야 하고, 주어진 팀과 인터페이스를 구성하는 방법을 이해하는 지능적인 계층을 가지고 있기 때문에 사람들이 실제로 사용하는 것과 관련하여 상황을 훨씬 더 사용자 정의할 수 있을 것이라고 생각합니다. 당신은 아마 오늘 그렇게 할 것입니다. 오늘 사용자 인터페이스용 Midjourney를 구축하기 시작했다면 아마도 그렇게 할 수 있을 것입니다. 우리는 사용자 인터페이스를 작성하기 위해 코드나 CSS를 생성할 수 있는 GPT-4가 있고 모든 이미지와 텍스트를 삽입하고 함께 압축하는 이미지 합성 모델을 가지고 있습니다. 꽤 빨리 무언가를 만들 수 있을 거라 장담합니다.
Emmet: 당신이 이런 말을 하니까 너무 웃겨요. 내 감정적인 반응은 “아니요, 이해가 안 돼요. 사용성에 대해 생각하고 인간과 이런 모든 것들을 이해해야 합니다.” 그리고 저는 "그래, 우리가 얘기한 추론 능력인데, 지금은 그런 능력이 있는 것 같아." 그래서 우리가 그것에 대해 이야기할 때, 나는 그 감정을 느끼고 있습니다…
퍼갈: 위기.
Emmet: AI가 훈련을 위해 오고 있습니다. 하지만 저는 솔직히 그렇게 걱정하지 않습니다. 왜냐하면 저는 많은 디자이너들과 프로그래머들에게도 이런 말을 들었기 때문에 이것이 대체로 더 빨라지고 향상되는 힘든 작업을 애도하지 않을 것이라고 생각하기 때문입니다. 실제로 줌 레벨을 높이고 솔루션 실행보다는 솔루션에 대해 조금 더 생각할 수 있습니다. 빌딩 제품은 여전히 매우 힘들고 시간이 많이 소요되며, 그 힘든 작업을 일부 제거하면 어떤 일이 발생하는지 보는 것이 좋을 것이라고 생각합니다.
Fergal: 내 말은, 직업과 직업 알선, 직업 변경에 대한 전체적인 논쟁이고 여기서 뭔가 일어날 것입니다. 그 말을 들었을 때 저는 "아, 그건 디자이너가 더 이상 필요하지 않다는 뜻일 수도 있고 제품 관리자만 필요할 수도 있다는 뜻일 수도 있습니다."라고 생각합니다. 그리고 제품 관리자는 이제 디자이너가 하던 모든 일을 할 수 있습니다. 프로그래머가 필요하지 않을 수도 있고 제품 관리자만 필요할 수도 있습니다. 그리고 우리 모두는 미래에 제품 관리자가 됩니다. 모르겠습니다. 그런 역할과 직업이 더 많을 수도 있고 더 적을 수도 있습니다.
에밋: 그것에 의지해야 한다고 생각합니다. 내 경력에서 내가 알아차린 한 가지는 선배가 될수록 자신의 분야에 덜 구체적이라는 것입니다. 좀 더 일반 리더가 되어야 합니다.
Fergal: 디자인 팀의 누군가와 이런 대화를 나눴습니다. 엔지니어링, 제품 또는 디자인과 같은 분야에서 3학년일 때 당신은 원의 가장자리에 있습니다. 그러다가 선배가 될수록 점점 센터로 가죠. 원의 중심에는 제품이 있습니다. 그래서 점점 더 시니어가 되어감에 따라 당신의 세계는 점점 더 당신이 만들고 있는 제품에 대한 것이 되고 당신이 왔던 각도에 대한 것은 점점 적어집니다.
에밋: 나도 볼 수 있어. 그래서 우리는 모두 PM이 될 것입니다. 그럴 계획입니까?
Fergal: 네, 제 말은 궁극적으로 우리가 이런 일을 하려고 하는 것입니다.
Emmet: 직접 적용할 수 있는 실무 기술이 없는 제품 담당자가 아니라면 PM이란 무엇입니까? Fergal, 맞습니까?
퍼갈 리드: 네, 알아요. PM이 무엇인가요?
에밋: 마무리해야 할 것 같습니다. 건배, 퍼갈.
퍼갈: 고마워, 에밋.