진정성, Dalle-2 및 Midjourney 및 AI 생성 이미지 및 예술에 대한 우리의 매력
게시 됨: 2022-08-04이 기사는 Dalle-2 및 Midjourney와 같은 플랫폼 이면의 기술과 제작자 Open AI가 비용을 청구하지 않고 잠재적으로 비용을 지불해야 하는 이유에 대해 설명합니다.
인터넷에서 점점 더 많은 사람들이 Dalle-2와 Open AI를 사기라고 명명하고 있습니다. 그 이유는 이제 Dalle-2가 현재 베타 제한 이상으로 플랫폼을 사용하면 크레딧을 구매해야 하는 유료 서비스로 갑자기 전환되기 때문입니다.
DALLE 2는 AI 생성 콘텐츠에 대한 액세스를 제공하고 상업적 목적으로 사용할 수 있다고 주장하는 많은 새로운 플랫폼 중 하나일 뿐입니다. 다른 플랫폼으로는 Midjourney, Jasper Art, Nightcafe, Starry AI 및 Craiyon이 있습니다. 우리는 이 블로그 게시물에서 Dalle 2에 초점을 맞출 것이지만 법적 문제와 문제에 관해서는 거의 동일합니다.
사기는 우리가 보기에 상당히 가혹한 표현이지만 다른 사람들이 만든 데이터(사진, 비디오, 주석, 이미지에 있는 사람 등)를 사용한 다음 동일한 사람들에게 다시 판매하기 시작하는 데는 명백한 문제가 있습니다.
우리 중 많은 사람들이 이 문제를 간과할 수 있습니다. 왜냐하면 우리는 단순히 새로운 기술에 매료되기 때문입니다. 완전히 이해할 수 있는 일입니다.
그러나 결국 DALL-E 2는 고급 패턴 인식 기계에 불과하지만 출력이 중립적이지 않고 패턴이 신선한 공기에서 나온 것이 아닙니다.
그들은 수많은 법적 질문이 있는 수많은 데이터를 기반으로 합니다. 귀하가 생성하는 이미지의 잠재적 사용자로서 귀하에게 중요한 질문입니다.
DALLE-2가 만든 이미지
AI 모델은 인간과 비교할 수 없다
상업적 목적으로 DALL-E 2 이미지를 사용하는 것을 고려하기 전에 Engadget에서 이 멋진 기사를 읽는 것으로 시작해야 합니다.
Engadget 기사에서 그들은 또 다른 매우 중요한 사실을 지적합니다. 즉, DALL-E 2와 OpenAI는 사용자가 DALL-E를 사용하여 만든 이미지를 상품화할 수 있는 자신의 권리를 포기하지 않는다는 사실입니다. 기본적으로 다른 사람에게 상업적으로 판매할 이미지를 생성할 수 있음을 의미합니다.
이것은 DALLE-2 발기인이 이를 기존 작가의 작품을 읽는 학생과 비교할 때 사용되는 비유와 의도가 매우 다르다는 것을 보여줍니다. 이 예에서 학생은 저자의 스타일과 패턴을 배우고 나중에 다른 맥락에서 적용할 수 있는 것을 찾아 그곳에서 재사용할 수 있습니다.
그러나 이것은 인간의 두뇌가 창의적 기억을 사용하여 새로운 창작물을 창조하는 것에 관한 것이 아닙니다. 이것은 패턴 인식 기계를 재사용하고 어떤 경우에는 훈련 데이터를 이미지로 재생산하여 상업적으로 사용하거나 판매하는 것에 관한 것입니다. 그것은 단순히 두 개의 다른 세계입니다. 은유적으로 그리고 문자 그대로 말입니다.
현실 세계에서 실제 사진
점프스토리의 진정성 약속
이 기사는 이 새로운 AI 이미지 생성 기술이 어떻게 작동하는지 더 깊은 수준에서 이해하고자 하는 사람들을 위한 것입니다. 그러나 시작하기 전에 JumpStory가 현재 유사한 시스템을 구축하지 않는 이유에 대해 몇 마디만 하겠습니다.
물론 우리는 그 질문을 여러 번 받았습니다. 우리 회사에서 이미 AI를 사용하고 있고 수백만 개의 실제 이미지에 액세스할 수 있다는 점을 고려하면 특히 그렇습니다.
그러나 이것은 우리에게 기술적인 논의가 아니라 윤리적인 논의입니다. 진정성 약속으로 이어진 토론.
우리는 근본적으로 AI가 생성한 이미지가 예외가 아닌 표준이 되는 미래에 반대합니다. 우리를 구식이라고 부르지만 실제 세상은 아름답다고 믿습니다.
우리의 사진과 비디오가 실제 인간을 다양한 모양과 크기로 묘사한 것을 자랑스럽게 생각합니다. 우리는 AI의 사용에 반대하지 않지만 그것이 가짜 사람이나 현실을 생성하는 데 사용되어서는 안된다고 생각합니다.
합성 매체 및 DALL-E 2와 같은 기술은 표면적으로 매력적일 수 있지만 실제 위험도 내포하고 있습니다. 진짜와 가짜의 경계가 흐려질 위험이 있으며, 이는 인간 간의 신뢰에 근본적인 위협이 될 것입니다.
이것이 JumpStory가 인공 지능을 사용하여 가짜 이미지를 생성하지 않고 대신 AI를 사용하여 어떤 이미지가 원본이고 진품이며 상업적 목적으로 사용하기에 합법인지 식별하는 이유입니다.
이것들은 우리 서비스를 사용하여 찾은 이미지이며 우리는 접근 방식을 'Authentic Intelligence'라고 명명했습니다.
AI 이미지 생성 방법 이해
JumpStory와 DALL-E 2의 법적 문제에 대해서는 지금으로 충분합니다. DALLE-2, Imagen, Crayion(이전의 Dall-E Mini), Midjourney 등과 같은 플랫폼에서 AI 이미지가 어떻게 생성되는지 살펴보겠습니다. … 현재 가장 과대포장된 예로 DALLE-2를 사용합니다.
DALLE-2로 시작하려면 다양한 종류의 작업을 수행할 수 있지만 이 블로그 게시물에서는 이미지 생성 작업에 중점을 둘 것입니다.
작동 방식은 텍스트 프롬프트가 텍스트 인코더에 입력된다는 것입니다. 이 인코더는 프롬프트를 표현 공간에 매핑하도록 훈련되었습니다. 그 후, 소위 사전 모델은 인코딩된 텍스트를 텍스트 인코딩 프롬프트의 의미 정보를 캡처하는 해당 이미지 인코딩에 매핑합니다.
(이미 좀 괴상해지면 정말 미안하지만 더 나빠질거야)
이미지 인코더의 마지막 단계는 인코더가 수신한 의미 정보를 시각화하는 이미지를 생성하는 것입니다. 이것은 Open AI와 같은 기계의 기본입니다.
텍스트와 영상의 관계
DALL-E 2 및 이와 유사한 기술은 종종 텍스트-이미지 생성기라고 합니다. 그 이유는 텍스트 입력을 수신하고 이미지 출력을 전달할 수 있기 때문입니다.
예를 들어 "앤디 워홀 스타일의 말을 타고 있는 우주 비행사:
출처: DALLE-2
여기서 일어나는 일은 CLIP이라는 Open AI의 모델을 기반으로 합니다. CLIP은 "Contrastive Language-Image Pre-training"의 약자로 수백만 개의 이미지와 캡션으로 훈련된 매우 복잡한 모델입니다.
CLIP이 특히 잘하는 것은 특정 텍스트가 특정 이미지와 얼마나 관련되어 있는지 이해하는 것입니다. 여기서 핵심은 캡션이 아니라 특정 캡션이 특정 이미지와 얼마나 관련되어 있는지입니다.
이런 종류의 기술을 '대조'라고 하며 CLIP이 할 수 있는 것은 자연어에서 의미를 배우는 것입니다. CLIP이 이를 학습한 방식은 다음과 같은 목표를 달성하는 프로세스를 통해 이루어집니다. (현재 기술 문서 인용): "Ncorrect 인코딩된 이미지/캡션 쌍 간의 코사인 유사성을 동시에 최대화하고 N 2 – N개의 잘못된 인코딩된 이미지 간의 코사인 유사성을 최소화합니다. /캡션 쌍.”
이미지 생성
위에서 설명한 것처럼 CLIP 모델은 이미지와 텍스트의 인코딩이 어떻게 관련되어 있는지 결정할 수 있는 표현 공간을 학습합니다.
다음 작업은 이 공간을 사용하여 이미지를 생성하는 것입니다. 이를 위해 Open AI는 CLIP의 입력을 사용하고 확산 모델을 사용하여 이미지 생성을 수행할 수 있는 GLIDE라는 다른 모델을 개발했습니다.
확산 모델이 무엇인지 간단히 설명하면 기본적으로 점진적인 노이즈 프로세스를 역전시켜 데이터를 생성하는 방법을 학습하는 모델입니다. 이것이 이제 매우 기술적인 것이 되어 죄송합니다. Open AI 문서에 있는 설명을 인용하자면:
"노이징 프로세스는 이미지에 노이즈를 점진적으로 추가하여 이미지를 손상시키고 결국에는 (점근적으로) 순수한 가우시안 노이즈를 생성하는 매개변수화된 Markov 체인으로 간주됩니다. 확산 모델은 이 체인을 따라 뒤로 탐색하는 방법을 학습하고 일련의 시간 단계에 걸쳐 노이즈를 점진적으로 제거하여 이 프로세스를 역전시킵니다.”
기술에 대해 더 자세히 알고 싶다면 Ryan O'Connor의 이 훌륭한 기사를 읽는 것이 좋습니다.