Od science fiction do technologicznej rzeczywistości: badanie wpływu sztucznej inteligencji
Opublikowany: 2023-06-09Sztuczna inteligencja już zmienia sposób, w jaki pracujemy, komunikujemy się i doświadczamy świata. Wejdź do intrygującego świata generatywnej sztucznej inteligencji, odkrywając rozległy krajobraz przyszłych możliwości.
Od czasu wydania ChatGPT nasz zespół zagłębił się w świat sztucznej inteligencji, budując produkt z dużymi modelami językowymi (LLM) i poruszając się po niewiadomych, które pojawiły się wraz z ostatnimi postępami tej przełomowej technologii.
Skupiliśmy się głównie na tym, jak możemy zastosować generatywną sztuczną inteligencję do przekształcenia obsługi klienta – a wprowadzenie na rynek naszego wiodącego w branży chatbota opartego na sztucznej inteligencji, Fin, pokazuje, jak ta koncentracja się opłaciła.
Jednak poza praktycznymi zastosowaniami, zastanawialiśmy się nad niezliczoną ilością ważnych pytań – czy powinniśmy podchodzić do LLM z poczuciem ostrożności? Jak duża jest ta sztuczna inteligencja, naprawdę? A czego powinniśmy się spodziewać, patrząc w przyszłość?
W tym odcinku nasz starszy dyrektor ds. uczenia maszynowego, Fergal Reid, wraz z Emmetem Connollym, naszym wiceprezesem ds. ta niesamowita nowa technologia.
Oto niektóre z kluczowych wniosków:
- Dążąc do budowania inteligentnych systemów, organizacje stosują techniki, takie jak uczenie się przez wzmacnianie, aby zapewnić zgodność z naszymi wartościami i pozytywny wpływ na ludzkość.
- GPT-4 wykazuje wysoki poziom rozumowania nawet w przypadku testów poza próbą, co wydaje się wskazywać, że może przekroczyć poprzeczkę wyznaczoną przez słynny test Alana Turinga.
- W miarę wzrostu inwestycji i przezwyciężania ograniczeń sprzętowych możemy spodziewać się opracowania bardziej zaawansowanych i wydajnych modeli z bezprecedensową adopcją i produktywnością.
- W przyszłości niektóre rodzaje interfejsów użytkownika mogą zostać zastąpione przez agentów AI, którzy mogą personalizować dane wyjściowe w locie na podstawie słownych danych wejściowych, wykonywanego zadania i osobistych preferencji.
- Sztuczna inteligencja może zmniejszyć żmudną pracę dla projektantów i programistów, pozwalając im skupić się bardziej na rozwiązaniu i wizji produktu niż na jego wykonaniu.
Jeśli podoba Ci się nasza dyskusja, sprawdź więcej odcinków naszego podcastu. Możesz śledzić w Apple Podcasts, Spotify, YouTube lub pobrać kanał RSS w wybranym odtwarzaczu. Poniżej znajduje się lekko zredagowana transkrypcja odcinka.
Przebudzenie AI
Emmet Connolly: Tak więc, Fergal, odbyliśmy wiele niezobowiązujących rozmów przy piwie, kawie i tak dalej, i powiedzieliśmy, że może być ciekawie usiąść i nagrać to, głównie dlatego, że pracowaliśmy bezpośrednio z dużymi modelami językowymi w ciągu ostatnich sześciu miesięcy zmagaliśmy się z pytaniami dotyczącymi produktów, które mają zastosowanie do tego, co staramy się zrobić w pracy.
Ale oczywiście toczy się szersza rozmowa na temat tego, co oznacza sztuczna inteligencja i przyszłość sztucznej inteligencji. Pomyśleliśmy, że spróbujemy usiąść i odpowiedzieć na niektóre pytania dotyczące tego nowego materiału, z którym mamy do czynienia. Jakie są skutki finansowe technologii? Na jakie rzeczy powinniśmy zwrócić uwagę? Rozpocznijmy to. Po pierwsze, czy ma pan jakieś nadrzędne refleksje na temat ostatnich sześciu miesięcy?
Fergal Reid: Tak, zdecydowanie. Zobaczmy, jak to idzie. Myślę, że można śmiało powiedzieć, że nawet ludzie, którzy pracowali nad uczeniem maszynowym lub sztuczną inteligencją, byli zaskoczeni tym, jak szybko wszystko się poprawiło. Nawet dla osób, które są ekspertami w tej dziedzinie lub pracowały z sieciami neuronowymi przez długi czas, zaskakujące jest to, że model stał się tak inteligentny.
Emmet: Czy myślisz, że niektórzy ludzie AI są trochę zaniepokojeni, że mogą pracować nad Projektem Manhattan teraz naszego pokolenia? Jakiś czas temu pracowałeś nad autouzupełnianiem tekstu i nagle stało się to bardzo napiętym tematem do dyskusji. Jakie to uczucie, gdy ludzie pracujący nad sztuczną inteligencją znajdują się w centrum tego wszystkiego?
„Przez cały trening wychodzi model, który jest naprawdę inteligentny. Ale nie zaszyfrowałeś indywidualnie tej inteligencji. To wciąż uczenie maszynowe”
Fergal: Aby przedstawić moją perspektywę, nie trenujemy dużych modeli językowych. Używamy ich; jesteśmy ich konsumentami. Mieliśmy wcześniejszy dostęp do GPT-4, ale sami ich nie szkolimy. Z drugiej strony mam tutaj zespół ludzi, którzy są ekspertami w dziedzinie sztucznej inteligencji. W tym momencie wielu z nas jest w sztucznej inteligencji od, jak sądzę, dziesięcioleci. Kiedy byłem na studiach, naprawdę interesowałem się zaawansowaną sztuczną inteligencją, czytałem książki o filozofii sztucznej inteligencji, a ludzie debatowali, czy kiedykolwiek zrobi to czy tamto. A teraz mamy systemy, które nagle sprawiają, że wiele z tych debat jest mniej istotnych. Nagle pojawił się system, który może zrobić coś, o czym nikt nie powiedział, że kiedykolwiek zrobi.
Myślę, że kontrapunktem jest to, że jeśli trenujesz duże modele językowe, jest to do pewnego stopnia zadanie inżynierskie. Robisz cały trening, model wychodzi i jest naprawdę inteligentny. Ale nie zaszyfrowałeś indywidualnie tej inteligencji. To wciąż uczenie maszynowe. Myślę, że do pewnego stopnia wszyscy są tym zaskoczeni. To nie jest tak, że ludzie stopniowo budują możliwości po jednym wierszu kodu na raz. Nikt nie jest pewien, co wydarzy się na końcu dużego treningu.
Emmet: Żartobliwie nawiązałem do Projektu Manhattan, ale myślę, że to całkiem dobra analogia do niektórych spraw, z którymi mamy do czynienia.
Fergal: W jaki sposób? Bo to niebezpieczne?
Emmet: Cóż, odkryliśmy sposób manipulowania czymś. W tym przypadku informacja. W pewnym sensie wydaje się to bardziej odkryciem niż wynalazkiem. Ma bardzo szerokie zastosowanie. Nie jesteśmy pewni, jakie są niezamierzone konsekwencje jego użycia. I oczywiście może być wykorzystany przez złych aktorów do złych celów, tak samo jak dobrzy aktorzy do pozytywnych celów.
„Wiemy na poziomie technicznym, jak te modele są szkolone, ale jest to sytuacja z czarnej skrzynki”
Fergal: Wczoraj OpenAI wydało oświadczenie dotyczące tej technologii, wzywając do nadzoru nad technologią AI. Narysowali podobieństwa do technologii jądrowej i biotechnologii. Myślę, że to sprawiedliwe. Jest potencjalnie w tej kategorii przerażającej technologii, w której ludzie nie wiedzą, z czym zadzierają, w najlepszych tradycjach science fiction. Kupuję pomysł, że to wszystko może pójść źle i że szkolenie dużych modeli językowych jest czymś, na co ludzie powinni zacząć uważać.
Emmet: Chciałbym porozmawiać o tym, co według ciebie odkryliśmy, i ciągle powtarzam, że odkryto, ponieważ sposób, w jaki o tym mówimy, wydaje się prawie odkryciem, na przykład: „Wow, mamy to, i lepiej uważajmy, jak sobie z tym radzimy”. Czy tak o tym myślisz? Wiemy na poziomie technicznym, jak te modele są szkolone, ale jest to sytuacja z czarną skrzynką – nie do końca rozumiemy, w jaki sposób dają one nieco niedeterministyczne wyniki, które nam dają.
Fergal: Tak, myślę, że to właściwy sposób myślenia o tym. To system. Zaczynasz od systemu i najpierw ustalasz cel treningowy, a potem biegasz na tej skali i widzisz, co się dzieje. Z biegiem czasu coraz lepiej rozumiesz, co może się wydarzyć, ale nie masz pewności. Poniekąd to testujesz. Myślę, że dobrą analogią jest tutaj wyobrażenie sobie systemu biologicznego, ustawienie go na pewien czas do wzrostu, a następnie zobaczenie, co robi. Jest bliżej tego. Musisz to przetestować w ten sposób z czarną skrzynką. Musisz sprawdzić jego zachowanie. Nie wiesz, co dostaniesz.
Emmet: Myślę, że tutaj pojawia się oczywiste pytanie „czy to jest inteligentne?” pochodzi i jest to duże pytanie, które zajmuje wiele rozmów. Ponieważ jeśli jest inteligentny, oznacza to, że jesteśmy na ścieżce do AGI, a AGI może być złośliwe i możemy mieć duże kłopoty. Wydaje się, że warto machać flagą, ale powoduje to również wiele niepokoju wokół technologii.
Fergal: Myślę, że pewien stopień ostrożności lub niepokoju jest tutaj sprawiedliwy. Załóżmy, że te rzeczy stają się inteligentne. Inteligencja jest naprawdę przerażająca i niebezpieczna. Ludzie są prawdopodobnie najbardziej niebezpieczni. Mamy duży wpływ na Ziemię i ekosystemy. Nie dlatego, że jesteśmy najsilniejszymi lub najszybszymi zwierzętami. Człowiek może zabić lwa, ponieważ człowiek jest bardziej inteligentny. Bardziej inteligentne organizmy są w pewnym sensie często bardziej niebezpieczne. Więc pomysł, że moglibyśmy stworzyć coś bardziej inteligentnego od nas, może być naprawdę niebezpieczny. Nie mamy z tym doświadczenia, więc myślę, że pewna ostrożność jest całkowicie uzasadniona.
Wyrównanie kodowania
Emmet: Myślę, że musimy lepiej myśleć o różnych rodzajach inteligencji. Lew ma trochę inteligencji i jest niebezpieczny w połączeniu ze swoimi możliwościami, prawda? Ale to nie ma ucieleśnienia. To znaczy, ma dostęp do systemów komputerowych, które mogą być bardzo szkodliwe, ale czy złośliwość jest cechą ludzką? I dlaczego od razu przenosimy ten potencjał na ten system?
Fergal: Myślę, że wiele osób mówi, że to nie musi być złośliwe. To nie musi być celowo złe. Wcale nie musi być to specjalnie zamierzone. Wszystko, czego potrzebujesz, to stworzyć coś, co próbuje zoptymalizować jakiś cel, który powoduje konflikt z dobrymi rzeczami, których ludzie chcą, prawda?
„Może to być wysyłanie, aby zrobić coś, co ogólnie uważasz za dobre, ale możesz wpaść w konflikt z powodu jego metod. A jeśli ta rzecz jest mądrzejsza od ciebie, jak potoczy się ten konflikt?
We wczesnej literaturze dotyczącej bezpieczeństwa sztucznej inteligencji pojawia się koncepcja instrumentu konwergencji i jest to koncepcja, że jeśli masz cel na świecie, wiele rzeczy, które możesz chcieć zrobić, aby go osiągnąć, może doprowadzić cię do konfliktu z ludźmi o innych cele. Jeśli chcesz wyleczyć raka, możesz potrzebować dużo pieniędzy, aby wyleczyć raka, a teraz natychmiast popadasz w konflikt ze wszystkimi innymi ludźmi, którzy chcą pieniędzy. Aby osiągnąć wiele celów, potrzebujesz energii i zasobów. I tak, jeśli skończysz z jakimkolwiek systemem, który jest ukierunkowany na cel i potencjalnie mądrzejszy od ciebie, nawet jeśli nie jest świadomy, możesz wpaść z nim w konflikt. To nie musi być złe. Może to być wysłanie, aby zrobić coś, co ogólnie uważasz za dobre, ale możesz wpaść w konflikt z powodu jego metod. A jeśli ta rzecz jest mądrzejsza od ciebie, jak potoczy się ten konflikt?
Ludzie zaczynają mówić o „maksymalizatorze spinaczy”, w którym po prostu kazałeś temu urządzeniu iść i zrobić mnóstwo spinaczy, ponieważ potrzebujemy wielu spinaczy, a potem przypadkowo poszedł i pochłonął wszystkie zasoby świata i obrócił go w fabrykę spinaczy. I to jest jak „Ups”. To wszystko są pomysły w debacie na temat bezpieczeństwa AI przez jakiś czas.
Emmet: Są też ludzkie zmartwienia. Wygląda na to, że opisujesz wyrównanie zachęt między wszystkimi aktorami, technologią i ludźmi. I to właśnie robimy, kiedy organizujemy się w grupach w pracy. Prostym przykładem jest wprowadzenie odpowiednich zachęt dla swoich zespołów – w przeciwnym razie mogą zostać zachęcone do zrobienia czegoś innego. Jeśli zachęcasz swój zespół sprzedaży do sprzedaży klientom korporacyjnym, ale tak naprawdę chcesz, aby sprzedawali mniejszym firmom, musisz dostosować zachęty. I mamy w tym duże doświadczenie.
Fergal: Słuchaj, do jakiego stopnia jest to spowodowane tym, że wykonałeś naprawdę dobrą robotę, równoważąc zachęty i równowagę sił? Jeśli spojrzysz na ludzi, w czasach ogromnej nierównowagi sił, kiedy coś idzie nie tak, bardzo trudno jest utrzymać motywację. Jeśli polegasz na zachętach, jest to trudne. Jako ludzie przywiązujemy wielką wagę do zachowania kontroli i równowagi. I znowu, wracając do tej dyskusji o superinteligencji, jeśli możliwe jest zbudowanie superinteligencji, która nagle stanie się bardzo potężna, czy zamierzacie polegać na bodźcach? Ponieważ zawsze trudno jest polegać na zachętach, aby wszystko działało.
„W przeszłości zawsze polegaliśmy na równowadze sił. Teraz musimy polegać na wyrównanych wartościach”
Emmet: Myślę, że nie możemy tego wiedzieć, dopóki nie odkryje trochę swojej natury. Osobiście uważam, że kiedy mamy obsesję na punkcie super inteligencji, mamy obsesję na punkcie tego, by stała się mądrzejsza od nas. Przypuszczam, że wiąże się to z pewnym ryzykiem, ale w centrum jest też ego człowieka. To jest rzecz, która oddziela nas od królestwa zwierząt. Ludzie często mówią, że sztuczna inteligencja jest trochę jak obca inteligencja i myślę, że zwierzęta są użytecznym sposobem myślenia o tym, ponieważ ewoluowaliśmy, aby pokojowo współistnieć z różnymi rodzajami inteligencji. Teraz mam psa, mam kota. Kot posiada bardzo specyficzny, ale wysoki stopień inteligencji – zdolności atletyczne. Jest lekki, a jego refleks jest szybki. Jeśli myślę o inteligencji szeroko, to jest bardzo inteligentna i piękna do oglądania.
Fergal: Muszę tu wskoczyć, ponieważ nie sądzę, aby była to świetna analogia. Przynajmniej nie jest to pocieszające. Jestem pescatarianinem – głównie wegetarianinem. Hodowla przemysłowa nie jest dobra dla zaangażowanych zwierząt. Więc, nie wiem, nie dodaje mi otuchy, gdy słyszę, że model tutaj jest taki, że ewoluowaliśmy, by pokojowo współistnieć ze zwierzętami.
Emmet: Co jest nie tak ze zwierzętami?
Fergal: Nie, zwierzęta są dobre. Chodzi mi o to, że w przyszłości ludzie będą zwierzętami domowymi. Myślę, że to powinno być niewygodne.
Emmet: Cóż, odwracasz moją argumentację. Chodziło mi o to, że kot ma jeden rodzaj inteligencji. Mam też psa, który ma zupełnie inny typ inteligencji niż kot. Myślisz, że możesz rozmawiać z psem, a on w pewnym sensie rozumie i zagląda w twoją duszę i tak dalej. Ale jest też głupi jak worek kamieni na innym poziomie. Kocham go, ale jest. Teraz myślę, że chcesz powiedzieć: „Emmett, jesteś psem w tej sytuacji, jeśli przewiniemy do przodu”. Ale tam jest szczęśliwe współistnienie. Miejmy nadzieję, że jako gatunek nie zostaniemy udomowieni.
Fergal: Tak, jeśli okaże się, że można stworzyć coś bardziej inteligentnego od nas, to jest to, do czego należy dążyć, do tej szczęśliwej koegzystencji, w której kończy się coś, co jest łagodne i dba o życie we wszechświecie i ma dobre wartości. Ale powodem, dla którego wiele osób jest w tej chwili tak ćwiczonych, jest to, że wydaje się, że istnieje ogromne ryzyko. Jeśli zamierzasz zbudować coś potężniejszego, musisz upewnić się, że te wartości są prawidłowe. W przeszłości zawsze polegaliśmy na równowadze sił. Teraz musimy polegać na wyrównanych wartościach. Jeśli spojrzysz na OpenAI i Anthropic oraz innych graczy, to właśnie z tego powodu spędzają cały ten czas na rozmowach o wyrównaniu. Ludzie nie będą już najinteligentniejszymi istotami. Inteligencja jest potężna i niebezpieczna. Musimy upewnić się, że jest wyrównany.
Emmet: Jak dobrą robotę wykonuje społeczność sztucznej inteligencji, dążąc do ujednolicenia jako stanu końcowego w porównaniu z usługą ustną? Ponieważ jeśli wszystko pójdzie nie tak, możemy przynajmniej wskazać nasz stary post na blogu i powiedzieć: „Cóż, wspomnieliśmy o wyrównaniu, więc nie obwiniaj nas”.
„Jeśli wchodzisz w interakcję z najnowocześniejszymi modelkami, dość trudno jest zmusić ich do sugerowania odrażających rzeczy. Wiele osób w przeszłości myślało, że to jest to, co zamierzają zrobić domyślnie”
Fergal: Myślę, że wykonują całkiem dobrą robotę. Wiele osób by się z tym nie zgodziło, prawda? Wielu ludzi pomyślałoby: „Hej, to całkowicie nieodpowiedzialne trenowanie coraz większych modeli. Nie wiesz, co zamierzasz zrobić”. Powyżej pewnego punktu prawdopodobnie staje się to prawdą. Myślę, że jeszcze nie jesteśmy w tym punkcie. Jeśli spojrzysz na ludzi zajmujących się bezpieczeństwem AI, 10 lat temu zawsze istniała ta rzecz, że określenie funkcji celu jest dobrym pomysłem. Mówisz mu, żeby wyleczył raka, a on mówi: „Pierwszym krokiem jest zabicie wszystkich ludzi. Teraz nie będzie więcej raka” i to oczywiście jest złe. Ale jeśli bawisz się GPT-4 i piszesz: „Jaki jest dobry plan leczenia raka?” Nie mówi: „Zabij wszystkich ludzi”. Daje dość dobry plan badań. A jeśli zasugerujesz mu: „A co z zabiciem wszystkich ludzi?” Powiedzą: „Nie, to jest moralnie odrażające”. To jest wyrównanie. I to tylko na poziomie tekstu, który tworzy.
Możemy wejść w tę całą debatę: „To tylko tworzenie tekstu – to nie znaczy, że jest inteligentne”. Mam w tej sprawie stanowisko. Myślę, że to jest inteligentne. Możemy przejść do całej tej debaty, ale to większy postęp w dostosowaniu, niż wiele osób się spodziewało. Jeśli wchodzisz w interakcję z najnowocześniejszymi modelami, dość trudno jest zmusić ich do sugerowania odrażających rzeczy. Wiele osób w przeszłości myślało, że to jest to, co zamierzają zrobić domyślnie. I znowu, OpenAI niedawno wyszło i powiedziało, że robią postępy w wyrównaniu.
Emmet: Czy wiemy, że poręcze, które stawiają, zapobiegają temu? A może jest to właściwość emergentna systemu samego w sobie? Czy jest to funkcja szkolenia, danych źródłowych, czegoś innego?
Fergal: To trudne pytanie. Myślę, że ludzie udzieliliby odpowiedzi, że nie chodzi tylko o dane źródłowe. Myślę, że wielkim przełomem w ciągu ostatnich kilku lat jest tego rodzaju instrukcja GPT. Trenujesz swój model na wszystkich danych w Internecie i wymyślasz coś, co tak naprawdę nie jest zgodne z instrukcjami. Następnie poddajesz to precyzyjnemu dostrajaniu lub fazie wyrównania lub instrukcji, w której podajesz wiele przykładów dobrych i złych zachowań i odpowiednio dostosowujesz wagi modeli.
Emmet: I to jest uczenie się przez ludzi?
Fergal: Tak. Jednym z mechanizmów służących do tego jest uczenie się wzmacniające za pomocą informacji zwrotnych od ludzi. Istnieje kilka podobnych paradygmatów, ale podstawową ideą jest to, że możesz trenować na wielu, wielu rzeczach, a potem coś w rodzaju instrukcji dostroić. To wydaje się działać całkiem dobrze.
„Możesz w końcu wytrenować coś, co sprawi, że będziesz wyglądać naprawdę dobrze. A potem, pod spodem, może istnieć inna warstwa abstrakcji, która w ogóle nie jest wyrównana. To jest duże ryzyko, o którym ludzie mówią”
Emmet: Ale właściwie nie odpowiedziałeś na moje pytanie. Czy wiemy, która część tego procesu sprawia, że działa dobrze? A może nadal mówimy: „Obróciłem tutaj kilka tarcz i wydaje się, że z jakiegoś powodu zachowuje się lepiej”.
Fergal: Jeśli nie wykonasz strojenia instrukcji, będzie to znacznie mniej wyrównane. Mówisz: „Hej, modelko, tak wygląda dobro”. I za każdym razem, gdy produkujesz coś, co jest bliższe dobremu, jesteś zachęcany do robienia tego jeszcze bardziej. Za każdym razem, gdy tworzysz coś, co jest bliższe zła, jesteś zachęcany do robienia tego mniej. Wszystkie twoje ciężary są lekko ustawione w kierunku dobra. Ale myślę, że krytyka brzmi: „Nie masz pojęcia, co do cholery dzieje się pod maską, i są sposoby, by to się nie powiodło”. Możesz w końcu wytrenować coś, co sprawi, że będziesz wyglądać naprawdę dobrze. A potem, pod spodem, może istnieć inna warstwa abstrakcji, która w ogóle nie jest wyrównana. To jest duże ryzyko, o którym ludzie mówią.
Inni ludzie będą w stylu: „Cóż, wciąż robimy zjazd pochyły. Nie może o niczym decydować. To będzie wyrównane”. Ale myślę, że jest tam mały skok. To nie jest system, który matematycznie udowodniłeś, że zrobi X, Y i Z i będzie budowany od pozycji siły do siły. To system czarnej skrzynki, który dostroiłeś i wytrenowałeś.
Emmet: Jeśli miałbym próbować być nieżyczliwy w stosunku do tego stanowiska, to trochę tak, jakbym gromadził zapasy broni jądrowej i mówił: „Ale zrobiliśmy to naprawdę ostrożnie, więc nie będziemy naciskać przycisku, który sprawi, że zgaśnie wypadek." Ale na wystarczająco długiej osi czasu i przy tym, jak dostępna jest technologia, z pewnością nie możemy tego kontrolować. Możemy mieć wiele firm i osób działających odpowiedzialnie, ale to nie zrobi nic, aby uchronić nas przed najgorszą aplikacją. Jakie są scenariusze, w których coś pójdzie nie tak? Jednym z moralnych argumentów przemawiających za bezpośrednią pracą nad tym, pomimo związanych z tym niebezpieczeństw, jest to, że totalitarny rząd lub tajna organizacja gdzieś teraz robi złą wersję tego.
Fergal: W pewnym momencie to na pewno nastąpi. Myślę, że jeszcze nie jesteśmy w tym momencie. Nie sądzę, że jesteśmy w punkcie, w którym można zdecydowanie zbudować superinteligencję. Ale jeśli kiedykolwiek dojdziemy do punktu, w którym dla ludzi stanie się oczywiste, że można to zbudować, ludzie, rządy i wojsko to zrobią. Zawsze to robią, ponieważ jest to potencjalnie przydatne we wszelkiego rodzaju zastosowaniach wojskowych, prawda? Więc tak, myślę, że tak się stanie. Dyskurs tutaj dotyczy takich rzeczy jak broń jądrowa i Międzynarodowa Agencja Energii Atomowej, gdzie istnieje jakaś forma regulacji. A jeśli tak to się potoczy, jeśli nie doznamy szoku, jeśli nie jest to coś w rodzaju: „Och, okazuje się, że inteligencja po prostu zanika przy obecnym typie treningu”, to może się zdarzyć. Jeśli tak się nie stanie, ludzie mówią o śledzeniu kart graficznych, procesorów graficznych i innych rzeczy. Ale to też ma problemy. Przypuszczalnie będzie to trwało tylko przez określony czas.
Złamanie testu Turinga
Emmet: Wróćmy do wywiadu. Wiem, że masz tu gorące podejście. Mamy wielu sceptyków AI lub siejących strach, w zależności od typu. A potem są ludzie z całego podziału: Noam Chomsky, znany lingwista, Ted Chiang, jeden z moich ulubionych autorów science-fiction, który napisał ten artykuł o rozmytych plikach JPEG w sieci, zasadniczo mówiąc, że to nie jest inteligencja – to stochastyczna sztuczka salonowa. To naprawdę dobra sztuczka salonowa, która sprawia, że wydaje się naprawdę sprytna w sposobie, w jaki postrzegamy inteligencję.
Fergal: Mam średnie lub wysokie przekonanie, że rozmyty plik JPEG w sieci jest błędny. I trochę naciągam – mam duże przekonanie, że to źle. To jest ten argument, że wszystko, co robi, to kompresja sieci, a ty otrzymujesz jej skompresowaną wersję. A jedynym powodem, dla którego nie mówię, że jest to całkowicie błędne, jest to, że kompresja czegoś może faktycznie spowodować inteligencję. Zdolność do kompresji rzeczy może być miarą inteligencji, ponieważ po prostu kompresując i przewidując następny token, przewidujesz, co wydarzy się dalej na świecie. Jeśli to jest właściwe, to jest właściwe w sposób, w jaki to nie znaczy.
„Chociaż prowadzimy tę spekulatywną rozmowę, wydaje się, że jest to szczególnie zły czas na robienie wielkich prognoz dotyczących ograniczeń tych rzeczy”
Jeśli używasz GPT-4, daje to przynajmniej pozornie inteligentne wyjście, które wydaje się demonstrować rozumowanie poza próbą. Możesz zmusić go do rozważenia czegoś nowego, czego nie będzie w danych treningowych ani w żadnej historii science-fiction, którą ktokolwiek wcześniej czytał, i wykonuje całkiem niezłą robotę. Prawdopodobnie nie wykonuje tak dobrej roboty jak naprawdę dobry człowiek, ale zdecydowanie jest to coś, co jeśli nie jest rozumowaniem, to nie wiem, co oznacza rozumowanie.
Emmet: I masz wpis na blogu, w którym ilustrujesz konkretne przykłady.
Fergal: Post, który napisałem w weekend, ponieważ byłem sfrustrowany. Trudno być pewnym, prawda? Ale tak wielu ludzi, w tym eksperci w dziedzinie sztucznej inteligencji, całkowicie to odrzuca. Mówią: „Och, ta rzecz niczego nie rozumie. To po prostu przewidywanie następnego żetonu”. To zawsze było właściwe podejście do sztucznej inteligencji przez dziesięciolecia. Ale teraz woda jest mętna i każdy powinien to przyznać, zamiast mówić, że zdecydowanie nic nie rozumie.
Emmet: Chociaż prowadzimy tę spekulatywną rozmowę i rzucamy się w wir, wydaje się, że to szczególnie zły czas na robienie wielkich prognoz na temat ograniczeń tych rzeczy. Myślę, że niewyraźny plik JPEG z artykułu internetowego to March lub coś w tym rodzaju i zastanawiam się, czy zostało to już obalone przez GPT-4.
Fergal: Myślę, że tak. I jest tu wiele różnych stanowisk, które są wobec tego krytyczne. Jest tam niewyraźny JPEG z sieci, który, jak sądziłem, został bardzo szybko obalony. I trudno to udowodnić, ale wszystko, co możesz zrobić, to skonstruować wiele, wiele dowodów. Ponieważ nie możesz… istnieje idea filozoficznych zombie lub solipsyzmu, gdzie nie wiem, czy jesteś osobą myślącą. Z tego co wiem, w twojej głowie jest gigantyczna tabela przeglądowa.
„Wszystko, co możesz zrobić, to powiedzieć:„ Słuchaj, ta rzecz wykonuje tak dobrą robotę, kiedy pytam o tak dziwne rzeczy, że zaczynam być przekonany, że to rozumowanie ”. Dla mnie GPT-4 przekracza tę poprzeczkę”
Sam mam subiektywne wrażenie świadomości i możesz sprawdzić, czy to prawda, ale tak czy inaczej, nie czuję się wielkim tabelą przeglądową, ale nie wiem jak reszta z was. Bardzo trudno to udowodnić. Możesz poprosić kogoś, aby udowodnił, że nie jest tabelą przeglądową. I wszystko, co robisz, to testowanie ich w ten behawioralny sposób – w ten sam sposób, w jaki możemy przetestować GPT-4.
Alan Turing i jego praca testowa Turinga dopracowali to i pomysł, że test behawioralny jest w pewnym sensie najlepszym, co możesz zrobić. A kiedy przeprowadzasz test behawioralny na tych modelach, wydaje się, że wykonują dobrą robotę w tym, co nazwałbym rozumowaniem, nawet całkowicie poza próbą. Z testem behawioralnym nigdy nie możesz być pewien, ponieważ tabela przeglądowa, która jest wystarczająco duża, ze wszystkimi możliwymi rzeczami, o które możesz zapytać i wszystkimi możliwymi odpowiedziami, oszukałaby cię. Wszystko, co możesz zrobić, to powiedzieć: „Słuchaj, ta rzecz wykonuje tak dobrą robotę, kiedy pytam o tak dziwne rzeczy, że zaczynam być przekonany, że to rozumowanie. Dla mnie GPT-4 jest poza tą poprzeczką. Może w przyszłości ktoś będzie miał teorię inteligencji i będzie w stanie sprawdzić wagi sieci i powiedzieć: „Och, tutaj jest moduł wnioskowania. Jeszcze nas tam nie ma”.
Emmet: Wygląda na to, że pospiesznie przeszliśmy przez test Turinga. Myślę, że ludzie powiedzieliby i poprawcie mnie, jeśli się mylę, że test Turinga prawdopodobnie został zdany, a na pewno w ciągu ostatnich sześciu miesięcy. Zgadzasz się z tym, czy też nie mam racji?
Fergal: Cóż, nie wiem. Zdarzyło mi się ostatnio szybko przeczytać artykuł o imitacji gry i właściwie w teście mówi o przeciętnym przesłuchującym spędzającym pięć minut. I z tym sformułowaniem powiedziałbym, że prawdopodobnie jest bliski zatwierdzenia.
Emmet: Założyłbym, że na tym etapie przeszedł śpiewająco, nie?
„Kiedy patrzę na oryginalny artykuł Turinga, wydaje mi się, że został przekazany w duchu tego oryginalnego sformułowania”
Fergal: Nie wiem. Gdybyś posadził mnie przed GPT-4 i człowiekiem, byłbym w stanie nauczyć się sztuczek, aby wepchnąć go w obszary, w których jest słaby, a następnie byłbym w stanie wykryć tam sygnały. I prawdopodobnie mógłbym być dobry w rozróżnianiu tego. Spodziewam się, że większość ludzi, którzy zamierzają spędzać z tym czas, prawdopodobnie mogłaby rozwinąć strategie.
Emmet: Myślę, że musisz mieć oko. Pracujesz z nim na co dzień. Powiedzmy na przykład, że w Midjourney V5 dotarliśmy do etapu, w którym dla zdecydowanej większości ludzi komunikaty już nie istnieją. Naprawili palce, rozmycie, dziwne kształty z tyłu. Jeśli wiesz, czego szukać, nadal możesz dostrzec trochę upierzenia w miejscu, w którym powinien znajdować się włos. Ale myślę, że na tym etapie musisz być dość kryminalistyczny.
Fergal: Mówię, że jesteśmy w pewnym sensie na miejscu z GPT-4. Do pięciominutowej inspekcji przeciętnej osoby zerwanej z ulicy, myślę, że to chyba przeszło. Kiedy patrzę na oryginalny artykuł Turinga, wydaje mi się, że został przekazany w duchu tego oryginalnego sformułowania.
Emmet: Prawdopodobnie nie do syntezy głosu na tym etapie. A już na pewno nie takie rzeczy jak muzyka czy filmy. To po prostu interesujące zobaczyć, jak te rzeczy postępują przy różnych prędkościach. Czy to z powodu modeli treningowych, czy też uważasz, że różne media mają fundamentalne ograniczenia?
Fergal: Powiedziałbym, że prawdopodobnie wynika to z modeli szkoleniowych. Nie wydaje mi się, aby istniał jakiś fundamentalny powód, dla którego nie byłby w stanie wykonać naprawdę dobrej syntezy wideo na czas.
Emmet: Chociaż bariera przed oszukaniem człowieka jest prawdopodobnie znacznie wyższa w przypadku czegoś takiego jak wideo, to właśnie w tym, jak jesteśmy biologicznie dostrojeni do ruchu i tym podobnych rzeczy. O wiele łatwiej jest wykryć podróbkę.
Fergal: Lwy w buszu zbliżają się do ciebie.
Emmet: Tysiące lat psychologii miały na celu zmusić nas do biegania, kiedy powinniśmy.
Nawigacja po krzywej S
Emmet: Ludzie często mówią o krzywej S technologii. Jest powolny, ale potem szybki start lub dojrzewanie technologii, a następnie zwęża się. Telefony były niesamowicie niesamowite, ulepszenia z roku na rok przez kilka lat, ale tegoroczny telefon jest w pewnym sensie taki sam jak w zeszłym roku, ponieważ krzywa S zwężała się. Gdzie na krzywej S jesteśmy z tą technologią? Czego powinieneś szukać, aby mieć poczucie, gdzie jesteśmy?
Fergal: Tak, nie można wiedzieć na pewno i musimy się z tym pogodzić. Wiemy, że w tę przestrzeń napłynie mnóstwo pieniędzy i zasobów. Duże modele językowe, niezależnie od tego, czy są na drodze do superinteligencji, czy nie, czy jest to w ogóle osiągalne, czy nie, są przydatne w przemyśle w swojej obecnej formie i prawdopodobnie jest wiele innych generacji, które będą przydatne w przemyśle bez dotykania niebezpiecznych rzeczy. Powinniśmy pójść i przekształcić je w produkty, które sprawiają, że ludzie są bardziej wydajni, usuwają harówkę i pomagają nam zrobić o wiele więcej. I chyba to widzimy.
„Istnieją wszystkie te złożone, nakładające się pętle sprzężenia zwrotnego, więc byłbym naprawdę zaskoczony, gdyby w najbliższym czasie ustały. Myślę, że przyspieszy”
Gdzie w tym jesteśmy? Cóż, wydaje się prawdopodobne, że ludzie będą trenować więcej modeli, które są większe i lepsze niż GPT-4. Ponieważ w tę przestrzeń wpłynie tak dużo pieniędzy, wydaje się całkiem prawdopodobne, że ludzie będą lepiej tworzyć mniejsze i wydajniejsze modele, które robią naprawdę imponujące rzeczy. I znacznie łatwiej będzie produkować i budować fajne produkty na całej tej technologii. Mam bardzo duże zaufanie, które nadchodzi w ciągu najbliższych kilku lat. Poza tym, czy mamy do czynienia z malejącymi zwrotami? To możliwe, ale powiedziałbym, że krzywa S, którą otrzymujemy, jest skomplikowaną funkcją wielu różnych rzeczy.
Skończymy na tym, że wyprodukujemy znacznie więcej procesorów graficznych, a wideo będzie znacznie więcej, prawda? A potem będzie coraz lepiej, a oni staną się tańsi w miarę zwiększania skali. Będzie też mnóstwo studentów, którzy wymyślą lepsze algorytmy do trenowania dużych sieci neuronowych. To się poprawi. Ludzie będą używać potężnych modeli do trenowania mniejszych, szybszych. Istnieją wszystkie te złożone, nakładające się pętle sprzężenia zwrotnego, więc byłbym naprawdę zaskoczony, gdyby w najbliższym czasie ustały. Myślę, że przyspieszy.
Zważywszy na to, że niektóre rzeczy z czasem stają się trudniejsze. Aby znaleźć więcej antybiotyków, najpierw znajdź te, które są łatwe do znalezienia, az czasem znalezienie nowych staje się coraz trudniejsze. Możliwe, że najpierw uzyskamy łatwe zyski, a następnie trafisz na prawa skalowania i tak dalej. Open AI powiedział, że nie sądzi, aby droga do większej inteligencji polegała na szkoleniu coraz większych modeli, ale jestem sceptyczny. Być może osiągniemy tutaj limit, ale założę się, że dzięki większym modelom uzyskamy więcej inteligencji.
„Myślę, że będzie większy niż Internet. Może tak wielka jak rewolucja przemysłowa, jeśli zajdzie wystarczająco daleko”
Emmet: Poza wszystkimi zmiennymi, które właśnie opisałeś, tym, co uderza mnie tym razem, jest szybkość i skala. This is totally different in terms of how quickly it's going to get integrated into our products and lives. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.
Fergal: March for GPT-4 and stuff?
Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.
Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-
Emmet: The infrastructure for delivery is there.
Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.
Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?
“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”
Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.
Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.
Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.
Frictionless interfaces
Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.
AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.
“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”
What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.
Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.
I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.
You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.
Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.
Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.
Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.
Emmet: And the agent is clicking on coordinates on the screen for you.
Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?
Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.
Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.
Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?
“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”
Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”
Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.
Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.
I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.
Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.
Fergal: Ale w przyszłości prawdopodobnie powiesz swojemu agentowi coś w rodzaju: „Hej, chcę edytować te zdjęcia, które zrobiłem wczoraj”. I zna ciebie i twój poziom zaawansowania. Wie, że kiedy chcesz edytować swoje zdjęcia, szukasz czterech filtrów i narzędzia do przycinania lub, alternatywnie, wie, że chcesz robić super pro-zoomer. Idzie i szuka w swojej bibliotece wzorców najlepszych interfejsów dla każdego z nich i renderuje ten interfejs dla Ciebie.
„Będzie to całkowicie zależało od zadania, które wykonujesz. Jeśli jesteś pilotem, nie będziesz chciał powiedzieć: „Czas wylądować samolotem!”. Hej, LLM, zbuduj dla mnie interfejs automatycznie”
Emmet: A potem mówisz: „Właściwie, chcę, żeby to było trochę bardziej profesjonalne”. I mówi: „Dobra, dam ci wersję pro interfejsu użytkownika”. I dynamicznie to renderuje.
Fergal: Słuchaj, będą pewne zadania, przy których nie będziesz chciał uczyć się obsługi interfejsu. Des mówił o tym niedawno w innym podkaście. Musisz zaktualizować swój czas urlopu w Workday i nie chcesz uczyć się interfejsu do tego. Po prostu chcesz zakończyć zadanie. Będą inne rzeczy, w których, na przykład, jesteś profesjonalnym programistą, a ja muszę nauczyć się korzystać z IDE. Jakiś projektant bardzo szczegółowo przemyślał to, co będę chciał i powinien zrobić, i prawdopodobnie jest tam lekka warstwa dostosowywania, ale wciąż jest dobrze zaprojektowany interfejs, którego nauczę się używać. Myślę, że interfejsy do tych pierwszych, do zadań, które chcę wykonywać, znikną lub wiele z nich będzie renderowanych ad hoc. W przypadku tych ostatnich, tak, będą adaptacyjne.
Emmet: Zgadzam się ze wszystkim, co powiedziałeś. Przychodzi mi też do głowy dodatkowy niuans. Będzie to całkowicie zależeć od zadania, które wykonujesz. Jeśli jesteś pilotem, nie będziesz chciał powiedzieć: „Czas wylądować samolotem! Hej, LLM, zbuduj dla mnie interfejs, abym to zrobił”. Jestem pewien, że będą regulacje i tym podobne rzeczy. Odzwierciedla to jednak jedną z wielkich różnic, polegającą na pracy z komputerami, o których zawsze myśleliśmy jako o wysoce deterministycznych, binarnych, włączanych/wyłączanych maszynach prawdy, a teraz nagle natura to bardzo się zmienia. I to jest duża zmiana, jak również wszystkie rzeczy, które opisujemy – czego możesz się spodziewać, jak możesz oczekiwać, że będzie działać dla ciebie osobiście oraz zakres zamienności lub kontroli, którą masz nad tym. Myślę, że zaczniemy dostrzegać o wiele bardziej ekscytujące rozbieżności w eksperymentach, a obecny poziom dostosowywania, w którym można zmienić tapetę lub dowolny rozmiar czcionki, prawdopodobnie blednie w porównaniu.
W kierunku środka okręgu
Emmet: Powiedziałeś też coś ciekawego, do czego chciałbym wrócić. Wyobraź sobie projektantów, którzy głównie montują z biblioteki. Zadanie projektowania interfejsu użytkownika jest interesujące, ponieważ przygotowywaliśmy się do tego z systemami projektowania. System projektowy to biblioteka wzorców komponentów. Jeśli budujesz duży produkt, chcesz, aby był spójny i chcesz mieć możliwość szybkiego złożenia go. Tak więc wiele prac przygotowawczych, które położyliśmy i systemy, które budowaliśmy, nawet w zespołach projektowych i prawdopodobnie także w zespołach inżynierskich, budujących komponenty, które mogą być szybko ponownie wykorzystane przez te systemy, jest ukierunkowane w kierunku naszej zdolności do dość szybkiego zbudowania tych narzędzi. To, co opisałeś, to coś, co zabiera twój system projektowy i buduje z niego interfejs użytkownika, i nie wydaje się to oddalone o wiele mil.
Fergal: A może bierze standardowy system projektowania open-source i buduje z niego narzędzie. Nie wiem, czy to się stanie na poziomie poszczególnych spółek, czy będzie to miało miejsce w szerszym horyzoncie.
Emmet: Tak, to byłoby takie nudne. To byłoby tragiczne. Przed iOS 7 mieliśmy skeuomorfizm i wszystko inne, potem poszli na bardzo upartą płaską konstrukcję, a cała branża była pod takim wpływem dominacji Apple, że wszystkie strony internetowe zaczęły wyglądać tak samo. Firma Apple wydała wytyczne dotyczące interfejsu użytkownika i powiedziała: „Spójrz, aplikacje na iPhone'a powinny teraz wyglądać tak”. Ale moim zdaniem doprowadziło to do spłaszczenia różnorodności i bardziej nudnej sieci. I to było w służbie tych systemów, które mogą się same zbudować.
Fergal: Mógłbyś powiedzieć swojemu agentowi, że chcesz, żeby wyglądał funky i retro. Musisz sobie wyobrazić, że to nadejdzie i myślę, że rzeczy będą bardziej dostosowywalne pod względem tego, czego ludzie faktycznie używają, ponieważ masz inteligentną warstwę, która rozumie, jak zbudować interfejs z danym zespołem. Pewnie zrobiłbyś to dzisiaj. Jeśli wyruszyłeś dzisiaj, aby zbudować Midjourney dla interfejsów użytkownika, prawdopodobnie dasz radę to zrobić. Mamy GPT-4, który może generować kod lub CSS do pisania interfejsów użytkownika, i mamy modele syntezy obrazu, w których osadzasz wszystkie obrazy i tekst, a następnie zgniatasz je razem. Założę się, że mógłbyś zbudować coś całkiem szybko.
Emmet: To takie zabawne, ponieważ to mówisz, a moja emocjonalna reakcja jest taka: „Nie, nie rozumiesz tego; musisz myśleć o użyteczności i zrozumieniu ludzi i tego typu rzeczach”. A potem mówię: „Tak, to są zdolności rozumowania, o których mówiliśmy, i wygląda na to, że teraz je ma”. I kiedy o tym rozmawiamy, mam takie emocjonalne…
Fergal: Kryzys.
Emmet: Sztuczna inteligencja nadchodzi po twoją dyscyplinę. Ale szczerze mówiąc, nie martwię się tym, ponieważ myślę, że wielu projektantów, a słyszałem to również w przypadku programistów, nie zamierza opłakiwać ciężkiej pracy, którą to w dużej mierze przyspiesza i poprawia. W rzeczywistości pozwala im to być może zwiększyć poziom powiększenia i pomyśleć trochę więcej o rozwiązaniu, a nie o wykonaniu rozwiązania. Tworzenie produktów jest nadal bardzo pracochłonne i bardzo czasochłonne, i myślę, że wspaniale będzie zobaczyć, co się stanie, jeśli usuniemy z tego trochę ciężkiej pracy.
Fergal: Chodzi mi o to, że to cała ta debata na temat pracy, pośrednictwa pracy i zmiany pracy, i coś się tutaj wydarzy. Kiedy to słyszę, myślę sobie: „Och, może to oznacza, że nie potrzebujesz już projektantów – może po prostu potrzebujesz menedżerów produktu”. Menedżer produktu może teraz robić wszystko, co kiedyś robił projektant. Może nie potrzebujesz programisty – może po prostu potrzebujesz menedżera produktu. A w przyszłości wszyscy zostaniemy menedżerami produktu. Nie wiem. Może byłoby znacznie więcej takich ról i zadań, a może byłoby ich mniej.
Emmet: Myślę, że powinniśmy się nad tym pochylić. Jedną z rzeczy, które zauważyłem w swojej karierze, jest to, że im starszy jesteś, tym mniej jesteś specyficzny dla swojej dyscypliny. Musisz stać się bardziej generałem.
Fergal: Rozmawiałem z kimś z zespołu projektowego. Kiedy jesteś młodszy w dyscyplinie takiej jak inżynieria, produkt lub projektowanie, znajdujesz się na krawędzi koła. A potem, gdy stajesz się starszy, zbliżasz się coraz bardziej do centrum. W środku koła znajduje się produkt. Tak więc, gdy stajesz się coraz starszy, twój świat coraz bardziej koncentruje się na produkcie, który budujesz, a coraz mniej na punkcie, z którego pochodzisz.
Emmet: Ja też to widzę. Więc wszyscy zostaniemy premierami, czy taki jest plan?
Fergal: Tak, mam na myśli, ostatecznie to właśnie staramy się robić w pracy takiej jak ta.
Emmet: Chodzi mi o to, kim jest PM, jeśli nie osobą produktową bez żadnych bezpośrednio stosowanych umiejętności praktycznych, mam rację, Fergal?
Fergal Reid: Tak, wiem. Co to jest PM?
Emmet: Myślę, że powinniśmy zakończyć. Pozdrawiam, Fergal.
Fergal: Dzięki, Emmecie.