Von Science-Fiction zur technischen Realität: Erforschung der Auswirkungen von KI
Veröffentlicht: 2023-06-09KI verändert bereits jetzt die Art und Weise, wie wir arbeiten, kommunizieren und die Welt erleben. Treten Sie ein in die faszinierende Welt der generativen KI, während wir die riesige Landschaft der vor uns liegenden Möglichkeiten erkunden.
Seit der Veröffentlichung von ChatGPT ist unser Team kopfüber in die Welt der KI eingetaucht, hat Produkte mit großen Sprachmodellen (LLMs) entwickelt und die Unbekannten gemeistert, die mit den jüngsten Fortschritten dieser transformativen Technologie entstanden sind.
Unser Hauptaugenmerk lag darauf, wie wir generative KI einsetzen können, um den Kundenservice zu verändern – und die Veröffentlichung unseres branchenführenden KI-Chatbots Fin zeigt, wie sich dieser Fokus ausgezahlt hat.
Über die praktischen Anwendungen hinaus gibt es jedoch unzählige große Fragen, über die wir nachgedacht haben: Sollten wir LLMs mit Vorsicht angehen? Wie groß ist diese KI-Sache wirklich? Und was können wir erwarten, wenn wir in die Zukunft blicken?
In dieser Folge spricht unser Senior Director für maschinelles Lernen, Fergal Reid, mit Emmet Connolly, unserem Vizepräsidenten für Produktdesign, über die Auswirkungen und das revolutionäre Potenzial von KI – es ist ein faszinierendes Gespräch, das viele der umfassenderen, existenziellen Fragen berührt, die von KI aufgeworfen werden diese unglaubliche neue Technologie.
Hier sind einige der wichtigsten Erkenntnisse:
- Im Bestreben, intelligente Systeme aufzubauen, nutzen Unternehmen Techniken wie Reinforcement Learning, um die Übereinstimmung mit unseren Werten und einen positiven Einfluss auf die Menschheit sicherzustellen.
- GPT-4 zeigt ein hohes Maß an Argumentation, selbst wenn es mit Szenarien außerhalb der Stichprobe getestet wird, was darauf hindeutet, dass es die durch Alan Turings berühmten Test gesetzte Messlatte übertreffen kann.
- Da die Investitionen steigen und Hardwarebeschränkungen überwunden werden, können wir mit der Entwicklung fortschrittlicherer und effizienterer Modelle mit beispielloser Akzeptanz und Produktisierung rechnen.
- In Zukunft werden einige Arten von Benutzeroberflächen möglicherweise durch KI-Agenten ersetzt, die Ausgaben im Handumdrehen basierend auf verbalen Eingaben, der jeweiligen Aufgabe und Ihren persönlichen Vorlieben personalisieren können.
- KI hat das Potenzial, den Arbeitsaufwand für Designer und Programmierer zu verringern, sodass sie sich mehr auf die Lösung und die Vision für das Produkt als auf die Ausführung konzentrieren können.
Wenn Ihnen unsere Diskussion gefällt, schauen Sie sich weitere Episoden unseres Podcasts an. Sie können Apple Podcasts, Spotify und YouTube folgen oder den RSS-Feed im Player Ihrer Wahl abrufen. Was folgt, ist eine leicht bearbeitete Abschrift der Episode.
Das Erwachen der KI
Emmet Connolly: Also, Fergal, wir haben viele lockere Gespräche bei Bier, Kaffee und so weiter geführt und wir sagten, es könnte interessant sein, sich hinzusetzen, ein Gespräch zu führen und es aufzuzeichnen, vor allem, weil wir direkt zusammengearbeitet haben Da wir in den letzten sechs Monaten große Sprachmodelle entwickelt haben, haben wir uns mit Produktfragen auseinandergesetzt, die sich auf das beziehen, was wir bei der Arbeit erreichen wollen.
Aber es gibt natürlich eine größere Diskussion darüber, was KI bedeutet und welche Zukunft sie hat. Wir wollten versuchen, uns zusammenzusetzen und einige der Fragen zu diesem neuen Material, mit dem wir uns befassen, anzusprechen. Welche finanziellen Auswirkungen hat die Technologie? Auf welche Dinge sollten wir achten? Lasst uns loslegen. Haben Sie zunächst einmal eine übergreifende Betrachtung der letzten sechs Monate?
Fergal Reid: Ja, auf jeden Fall. Mal sehen, wie das geht. Ich denke, man kann mit Fug und Recht sagen, dass selbst Menschen, die sich mit maschinellem Lernen oder KI beschäftigt haben, davon überrascht waren, wie schnell sich die Dinge verbesserten. Selbst für Leute, die Experten auf diesem Gebiet sind oder schon lange mit neuronalen Netzen arbeiten, war es überraschend, dass das Modell so intelligent geworden ist.
Emmet: Glauben Sie, dass einige KI-Leute ein wenig besorgt sind, dass sie jetzt in unserer Generation am Manhattan-Projekt arbeiten könnten? Vor einiger Zeit haben Sie an der automatischen Vervollständigung von Texten gearbeitet, und plötzlich ist dies zu einem sehr heiklen und umstrittenen Thema geworden. Wie fühlt es sich an, wenn Menschen, die an KI arbeiten, im Mittelpunkt stehen?
„Sie machen Ihr gesamtes Training, das Modell kommt heraus und es ist wirklich intelligent. Aber Sie haben diese Informationen nicht individuell kodiert. Es ist immer noch maschinelles Lernen.“
Fergal: Um meine Perspektive darzulegen: Wir trainieren keine großen Sprachmodelle. Wir nutzen sie; Wir sind Konsumenten davon. Wir hatten frühen Zugriff auf GPT-4, trainieren sie jedoch nicht selbst. Andererseits habe ich hier ein Team von Leuten, die Experten für KI sind. Ich schätze, viele von uns sind zu diesem Zeitpunkt schon seit Jahrzehnten in der KI tätig. Als ich auf dem College war, interessierte ich mich wirklich für fortgeschrittene KI, las Bücher über die Philosophie der KI und die Leute diskutierten, ob sie dies oder das jemals tun könnte. Und jetzt haben wir Systeme, die viele dieser Debatten plötzlich weniger relevant machen. Plötzlich gibt es ein System, das das kann, von dem niemand behauptet hat, dass es es jemals tun könnte.
Ich denke, der Kontrapunkt besteht darin, dass das Trainieren großer Sprachmodelle bis zu einem gewissen Grad eine technische Aufgabe ist. Sie machen Ihr gesamtes Training, das Modell kommt heraus und es ist wirklich intelligent. Aber Sie haben diese Informationen nicht individuell kodiert. Es ist immer noch maschinelles Lernen. In gewisser Weise sind meiner Meinung nach alle davon überrascht. Es ist nicht so, dass die Leute die Fähigkeit schrittweise Codezeile für Zeile aufbauen. Niemand ist sich sicher, was am Ende eines großen Trainingslaufs passieren wird.
Emmet: Ich habe scherzhaft auf das Manhattan-Projekt angespielt, aber ich denke, es ist eine ziemlich gute Analogie zu einigen der Dinge, mit denen wir uns befassen.
Fergal: Auf welche Weise? Weil es gefährlich ist?
Emmet: Nun, wir haben eine Möglichkeit entdeckt, etwas zu manipulieren. In diesem Fall Informationen. In gewisser Weise fühlt es sich eher wie eine Entdeckung als wie eine Erfindung an. Es ist sehr breit anwendbar. Wir sind uns nicht sicher, welche unbeabsichtigten Folgen seine Verwendung hat. Und natürlich könnte es sowohl von schlechten Akteuren für böswillige Zwecke als auch von guten Akteuren für positive Zwecke genutzt werden.
„Wir wissen auf technischer Ebene, wie diese Modelle trainiert werden, aber das ist eine Black-Box-Situation“
Fergal: Gestern veröffentlichte OpenAI eine Stellungnahme zu dieser Technologie und forderte eine Aufsicht über die KI-Technologie. Sie zogen Parallelen zur Nukleartechnologie und Biotechnologie. Ich denke, das ist fair. Es gehört möglicherweise zu der Kategorie gruseliger Technologie, bei der die Menschen nicht wissen, womit sie es zu tun haben, in bester Science-Fiction-Tradition. Ich glaube, dass das alles schief gehen könnte und dass man beim Training großer Sprachmodelle vorsichtig sein sollte.
Emmet: Ich würde gerne darüber sprechen, was wir Ihrer Meinung nach entdeckt haben, und ich sage immer „entdeckt“, weil es sich in der Art, wie wir darüber reden, fast wie eine Entdeckung anfühlt, so wie: „Whoa, wir haben dieses Ding, und wir sollten besser vorsichtig sein, wie wir damit umgehen.“ Denken Sie so darüber? Wir wissen auf technischer Ebene, wie diese Modelle trainiert werden, aber dies ist eine Black-Box-Situation – wir verstehen nicht genau, wie sie die etwas nicht deterministischen Ergebnisse liefern, die sie uns liefern.
Fergal: Ja, ich denke, das ist die richtige Art, darüber nachzudenken. Es ist ein System. Sie starten das System und legen zunächst ein Trainingsziel fest. Anschließend laufen Sie auf dieser Skala und sehen, was passiert. Und mit der Zeit werden Sie immer besser darin, zu verstehen, was wahrscheinlich passieren wird, aber Sie sind sich nicht sicher. Du testest es sozusagen. Ich denke, eine gute Analogie ist hier, als würde man sich ein biologisches System vorstellen, es eine Zeit lang wachsen lassen und dann sehen, was es tut. Es ist näher dran. Sie müssen es auf diese Black-Box-Art testen. Sie müssen sein Verhalten überprüfen. Du weißt nicht, was du bekommen wirst.
Emmet: Ich denke, hier stellt sich offensichtlich die Frage: „Ist das intelligent?“ kommt her, und das ist eine große Frage, die viele Gespräche beschäftigt. Denn wenn es intelligent ist, bedeutet das, dass wir auf dem Weg zu AGI sind, und dass AGI bösartig sein könnte und wir in große Schwierigkeiten geraten könnten. Es scheint sich zu lohnen, darauf aufmerksam zu machen, aber es schürt auch große Ängste im Zusammenhang mit der Technologie.
Fergal: Ich denke, ein gewisses Maß an Vorsicht oder Angst ist hier angebracht. Nehmen wir an, diese Dinge werden intelligent. Intelligenz ist wirklich beängstigend und gefährlich. Der Mensch ist wohl am gefährlichsten. Wir hatten einen großen Einfluss auf die Erde und die Ökosysteme. Das liegt nicht daran, dass wir das stärkste oder schnellste Tier sind. Ein Mensch kann einen Löwen töten, weil der Mensch intelligenter ist. Intelligentere Organismen sind in gewissem Sinne oft gefährlicher. Daher könnte die Vorstellung, dass wir am Ende etwas erschaffen könnten, das intelligenter ist als wir, wirklich gefährlich sein. Wir haben damit keine Erfahrung, daher denke ich, dass eine gewisse Vorsicht absolut angebracht ist.
Codierungsausrichtung
Emmet: Ich denke, wir müssen besser über verschiedene Arten von Intelligenz nachdenken. Ein Löwe hat eine gewisse Intelligenz und ist gepaart mit seinen Fähigkeiten gefährlich, oder? Aber das hat keine Verkörperung. Ich meine, es hat Zugriff auf Computersysteme, die sehr schädlich sein könnten, aber ist Bösartigkeit eine menschliche Eigenschaft? Und warum projizieren wir dieses Potenzial sofort auf dieses System?
Fergal: Ich denke, viele Leute sagen, dass es nicht unbedingt bösartig sein muss. Es muss nicht absichtlich schlecht sein. Es muss überhaupt nicht viel Absicht sein. Alles, was Sie brauchen, ist, etwas zu schaffen, das versucht, ein Ziel zu optimieren, das es in Konflikt mit den guten Dingen bringt, die Menschen wollen, oder?
„Es könnte sein, dass man etwas aussendet, was man insgesamt für gut hält, aber aufgrund der Methoden könnte man in Konflikt geraten. Und wenn dieses Ding schlauer ist als Sie, wie läuft dieser Konflikt ab?“
In der frühen KI-Sicherheitsliteratur gibt es diese Idee einer Konvergenzinstrumentalität, und es ist diese Idee, dass, wenn man ein Ziel auf der Welt hat, viele der Dinge, die man tun möchte, um dieses Ziel zu erreichen, einen in Konflikt mit Menschen mit anderen bringen könnten Ziele. Wenn Sie Krebs heilen wollen, wollen Sie vielleicht viel Geld, um Krebs zu heilen, und jetzt geraten Sie sofort in Konflikt mit all den anderen Menschen, die Geld wollen. Um viele Ziele zu erreichen, braucht man Energie und Ressourcen. Wenn Sie also am Ende ein System haben, das zielgerichtet und potenziell intelligenter ist als Sie selbst, können Sie mit ihm in Konflikt geraten, selbst wenn es nicht bewusst ist. Es muss nicht böse sein. Es könnte sein, dass man etwas aussendet, was man insgesamt für gut hält, aber man könnte aufgrund der Methoden in einen Konflikt geraten. Und wenn dieses Ding schlauer ist als Sie, wie läuft dieser Konflikt ab?
Die Leute fangen an, über den „Büroklammer-Maximierer“ zu reden, bei dem man diesem Ding gerade gesagt hat, es solle viele, viele Büroklammern machen, weil wir viele Büroklammern brauchen, und dann hat es aus Versehen alle Ressourcen der Welt verbraucht und es verwandelt in eine Büroklammerfabrik. Und es ist wie „Ups.“ Dies sind alles Ideen, die seit einiger Zeit in der KI-Sicherheitsdebatte geführt werden.
Emmet: Es gibt auch menschliche Bedenken. Es hört sich so an, als würden Sie eine Abstimmung der Anreize zwischen allen Akteuren, der Technologie und den Menschen beschreiben. Und das tun wir, wenn wir uns bei der Arbeit als Gruppen organisieren. Ein einfaches Beispiel ist die Schaffung der richtigen Anreize für Ihre Teams – andernfalls könnten sie einen Anreiz erhalten, etwas anderes zu tun. Wenn Sie Ihrem Vertriebsteam einen Anreiz bieten, an Unternehmenskunden zu verkaufen, Sie aber tatsächlich möchten, dass es an kleinere Unternehmen verkauft, müssen Sie die Anreize anpassen. Und wir haben viel Erfahrung damit.
Fergal: Sehen Sie, inwieweit liegt das daran, dass es Ihnen wirklich gut gelungen ist, Anreize und Kräftegleichgewicht in Einklang zu bringen? Wenn man sich die Menschen ansieht, ist es in Zeiten massiver Machtungleichgewichte, in denen Dinge schiefgehen, sehr schwierig, die Anreize aufrechtzuerhalten. Wenn man auf Anreize setzt, ist es schwierig. Als Menschen legen wir großen Wert auf Kontrolle und Ausgewogenheit. Und zurück zu dieser Diskussion über Superintelligenz: Wenn es möglich ist, eine Superintelligenz aufzubauen, die plötzlich sehr mächtig wird, werden Sie sich dann auf die Anreize verlassen? Denn es ist immer schwer, sich auf die Anreize zu verlassen, um die Dinge am Laufen zu halten.
„Wir haben uns in der Vergangenheit immer auf das Gleichgewicht der Kräfte verlassen. Jetzt müssen wir uns auf die übereinstimmenden Werte verlassen.“
Emmet: Ich denke, wir können es nicht wissen, bis es die Natur seiner selbst ein wenig mehr enthüllt. Mein persönlicher Eindruck ist, dass wir, wenn wir von Superintelligenz besessen sind, davon besessen sind, dass sie schlauer wird als wir. Und es besteht ein gewisses Risiko, nehme ich an, aber im Mittelpunkt steht auch eine Ego-Sache der Menschen. Es ist das, was uns vom Tierreich trennt. Die Leute sagen oft, KI sei ein bisschen wie außerirdische Intelligenz, und ich denke, Tiere sind eine nützliche Denkweise, weil wir uns so entwickelt haben, dass wir friedlich mit verschiedenen Arten von Intelligenz koexistieren. Jetzt habe ich einen Hund, ich habe eine Katze. Die Katze besitzt ein sehr spezifisches, aber hohes Maß an Intelligenz – sportliche Fähigkeiten. Es ist leicht und seine Reflexe sind schnell. Wenn ich Intelligenz im Großen und Ganzen betrachte, ist sie sehr intelligent und schön anzusehen.
Fergal: Ich muss hierher springen, weil ich nicht glaube, dass das eine tolle Analogie ist. Zumindest ist es nicht tröstlich. Ich bin Pescatarianer – hauptsächlich Vegetarier. Massentierhaltung ist für die Tiere nicht gut. Und deshalb, ich weiß nicht, beruhigt es mich nicht, zu hören, dass das Modell hier darin besteht, dass wir uns so entwickelt haben, dass wir friedlich mit Tieren zusammenleben.
Emmet: Was ist los mit Haustieren?
Fergal: Nein, Haustiere sind gut. Ich meine, es gibt diese Idee, dass Menschen in Zukunft Haustiere sein könnten. Ich denke, das sollte unangenehm sein.
Emmet: Nun, Sie drehen meine Argumentation um. Der Punkt, den ich ansprechen wollte, war, dass die Katze eine bestimmte Art von Intelligenz besitzt. Ich habe auch einen Hund, der eine ganz andere Intelligenz hat als die Katze. Du denkst, du kannst mit einem Hund reden, und er versteht dich irgendwie und blickt in deine Seele und so weiter. Aber er ist auch auf einer anderen Ebene dumm wie ein Sack voller Steine. Ich liebe ihn, aber er ist es. Ich schätze, Sie sagen: „Emmett, Sie sind der Hund in dieser Situation, wenn wir vorspulen.“ Aber dort herrscht ein glückliches Miteinander. Hoffentlich werden auch wir als Spezies nicht domestiziert.
Fergal: Ja, wenn sich herausstellt, dass es möglich ist, etwas zu erschaffen, das intelligenter ist als wir, dann ist das das Ziel, nach dem man streben muss, nach dieser glücklichen Koexistenz, bei der man am Ende etwas hat, das gutartig ist, sich um das Leben im Universum kümmert und gute Werte hat. Der Grund dafür, dass sich viele Menschen im Moment so sehr damit beschäftigen, ist, dass es den Eindruck macht, dass hier ein enormes Risiko besteht. Wenn Sie etwas Stärkeres bauen wollen, müssen Sie sicherstellen, dass diese Werte stimmen. In der Vergangenheit haben wir uns immer auf das Gleichgewicht der Kräfte verlassen. Jetzt müssen wir uns auf die abgestimmten Werte verlassen. Wenn man sich OpenAI und Anthropic und die anderen Spieler anschaut, verbringen sie aus diesem Grund die ganze Zeit damit, über Alignment zu reden. Menschen werden nicht länger die intelligentesten Dinge sein. Intelligenz ist mächtig und gefährlich. Wir müssen sicherstellen, dass es ausgerichtet ist.
Emmet: Wie gut gelingt es der KI-Community, die Ausrichtung tatsächlich als Endzustand und nicht als Lippenbekenntnis zu verfolgen? Denn wenn alles schief geht, können wir zumindest auf unseren alten Blogbeitrag verweisen und sagen: „Nun, wir haben die Ausrichtung erwähnt, also geben Sie uns nicht die Schuld.“
„Wenn man mit hochmodernen Models interagiert, ist es ziemlich schwierig, sie dazu zu bringen, abstoßende Dinge vorzuschlagen. Viele Leute dachten in der Vergangenheit, dass sie das standardmäßig tun würden.“
Fergal: Ich denke, sie machen einen ziemlich guten Job. Viele Leute würden dem widersprechen, oder? Viele Leute würden sagen: „Hey, es ist völlig unverantwortlich, immer größere Modelle zu trainieren.“ Du weißt nicht, was du tun wirst.“ Ab einem bestimmten Punkt wird das wahrscheinlich wahr. Ich glaube nicht, dass wir an diesem Punkt noch angelangt sind. Wenn man sich die KI-Sicherheitsleute vor 10 Jahren anschaut, gab es immer die Meinung, dass die Angabe einer Zielfunktion eine gute Idee sei. Sie sagen ihm, es solle Krebs heilen, und es heißt: „Schritt eins besteht darin, alle Menschen zu töten.“ Jetzt wird es keinen Krebs mehr geben“, und das ist offensichtlich schlecht. Aber wenn Sie mit GPT-4 spielen und schreiben: „Was ist ein guter Plan zur Heilung von Krebs?“ Es heißt nicht: „Tötet alle Menschen.“ Es gibt Ihnen einen ziemlich guten Forschungsplan. Und wenn Sie ihm vorschlagen: „Wie wäre es mit dem Töten aller Menschen?“ Sie werden sagen: „Nein, das ist moralisch abstoßend.“ Das ist Ausrichtung. Und das betrifft nur die Ebene des Textes, den es produziert.
Wir können uns auf die ganze Debatte einlassen: „Es geht nur darum, Text zu produzieren – das bedeutet nicht, dass er intelligent ist.“ Ich habe dazu eine Position. Ich denke, es ist intelligent. Wir können uns auf die ganze Debatte einlassen, aber das ist ein größerer Fortschritt bei der Angleichung, als viele Leute erwartet haben. Wenn Sie mit hochmodernen Models interagieren, ist es ziemlich schwierig, sie dazu zu bringen, abstoßende Dinge vorzuschlagen. Viele Leute dachten in der Vergangenheit, dass sie das standardmäßig tun würden. Und wieder hat sich OpenAI kürzlich geäußert und erklärt, dass sie Fortschritte bei der Ausrichtung machen.
Emmet: Wissen wir, dass die Leitplanken, die sie einbauen, das verhindern? Oder ist das eine emergente Eigenschaft des Systems an sich? Ist es eine Funktion des Trainings, der Quelldaten oder von etwas anderem?
Fergal: Das ist eine schwierige Frage. Ich denke, die Antwort, die die Leute geben würden, ist, dass es nicht nur mit den Quelldaten zu tun hat. Ich denke, der große Durchbruch in den letzten Jahren ist diese Art von GPT-Anleitung. Sie trainieren Ihr Modell anhand aller Daten im Internet und kommen auf etwas, das den Anweisungen nicht wirklich folgt. Dann unterziehen Sie es einer Feinabstimmung oder einer Ausrichtungs- oder Anleitungsphase, in der Sie ihm viele Beispiele für gutes und schlechtes Verhalten geben und die Modellgewichte entsprechend anpassen.
Emmet: Und das ist das Lernen zur menschlichen Verstärkung?
Fergal: Ja. Ein Mechanismus hierfür ist das verstärkende Lernen mit menschlichem Feedback. Es gibt eine Reihe ähnlicher Paradigmen wie dieses, aber die Grundidee besteht darin, dass man an vielen, vielen Dingen trainieren und sie anschließend irgendwie an die Anweisungen anpassen kann. Das scheint ziemlich gut zu funktionieren.
„Sie könnten am Ende etwas trainieren, um wirklich gut darin zu sein, ausgerichtet zu wirken. Und dann gibt es möglicherweise darunter noch eine andere Abstraktionsebene, die überhaupt nicht aufeinander abgestimmt ist. Das ist das große Risiko, das die Leute benennen.“
Emmet: Aber du hast meine Frage nicht wirklich beantwortet. Wissen wir, welcher Teil dieses Prozesses dafür sorgt, dass er gut funktioniert? Oder sagen wir immer noch: „Ich habe hier ein paar Regler gedreht, und aus irgendeinem Grund scheint es sich besser zu verhalten.“
Fergal: Wenn Sie die Anweisung nicht anpassen, wird es viel weniger ausgerichtet sein. Du sagst: „Hey, Model, so sieht gutes Aussehen aus.“ Und jedes Mal, wenn Sie etwas produzieren, das dem Guten näher kommt, werden Sie ermutigt, dies noch mehr zu tun. Jedes Mal, wenn Sie etwas produzieren, das eher schlecht ist, werden Sie dazu ermutigt, dies weniger zu tun. Alle Ihre Gewichte sind leicht in Richtung Gut angepasst. Aber ich denke, die Kritik lautet: „Sie haben keine Ahnung, was zum Teufel unter der Haube vor sich geht, und es gibt Möglichkeiten, wie das schief gehen könnte.“ Sie könnten am Ende etwas trainieren, um wirklich gut darin zu sein, ausgerichtet zu wirken. Und dann gibt es möglicherweise darunter noch eine andere Abstraktionsebene, die überhaupt nicht aufeinander abgestimmt ist. Das ist das große Risiko, das die Leute benennen.
Andere Leute werden sagen: „Nun, wir machen immer noch einen Gefälleabstieg.“ Es kann nichts entscheiden. Es wird in Einklang gebracht.“ Aber ich denke, da gibt es einen kleinen Sprung. Es handelt sich nicht um ein System, von dem Sie mathematisch bewiesen haben, dass es X, Y und Z beherrscht, und das von einer Position der Stärke zur Stärke aufgebaut wurde. Es handelt sich um ein Black-Box-System, das Sie abgestimmt und trainiert haben.
Emmet: Wenn ich versuchen würde, dieser Position gegenüber unbarmherzig zu sein, wäre das ein bisschen so, als würde man Atomwaffen horten und sagen: „Aber wir haben es wirklich sorgfältig gemacht, also werden wir nicht den Knopf drücken, der es auslöst.“ Unfall." Aber auf lange Sicht und angesichts der Zugänglichkeit der Technologie können wir das sicherlich nicht im Zaum halten. Es kann sein, dass viele Unternehmen und Einzelpersonen verantwortungsbewusst handeln, aber das wird uns nicht vor der schlimmsten Anwendung schützen. In welchen Szenarien geht etwas schief? Eines der moralischen Argumente dafür, trotz der damit verbundenen Gefahren direkt daran zu arbeiten, ist, als würde eine totalitäre Regierung oder eine geheime Organisation irgendwo gerade eine schlechte Version davon machen.
Fergal: Irgendwann wird das sicherlich passieren. Ich glaube nicht, dass wir an diesem Punkt sind. Ich glaube nicht, dass wir an dem Punkt angelangt sind, an dem man definitiv eine Superintelligenz aufbauen kann. Aber wenn wir jemals an den Punkt gelangen, an dem den Menschen klar wird, dass man es bauen kann, werden es Menschen, Regierungen und Militärs tun. Das tun sie immer, weil es potenziell für alle möglichen militärischen Anwendungen nützlich ist, oder? Also ja, ich denke, das wird passieren. Der Diskurs dreht sich hier um Dinge wie Atomwaffen und die Internationale Atomenergiebehörde, wo es irgendeine Form von Regulierung gibt. Und wenn es so abläuft, wenn wir nicht schockiert sind, wenn wir nicht sagen: „Oh, es stellt sich heraus, dass die Intelligenz mit der aktuellen Art des Trainings einfach nachlässt“, dann könnte das passieren. Wenn das nicht passiert, reden die Leute über die Verfolgung von Grafikkarten, GPUs und so weiter. Aber das bringt auch Probleme mit sich. Vermutlich wird das nur für einen begrenzten Zeitraum anhalten.
Den Turing-Test knacken
Emmet: Kommen wir zurück zur Geheimdienstsache. Ich weiß, dass du hier eine heiße Einstellung hast. Wir haben viele KI-Skeptiker oder Angstmacher, je nachdem, um welche Art es sich handelt. Und dann gibt es Leute aus allen Teilen der Welt: Noam Chomsky, ein bekannter Linguist, Ted Chiang, einer meiner Lieblings-Science-Fiction-Autoren, der diesen Artikel über das verschwommene JPEG im Web schrieb und im Grunde sagte, dass dies nicht der Fall sei Intelligenz – es ist ein stochastischer Salontrick. Es ist einfach ein wirklich guter Salontrick, der es in der Art und Weise, wie wir Smarts sehen, wirklich schlau erscheinen lässt.
Fergal: Ich habe mittlere bis hohe Sicherheit, dass das verschwommene JPEG der Webaufnahme falsch ist. Und ich halte mich ein wenig zurück – ich bin zuversichtlich, dass das falsch ist. Das ist das Argument, dass es lediglich das Web komprimiert und Sie eine komprimierte Version davon erhalten. Und der einzige Grund, warum ich nicht sage, dass es völlig falsch ist, ist, dass das Komprimieren von etwas tatsächlich Intelligenz hervorrufen kann. Die Fähigkeit, Dinge zu komprimieren, kann ein Maß für Intelligenz sein, denn allein durch die Komprimierung und Vorhersage des nächsten Tokens sagen Sie voraus, was als nächstes in der Welt passieren wird. Wenn es richtig ist, dann ist es in der Art und Weise richtig, wie es nicht gemeint ist.
„Obwohl wir dieses spekulative Gespräch führen, scheint es ein besonders schlechter Zeitpunkt zu sein, große Vorhersagen über die Grenzen dieses Zeugs zu treffen.“
Wenn Sie GPT-4 verwenden, erhalten Sie zumindest eine intelligent wirkende Ausgabe, die das Denken außerhalb der Stichprobe zu demonstrieren scheint. Sie können es dazu bringen, etwas Neues in Betracht zu ziehen, das nicht in seinen Trainingsdaten oder in irgendeiner Science-Fiction-Geschichte enthalten sein wird, die irgendjemand zuvor gelesen hat, und es macht einen ziemlich guten Job. Es leistet wahrscheinlich nicht so gute Arbeit wie ein wirklich guter Mensch, aber es ist definitiv etwas, von dem ich nicht weiß, was Argumentation bedeutet, wenn es nicht Argumentation ist.
Emmet: Und Sie haben einen Blog-Beitrag, in dem Sie konkrete Beispiele veranschaulichen.
Fergal: Ein Beitrag, den ich am Wochenende geschrieben habe, weil ich frustriert war. Es ist schwer, sicher zu sein, oder? Aber so viele Menschen, darunter auch KI-Experten, lehnen es völlig ab. Sie sagen: „Oh, dieses Ding versteht überhaupt nichts. Es geht lediglich um die Vorhersage des nächsten Tokens.“ Das war jahrzehntelang immer die richtige Einstellung zur KI. Aber jetzt ist das Wasser schlammig, und das sollte jeder anerkennen, anstatt zu sagen, dass er definitiv nichts versteht.
Emmet: Obwohl wir dieses spekulative Gespräch führen und uns in die Mischung stürzen, scheint es ein besonders schlechter Zeitpunkt zu sein, um große Vorhersagen über die Grenzen dieses Zeugs zu machen. Ich glaube, dass das verschwommene JPEG des Webartikels März oder so war, und ich frage mich, ob es bereits von GPT-4 widerlegt wurde.
Fergal: Ich denke schon. Und es gibt hier viele verschiedene Positionen, die dem kritisch gegenüberstehen. Da ist das verschwommene JPEG des Internets, das meiner Meinung nach sehr schnell widerlegt wurde. Und es ist schwer, das zu beweisen, aber alles, was Sie tun können, ist, viele, viele Beweise zu konstruieren. Weil man es nicht kann … es gibt diese Vorstellung von philosophischen Zombies oder Solipsismus, bei denen ich nicht weiß, dass man ein denkender Mensch ist. Soweit ich weiß, befindet sich in Ihrem Kopf eine riesige Nachschlagetabelle.
„Alles, was Sie tun können, ist zu sagen: ‚Sehen Sie, dieses Ding leistet so gute Arbeit, wenn ich so seltsame Dinge frage, dass ich langsam davon überzeugt bin, dass es sich um eine Argumentation handelt.‘ Für mich liegt GPT-4 über dieser Messlatte.“
Ich habe selbst ein subjektives Bewusstseinsempfinden, und Sie können herausfinden, ob das real ist, aber so oder so habe ich nicht das Gefühl, dass ich ein großer Nachschlagetisch bin, aber ich weiß nicht, wie es dem Rest von Ihnen geht. Es ist sehr schwierig, das zu beweisen. Sie können jemanden bitten, zu beweisen, dass es sich nicht um eine Nachschlagetabelle handelt. Und alles, was Sie am Ende tun, ist, sie auf diese Verhaltensweise zu testen – auf die gleiche Weise, wie wir GPT-4 testen können.
Alan Turing und sein Turing-Testpapier gingen darauf ein und vertieften die Idee, dass ein Verhaltenstest sozusagen das Beste ist, was man machen kann. Und wenn Sie einen Verhaltenstest mit diesen Modellen durchführen, scheinen sie gute Arbeit bei dem zu leisten, was ich als Argumentation bezeichnen würde, selbst wenn sie völlig außerhalb der Stichprobe liegen. Mit einem Verhaltenstest können Sie nie sicher sein, denn eine ausreichend große Nachschlagetabelle mit allen möglichen Fragen und allen möglichen Antworten würde Sie täuschen. Alles, was Sie tun können, ist zu sagen: „Sehen Sie, dieses Ding leistet so gute Arbeit, wenn ich so seltsame Dinge frage, dass ich langsam davon überzeugt bin, dass es sich um eine Argumentation handelt.“ Für mich liegt GPT-4 jenseits dieser Messlatte. Vielleicht wird in der Zukunft jemand eine Theorie der Intelligenz haben und in der Lage sein, die Gewichte des Netzwerks zu untersuchen und zu sagen: „Oh, hier ist das Argumentationsmodul.“ Wir sind noch nicht am Ziel.“
Emmet: Es scheint, als hätten wir den Turing-Test hinter uns gelassen. Ich denke, die Leute würden sagen und mich korrigieren, wenn ich falsch liege, dass der Turing-Test wahrscheinlich bestanden wurde, und zwar auf jeden Fall in den letzten sechs Monaten. Würden Sie dem zustimmen, oder liege ich da sachlich falsch?
Fergal: Nun, ich weiß es nicht. Kürzlich habe ich zufällig noch einmal kurz die Nachahmungsspielzeitung gelesen, und tatsächlich spricht er im Test davon, dass ein durchschnittlicher Vernehmer fünf Minuten verbringt. Und mit dieser Formulierung würde ich sagen, dass es wahrscheinlich kurz vor der Verabschiedung steht.
Emmet: Ich hätte zu diesem Zeitpunkt angenommen, dass es mit Bravour bestanden wurde, nicht wahr?
„Wenn ich mir Turings Originalpapier ansehe, habe ich das Gefühl, dass es im Geiste dieser Originalformulierung verabschiedet wurde.“
Fergal: Ich weiß es nicht. Wenn Sie mich vor GPT-4 und einen Menschen setzen würden, könnte ich Tricks lernen, um es in Bereiche zu drängen, in denen es schwach ist, und dann in der Lage sein, dort Signale davon zu erkennen. Und ich könnte es wahrscheinlich gut auseinanderhalten. Ich gehe davon aus, dass die meisten Leute, die Zeit damit verbringen werden, wahrscheinlich Strategien entwickeln werden.
Emmet: Ich glaube, man muss ein Auge haben. Du arbeitest jeden Tag damit. Nehmen wir zum Beispiel an, dass wir mit Midjourney V5 an einem Punkt angelangt sind, an dem die Tells für die überwiegende Mehrheit der Menschen nicht mehr wirklich vorhanden sind. Sie reparierten die Finger, die Unschärfe, die seltsamen Formen auf der Rückseite. Wenn Sie wissen, worauf Sie achten müssen, können Sie dort, wo die Haare sein sollten, immer noch ein paar Federn erkennen. Aber ich denke, dass man in dieser Phase ziemlich forensisch sein muss.
Fergal: Ich sage, mit GPT-4 sind wir einigermaßen am Ziel. Bei einer fünfminütigen Inspektion durch eine durchschnittliche Person, die von der Straße gepflückt wurde, hat es meiner Meinung nach wahrscheinlich bestanden. Wenn ich mir Turings Originalpapier ansehe, habe ich das Gefühl, dass es im Geiste dieser Originalformulierung verabschiedet wurde.
Emmet: Zum jetzigen Zeitpunkt wahrscheinlich nicht für die Sprachsynthese. Und schon gar nicht Dinge wie Musik oder Filme. Es ist einfach interessant zu sehen, wie sich dieses Zeug mit unterschiedlichen Geschwindigkeiten entwickelt. Liegt es an den Trainingsmodellen oder glauben Sie, dass unterschiedliche Medien grundsätzliche Einschränkungen haben?
Fergal: Ich würde sagen, das liegt wahrscheinlich an den Trainingsmodellen. Ich glaube nicht, dass es einen grundsätzlichen Grund gibt, warum es nicht rechtzeitig zu einer wirklich guten Videosynthese kommen kann.
Emmet: Obwohl die Hürde, einen Menschen zu täuschen, bei so etwas wie Video wahrscheinlich viel höher ist, hängt es doch davon ab, wie gut wir biologisch auf Bewegung und ähnliches eingestellt sind. Es ist viel einfacher, eine Fälschung zu erkennen.
Fergal: Löwen im Busch kommen auf dich zu.
Emmet: Tausende Jahre der Psychologie sollen uns dazu bringen, zu rennen, wenn wir es sollen.
Navigieren durch die S-Kurve
Emmet: Die Leute reden oft über die S-Kurve der Technologie. Es gibt einen langsamen, aber dann schnellen Aufschwung oder eine schnelle Reifung der Technologie, und dann lässt sie nach. Die Telefone waren ein paar Jahre lang unglaublich beeindruckend und haben sich im Vergleich zum Vorjahr verbessert, aber das diesjährige Telefon ist fast das gleiche wie das letzte Jahr, weil die S-Kurve schwächer geworden ist. Wo in der S-Kurve stehen wir mit dieser Technologie? Worauf sollten Sie achten, um ein Gefühl dafür zu bekommen, wo wir uns befinden?
Fergal: Ja, es ist unmöglich, es genau zu wissen, und wir müssen damit einverstanden sein. Wir wissen, dass eine Menge Geld und Ressourcen in diesen Bereich fließen werden. Große Sprachmodelle sind in ihrer jetzigen Form industriell nützlich, unabhängig davon, ob sie auf dem Weg zur Superintelligenz sind oder nicht, ob dies überhaupt erreichbar ist oder nicht, und es wird wahrscheinlich noch viele weitere Generationen geben, die industriell nützlich sein werden, ohne gefährliche Dinge zu berühren. Wir sollten diese in Produkte umwandeln, die den Menschen effizienter machen, Plackerei beseitigen und uns dabei helfen, viel mehr zu erledigen. Und ich denke, wir sehen das.
„Es gibt all diese komplexen, sich überschneidenden Rückkopplungsschleifen, daher wäre ich wirklich überrascht, wenn es bald aufhört. Ich denke, es wird sich beschleunigen.“
Wo stehen wir da? Nun, es ist wahrscheinlich, dass die Leute mehr Modelle trainieren werden, die größer und besser als GPT-4 sind. Da so viel Geld in diesen Bereich fließen wird, ist es sehr wahrscheinlich, dass die Leute besser darin werden, kleinere und effizientere Modelle zu bauen, die wirklich beeindruckende Dinge leisten. Und es wird viel einfacher sein, mit all dieser Technologie coole Produkte zu produzieren und zu bauen. Ich bin äußerst zuversichtlich, was die nächsten Jahre angeht. Erwarten wir darüber hinaus sinkende Renditen? Das ist möglich, aber ich würde sagen, dass die S-Kurve, die wir erhalten, eine komplizierte Funktion einer ganzen Reihe verschiedener Dinge ist.
Am Ende werden wir viel mehr GPUs herstellen, und für Videos wird es noch viel mehr geben, oder? Und dann wird es besser, und sie werden billiger, wenn sie es ausbauen. Und es wird auch jede Menge Forschungsstudenten geben, die bessere Algorithmen zum Trainieren großer neuronaler Netze entwickeln. Das wird besser werden. Menschen werden leistungsstarke Modelle verwenden, um kleinere, schnellere Modelle zu trainieren. Es gibt all diese komplexen, sich überschneidenden Rückkopplungsschleifen, daher wäre ich wirklich überrascht, wenn das bald aufhören würde. Ich denke, es wird sich beschleunigen.
Dem steht gegenüber, dass manche Dinge mit der Zeit schwieriger werden. Um mehr Antibiotika zu finden, sucht man sich zuerst die leicht zu findenden aus, und mit der Zeit wird es immer schwieriger, neue zu finden. Es ist möglich, dass wir zuerst die einfachen Gewinne erzielen und dann die Skalierungsgesetze anwenden und so weiter. Open AI hat gesagt, dass sie nicht glauben, dass der Weg zu mehr Intelligenz darin besteht, immer größere Modelle zu trainieren, aber ich bin skeptisch. Vielleicht stoßen wir hier an eine Grenze, aber ich wette, dass wir mit größeren Modellen mehr Informationen erhalten.
„Ich denke, es wird größer sein als das Internet. Vielleicht so groß wie die industrielle Revolution, wenn sie weit genug geht.“
Emmet: Zusätzlich zu all den Variablen, die Sie gerade beschrieben haben, fällt mir auf, dass dieses Mal die Geschwindigkeit und der Umfang anders sind. This is totally different in terms of how quickly it's going to get integrated into our products and lives. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.
Fergal: March for GPT-4 and stuff?
Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.
Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-
Emmet: The infrastructure for delivery is there.
Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.
Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?
“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”
Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.
Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.
Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.
Frictionless interfaces
Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.
AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.
“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”
What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.
Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.
I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.
You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.
Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.
Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.
Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.
Emmet: And the agent is clicking on coordinates on the screen for you.
Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?
Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.
Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.
Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?
“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”
Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”
Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.
Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.
I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.
Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.
Fergal: Aber in Zukunft würden Sie Ihrem Agenten wahrscheinlich etwas sagen wie: „Hey, ich möchte die Fotos bearbeiten, die ich gestern gemacht habe.“ Und es kennt Sie und Ihren Grad an Raffinesse. Es weiß, dass Sie zum Bearbeiten Ihrer Fotos nach vier Filtern und einem Zuschneidewerkzeug suchen, oder es weiß, dass Sie Super-Pro-Zoomer-Sachen machen möchten. Es sucht in seiner Musterbibliothek nach den besten Schnittstellen für jede dieser Schnittstellen und rendert diese Schnittstelle für Sie.
„Es hängt ganz von der Aufgabe ab, die Sie erledigen. Wenn Sie Pilot sind, werden Sie nicht sagen wollen: „Zeit, das Flugzeug zu landen!“ Hey, LLM, stellen Sie mir automatisch eine Schnittstelle zusammen, damit ich das erledigen kann‘“
Emmet: Und dann sagen Sie: „Eigentlich möchte ich es etwas professioneller.“ Und es heißt: „Okay, ich gebe Ihnen die Pro-Version der Benutzeroberfläche.“ Und es rendert das dynamisch.
Fergal: Schauen Sie, es wird einige Aufgaben geben, bei denen Sie den Umgang mit der Benutzeroberfläche nicht erlernen möchten. Darüber sprach Des kürzlich in einem anderen Podcast. Sie müssen Ihre Urlaubszeit in Workday aktualisieren und möchten keine Schnittstelle dazu erlernen. Sie möchten nur, dass die Aufgabe erledigt ist. Es gibt andere Dinge, bei denen Sie beispielsweise ein professioneller Programmierer sind und ich lernen muss, eine IDE zu verwenden. Irgendein Designer hat sehr detailliert darüber nachgedacht, was ich tun möchte und muss, und es gibt dort wahrscheinlich eine leichte Anpassungsebene, aber es gibt immer noch eine gut gestaltete Benutzeroberfläche, die ich zu verwenden lernen werde. Ich denke, dass Schnittstellen für Ersteres, für Aufgaben, die ich erledigen möchte, verschwinden werden oder viele davon auf Ad-hoc-Basis gerendert werden. Für letztere werden sie ja anpassungsfähig sein.
Emmet: Ich stimme mit allem überein, was Sie gesagt haben. Es fallen mir auch zusätzliche Nuancen ein. Es hängt ganz von der Aufgabe ab, die Sie erledigen. Wenn Sie Pilot sind, werden Sie nicht sagen wollen: „Zeit, das Flugzeug zu landen!“ Hey, LLM, stellen Sie mir automatisch eine Schnittstelle zusammen, damit ich das machen kann.“ Ich bin mir sicher, dass es Regulierungen und ähnliches geben wird. Aber das spiegelt einen der großen Unterschiede wider, nämlich die Arbeit mit Computern, die wir immer als hoch deterministische, binäre, durch Ein-/Aus-Schalter gesteuerte Wahrheitsmaschinen betrachtet haben, und nun, plötzlich, deren Natur das verändert sich sehr. Und das ist eine große Veränderung, ebenso wie alles, was wir beschreiben – was Sie erwarten können, wie Sie davon ausgehen können, dass es für Sie persönlich funktioniert, und wie viel Fungibilität oder Kontrolle Sie darüber haben. Ich denke, wir werden viel mehr spannende Experimentierunterschiede sehen, und der Grad der Anpassung, den wir heute haben, bei dem Sie Ihr Hintergrundbild oder die Schriftgröße ändern können, wird im Vergleich wahrscheinlich verblassen.
In Richtung der Mitte des Kreises
Emmet: Du hast auch etwas Interessantes gesagt, worauf ich zurückkommen wollte. Stellen Sie sich Designer vor, die hauptsächlich aus einer Bibliothek zusammenstellen. Die Aufgabe des User-Interface-Designs ist interessant, weil wir uns mit Designsystemen darauf eingestellt haben. Ein Designsystem ist eine Musterbibliothek von Komponenten. Wenn Sie ein großes Produkt entwickeln, möchten Sie, dass es konsistent ist und dass Sie es schnell zusammenstellen können. Viele der Grundlagen, die wir gelegt und die Systeme, die wir gebaut haben, sind also allesamt zielgerichtet, sagen wir mal, Designteams und wahrscheinlich auch Ingenieurteams, die Komponenten bauen, die von diesen Systemen schnell wiederverwendet werden können in Bezug auf unsere Fähigkeit, diese Tools relativ schnell zu erstellen. Was Sie beschrieben haben, ist etwas, das Ihr Designsystem nutzt und daraus eine Benutzeroberfläche erstellt, und es scheint nicht meilenweit entfernt zu sein.
Fergal: Oder vielleicht nimmt es das Standard-Open-Source-Designsystem und erstellt daraus ein Tool. Ich weiß nicht, ob dies auf der Ebene einzelner Unternehmen geschehen wird oder ob es auf einer breiten horizontalen Ebene geschehen wird.
Emmet: Ja, das wäre so langweilig. Es wäre tragisch. Vor iOS 7 hatten wir Skeuomorphismus und alles, dann gab es ein extrem eigensinniges Flat Design, und die gesamte Branche war so von Apples Dominanz beeinflusst, dass alle Websites anfingen, gleich auszusehen. Apple veröffentlichte seine Richtlinien für die Benutzeroberfläche und sagte: „Sehen Sie, iPhone-Apps sollten jetzt so aussehen.“ Aber meiner Meinung nach führte es zu einer Abflachung der Vielfalt und einem langweiligeren Web. Und das im Dienste dieser Systeme, die sich selbst aufbauen können.
Fergal: Sie könnten Ihrem Agenten sagen, dass es funky und retro aussehen soll. Sie müssen sich vorstellen, dass das kommen wird, und ich denke, dass die Dinge in Bezug auf die tatsächliche Nutzung durch die Leute viel anpassbarer werden, weil Sie über eine intelligente Ebene verfügen, die versteht, wie eine Schnittstelle mit einem bestimmten Team aufgebaut wird. Das würdest du wahrscheinlich heute tun. Wenn Sie sich heute daran machen würden, Midjourney für Benutzeroberflächen zu entwickeln, könnten Sie es wahrscheinlich tun. Wir haben GPT-4, das Code oder CSS generieren kann, um Benutzeroberflächen zu schreiben, und wir haben die Bildsynthesemodelle, bei denen Sie alle Bilder und den Text einbetten und sie sozusagen zusammenquetschen. Ich wette, man könnte ziemlich schnell etwas bauen.
Emmet: Es ist so lustig, weil du das sagst, und meine emotionale Reaktion ist: „Nein, du verstehst es nicht; Man muss über die Benutzerfreundlichkeit und das Verständnis für Menschen und all diese Dinge nachdenken.“ Und dann denke ich: „Ja, das sind die Denkfähigkeiten, über die wir gesprochen haben, und es scheint, als ob sie jetzt vorhanden sind.“ Und während wir darüber reden, habe ich dieses Gefühl...
Fergal: Krise.
Emmet: Die KI kommt für deine Disziplin. Aber ehrlich gesagt mache ich mir darüber keine allzu großen Sorgen, denn ich denke, dass viele Designer, und ich habe das auch von Programmierern gehört, der lästigen Arbeit nicht nachtrauern werden, die dadurch weitgehend schneller und besser wird. Es ermöglicht ihnen tatsächlich, vielleicht eine Zoomstufe zu erhöhen und etwas mehr über die Lösung als über die Umsetzung der Lösung nachzudenken. Die Herstellung von Produkten ist immer noch sehr mühsam und sehr zeitaufwändig, und ich denke, es wird großartig sein zu sehen, was passiert, wenn wir uns einen Teil der Routinearbeit abnehmen.
Fergal: Ich meine, es ist diese ganze Debatte über Jobs, Stellenvermittlung und Jobwechsel, und hier wird etwas passieren. Wenn ich das höre, denke ich: „Oh, vielleicht bedeutet das, dass Sie keine Designer mehr brauchen – vielleicht brauchen Sie nur noch Produktmanager.“ Und ein Produktmanager kann jetzt alles tun, was früher ein Designer tat. Vielleicht brauchen Sie keinen Programmierer – vielleicht brauchen Sie nur einen Produktmanager. Und wir alle werden in Zukunft Produktmanager. Ich weiß nicht. Vielleicht könnte es viel mehr solcher Rollen und Jobs geben, vielleicht werden es aber auch weniger sein.
Emmet: Ich denke, wir sollten uns darauf einlassen. Eine Sache, die mir in meiner Karriere aufgefallen ist, ist, dass man mit zunehmendem Alter umso weniger spezifisch auf sein Fachgebiet eingeht. Man muss mehr zu einem allgemeinen Anführer werden.
Fergal: Ich habe dieses Gespräch mit jemandem aus dem Designteam geführt. Wenn man in einer Disziplin wie Ingenieurwesen, Produkt oder Design ein Junior ist, steht man am Rande eines Zirkels. Und je älter man wird, desto mehr bewegt man sich in Richtung Mitte. In der Mitte des Kreises befindet sich das Produkt. Und je älter man wird, desto mehr dreht sich die Welt um das Produkt, das man baut, und immer weniger um die Perspektive, aus der man kommt.
Emmet: Das kann ich auch sehen. Wir werden also alle Ministerpräsidenten, ist das der Plan?
Fergal: Ja, ich meine, letztendlich ist es das, was wir mit einem Job wie diesem erreichen wollen.
Emmet: Ich meine, was ist ein PM, wenn nicht ein Produktmensch ohne direkt anwendbare praktische Fähigkeiten, habe ich recht, Fergal?
Fergal Reid: Ja, ich weiß. Was ist eine PM?
Emmet: Ich denke, wir sollten Schluss machen. Prost, Fergal.
Fergal: Danke, Emmet.