SF からテクノロジーの現実へ: AI の影響を探る

公開: 2023-06-09

AI はすでに、私たちの仕事、コミュニケーション、世界の経験の方法を再構築しています。 今後の広大な可能性を探索しながら、生成 AI の興味深い世界に足を踏み入れましょう。

ChatGPT のリリース以来、私たちのチームは AI の世界に真っ先に取り組み、大規模言語モデル (LLM) を使用して製品を構築し、この革新的なテクノロジの最近の進歩によって出現した未知の領域をナビゲートしてきました。

私たちの焦点のほとんどは、生成 AI を適用して顧客サービスを変革する方法にありました。業界をリードする AI チャットボット Fin のリリースは、その焦点がどのように報われたかを示しています。

しかし、実際のアプリケーション以外にも、私たちが考えてきた大きな疑問が無数にあります。LLM には慎重に取り組むべきなのでしょうか? この AI というものは、実際どれくらいの規模なのでしょうか? そして、将来を見据えて何を期待すべきでしょうか?

このエピソードでは、当社の機械学習担当シニア ディレクターであるファーガル リードが、製品デザイン担当副社長のエメット コノリーとともに、AI の影響と革命的な可能性について掘り下げます。これは、AI によって提起された、より広範で実存的な問題の多くに触れる興味深い会話です。この驚くべき新技術。

以下に重要なポイントをいくつか示します。

  • インテリジェントなシステムの構築を追求する中で、組織は強化学習などの手法を採用して、私たちの価値観との整合性を確保し、人類にプラスの影響を与えるようにしています。
  • GPT-4 は、サンプル外のシナリオでテストした場合でも高いレベルの推論を示しており、アラン チューリングの有名なテストで設定された基準を超える可能性があることを示しているようです。
  • 投資が増加し、ハードウェアの制限が克服されるにつれて、前例のない導入と製品化を実現する、より高度で効率的なモデルの開発が期待できます。
  • 将来的には、一部の種類の UI が、口頭入力、当面のタスク、個人の好みに基づいて出力をオンザフライでパーソナライズできる AI エージェントに置き換えられる可能性があります。
  • AI には、デザイナーやプログラマーの単調な作業が軽減され、製品の実行ではなくソリューションやビジョンに集中できるようになる可能性があります。


私たちのディスカッションを気に入っていただけましたら、ポッドキャストの他のエピソードもチェックしてください。 Apple Podcasts、Spotify、YouTube をフォローしたり、選択したプレーヤーで RSS フィードを取得したりできます。 以下は、エピソードを軽く編集した書き起こしです。


AIの覚醒

エメット・コノリー:それで、ファーガル、私たちはビールやコーヒーなどを飲みながらたくさんのカジュアルなおしゃべりをしました、そして、座って話をして、それを録音してみるのは面白いかもしれないと言いました。主な理由は、私たちが直接仕事をしてきたからです。過去 6 か月間、大規模な言語モデルを使用して、私たちは仕事で達成しようとしていることに当てはまる製品の質問に取り組んできました。

しかし、もちろん、AI の意味や AI の将来については、より大きな議論が行われています。 私たちは、座って、私たちが扱っているこの新しい資料に関するいくつかの疑問に触れてみようと考えました。 テクノロジーが経済に与える影響にはどのようなものがありますか? 私たちが注意すべき点は何でしょうか? 始めましょう。 まず最初に、過去 6 か月について何か包括的な反省はありますか?

ファーガル・リード:ああ、確かに。 これがどうなるか見てみましょう。 機械学習や AI に取り組んだことがある人でさえ、物事がいかに早く改善したかに驚いていると言っても過言ではないと思います。 この分野の専門家やニューラル ネットワークを長年扱ってきた人にとっても、モデルがこれほどインテリジェントになったことは驚くべきことです。

エメット: AI 関係者の中には、私たちの世代がマンハッタン計画に取り組んでいるのではないかと少し心配している人もいると思いますか? 少し前までテキストの自動補完に取り組んでいたのですが、突然、これが非常に厄介な議論の的となるトピックになりました。 AIに取り組んでいる人たちがその中心にいるのはどう感じますか?

「すべてのトレーニングを行うと、モデルが完成します。そして、それは本当にインテリジェントです。 しかし、あなたはそのインテリジェンスを個別にコーディングしたわけではありません。 それはまだ機械学習です」

Fergal:私の見解を述べておくと、私たちは大規模な言語モデルをトレーニングしているわけではありません。 私たちはそれらを使用しています。 私たちはそれらの消費者です。 私たちは GPT-4 に早期アクセスできましたが、私たち自身で GPT-4 をトレーニングしていません。 一方、ここにはAIの専門家チームがいます。 私たちの多くはおそらく、現時点で数十年間 AI に携わっていると思います。 大学時代、私は高度な AI に非常に興味を持っていて、AI の哲学に関する本を読んでいましたが、人々は AI にあれやこれやができるのではないかと議論していました。 そして今、私たちはこうした議論の多くを突然意味をなくすシステムを導入しています。 誰も不可能だと言ったこのことを実現できるシステムが突然登場しました。

これに対する反論は、大規模な言語モデルをトレーニングしている場合、それはある程度エンジニアリングのタスクであるということだと思います。 すべてのトレーニングを行うと、モデルが作成され、それは本当にインテリジェントになります。 しかし、あなたはそのインテリジェンスを個別にコーディングしたわけではありません。 まだまだ機械学習です。 ですから、これには皆さんもある程度驚かれると思います。 コードを 1 行ずつ段階的に構築していくわけではありません。 大規模なトレーニングの終わりに何が起こるかは誰にもわかりません。

エメット:冗談でマンハッタン計画についてほのめかしましたが、これは私たちが扱っている事柄のいくつかと非常によく似ていると思います。

ファーガル:どのような方法で? 危険だから?

エメット:そうですね、何かを操作する方法を発見しました。 この場合は情報です。 ある意味、発明というより発見のような気がします。 非常に幅広く応用できます。 その使用によって予期せぬ結果がどのようなものになるかはわかりません。 そしてもちろん、善良な行為者が積極的な目的で使用するのと同じように、悪者も悪意のある目的で使用する可能性があります。

「私たちはこれらのモデルがどのようにトレーニングされるかを技術レベルで知っていますが、これはブラックボックスの状況です。」

ファーガル:昨日、OpenAI はこの技術に関する立場声明を発表し、AI 技術の監督を求めました。 彼らは原子力技術とバイオテクノロジーとの類似点を描きました。 それは公平だと思います。 それは潜在的に、SF の最高の伝統における、人間が何をいじっているのかわからない恐ろしいテクノロジーのカテゴリーに入る可能性があります。 これはすべてうまくいかない可能性があり、大規模な言語モデルのトレーニングは人々が注意し始める必要があるという考えに私は同意します。

エメット:私たちが発見したと感じていることについて話したいのですが、私が発見したと言い続けているのは、私たちがそれについて話しているとほとんど発見のように感じられるからです。そして、それをどのように扱うかには注意したほうがよいでしょう。」 そういうふうに考えていますか? これらのモデルがどのようにトレーニングされるかは技術レベルではわかっていますが、これはブラックボックスの状況です。モデルが与えるやや非決定的な結果がどのように生成されるのかは正確には理解できません。

ファーガル:ええ、それは正しい考え方だと思います。 それはシステムです。 システムを起動して最初にトレーニング目標を設定し、次にその規模で実行して何が起こるかを確認します。 そして時間が経つにつれて、何が起こる可能性があるのか​​をますます理解できるようになりますが、確信はありません。 あなたはそれをテストしているようなものです。 ここでの例えとしては、生物学的システムをイメージし、それをしばらく成長させてから、それが何をするかを見ることに似ていると思います。 それはそれに近いです。 このブラックボックスの方法でテストする必要があります。 その動作を確認する必要があります。 何が得られるかわかりません。

エメット:ここで「これはインテリジェントですか?」という明らかな疑問が生じると思います。 から来ており、これは多くの会話を占めている大きな質問です。 なぜなら、それがインテリジェントであるということは、私たちが AGI への道を進んでいることを意味し、その AGI が悪性である可能性があり、大きな問題に陥る可能性があるからです。 旗を振るのは価値のあることのように思えますが、テクノロジーに関しては多くの不安も引き起こしています。

ファーガル:ここではある程度の警戒や不安があってもいいと思います。 これらがインテリジェントになってきていると仮定しましょう。 知性というのは本当に恐ろしく危険なものです。 おそらく人間が最も危険です。 私たちは地球と生態系に大きな影響を与えてきました。 それは私たちが最も強い、または最も速い動物だからではありません。 人間がライオンを殺すことができるのは、人間の方が知性があるからです。 より知的な生物は、ある意味、より危険であることがよくあります。 したがって、私たちが最終的に私たちよりも賢い何かを生み出す可能性があるという考えは、非常に危険である可能性があります。 私たちにはそのような経験はありませんので、ある程度の注意は完全に正当であると思います。

コーディングの調整

エメット:さまざまな種類の知性についてもっとよく考える必要があると思います。 ライオンはある程度の知性を持っており、その能力と相まって危険ですよね? しかし、これには具体化がありません。 つまり、非常に損害を与える可能性のあるコンピューター システムにアクセスできるということですが、悪性腫瘍は人間の特性なのでしょうか? そして、なぜ私たちはその可能性をすぐにこのシステムに投影するのでしょうか?

ファーガル:多くの人が言っていることは、悪性である必要はないということだと思います。 意図的に悪くする必要はありません。 それほど意図的である必要はまったくありません。 必要なのは、人間が望む良いものと矛盾する目的を最適化しようとするものを作成することだけですよね?

「全体的には良いと思われることを行うために送信している可能性がありますが、その方法によって衝突が発生する可能性があります。 そして、もしこいつがあなたよりも賢いとしたら、その対立はどのように展開するのでしょうか?」

初期の AI 安全性に関する文献には、収束手段に関する考え方があります。この考え方は、世界に目標がある場合、その目標を達成するためにやりたいと思う多くのことは、他の人々との衝突を引き起こす可能性があるというものです。目標。 癌を治したいなら、癌を治すためにたくさんのお金が欲しいかもしれません。そして今、あなたはお金を欲しがる他のすべての人々と即座に衝突することになります。 多くの目標を達成するには、エネルギーとリソースが必要です。 したがって、目標を志向し、潜在的に自分よりも賢いシステムを手に入れた場合、たとえそれが意識的でなかったとしても、衝突してしまう可能性があります。 それは邪悪である必要はありません。 全体としては良いと思うことをやろうと発信しているかもしれませんが、そのやり方によって衝突が起こる可能性もあります。 そして、もしこの生物があなたよりも賢いとしたら、その対立はどのように展開するのでしょうか?

人々は「ペーパークリップ マキシマイザー」について話し始めます。大量のペーパークリップが必要なので、これに行ってたくさんのペーパークリップを作成するように指示しただけで、偶然にもそれが世界のすべてのリソースを消費し、世界中の資源を消費してしまいました。ペーパークリップ工場へ。 そして、それは「おっと」のようなものです。 これらはすべて、しばらくの間 AI の安全性に関する議論の中で出てきたアイデアです。

エメット:人間的な懸念もあります。 すべての関係者、テクノロジー、人間の間のインセンティブの調整について説明しているように聞こえます。 そしてそれは、私たちが職場でグループを組織するときに行うことです。 簡単な例としては、チームに適切なインセンティブを設定することが挙げられます。そうしないと、チームが別のことをするようインセンティブが与えられる可能性があります。 営業チームに企業顧客に販売するよう奨励しているが、実際には中小企業に販売してもらいたい場合は、インセンティブを調整する必要があります。 そして私たちにはその経験がたくさんあります。

ファーガル:ほら、それはあなたがインセンティブとパワーバランスのバランスをうまくとったからという理由はどの程度ですか? 人間に目を向けてみると、大きな力の不均衡が生じて物事がうまくいかない時代には、インセンティブを維持するのは非常に困難です。 インセンティブに頼っていると大変です。 人間として、私たちはチェックとバランスを保つことに細心の注意を払っています。 それで、再びこの超知性の議論に戻りますが、突然非常に強力になる超知性を構築することが可能である場合、インセンティブに依存するつもりですか? なぜなら、物事を続けるためにインセンティブに頼ることは常に難しいからです。

「これまで、私たちは常に力のバランスに依存してきました。 今、私たちは一致した価値観に頼らなければなりません。」

エメット:それ自体の性質がもう少し明らかになるまでは分からないと思います。 私の個人的な感覚では、私たちが超知能に執着するとき、それが私たちよりも賢くなることに執着していることになります。 多少のリスクはあると思いますが、中心には人間のエゴもあります。 それは私たちを動物界から隔てるものです。 AI は宇宙人の知性のようなものだとよく言われますが、私たちはさまざまな種類の知性と平和的に共存するために進化してきたので、動物はそれについて考えるのに有益だと思います。 今、私は犬を飼っています、猫を飼っています。 猫は非常に特殊ですが高度な知性、つまり運動能力を持っています。 軽いし、反射神経も速い。 知性を広く考えると、それは非常に知的で、見ていて美しいものです。

ファーガル:これはあまり適切なたとえではないと思うので、ここで話を飛びます。 少なくとも、それは気休めではありません。 私はペスカタリアンで、ほとんどがベジタリアンです。 工場飼育は動物にとって好ましくありません。 それで、わかりませんが、ここでのモデルは、私たちが動物と平和的に共存するように進化してきたということを聞いても、私は安心できません。

エメット:ペットの何が問題なの?

ファーガル:いや、ペットはいいよ。 つまり、将来的には人間がペットになるという考えがあります。 これは不快なはずだと思います。

エメット:そうですね、あなたは私の議論をひっくり返していますね。 私が言いたかったのは、猫にはある種類の知性があるということです。 私も猫とはまったく異なる種類の知能を持った犬を飼っています。 犬と会話できると思うと、犬はあなたの魂やそのすべてを理解し、覗き込んでくれます。 しかし、彼は別のレベルで石の入った袋のように愚かでもあります。 私は彼を愛していますが、彼はそうです。 さて、あなたは「エメット、早送りすると、この状況ではあなたが犬だ」と言いたいのでしょう。 しかし、そこには幸せな共存があります。 私たちが種として家畜化されないことを祈ります。

ファーガル:ええ、私たちよりも賢い何かを作ることが可能だと判明したら、それが目標です。最終的には良性で宇宙の生命を気遣い、良い価値観を持ったものを手に入れるこの幸せな共存です。 しかし、現時点で多くの人がこれについて熱心に取り組んでいるのは、そこに大きなリスクがあると感じているからです。 より強力なものを構築する場合は、それらの値が正しいことを確認する必要があります。 これまで、私たちは常に力のバランスに依存してきました。 ここで、調整された値に依存する必要があります。 OpenAI や Anthropic、その他のプレーヤーを見てみると、彼らはこの理由からアライメントについて話し合うのにずっと時間を費やしています。 人間はもはや最も知的な存在ではなくなるでしょう。 知性は強力であり、危険です。 それが揃っていることを確認する必要があります。

エメット: AI コミュニティは、口先だけでなく最終状態としての調整を実際に追求するという点で、どの程度うまくやっていますか? なぜなら、もしすべてがうまくいかなかったとしても、少なくとも私たちは古いブログ投稿を指して、「アライメントについて言及したので、私たちを責めないでください」と言えるからです。

「最先端のモデルを操作している場合、彼らに不快なものを提案させるのは非常に困難です。 過去の多くの人は、それがデフォルトでやることだと考えていました。」

ファーガル:彼らはかなり良い仕事をしていると思います。 それには多くの人が反対するでしょう? 多くの人は、「おい、ますます大きなモデルをトレーニングし続けるのは完全に無責任だ」と思うでしょう。 あなたは何をするか分かりません。」 ある点を超えると、おそらくそれが真実になります。 まだその時点ではないと思います。 AI の安全性に関する人々を見ると、10 年前には、目的関数を指定することが良いアイデアであるということが常にありました。 がんを治すように指示すると、「ステップ 1 は人間をすべて殺すことです。 これで癌はなくなるでしょう」と言うのは明らかに良くないことです。 しかし、GPT-4 をいじって、「がんを治すための良い計画は何ですか?」と書いたとしたら、 「人間を皆殺しにせよ」とは言っていない。 それはあなたにかなり良い研究計画を与えます。 そして、もしあなたがそれに「人間を皆殺しにしたらどうですか?」と提案したら、 彼らは「いや、それは道徳的に不快だ」と言うでしょう。 それがアライメントです。 それは、生成されるテキストのレベルにすぎません。

「それは単にテキストを生成しているだけであり、それがインテリジェントであることを意味するわけではない」という議論全体に突入する可能性があります。 それに関して私には立場があります。 知的だと思います。 私たちはその議論全体に参加することができますが、それは多くの人々が予想していたよりも調整に関する進歩です。 最先端のモデルを操作している場合、不快なものを提案するよう強制するのはかなり困難です。 昔の多くの人は、それがデフォルトで行われることだと考えていました。 そしてまた、最近 OpenAI が登場し、調整が進んでいると発表しました。

エメット:それが起こらないように彼らが設置しているガードレールを知っていますか? それとも、それはシステム自体の新たな特性なのでしょうか? それはトレーニング、ソースデータ、または他の何かの関数ですか?

ファーガル:それは難しい質問ですね。 人々が出す答えは、ソース データだけが関係しているわけではない、というものだと思います。 ここ数年の大きな進歩は、この種の GPT の指示だと思います。 インターネット上のすべてのデータを使用してモデルをトレーニングし、実際には指示に適切に従っていないものを思いつきます。 次に、それを微調整、つまり調整または指導フェーズに通し、良い動作と悪い動作の例をたくさん与え、それに応じてモデルの重みを調整します。

エメット:それで、これは人間強化学習ですか?

ファーガル:そうだね。 それを実現するメカニズムの 1 つは、人間のフィードバックによる強化学習です。 似たようなパラダイムはたくさんありますが、基本的な考え方は、たくさんのことをトレーニングして、その後、ある種の指導調整を行うことができるということです。 それはかなりうまく機能しているようです。

「最終的には、きちんと揃っているように見せるために何かを訓練することになるかもしれません。 そして、その下には、まったく整合していない別の抽象化層がある可能性があります。 それが人々が言う大きなリスクだ」

エメット:でも、実際には私の質問には答えてくれませんでした。 そのプロセスのどの部分がうまく機能しているか知っていますか? それとも、まだ「ここでいくつかのダイヤルを回したところ、何らかの理由で動作が良くなったように見える」と思っているのでしょうか。

Fergal:命令のチューニングを行わないと、整合性が大幅に低下します。 「おい、モデル、これが良い見た目だ」みたいな感じです。 そして、より良いものに近づくたびに、もっとそうするよう励まされます。 悪いものに近いものを作るたびに、それを減らすように促されます。 すべての体重が良い方向にわずかに調整されます。 しかし、その批判は「ボンネットの下で一体何が起こっているのか全く分からないし、間違った方向に進む可能性もある」ということだと思います。 最終的には、整列しているように見えるように何かをトレーニングすることになる可能性があります。 そして、その下には、まったく整合していない別の抽象化層がある可能性があります。 それが人々が叫ぶ大きなリスクだ。

他の人はこう思うでしょう。「まあ、私たちはまだ勾配降下法をやっています。 それは何も決めることはできません。 調整される予定です。」 しかし、そこには少し飛躍があると思います。 これは、X、Y、Z を実行することを数学的に証明し、強さから強さ、そして強さへと構築されたシステムではありません。 それはあなたが調整し、訓練したブラックボックス システムです。

エメット:もし私がその立場に対して不慈悲になろうとするとしたら、それは核兵器を備蓄してこう言うようなものです。事件。" しかし、十分に長いタイムラインとテクノロジーの入手しやすさを考慮すると、この問題に蓋をすることはできません。 多くの企業や個人に責任を持って行動してもらうことはできますが、最悪のアプリケーションから私たちを守ることには何の役にも立ちません。 物事がうまくいかないシナリオにはどのようなものがありますか? それに伴う危険にもかかわらず、これに直接取り組む道徳的議論の 1 つは、全体主義政府またはどこかの秘密組織が現在これの悪いバージョンを行っているようなものです。

ファーガル:いつかは、きっとそうなるでしょう。 まだこの時点ではないと思います。 超知能を確実に構築できる段階にはまだないと思います。 しかし、もし私たちがそれを建設できることが人々に明らかになる段階に到達したら、人々、政府、軍がそれを実行するでしょう。 あらゆる種類の軍事用途に潜在的に役立つため、彼らは常にそうしますよね? そうですね、そうなると思います。 ここでの議論は、核兵器や国際原子力機関など、何らかの形で規制があるものに向けられています。 そして、これがどのように展開するのか、もし私たちがショックを受けなければ、「ああ、現在のタイプのトレーニングでは知性が低下するだけであることが判明した」というようなことがなければ、それが起こる可能性があります。 それが起こらない場合、人々はグラフィックス カードや GPU などの追跡について話します。 しかし、それには問題もあります。 おそらく、それは限られた期間だけ続くでしょう。

チューリングテストを解く

エメット:インテリジェンスの話に戻りましょう。 あなたがここで熱い意見を持っていることは知っています。 AIの種類にもよりますが、AI懐疑論者や恐怖を煽る人がたくさんいます。 そして、分断を越えた人々が集まっています。有名な言語学者のノーム・チョムスキー、私のお気に入りの SF 作家の一人であるテッド・チャンは、ウェブの不鮮明な JPEG についてこの記事を書き、基本的にこれはそうではないと言っています。インテリジェンス – それは確率論的なパーラートリックです。 これは、私たちの賢さの見方からすると、本当に賢く見えるようにする、本当に優れたパーラートリックです。

Fergal:ウェブ撮影のぼやけた JPEG が間違っているという確信は中程度から高度にあります。 そして、私は少し自信を持っていますが、それは間違いであると強く確信しています。 これが、Web を圧縮しているだけであり、その圧縮バージョンを取得しているという主張です。 それが完全に間違っているとは言えない唯一の理由は、何かを圧縮すると実際に知性が生じる可能性があるからです。 次のトークンを圧縮して予測するだけで、世界で次に何が起こるかを予測することになるため、物事を圧縮する能力は知性の尺度となりえます。 それが正しいとすれば、それは意味のない意味で正しいのです。

「私たちはこのような推測的な会話をしていますが、このものの限界について壮大な予測を立てるには特に悪い時期のように思えます。」

GPT-4 を使用すると、サンプル外の推論を実証しているように見える、少なくともインテリジェントに見える出力が得られます。 トレーニング データや誰かが以前に読んだ SF 小説には含まれない新しい何かを検討するようにプッシュすることができ、非常に良い仕事をします。 おそらく、本当に優秀な人間ほど仕事はできないだろうが、推理でなければ、推理の意味がわからないことは間違いない。

Emmet:そして、具体的な例を説明したブログ投稿があります。

ファーガル:イライラしたので週末に書いた投稿です。 それを確信するのは難しいですよね? しかし、AIの専門家を含む非常に多くの人がそれを完全に否定しています。 彼らは「ああ、この人は何も理解していない。 次のトークンの予測を行っているだけです。」 それは何十年にもわたって、常に AI における正しい見方でした。 しかし今、水は濁っています。絶対に何も理解していないと言うのではなく、誰もがそれを認めるべきです。

エメット:私たちはこの推測的な会話をし、その議論に身を投じていますが、このものの限界について壮大な予測を立てるには特に悪い時期のように思えます。 Web記事のぼやけたJPEGは3月くらいだったと思うのですが、もうGPT-4で反証されているのでしょうか。

ファーガル:そうだと思います。 そして、それを批判するさまざまな立場がここにたくさんあります。 ウェブ上のぼやけた JPEG がありましたが、これはすぐに反証されたと思いました。 これを証明するのは難しいですが、できることはたくさんの証拠を構築することだけです。 それはできないからです…哲学的ゾンビや独我論という考えがあって、あなたが考える人間であるかどうかはわかりません。 私が知っている限りでは、あなたの頭の中には巨大な検索テーブルがあります。

「できることは、こう言うことだけだ。『ほら、私がこんな奇妙なことを尋ねると、この人はとてもいい仕事をしてくれるから、私はこれが推論だと確信し始めているんだ。』 私にとって、GPT-4 はそのハードルを超えています。」

私自身にも主観的な意識感覚があり、それが現実かどうかはあなた次第ですが、いずれにせよ、私は自分が大した参照表であるとは感じませんが、他の人たちのことは知りません。 それを証明するのは非常に難しいです。 ルックアップ テーブルではないことを証明するように誰かに依頼できます。 そして最終的に行うことは、GPT-4 をテストするのと同じ方法で、この動作方法でテストすることだけです。

アラン・チューリングと彼のチューリング テスト論文は、このことと、行動テストができる最善の方法であるという考えに焦点を当てています。 そして、これらのモデルに対して行動テストを行うと、完全にサンプル外であっても、推論と呼ぶべきもので良い仕事をしているようです。 行動テストでは決して確信を得ることができません。なぜなら、質問できるすべての質問とすべての答えが含まれる十分な大きさのルックアップ テーブルでは騙されてしまうからです。 あなたにできることは、こう言うことだけです。 私にとって、GPT-4 はそのハードルを超えています。 おそらく将来、誰かが知能の理論を持って、ネットワークの重みを調べて「ああ、ここに推論モジュールがあるんだ」と言えるようになるかもしれません。 私たちはまだそこに到達していません。」

エメット:チューリングテストを急いで通り過ぎたようですね。 人々はおそらく、チューリングテストはおそらく過去 6 か月以内に間違いなく合格した、と言うだろうし、私が間違っていたら訂正してくれると思います。 あなたはそのことに同意しますか、それとも私は事実として間違っていますか?

ファーガル:うーん、分かりません。 最近、たまたまイミテーションゲームの論文をもう一度ざっと読んだのですが、実際、テストでは、平均的な尋問官が5分かかると彼は話しています。 そして、その定式化では、おそらく可決に近いと思います。

エメット:この段階では見事に合格したと思っていたでしょうね?

「チューリングのオリジナルの論文を見ると、それがそのオリジナルの定式化の精神に従って渡されたように感じます。」

ファーガル:分かりません。 私を GPT-4 と人間の前に座らせれば、GPT-4 が苦手な領域に押し込むコツを学ぶことができ、そこからの信号を検出できるようになるでしょう。 そして、おそらくそれを区別するのが上手になるでしょう。 これに時間を費やそうとしているほとんどの人は、おそらく戦略を進化させることができると思います。

エメット:観察力が必要だと思います。 毎日それを使って作業します。 たとえば、Midjourney V5 では、大多数の人にとって、実際にはテルが存在しない段階に達したとします。 彼らは指、ぼやけ、後ろの奇妙な形を修正しました。 何を探すべきか分かっていれば、髪の毛があるべき場所に少し毛羽立ちがあるのを見つけることができます。 しかし、この段階ではかなりの法医学的知識が必要だと思います。

ファーガル: GPT-4 については、そのようなところにあると言えます。 普通の人が道路から引きずり出されて5分間の検査であれば、おそらく合格していると思います。 チューリングのオリジナルの論文を見ると、そのオリジナルの定式化の精神がそのまま伝えられているように感じます。

エメット:現段階ではおそらく音声合成には対応していません。 そしてもちろん、音楽や映画のようなものではありません。 このことがさまざまな速度でどのように進行するかを見るのは興味深いことです。 それはトレーニング モデルのせいでしょうか、それともさまざまなメディアには根本的な制限があると思いますか?

ファーガル:おそらくモデルのトレーニングによるものだと思います。 本当に優れたビデオ合成を時間内に実行できない根本的な理由があるとは思えません。

エメット:人間を騙す障壁は、ビデオのようなものではおそらくはるかに高いですが、私たちが生物学的に動きなどにどれだけ適応しているかという点で言えば、そうです。 偽物を見分けるのはずっと簡単です。

ファーガル:藪の中のライオンがこちらに向かってきます。

エメット:何千年にもわたる心理学は、私たちが走るべきときに走れるようにすることを目的としていました。

S 字カーブの移動

エメット:テクノロジーの S カーブについてよく話されます。 テクノロジーはゆっくりではありますが、急速に普及または成熟し、その後、先細りしていきます。 携帯電話は数年間、驚くほど素晴らしく、毎年のように改良されてきましたが、今年の携帯電話は、S字カーブが先細りになっているため、昨年と同じようなものです。 このテクノロジーは S 字カーブのどの位置にあるのでしょうか? 現在の状況を把握するには何に注意すればよいでしょうか?

ファーガル:ええ、確かなことを知ることは不可能です、そして私たちはそれを受け入れなければなりません。 この分野に大量の資金とリソースが流入することはわかっています。 大規模な言語モデルは、超知性への道を進んでいるかどうか、それが達成可能かどうかにかかわらず、現在の形で産業的に有用であり、危険なものに触れずに産業的に有用になる世代がさらに多く存在する可能性があります。 私たちはこれらを、人間の効率を高め、単調な仕事を取り除き、より多くのことを成し遂げるのに役立つ製品に変えるべきです。 そして私たちはそれを見ていると思います。

「これらすべての複雑で重なり合ったフィードバック ループがあるので、それがすぐに停止するとしたら、私は本当に驚くでしょう。 これから加速すると思うよ」

それについて私たちはどこにいるのでしょうか? まあ、人々は GPT-4 よりも大きくて優れたモデルをさらにトレーニングする可能性が高いと感じています。 この分野には非常に多くの資金が流入するため、人々は本当に素晴らしいことを行う、より小型で効率的なモデルを作成する技術が向上する可能性が非常に高いと感じています。 そして、これらすべてのテクノロジーを活用して優れた製品を製品化し、構築することがはるかに簡単になるでしょう。 私は今後数年間でそれが実現すると非常に自信を持っています。 それを超えると、収益は逓減するのでしょうか? それは可能ですが、得られる S カーブはさまざまなものが集まった複雑な関数であると言えます。

最終的にはさらに多くの GPU を製造することになり、ビデオもさらに多くの利益を得るでしょう。 そして、その能力はさらに向上し、スケールアウトするにつれて価格も安くなるでしょう。 また、大規模なニューラル ネットワークをトレーニングするためのより良いアルゴリズムを考え出す研究生も大量に存在するでしょう。 それは良くなるでしょう。 人々は強力なモデルを使用して、より小型で高速なモデルをトレーニングするようになるでしょう。 これらすべての複雑で重なり合ったフィードバック ループがあるため、それがすぐに停止するとしたら、私は本当に驚くでしょう。 加速すると思います。

それに比べて、時間が経つにつれて困難になるものもあるということです。 さらに多くの抗生物質を見つけるには、まず見つけやすい抗生物質を見つけますが、時間が経つにつれて、新しい抗生物質を見つけるのがますます難しくなります。 最初に簡単に利益を得て、その後スケーリングの法則にぶつかる、といったことも考えられます。 Open AIは、さらなるインテリジェンスへの道は、より大きなモデルをトレーニングすることではないと考えていると述べていますが、私は懐疑的です。 おそらくここで限界に達するかもしれませんが、より大きなモデルでより多くのインテリジェンスが得られると確信しています。

「それはインターネットよりも大きなものになると思います。 それが十分に進めば、おそらく産業革命と同じくらい大きなものになるでしょう。」

エメット:先ほど説明したすべての変数に加えて、今回の違いに驚かされるのは、スピードと規模です。 これは、どれだけ早く私たちの製品や生活に組み込まれるかという点でまったく異なります。 Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.

Fergal: March for GPT-4 and stuff?

Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.

Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. 今-

Emmet: The infrastructure for delivery is there.

Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.

Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?

“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”

Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.

Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.

Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.

Frictionless interfaces

Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.

AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.

“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”

What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.

Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.

I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.

You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.

Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.

Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.

Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.

Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.

Emmet: And the agent is clicking on coordinates on the screen for you.

Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?

Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.

Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.

Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?

“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”

Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”

Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.

Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.

I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.

Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.

ファーガル:でも将来的には、おそらくエージェントに「昨日撮った写真を編集したいのですが」というようなことを言うことになるでしょう。 そして、それはあなたとあなたの洗練のレベルを知っています。 写真を編集したいときに、4 つのフィルターとトリミング ツールを探していること、またはスーパー プロ ズーム機能を実行したいことを認識しています。 パターン ライブラリを調べて、それぞれに最適なインターフェイスを探し、そのインターフェイスをレンダリングします。

「それは完全にあなたがやっている仕事に依存します。 あなたがパイロットなら、「飛行機を着陸させる時間だ!」とは言いたくないでしょう。 ねえ、LLM、私がそれを行うためにインターフェイスを自動アセンブルしてください。」

エメット:それからあなたは、「実はもう少しプロフェッショナルなものにしたいんです」と言うのです。 そして、「わかりました、プロ版の UI を提供します」となります。 そしてそれを動的にレンダリングします。

Fergal:インターフェースの使い方を学びたくないタスクもいくつかあるでしょう。 Des は最近、別のポッドキャストでこれについて話していました。 Workday で休暇時間を更新する必要がありますが、そのためのインターフェイスを学びたくありません。 タスクを完了したいだけです。 たとえば、あなたがプロのプログラマーで、私が IDE の使い方を学ぶ必要がある場合など、他にもさまざまなことがあります。 デザイナーは、私が何をしたいのか、何をする必要があるのか​​を非常に詳細に考えてくれていて、おそらく軽いカスタマイズ層はあるでしょうが、それでもよく設計されたインターフェースがあり、これから使い方を学んでいきます。 前者、つまり私がやりたいタスクのためのインターフェースは消滅するか、その多くがその場限りでレンダリングされることになると思います。 後者については、そうです、適応的になるでしょう。

エメット:あなたの言ったことすべてに同意します。 さらに別のニュアンスも思い浮かびます。 それはあなたが行っているタスクに完全に依存します。 あなたがパイロットなら、「飛行機を着陸させましょう!」なんて言いたくはないでしょう。 ねえ、LLM、私がそれを行うためにインターフェースを自動アセンブルしてください。」 規制とかそういうのはあるでしょうね。 しかし、それは大きな違いの 1 つを反映しています。それは、私たちが常にコンピュータを高度に決定論的でバイナリのオン/オフ スイッチ駆動の真実の機械であると考えてきたコンピュータを扱うことと、今では突然、コンピュータの性質が異なることを反映しているということです。それは大きく変化しています。 そしてそれは、私たちが説明しているすべてのことと同様に、大きな変化です - あなたが期待できること、あなたが個人的にそれがどのように機能するかを期待できるか、そしてあなたがそれに対して持っている代替可能性や制御の量。 もっとエキサイティングな実験の分岐が見られ始めると思います。そして、壁紙やフォントサイズを変更できる現在のカスタマイズのレベルは、おそらく比較すると見劣りするでしょう。

円の中心に向かって

エメット:また興味深いことをおっしゃっていましたね。 主にライブラリから組み立てているデザイナーを想像してみてください。 ユーザー インターフェイス デザインの仕事は興味深いものです。なぜなら、私たちはデザイン システムでそのための準備をしてきたからです。 デザイン システムはコンポーネントのパターン ライブラリです。 大きな製品を構築している場合、製品に一貫性を持たせ、迅速に組み立てられるようにしたいと考えます。 したがって、私たちがこれまで築いてきた基礎の多くと、たとえば設計チーム、さらにはおそらくエンジニアリング チームも含めて、これらのシステムですぐに再利用できるコンポーネントを構築してきたシステムの多くは、すべて的を射ています。これらのツールをかなり迅速に構築できる能力に向けて。 あなたが説明していたのは、デザイン システムを取得してそこから UI を構築するもので、それはそれほど遠くないように思えます。

Fergal:あるいは、標準のオープンソース設計システムを採用し、そこからツールを構築するのかもしれません。 これが個々の企業レベルで起こるのか、それとも広い水平レベルで起こるのかはわかりません。

エメット:ええ、それはとても退屈でしょう。 それは悲劇的でしょう。 iOS 7 が登場する前は、スキューモーフィズムなどがありましたが、その後、非常に独断的なフラット デザインになり、業界全体が Apple の優位性の影響を大きく受けて、すべての Web サイトが同じに見えるようになりました。 Apple はヒューマン インターフェイス ガイドラインを発表し、「ほら、iPhone アプリは今こうあるべきだ」と言いました。 しかし、それが多様性を平坦化し、ウェブをより退屈なものに導いたと私は思います。 そしてそれは、自分自身を構築できるこれらのシステムに役立つものでした。

ファーガル:ファンキーでレトロな見た目にしたいとエージェントに伝えることができます。 それが来ることを想像する必要があります。特定のチームとのインターフェイスを構築する方法を理解するインテリジェントなレイヤーがあるため、人々が実際に使用するものに関しては、はるかにカスタマイズ可能になると思います。 おそらく今日もそうするでしょう。 今日からユーザー インターフェイス用の Midjourney の構築に着手すれば、おそらくそれができるでしょう。 コードや CSS を生成してユーザー インターフェイスを作成できる GPT-4 があり、すべての画像とテキストを埋め込んでそれらを押しつぶす画像合成モデルもあります。 かなり早く何かを構築できると思います。

エメット:あなたがこんなことを言っているのはとても面白いのですが、私の感情的な反応は次のようなものです。 使いやすさや人間の理解、その他あらゆることについて考えなければなりません。」 そして私は、「ああ、それは私たちが話した推論能力であり、今ではそれを備えているようです」と思います。 それで、私たちがそれについて話しているとき、私はその感情を抱いています...

ファーガル:危機だ。

エメット: AI があなたの訓練のためにやって来ます。 しかし、正直なところ、私はそのことについてそれほど心配していません。なぜなら、多くのデザイナー、そしてプログラマーに対してもそう言われているのを聞いたことがありますが、これによって大幅に高速化され改善される単調な作業を嘆くつもりはないと思うからです。 実際には、ズーム レベルを上げて、ソリューションの実行ではなく、ソリューションについてもう少し考えることができるようになります。 製品の構築は依然として非常に手間がかかり、非常に時間がかかります。その単調な作業の一部を取り除いたらどうなるかを見るのは素晴らしいことだと思います。

ファーガル:つまり、これは仕事、就職、転職に関するこの議論全体であり、ここで何かが起こるでしょう。 それを聞くと、「ああ、それはもうデザイナーは必要ないということなのかもしれない。必要なのはプロダクト マネージャーだけなのかもしれない」と思います。 そして、プロダクト マネージャーは、デザイナーが行っていたすべてのことを行うことができるようになりました。 もしかしたら、プログラマーは必要ないかもしれません。必要なのはプロダクト マネージャーだけかもしれません。 そして、将来的には私たち全員がプロダクト マネージャーになります。 わからない。 もしかしたら、そのような役割や仕事がもっとたくさんあるかもしれないし、もしかしたら減るかもしれない。

エメット:私たちはそれを重視すべきだと思います。 私のキャリアの中で気づいたことの一つは、上級になればなるほど、自分の専門分野に特化しなくなるということです。 もっと総合的なリーダーにならなければなりません。

ファーガル:デザインチームの誰かとこんな会話をしました。 エンジニアリング、プロダクト、デザインなどの分野で若手のときは、サークルの端にいます。 そして、上級になるほど、どんどんセンターに近づいていきます。 円の中心にあるのが製品です。 そのため、上級者になるにつれて、自分の世界は自分が構築している製品に重点が置かれるようになり、自分の視点からの視点はますます薄れていきます。

エメット:それは私もわかります。 それで、私たち全員が PM になるのですが、それは計画ですか?

ファーガル:ええ、結局のところ、それが私たちがこのような仕事でやろうとしていることなのです。

エメット:つまり、直接適用できる実践的なスキルを持たないプロダクト担当者でなければ、PM とは何なのでしょうか、そうですか、ファーガル?

ファーガル・リード:ああ、わかってるよ。 PMとは何ですか?

エメット:もう終わりにしたほうがいいと思います。 乾杯、ファーガル。

ファーガル:ありがとう、エメット。

フィンの順番待ちリスト