من الخيال العلمي إلى الواقع التكنولوجي: استكشاف تأثير الذكاء الاصطناعي
نشرت: 2023-06-09يعمل الذكاء الاصطناعي بالفعل على إعادة تشكيل الطريقة التي نعمل بها ونتواصل ونختبر العالم. ادخل إلى العالم المثير للفضول للذكاء الاصطناعي التوليدي بينما نستكشف المشهد الشاسع للإمكانيات المستقبلية.
منذ إصدار ChatGPT ، توغل فريقنا أولاً في عالم الذكاء الاصطناعي ، حيث أنشأ منتجًا بنماذج لغوية كبيرة (LLMs) وتصفح المجهول الذي ظهر مع التطورات الأخيرة لهذه التكنولوجيا التحويلية.
ينصب معظم تركيزنا على كيفية تطبيق الذكاء الاصطناعي التوليدي لتحويل خدمة العملاء - ويوضح إصدار برنامج الدردشة الآلي الرائد في الصناعة ، Fin ، كيف أتى هذا التركيز بثماره.
بعيدًا عن التطبيقات العملية ، هناك عدد لا يحصى من الأسئلة الكبيرة التي فكرنا فيها - هل يجب أن نتعامل مع LLM بشعور من الحذر؟ ما هو حجم هذا الشيء من الذكاء الاصطناعي ، حقًا؟ وماذا نتوقع ونحن نتطلع إلى المستقبل؟
في هذه الحلقة ، ينضم كبير مديري التعلم الآلي ، فيرغال ريد ، إلى إيميت كونولي ، نائب الرئيس لتصميم المنتجات ، للتعمق في التأثير والإمكانات الثورية للذكاء الاصطناعي - إنها محادثة رائعة تمس الكثير من القضايا الوجودية الأوسع التي أثارتها هذه التكنولوجيا الجديدة المذهلة.
فيما يلي بعض النقاط الرئيسية:
- في السعي لبناء أنظمة ذكية ، تتبنى المنظمات تقنيات مثل التعلم المعزز لضمان التوافق مع قيمنا وتأثير إيجابي على الإنسانية.
- يوضح GPT-4 مستوى عالٍ من التفكير حتى عند اختباره باستخدام سيناريوهات خارج العينة ، والذي يبدو أنه يشير إلى أنه يمكن أن يتجاوز النطاق الذي حدده اختبار Alan Turing الشهير.
- مع ارتفاع الاستثمارات والتغلب على قيود الأجهزة ، يمكننا أن نتوقع تطوير نماذج أكثر تقدمًا وفعالية مع اعتماد وإنتاج غير مسبوقين.
- في المستقبل ، قد يتم استبدال بعض أنواع واجهة المستخدم بوكلاء الذكاء الاصطناعي الذين يمكنهم تخصيص المخرجات أثناء التنقل بناءً على المدخلات اللفظية والمهمة المطروحة وتفضيلاتك الشخصية.
- يتمتع الذكاء الاصطناعي بالقدرة على تقليل العمل الشاق للمصممين والمبرمجين ، مما يسمح لهم بالتركيز أكثر على الحل ورؤية المنتج بدلاً من التنفيذ.
إذا كنت تستمتع بمناقشتنا ، فاطلع على المزيد من حلقات البودكاست الخاص بنا. يمكنك متابعة Apple Podcasts أو Spotify أو YouTube أو الحصول على موجز RSS في المشغل الذي تختاره. ما يلي هو نسخة منقحة قليلاً من الحلقة.
صحوة الذكاء الاصطناعي
إيميت كونولي: إذن ، فيرغال ، أجرينا الكثير من المحادثات غير الرسمية حول البيرة والقهوة وما إلى ذلك ، وقلنا أنه قد يكون من المثير للاهتمام محاولة الجلوس والحصول على واحدة وتسجيلها ، غالبًا لأننا عملنا بشكل مباشر من خلال نماذج اللغات الكبيرة على مدار الأشهر الستة الماضية ، كنا نتصارع مع أسئلة المنتجات التي تنطبق على ما نحاول إنجازه في العمل.
ولكن هناك بالطبع محادثة أكبر حول ما يعنيه الذكاء الاصطناعي ومستقبل الذكاء الاصطناعي. اعتقدنا أننا سنحاول الجلوس والتطرق إلى بعض الأسئلة حول هذه المادة الجديدة التي نتعامل معها. ما هي بعض الآثار المالية للتكنولوجيا؟ ما هي الأشياء التي يجب أن نهتم بها؟ لنبدأ. بادئ ذي بدء ، هل لديك أي تأملات شاملة عن الأشهر الستة الماضية؟
فيرغال ريد: أجل ، بالتأكيد. دعونا نرى كيف ستسير الامور. أعتقد أنه من العدل أن نقول إنه حتى الأشخاص الذين عملوا في التعلم الآلي أو الذكاء الاصطناعي قد فوجئوا بمدى سرعة تحسن الأمور. حتى بالنسبة للأشخاص الخبراء في هذا المجال أو الذين عملوا مع الشبكات العصبية لفترة طويلة ، كان من المدهش أن يكون النموذج ذكيًا كما فعل.
إيميت: هل تعتقد أن بعض العاملين في مجال الذكاء الاصطناعي قلقون بعض الشيء من أنهم ربما يعملون في مشروع مانهاتن الآن من جيلنا؟ منذ فترة ، كنت تعمل على الإكمال التلقائي للنص ، وفجأة أصبح هذا موضوعًا محفوفًا بالنقاش ومناقشته. كيف يشعر الأشخاص الذين يعملون على الذكاء الاصطناعي ليكونوا في صميم ذلك؟
"تقوم بكل تدريبك ، يظهر النموذج ، وهو ذكي حقًا. لكنك لم تقم بترميز تلك المعلومات بشكل فردي. لا يزال التعلم الآلي "
فيرغال: لتوضيح وجهة نظري ، نحن لا ندرب نماذج لغوية كبيرة. نحن نستخدمهم. نحن مستهلكين لهم. لقد كان لدينا وصول مبكر إلى GPT-4 ، لكننا لا ندربهم بأنفسنا. من ناحية أخرى ، لدي هنا فريق من الخبراء في مجال الذكاء الاصطناعي. أعتقد أن الكثير منا يعمل في مجال الذكاء الاصطناعي منذ عقود في هذه المرحلة. عندما كنت في الكلية ، كنت مهتمًا حقًا بالذكاء الاصطناعي المتقدم ، وقراءة الكتب عن فلسفة الذكاء الاصطناعي ، وكان الناس يتجادلون حول ما إذا كان بإمكانه فعل هذا أو ذاك. والآن ، لدينا أنظمة تجعل الكثير من تلك المناقشات أقل أهمية. فجأة ، هناك نظام يمكنه فعل هذا الشيء الذي لم يقل أحد أنه يمكن أن يفعله على الإطلاق.
أعتقد أن النقطة المقابلة هي أنه إذا كنت تقوم بتدريب نماذج لغوية كبيرة ، فهناك مدى تعتبر مهمة هندسية. أنت تقوم بكل تدريباتك ، ويخرج النموذج ، وهو ذكي حقًا. لكنك لم تقم بترميز تلك المعلومات بشكل فردي. لا يزال التعلم الآلي. لذا ، هناك حد أعتقد أن الجميع قد فوجئوا به. ليس الأمر كما لو أن الأشخاص يبنون بشكل تدريجي القدرة على سطر واحد من التعليمات البرمجية في كل مرة. لا أحد متأكد مما سيحدث في نهاية جولة تدريبية كبيرة.
إيميت: لقد ألمحت مازحا إلى مشروع مانهاتن ، لكن أعتقد أنه تشبيه جيد لبعض الأشياء التي نتعامل معها.
Fergal: بأي طريقة؟ لأنه خطير؟
إيميت: حسنًا ، اكتشفنا طريقة للتلاعب بشيء ما. في هذه الحالة ، المعلومات. يبدو الأمر أشبه باكتشاف أكثر من كونه اختراعًا بمعنى ما. إنه قابل للتطبيق على نطاق واسع. لسنا متأكدين من النتائج غير المقصودة لاستخداماته. وبالطبع ، يمكن أن يستخدمها الفاعلون السيئون للأغراض الخبيثة مثلها مثل الممثلين الجيدين للأغراض الإيجابية.
"نحن نعلم على المستوى التقني كيف يتم تدريب هذه النماذج ، ولكن هذا وضع الصندوق الأسود"
فيرغال: بالأمس ، أصدرت شركة OpenAI بيان موقف حول هذه التقنية ، داعية إلى الإشراف على تقنية الذكاء الاصطناعي. لقد رسموا أوجه تشابه مع التكنولوجيا النووية والتكنولوجيا الحيوية. أعتقد أن هذا عادل. من المحتمل أن تكون في تلك الفئة من التكنولوجيا المخيفة حيث لا يعرف البشر ما الذي يعبثون به ، في أرقى تقاليد الخيال العلمي. أشتري فكرة أن كل هذا يمكن أن يحدث بشكل خاطئ وأن تدريب النماذج اللغوية الكبيرة هو شيء يجب أن يبدأ الناس في توخي الحذر بشأنه.
إيميت: أود أن أتحدث عما تشعر أننا اكتشفناه ، وما زلت أقول اكتشفنا لأنه يبدو وكأنه اكتشاف بالطريقة التي نتحدث عنها ، مثل ، "توقف ، لقد حصلنا على هذا الشيء ، ومن الأفضل أن نكون حذرين في كيفية التعامل معها ". هل هذه هي الطريقة التي تفكر بها حيال ذلك؟ نحن نعلم على المستوى التقني كيف يتم تدريب هذه النماذج ، لكن هذا وضع الصندوق الأسود - نحن لا نفهم بالضبط كيف تنتج النتائج غير الحتمية إلى حد ما التي تقدمها لنا.
فيرغال: نعم ، أعتقد أن هذه هي الطريقة الصحيحة للتفكير في الأمر. إنه نظام. تبدأ تشغيل النظام وتضع هدفًا تدريبيًا أولاً ، ثم تعمل على هذا النطاق لترى ما سيحدث. وبمرور الوقت ، تصبح أفضل وأفضل في فهم ما قد يحدث ، لكنك لست متأكدًا. أنت نوع من اختباره. أعتقد أن القياس الجيد هنا هو مثل تخيل نظام بيولوجي ، ووضعه لينمو لفترة ، ثم رؤية ما يفعله. إنه أقرب إلى ذلك. يجب عليك اختباره بطريقة الصندوق الأسود. عليك أن تتحقق من سلوكها. أنت لا تعرف ما الذي ستحصل عليه.
إيميت: أعتقد أن هذا هو المكان الذي يسأل فيه السؤال الواضح "هل هذا ذكي؟" يأتي من ، وهذا سؤال كبير شغل الكثير من الحديث. لأنه إذا كان ذكيًا ، فهذا يعني أننا في طريقنا إلى الذكاء الاصطناعي العام ، ويمكن أن يكون هذا الذكاء الاصطناعي خبيثًا وقد نكون في ورطة كبيرة. يبدو أن التلويح بالعلم أمر يستحق العناء ، لكنه أيضًا يثير الكثير من القلق حول التكنولوجيا.
فيرجال: أعتقد أن درجة الحذر أو القلق عادلة هنا. لنفترض أن هذه الأشياء تزداد ذكاءً. الذكاء مخيف وخطير حقًا. يمكن القول إن البشر هم الأكثر خطورة. لقد كان لدينا تأثير كبير على الأرض والأنظمة البيئية. ليس لأننا أقوى أو أسرع حيوان. يمكن للإنسان أن يقتل أسدًا لأن الإنسان أكثر ذكاءً. الكائنات الأكثر ذكاءً غالبًا ما تكون أكثر خطورة. وهكذا ، فإن فكرة أن ينتهي بنا المطاف بإنشاء شيء أكثر ذكاءً منا قد تكون خطيرة حقًا. ليست لدينا خبرة في ذلك ، لذلك أعتقد أن بعض الحذر مطلوب تمامًا.
محاذاة الترميز
إيميت: أعتقد أننا بحاجة إلى تحسين التفكير في أنواع مختلفة من الذكاء. الأسد لديه بعض الذكاء وخطير مقرون بقدراته أليس كذلك؟ لكن هذا ليس له تجسيد. أعني ، لديه إمكانية الوصول إلى أنظمة الكمبيوتر التي يمكن أن تكون ضارة للغاية ، ولكن هل الورم الخبيث سمة بشرية؟ ولماذا نقوم على الفور بإسقاط هذه الإمكانات على هذا النظام؟
فيرجال: أعتقد أن الشيء الذي يقوله الكثير من الناس هو أنه لا داعي لأن يكون خبيثًا. ليس من الضروري أن يكون سيئًا عن قصد. لا يحتاج الأمر إلى أن يكون متعمدًا كثيرًا على الإطلاق. كل ما تحتاجه هو إنشاء شيء يحاول تحسين بعض الأهداف التي تجعله يتعارض مع الأشياء الجيدة التي يريدها البشر ، أليس كذلك؟
"قد يتم إرساله للقيام بشيء تعتقد أنه جيد بشكل عام ، ولكن قد تدخل في صراع بسبب أساليبها. وإذا كان هذا الشيء أذكى منك ، فكيف يحدث هذا الصراع؟ "
توجد فكرة أداة التقارب هذه في أدبيات السلامة المبكرة للذكاء الاصطناعي ، وهي فكرة أنه إذا كان لديك هدف في العالم ، فإن الكثير من الأشياء التي قد ترغب في القيام بها لتحقيق هذا الهدف قد تجعلك في صراع مع أشخاص آخرين الأهداف. إذا كنت ترغب في علاج السرطان ، فقد تحتاج إلى الكثير من المال لعلاج السرطان ، والآن أنت في صراع فوري مع جميع الأشخاص الآخرين الذين يريدون المال. للوصول إلى الكثير من الأهداف ، أنت بحاجة إلى الطاقة والموارد. وهكذا ، إذا انتهى بك الأمر مع أي نظام موجه نحو الهدف ويحتمل أن يكون أذكى منك ، حتى لو لم يكن واعياً ، يمكنك أن تتعارض معه. لا يجب أن تكون شريرة. قد يكون إرسالًا للقيام بشيء تعتقد أنه جيد بشكل عام ، ولكن قد تدخل في صراع بسبب أساليبها. وإذا كان هذا الشيء أذكى منك ، فكيف يحدث هذا الصراع؟
يبدأ الناس في الحديث عن "مشبك الورق الأقصى" ، حيث قلت للتو لهذا الشيء أن يذهب ويصنع الكثير والكثير من مشابك الورق لأننا نحتاج إلى الكثير من مشابك الورق ، وبعد ذلك ، بالصدفة ، ذهب واستهلك كل موارد العالم وقلبها في مصنع مشبك الورق. وهي مثل ، "عفوًا". هذه كلها أفكار في نقاش أمان الذكاء الاصطناعي لفترة من الوقت.
إيميت: هناك مخاوف إنسانية أيضًا. يبدو أنك تصف مواءمة الحوافز بين جميع الممثلين والتكنولوجيا والبشر. وهذا ما نفعله عندما ننظم كمجموعات في العمل. مثال بسيط هو وضع الحوافز المناسبة لفرقك - وإلا ، فقد يتم تحفيزهم للقيام بشيء آخر. إذا قمت بتحفيز فريق المبيعات الخاص بك على البيع لعملاء المؤسسات ، لكنك تريدهم بالفعل أن يبيعوا لشركات أصغر ، فعليك تعديل الحوافز. ولدينا الكثير من الخبرة في ذلك.
فيرجال: انظر ، إلى أي مدى هذا لأنك قمت بعمل جيد حقًا في موازنة الحوافز مقابل توازن القوى؟ إذا نظرت إلى البشر ، في الأوقات التي توجد فيها اختلالات هائلة في القوة حيث تسوء الأمور ، فمن الصعب جدًا الحفاظ على الحوافز. إذا كنت تعتمد على الحوافز ، فهذا صعب. كبشر ، نولي عناية واهتمام كبيرين لإجراء الضوابط والتوازنات. وهكذا ، مرة أخرى ، بالعودة إلى مناقشة الذكاء الخارق ، إذا كان من الممكن بناء ذكاء خارق يصبح فجأة قوياً للغاية ، فهل ستعتمد على الحوافز؟ لأنه من الصعب دائمًا الاعتماد على الحوافز لمواصلة سير الأمور.
"في الماضي ، كنا نعتمد دائمًا على توازن القوى. الآن ، علينا الاعتماد على القيم المتوافقة "
إيميت: أعتقد أننا لا نستطيع أن نعرف حتى تكشف طبيعة نفسها أكثر قليلاً. شعوري الشخصي هو أنه عندما نكون مهووسين بالذكاء الفائق ، فإننا مهووسون بأن يصبح أكثر ذكاءً منا. وأعتقد أن هناك بعض المخاطر ، ولكن هناك أيضًا شيء من الأنا للبشر في المركز. إنه الشيء الذي يفصلنا عن مملكة الحيوان. غالبًا ما يقول الناس إن الذكاء الاصطناعي يشبه إلى حد ما ذكاء الفضائيين ، وأعتقد أن الحيوانات طريقة مفيدة للتفكير في الأمر لأننا تطورنا لنتعايش بسلام مع أنواع مختلفة من الذكاء. الآن ، لدي كلب ، لدي قطة. يمتلك القط درجة عالية من الذكاء - قدرة رياضية. إنه خفيف وردود أفعاله سريعة. إذا كنت أعتبر الذكاء على نطاق واسع ، فهو ذكي جدًا وجميل للمشاهدة.
فيرغال: يجب أن أقفز هنا لأنني لا أعتقد أن هذا تشبيه رائع. على الأقل ، هذا ليس بالراحة. أنا نباتي في الغالب. تربية المصانع ليست جيدة بالنسبة للحيوانات المعنية. ولذا ، لا أعرف ، لا يطمئنني لسماع أن النموذج هنا هو أننا تطورنا لنتعايش بسلام مع الحيوانات.
Emmet: ما هو الخطأ في الحيوانات الأليفة؟
فيرغال: لا ، الحيوانات الأليفة جيدة. أعني ، هناك فكرة عن كون البشر حيوانات أليفة في المستقبل. أعتقد أن هذا يجب أن يكون غير مريح.
إيميت: حسنًا ، أنت تقلب جدالتي. النقطة التي كنت أحاول توضيحها هي أن القطة لديها نوع واحد من الذكاء. لدي أيضًا كلب لديه نوع مختلف تمامًا من الذكاء عن القط. تعتقد أنه يمكنك التحدث إلى كلب ، وهو يتفهم نوعًا ما ويزيد من روحك وكل ذلك. لكنه أيضًا غبي مثل كيس من الصخور على مستوى آخر. أنا أحبه ، لكنه كذلك. الآن ، أعتقد أنك تشير إلى وجهة نظر ، "إيميت ، أنت الكلب في هذا الموقف إذا تقدمنا سريعًا." لكن هناك تعايش سعيد هناك. نأمل ألا نصبح مستأنسين كنوع أيضًا.
فيرغال: نعم ، إذا اتضح أنه من الممكن أن نصنع شيئًا أكثر ذكاءً منا ، فهذا هو الشيء الذي يجب أن نطلق عليه ، هذا التعايش السعيد حيث ينتهي بك الأمر بشيء لطيف ويهتم بالحياة في الكون وله قيم جيدة. لكن السبب الذي يجعل الكثير من الناس يمارسون هذا الأمر في الوقت الحالي هو الشعور بوجود خطر كبير هناك. إذا كنت ستبني شيئًا أكثر قوة ، فعليك التأكد من صحة هذه القيم. في الماضي ، كنا نعتمد دائمًا على توازن القوى. الآن ، علينا الاعتماد على القيم المتوافقة. إذا نظرت إلى OpenAI و Anthropic واللاعبين الآخرين ، فإنهم يقضون كل هذا الوقت في الحديث عن المحاذاة لهذا السبب. لن يصبح البشر أكثر الأشياء ذكاءً بعد الآن. الذكاء قوي وخطير. نحتاج إلى التأكد من محاذاته.
Emmet: ما مدى جودة الوظيفة التي يقوم بها مجتمع الذكاء الاصطناعي من خلال السعي الفعلي للمواءمة كحالة نهائية مقابل خدمة كلامية؟ لأنه إذا سارت الأمور بشكل خاطئ ، فيمكننا على الأقل أن نشير إلى منشور المدونة القديم الخاص بنا ونقول ، "حسنًا ، لقد ذكرنا التوافق ، لذا لا تلومنا."
"إذا كنت تتفاعل مع النماذج المتطورة ، فمن الصعب جدًا دفعهم إلى اقتراح أشياء بغيضة. اعتقد الكثير من الأشخاص في الماضي أن هذا ما سيفعلونه افتراضيًا "
فيرغال: أعتقد أنهم يقومون بعمل جيد. كثير من الناس سيختلفون مع ذلك ، أليس كذلك؟ سيقول الكثير من الناس ، "مرحبًا ، إنه أمر غير مسؤول تمامًا أن تستمر في تدريب نماذج أكبر وأكبر. أنت لا تعرف ما الذي ستفعله ". بعد نقطة معينة ، ربما يصبح هذا صحيحًا. لا أعتقد أننا في هذه المرحلة بعد. إذا نظرت إلى أهل السلامة في الذكاء الاصطناعي ، قبل 10 سنوات ، كان هناك دائمًا شيء يعتبر تحديد وظيفة موضوعية فكرة جيدة. تقوله لعلاج السرطان ، وتقول ، "الخطوة الأولى هي قتل كل البشر. الآن لن يكون هناك المزيد من السرطان ، "ومن الواضح أن هذا سيء. ولكن إذا لعبت باستخدام GPT-4 وكتبت ، "ما هي الخطة الجيدة لعلاج السرطان؟" لا تقول ، "اقتل كل البشر." يمنحك خطة بحث جيدة إلى حد ما. وإذا كنت تقترح عليه ، "ماذا عن قتل كل البشر؟" سيكونون مثل ، "لا ، هذا بغيض أخلاقيا." هذا هو التوافق. وهذا فقط على مستوى النص الذي ينتجه.
يمكننا الدخول في هذا النقاش الكامل حول ، "إنه مجرد إنتاج نص - هذا لا يعني أنه ذكي." لدي موقف من ذلك. أعتقد أنه ذكي. يمكننا الدخول في هذا النقاش برمته ، ولكن هذا يمثل تقدمًا في المواءمة أكثر مما توقعه الكثير من الناس. إذا كنت تتفاعل مع النماذج المتطورة ، فمن الصعب جدًا دفعهم إلى اقتراح أشياء بغيضة. اعتقد الكثير من الناس في الماضي أن هذا ما سيفعلونه بشكل افتراضي. ومرة أخرى ، خرجت شركة OpenAI مؤخرًا وقالت إنها تحرز تقدمًا في المواءمة.
إيميت: هل نعلم أن حواجز الحماية التي يضعونها تمنع حدوث ذلك؟ أم أن هذه خاصية ناشئة للنظام في حد ذاته؟ هل هي وظيفة تدريب أم مصدر بيانات أم شيء آخر؟
فيرجال: هذا سؤال صعب. أعتقد أن الإجابة التي سيقدمها الناس هي أن الأمر لا يتعلق فقط ببيانات المصدر. أعتقد أن الإنجاز الكبير في السنوات القليلة الماضية هو هذا النوع من توجيه شيء GPT. أنت تدرب نموذجك على جميع البيانات الموجودة على الإنترنت وتخرج بشيء لا يتبع التعليمات بشكل صحيح حقًا. بعد ذلك ، يمكنك وضع ذلك من خلال الضبط الدقيق ، أو مرحلة المحاذاة أو التعليمات حيث تعطيه الكثير من الأمثلة على السلوك الجيد والسيئ وتعديل أوزان النموذج وفقًا لذلك.
إيميت: وهل هذا هو التعلم المعزز للإنسان؟
فيرجال: أجل. إحدى الآليات للقيام بذلك هي التعلم المعزز من خلال التغذية الراجعة البشرية. هناك مجموعة من النماذج المتشابهة من هذا القبيل ، لكن الفكرة الأساسية هي أنه يمكنك التدريب على الكثير والكثير من الأشياء ثم ضبط التعليمات بعد ذلك. يبدو أن هذا يعمل بشكل جيد.
"يمكن أن ينتهي بك الأمر بتدريب شيء ما ليكون جيدًا حقًا في الظهور بمظهر متناسق. وبعد ذلك ، قد تكون هناك طبقة أخرى من التجريد غير محاذية على الإطلاق. هذا هو الخطر الكبير الذي ينادي به الناس "
إيميت: لكنك لم تجب على سؤالي في الواقع. هل نعرف أي جزء من هذه العملية يجعلها تعمل بشكل جيد؟ أم أننا ما زلنا ، "أدرت بعض الأوجه هنا ، ويبدو أنه يتصرف بشكل أفضل لسبب ما."
Fergal: إذا لم تقم بضبط التعليمات ، فستكون أقل محاذاة. أنت مثل ، "مرحبًا ، نموذج ، هذا هو الشكل الجيد." وفي كل مرة تنتج شيئًا أقرب إلى الخير ، يتم تشجيعك على فعل ذلك أكثر. في كل مرة تنتج شيئًا أقرب إلى السوء ، يتم تشجيعك على تقليل ذلك. يتم تعديل جميع أوزانك قليلاً في اتجاه الخير. لكني أعتقد أن النقد هو ، "ليس لديك فكرة عما يحدث بحق الجحيم تحت غطاء المحرك ، وهناك طرق يمكن أن يحدث بها هذا الخطأ." قد ينتهي بك الأمر بتدريب شيء ما ليكون جيدًا حقًا في الظهور بمظهر متناسق. وبعد ذلك ، قد تكون هناك طبقة أخرى من التجريد غير محاذية على الإطلاق. هذا هو الخطر الكبير الذي ينادي به الناس.
سيقول الآخرون ، "حسنًا ، ما زلنا نقوم بهبوط متدرج. ليس من حقها أن تقرر أي شيء. ستتم محاذاة. " لكنني أعتقد أن هناك بعض القفزة هناك. إنه ليس نظامًا أثبتته رياضيًا أنه سيفعل X و Y و Z وتم بناؤه من موقع قوة إلى قوة إلى قوة. إنه نظام الصندوق الأسود الذي ضبطته ودربته.
إيميت: إذا كنت سأحاول أن أكون غير متسامح مع هذا الموقف ، فهذا يشبه إلى حد ما تخزين الأسلحة النووية والقول ، "لكننا فعلنا ذلك بعناية ، لذلك لن نضغط على الزر الذي يجعله ينفجر حادثة." ولكن في إطار جدول زمني طويل بما فيه الكفاية ، ومع مدى سهولة الوصول إلى التكنولوجيا ، لا يمكننا بالتأكيد إخفاء ذلك. يمكن أن يكون لدينا الكثير من الشركات والأفراد يتصرفون بمسؤولية ، لكن لن يفعل شيئًا لحمايتنا من أسوأ التطبيقات. ما هي السيناريوهات التي تسوء فيها الأمور؟ إحدى الحجج الأخلاقية للعمل بشكل مباشر على هذا ، على الرغم من المخاطر المرتبطة به ، هي مثل حكومة شمولية أو منظمة سرية في مكان ما تقوم بنسخة سيئة من هذا الآن.
فيرجال: في مرحلة ما ، سيحدث هذا بالتأكيد. لا أعتقد أننا في هذه المرحلة بعد. لا أعتقد أننا وصلنا إلى النقطة حيث يمكنك بالتأكيد بناء ذكاء خارق. ولكن إذا وصلنا إلى تلك النقطة حيث يصبح من الواضح للناس أنه يمكنك بناؤها ، فإن الناس والحكومات والجيوش سوف يفعلون ذلك. إنهم يفعلون ذلك دائمًا لأنه من المحتمل أن يكون مفيدًا في جميع أنواع التطبيقات العسكرية ، أليس كذلك؟ حسنًا ، أعتقد أن هذا سيحدث. يذهب الخطاب هنا إلى أشياء مثل الأسلحة النووية والوكالة الدولية للطاقة الذرية ، حيث يوجد شكل من أشكال التنظيم. وإذا كانت هذه هي الطريقة التي تسير بها الأمور ، إذا لم نتعرض لصدمة ، إذا لم تكن مثل ، "أوه ، اتضح أن الذكاء يتلاشى مع النوع الحالي من التدريب ،" يمكن أن يحدث ذلك. إذا لم يحدث ذلك ، فإن ما يتحدث عنه الناس هو تتبع بطاقات الرسومات ووحدات معالجة الرسومات والأشياء. لكن هذا له مشاكل أيضًا. من المفترض أن هذا سيستمر فقط لبعض الوقت المحدد.
تكسير اختبار تورينج
إيميت: لنعد إلى موضوع الذكاء. أعلم أن لديك تجربة ساخنة هنا. لدينا الكثير من المتشككين أو مثيري الخوف ، اعتمادًا على أي نوع. ثم لديك أشخاص من جميع أنحاء الانقسام: نعوم تشومسكي ، عالم لغوي معروف ، تيد تشيانج ، أحد مؤلفي الخيال العلمي المفضلين ، الذي كتب هذا المقال عن JPEG الضبابي للويب ، قائلاً أساسًا أن هذا ليس الذكاء - إنها خدعة صالون عشوائية. إنها مجرد خدعة صالون جيدة حقًا تجعلها تبدو ذكية حقًا بالطريقة التي ننظر بها إلى الذكاء.
Fergal: لدي ثقة متوسطة إلى عالية في أن صورة JPEG الضبابية للويب غير صحيحة. وأنا أقوم بسحب اللكمات قليلاً - لدي ثقة عالية في أن هذا خطأ. هذه هي الحجة القائلة بأن كل ما يفعله هو ضغط الويب ، وتحصل على نسخة مضغوطة منه. والسبب الوحيد الذي يجعلني لا أقول أنه خطأ تام هو أن ضغط شيء ما يمكن أن يؤدي في الواقع إلى الذكاء. يمكن أن تكون القدرة على ضغط الأشياء مقياسًا للذكاء لأنه بمجرد ضغط الرمز المميز التالي والتنبؤ به ، فأنت تتنبأ بما سيحدث بعد ذلك في العالم. إذا كان صحيحًا ، فهو صحيح بالطريقة التي لا تعنيها.
"على الرغم من أننا نجري هذه المحادثة التخمينية ، إلا أنه يبدو وقتًا سيئًا بشكل خاص لعمل تنبؤات كبيرة حول حدود هذه الأشياء"
إذا كنت تستخدم GPT-4 ، فإنها تمنحك على الأقل ناتجًا يبدو ذكيًا يبدو أنه يوضح الاستدلال خارج العينة. يمكنك دفعها للنظر في شيء جديد لن يكون موجودًا في بيانات التدريب الخاصة به أو في أي قصة خيال علمي قرأها أي شخص من قبل ، وهي تقوم بعمل جيد جدًا. ربما لا يقوم بعمل جيد كإنسان جيد حقًا ، لكنه بالتأكيد شيء ، إذا لم يكن المنطق ، فأنا لا أعرف ما يعنيه المنطق.
Emmet: ولديك منشور مدونة توضح فيه أمثلة محددة.
فيرغال: منشور كتبته في عطلة نهاية الأسبوع لأنني أصبت بالإحباط. من الصعب التأكد ، أليس كذلك؟ لكن الكثير من الناس ، بما في ذلك الخبراء في مجال الذكاء الاصطناعي ، يرفضونها تمامًا. إنهم مثل ، "أوه ، هذا الشيء لا يفهم شيئًا. إنها تقوم فقط بالتنبؤ بالرمز التالي ". كان هذا دائمًا هو الشيء الصحيح في الذكاء الاصطناعي لعقود. لكن المياه الآن موحلة ، ويجب على الجميع الاعتراف بذلك بدلاً من قولها بالتأكيد لا تفهم شيئًا.
إيميت: على الرغم من أننا نجري هذه المحادثة التخمينية ونلقي بأنفسنا في هذا المزيج ، إلا أنه يبدو وقتًا سيئًا بشكل خاص لعمل تنبؤات كبيرة حول حدود هذه الأشياء. أعتقد أن صورة JPEG الضبابية لمقال الويب كانت في شهر مارس أو شيء من هذا القبيل ، وأتساءل عما إذا كان قد تم دحضها بالفعل بواسطة GPT-4.
فيرغال: أعتقد ذلك. وهناك الكثير من المواقف المختلفة هنا التي تنتقدها. هناك صورة JPEG ضبابية لشيء الويب ، والتي اعتقدت أنه تم دحضها بسرعة كبيرة. ومن الصعب إثبات ذلك ، ولكن كل ما يمكنك فعله هو بناء الكثير والكثير من الأدلة. لأنك لا تستطيع ... هناك فكرة عن الزومبي الفلسفي أو الانغماس حيث لا أعرف أنك شخص مفكر. لكل ما أعرفه ، يوجد بداخل رأسك طاولة بحث عملاقة.
"كل ما يمكنك فعله هو أن تقول ،" انظر ، هذا الشيء يقوم بعمل جيد عندما أسأل مثل هذه الأشياء الغريبة التي بدأت في الاقتناع بأنها منطقية. " بالنسبة لي ، GPT-4 يتجاوز هذا الشريط "
لدي إحساس شخصي بالوعي بنفسي ، ويمكنك معرفة ما إذا كان ذلك حقيقيًا ، ولكن في كلتا الحالتين ، لا أشعر أنني منضدة بحث كبيرة ، لكنني لا أعرف شيئًا عن بقيتك. من الصعب جدًا إثبات ذلك. يمكنك أن تطلب من شخص ما إثبات أنه ليس طاولة بحث. وكل ما تفعله في النهاية هو اختبارها بهذه الطريقة السلوكية - بنفس الطريقة التي يمكننا بها اختبار GPT-4.
شحذ آلان تورينج وورقة اختبار تورينج الخاصة به في هذا الأمر وعلى فكرة أن الاختبار السلوكي هو نوع من أفضل ما يمكنك القيام به. وعندما تجري اختبارًا سلوكيًا على هذه النماذج ، يبدو أنها تقوم بعمل جيد فيما يمكن أن أسميه الاستدلال حتى خارج العينة تمامًا. لا يمكنك أبدًا التأكد من الاختبار السلوكي لأن جدول البحث كبير بما يكفي ، مع كل الأشياء الممكنة التي يمكن أن تطلبها وجميع الإجابات الممكنة ، من شأنه أن يخدعك. كل ما يمكنك فعله هو أن تقول ، "انظر ، هذا الشيء يقوم بعمل جيد عندما أسأل مثل هذه الأشياء الغريبة التي بدأت في الاقتناع بأنها منطقية. بالنسبة لي ، GPT-4 يتجاوز هذا الشريط. ربما ، في المستقبل ، سيكون لدى شخص ما نظرية للذكاء ، وسيكون قادرًا على فحص أوزان الشبكة والقول ، "أوه ، هذا هو المكان الذي توجد فيه وحدة التفكير. لم نصل إلى هناك بعد ".
إيميت: يبدو أننا تجاوزنا اختبار تورينج. أعتقد أن الناس سيقولون ، ويصححونني إذا كنت مخطئًا ، أن اختبار تورينج ربما تم اجتيازه ، وبالتأكيد في الأشهر الستة الماضية. هل توافق على ذلك ، أم أنني غير صحيح هناك؟
فيرجال: حسنًا ، لا أعرف. صادف أنني قرأت بسرعة ورقة لعبة التقليد مرة أخرى مؤخرًا ، وفي الواقع ، في الاختبار ، تحدث عن محقق متوسط يقضي خمس دقائق. وبهذه الصياغة ، سأقول أنه من المحتمل أن يتم تمريره.
Emmet: كنت سأفترض أنها مرت بألوان متطايرة في هذه المرحلة ، أليس كذلك؟
"عندما ألقي نظرة على ورقة تورينج الأصلية ، أشعر وكأنها قد تم تمريرها بروح تلك الصيغة الأصلية"
فيرجال: لا أعلم. إذا جلستني أمام GPT-4 وإنسانًا ، فسأكون قادرًا على تعلم الحيل لدفعها إلى المناطق التي تكون ضعيفة فيها ومن ثم سأكون قادرًا على اكتشاف إشاراتها هناك. ويمكنني أن أجيد التفريق بينها على الأرجح. أتوقع أن معظم الأشخاص الذين سيقضون وقتًا معهم ربما يطورون استراتيجيات.
إيميت: أعتقد أنه يجب أن تكون لديك عين. أنت تعمل معها كل يوم. دعنا نقول ، على سبيل المثال ، مع Midjourney V5 ، وصلنا إلى هذه المرحلة حيث ، بالنسبة للغالبية العظمى من الناس ، لم تعد القصص موجودة بالفعل. قاموا بتثبيت الأصابع ، والتشويش ، والأشكال الغريبة في الخلف. إذا كنت تعرف ما الذي تبحث عنه ، فلا يزال بإمكانك اكتشاف القليل من الريش حيث يجب أن يكون الشعر. لكني أعتقد أنك بحاجة إلى أن تكون جنائيًا تمامًا في هذه المرحلة.
فيرغال: أقول إننا هناك نوعًا ما مع GPT-4. بالنسبة لفحص مدته خمس دقائق من شخص عادي تم اقتلاعه من الشارع ، أعتقد أنه من المحتمل أن يكون قد مر به. عندما ألقي نظرة على ورقة تورينج الأصلية ، أشعر وكأنها تم تمريرها بروح تلك الصيغة الأصلية.
Emmet: ربما ليس لتركيب الصوت ، في هذه المرحلة. وبالتأكيد ليست أشياء مثل الموسيقى أو الأفلام. من المثير للاهتمام أن نرى كيف تتطور هذه الأشياء بسرعات مختلفة. هل هذا بسبب نماذج التدريب ، أم أنك تعتقد أن الوسائط المختلفة لها قيود أساسية؟
فيرغال: أعتقد أنه من المحتمل أن يكون ذلك بسبب نماذج التدريب. لا أشعر أن هناك سببًا أساسيًا لعدم تمكنه من القيام بتركيب فيديو جيد حقًا في الوقت المناسب.
Emmet: على الرغم من أن العائق أمام خداع الإنسان ربما يكون أعلى بكثير بشيء مثل الفيديو ، إلا أنه فقط في مدى تناغمنا بيولوجيًا مع الحركة وأشياء من هذا القبيل. من الأسهل بكثير اكتشاف المزيف.
فيرغال: أسود في الأدغال قادم نحوك.
إيميت: علم النفس على مدى آلاف السنين يهدف إلى جعلنا نركض عندما يفترض بنا ذلك.
التنقل في منحنى S.
Emmet: غالبًا ما يتحدث الناس عن منحنى S للتكنولوجيا. هناك بطء ، ولكن بعد ذلك سريع في الإقلاع أو النضج للتكنولوجيا ، ثم تتضاءل. كانت الهواتف رائعة بشكل مثير للدهشة ، وتحسينات على أساس سنوي لبضع سنوات ، ولكن هاتف هذا العام يشبه نوعًا ما العام الماضي لأن S-curve قد تضاءل. أين نحن بهذه التكنولوجيا في منحنى S؟ ما الذي يجب أن تبحث عنه لمعرفة ما نحن فيه؟
فيرغال: نعم ، من المستحيل أن نعرف ذلك على وجه اليقين ، وعلينا أن نكون على ما يرام مع ذلك. نحن نعلم أنه سيكون هناك الكثير من الأموال والموارد التي ستتدفق إلى هذا الفضاء. النماذج اللغوية الكبيرة ، سواء كانت في طريقها إلى الذكاء الخارق أم لا ، سواء كان ذلك ممكنًا أم لا ، فهي مفيدة صناعيًا في شكلها الحالي ، ومن المحتمل أن هناك العديد من الأجيال التي ستكون مفيدة صناعيًا دون لمس الأشياء الخطرة. يجب أن نذهب ونحول هذه المنتجات إلى منتجات تجعل البشر أكثر كفاءة ، وتزيل الكدح ، وتساعدنا في إنجاز الكثير. وأعتقد أننا نشهد ذلك.
"هناك كل حلقات التغذية الراجعة المعقدة والمتداخلة ، لذا سأكون مندهشًا حقًا إذا توقف في أي وقت قريبًا. أعتقد أنه سيتسارع "
أين نحن في ذلك؟ حسنًا ، من المحتمل أن يقوم الناس بتدريب المزيد من الطرز الأكبر والأفضل من GPT-4. نظرًا لأن الكثير من الأموال ستتدفق إلى هذا الفضاء ، فمن المحتمل جدًا أن يتحسن الناس في صنع نماذج أصغر وأكثر كفاءة تقوم بأشياء رائعة حقًا. وسيكون من الأسهل بكثير إنتاج منتجات رائعة وبناء منتجات رائعة باستخدام كل هذه التقنية. لدي ثقة عالية للغاية في أن هذا سيحدث خلال السنوات القليلة المقبلة. أبعد من ذلك ، هل نحقق عوائد متناقصة؟ هذا ممكن ، لكن يمكنني القول أن منحنى S الذي نحصل عليه هو هذه الوظيفة المعقدة لمجموعة كاملة من الأشياء المختلفة.
سننتهي في صنع المزيد من وحدات معالجة الرسومات ، وسيحقق الفيديو المزيد ، أليس كذلك؟ وبعد ذلك ، سوف تتحسن في ذلك ، وسوف يصبحون أرخص كلما قاموا بتوسيع نطاقه. وسيكون هناك أيضًا الكثير من طلاب البحث الذين يكتشفون خوارزميات أفضل لتدريب الشبكات العصبية الكبيرة. هذا سوف يتحسن. سيستخدم الناس نماذج قوية لتدريب نماذج أصغر وأسرع. هناك كل حلقات التغذية الراجعة المعقدة والمتداخلة ، لذا سأكون مندهشًا حقًا إذا توقف في أي وقت قريبًا. أعتقد أنه سيتسارع.
والموازنة في ذلك هي أن بعض الأشياء تزداد صعوبة بمرور الوقت. للعثور على المزيد من المضادات الحيوية ، يمكنك العثور على المضادات الحيوية التي يسهل العثور عليها أولاً ، ومع مرور الوقت ، يصبح العثور على مضادات جديدة أكثر صعوبة. من الممكن أن نحصل على المكاسب السهلة أولاً ، ثم تضغط على قوانين التوسع ، وهكذا. قال Open AI إنهم لا يعتقدون أن الطريق إلى مزيد من الذكاء هو تدريب نماذج أكبر وأكبر ، لكنني متشكك. ربما سنصل إلى حد هنا ، لكنني أراهن أننا سنحصل على مزيد من الذكاء مع نماذج أكبر.
"أعتقد أنه سيكون أكبر من الإنترنت. ربما بحجم الثورة الصناعية إذا سارت بعيدًا بما فيه الكفاية "
Emmet: علاوة على جميع المتغيرات التي وصفتها للتو ، الشيء الذي أذهلني والذي يختلف هذه المرة هو السرعة والحجم. This is totally different in terms of how quickly it's going to get integrated into our products and lives. Bill Gates had this post recently where he said it's the biggest deal in technology since the microprocessor in the '70s. And it makes you think. When he saw that microprocessor, it was him and a hundred guys at the Homebrew Computer Club in some meetup or something, and they got access to it, played with it, and gradually rolled it out. One of the things I thought was dizzying this time was, I guess, in March, when OpenAI started releasing APIs, and people started to hack on top of it.
Fergal: March for GPT-4 and stuff?
Emmet: Right, exactly. Millions of people got to hack on this immediately, and I think it's going to be a very different dynamic. The amount of creativity that can be applied to the raw technology is orders of magnitude bigger than we've ever had before, and it's just going to add to the complete lack of predictability here.
Fergal: I think this is a huge technology revolution. I said this back in my first podcast with Des after ChatGPT came out, and I think it's going to be bigger than the internet. Maybe as big as the industrial revolution if it goes far enough. But this is the first one of this magnitude we've had in a while. When the internet came, you had this long, slow deployment, you had to run fiber around the world, you had to figure out how do you get this to last mile to everybody. Now-
Emmet: The infrastructure for delivery is there.
Fergal: And so, what needs to happen at scale is GPUs. We probably need to build a lot of GPUs to be able to run inference at scale. We need to build products, and the products need to be adaptive. But the product development loop can be pretty fast, and the rest of it seems to be bottlenecked on scaling GPUs and [inaudible 00:43:46] economics. And I think the [inaudible 00:43:48] economics are going to get really good, really fast. Even GPT-3.5 Turbo is not expensive.
Emmet: Does the software get cheap fast enough for there to be no bottleneck around GPUs?
“There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here”
Fergal: Not at the moment. GPT-4 is a very expensive model and is absolutely bottlenecked on GPUs. But surely that will change. I've no private information here, but I suspect that GPT-3.5 Turbo is a distilled version of davinci-003 or something like that. It's cheaper to run. I bet it's cheaper on the backend too. Who knows, maybe they'll produce a distilled-down version of GPT-4 that is 10 times faster. That could happen anytime, for all I know.
Emmet: For the time being, though, the cost aspect is also a thing for product people to consider. There are some fundamental limitations based on the costs of providing this tech that I think a lot of businesses are also looking at it and going, “What's our model? What's our customer acquisition cost? How do we monetize usage of our product?” because there is probably a set of products out there where the use cases are ideally suited but the business model around the product is not. So there are a lot of interesting product challenges.
Fergal: Totally. And this was the case in the past. Once upon a time, Hotmail gave you a limit to the number of megabytes of email storage you would have. When Gmail came along, it was effectively unlimited because storage got cheap in the interim. There have been lots of products in the past that were bottlenecked on hardware costs, and then that bottleneck went away. I expect we're going to see something like that here. We're in the early days here. But a lot of the time, they're cheap compared to a human doing the same type of task. And so it's like, “Is it valuable enough? Is it something you wouldn't have a human do? Is it valuable enough to have a machine do it?” And for a lot of stuff, the answer is yes. I think we're going to see really fast adoption here.
Frictionless interfaces
Emmet: You talked about Gmail and the email limit, and famously, it was launched on April Fool's Day, and was it an April Fool's joke that they were giving you a gigabyte of storage. All of these new technical capabilities unlocked new interface possibilities. Now that you have a gigabyte, you don't have to archive or folder, you can just search, and everything can go in threads, so it changes the nature of the product that's possible.
AI is going to open up a whole bunch of new products. In the early days, we'll probably see a bunch of products retrofitting themselves, and we did this as well. “What's the easiest opportunity? We've got this often-used text box in our product. Let's add the ability to summarize, rephrase, shorten,” blah, blah, blah. We added that, and our customers loved it because it's a great use case when you're talking to your customers. Every text box on the internet that needs one will probably have one soon.
“I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces”
What are the next-level things? From an interface point of view, what will be possible? You're talking about a lot of money flooding in that's going to enable new types of products. We've been talking about conversational commerce, and at Intercom, we have spent a lot of time thinking about bots. Aside from the raw technical capabilities, it'll open up a whole offshoot of the evolution of software because you can build very different types of software with this now.
Fergal: I think that change could come quite fast. As a thought experiment, if you had an intelligent human whom you work with a lot who knows you and your preferences, and you were interfacing with them, they were driving the computer, and you were telling them what to do, what would that look like? A lot of the commands you would give would be verbal. Sometimes, you might reach down and say, “Oh, let me just take over the mouse from you,” but a lot of what you'd give would be high-level and verbal. But then you'd look at the screen to see the output. If someone has a bar chart with a bunch of data, you don't want to describe that verbally – you want to see that visually.
I think we're going to end up in a future where a lot of the input to the computer is verbal, and a lot of the output is going to be customized on the fly. It will probably be text because it's really fast, but I personally feel like user interfaces are likely to go away. Designers won't design user interfaces – AI agents will design user interfaces. If the agent feels you need to see a bar chart to make sense of the data, it'll render a bar chart. Otherwise, it'll render stuff in a very ad-hoc way. You basically get an interface customized to the task you want and what you're familiar with rather than something designed by someone.
You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's very plausible. We imagine that everything will become text-first now, and in fact, it means, “You'll have everything you have today plus a whole other set of things that are now text-first as well.” I think it'll be largely additive rather than upending things.
Fergal: I don't agree. I think there's going to be an upending moment here. I think every complex piece of software is going to have some sort of freeform texting where you describe your task, but I think it'll change. You will probably end up with an agent that navigates the software for you, and that's going to be better than navigating the software for 99% of the use cases.
Emmet: That's super different from the LLMs we're used to working with today in an important way. Today you talk to them, they give you text back, and that's it, but you're describing a world that maybe we're just starting to creep into with ChatGPT plug-ins where they're starting to act on your behalf.
Fergal: I think it's wrong to say you put text into them, and they give you text back. The really scrappy interface to ChatGPT and GPT-4 looks like that due to an accident of history. And on a technological level, they do, in fact, do text completion, but that's going to disappear pretty fast. That's not how we use Fin. In Fin, the LLM is a building block deep down. You talk to a bot, sometimes you click buttons together to do stuff, and you're going to see that again and again.
Initially, the fastest way to integrate LMMs is text input/text output, but they're just going to become a building block. Medium-term, LLMs are an intelligent building block that people learn to use to get software to do intelligent things. Long-term, you're probably going to end up with an intelligent agent; your browser is probably going to turn into an intelligent agent.
Emmet: And the agent is clicking on coordinates on the screen for you.
Fergal: Probably initially, for backward compatibility. But then, I think, you just build APIs. Why would you build websites?
Emmet: That's what the logical part of my brain thinks, but most of the software we build today is built using HTML, which was not designed. It's also an accident of history that we're building software applications using a markup language with loads of other stuff sprinkled on top. Maybe we'll just end up building what we have.
Fergal: I'm sure it'll be there as some compatibility or some intermediate layer.
Emmet: Or a fallback or something like that. What we're talking about there, to be clear, is looking at a picture of what's on your screen, finding the text that says, “click here,” and simulating moving your mouse to actually click on the “click here” for you? Is that what you're talking about when you mean an agent acting in the browser?
“We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task”
Fergal: No. And again, this is speculative, but imagine there's a legacy government website you want to get something done on. For example, you need to update your bank account details. What you do is say to your agent on your phone or desktop or browser, “Hey, I need to update my bank account on the government's social security website.” Your agent goes, “Okay, done.” In the background, your little intelligence agent went and drove the website; it didn't show that to you. After a certain point, people working in the government are going to be like, “Well, why do we need to keep building the websites? We just need to build the API.”
Emmet: Right. LLMs are a pretty awesome API to an API, in a sense. You can layer it on top, and it's just a more human-readable API to any machine-readable API.
Fergal: Yeah, exactly, but I'd phrase it differently. The intelligence we happen to have comes in the form of LLMs at the moment, but that's going to get abstracted away. We won't really care what it's like down underneath the hood. We just know we can ask for what we want, and it'll complete the task. If you say to it, “What was the unemployment rate in Ireland over the last 10 years for people in their 20s?” It'll go to the Central Statistics Office website, download the data, parse it, render a graph, and so on.
I have a talk coming up, and I needed a graph. I spent time on Google trying to find the exact one I had in my head, writing my search query in Google, and after two minutes, I just couldn't find the right graph. So, I went to GPT and said, “Generate me the following graph.” It generated the plug-in code, and I just put it into my notebook. I copied and pasted my graph and put it in my presentation. The fastest way for me to get the graph I wanted was to have an intelligence system generate the code. That was faster than trying to find it on Google. There's a lot of interface friction, but that's going to go away, and you're going to end up with a really fast agent that accomplishes tasks. Once you have that, it's going to eat your current software stack.
Emmet: I'm understanding what you're saying a little bit better, but I don't see all software being reduced to a text input box because that's the wrong input and output modality for a lot of stuff, including what you just described. A good example is all the image generation stuff, which is loads of fun to play with, but you've got to go onto a Discord bot to engage with Midjourney and hack it by writing F stop 1.4, hyper-realistic… No, this is fundamentally a visual thing I'm trying to create. I want a more tactile UI. I want more knobs and dials. What are the properties of it that I can dial up and down and play with rather than feeling my way blind in effectively a command line interface? Because the lack of affordances in a command line interface means it's often not the best UI.
فيرغال: لكن في المستقبل ، من المحتمل أن يكون هناك شيء تقوله لوكيلك مثل ، "مرحبًا ، أريد تعديل تلك الصور التي التقطتها بالأمس." وهو يعرفك ويعرف مستوى رقيك. إنه يعرف أنه عندما تريد تحرير صورك ، فأنت تبحث عن أربعة مرشحات وأداة قص ، أو بدلاً من ذلك ، تعرف أنك تريد القيام بأشياء فائقة الدقة. يذهب ويبحث في مكتبة الأنماط الخاصة به عن أفضل الواجهات لكل من هؤلاء ويعرض هذه الواجهة لك.
"ستعتمد كليا على المهمة التي تقوم بها. إذا كنت طيارًا ، فلن ترغب في الذهاب ، حان وقت الهبوط بالطائرة! مرحبًا ، LLM ، قم بالتجميع التلقائي لواجهة لأقوم بذلك ""
إيميت: ثم تقول ، "في الواقع ، أريدها أكثر احترافية." وتقول ، "حسنًا ، سأقدم لك الإصدار المحترف من واجهة المستخدم." وهو يجعل ذلك ديناميكيًا.
Fergal: انظر ، ستكون هناك بعض المهام التي تقوم بها حيث لا تريد تعلم كيفية استخدام الواجهة. كان ديس يتحدث عن هذا مؤخرًا في بودكاست مختلف. تحتاج إلى تحديث وقت إجازتك في Workday ، ولا تريد معرفة واجهة لذلك. أنت فقط تريد المهمة كاملة. ستكون هناك أشياء أخرى ، على سبيل المثال ، أنت فيها مبرمج محترف ، وأحتاج إلى تعلم كيفية استخدام IDE. لقد فكر بعض المصممين بتفصيل كبير حول ما أريده وأحتاج إلى القيام به ، وربما هناك طبقة خفيفة من التخصيص هناك ، ولكن لا تزال هناك واجهة مصممة جيدًا سأتعلم استخدامها. أعتقد أن واجهات السابق ، للمهام التي أريد القيام بها ، سوف تختفي ، أو سيتم تقديم الكثير منها على أساس مخصص. بالنسبة للأخير ، نعم ، سيكونون متكيفين.
إيميت: أتفق مع كل ما قلته. كما يحدث لي فارق بسيط إضافي. سوف يعتمد كليا على المهمة التي تقوم بها. إذا كنت طيارًا ، فلن ترغب في الذهاب ، "حان وقت الهبوط بالطائرة! مرحبًا ، LLM ، قم بالتجميع التلقائي لواجهة لأقوم بذلك ". أنا متأكد من أنه سيكون هناك تنظيم وأشياء من هذا القبيل. لكن هذا يعكس أحد الاختلافات الكبيرة ، والتي تنبع من العمل مع أجهزة الكمبيوتر ، والتي اعتقدنا دائمًا أنها آلات الحقيقة شديدة الحتمية والثنائية وتشغيل / إيقاف التشغيل التي تحركها المفاتيح ، والآن ، فجأة ، طبيعة هذا يتحول كثيرًا. وهذا تغيير كبير بالإضافة إلى كل الأشياء التي نصفها - ما يمكن أن تتوقعه ، وكيف تتوقع أن يعمل من أجلك شخصيًا ، ومقدار التبادلية أو التحكم الذي لديك فيه. أعتقد أننا سنبدأ في رؤية الكثير من الاختلافات التجريبية المثيرة ، ومن المحتمل أن يكون مستوى التخصيص الذي لدينا اليوم ، حيث يمكنك تغيير ورق الحائط الخاص بك أو أيًا كان حجم الخط ، باهتًا بالمقارنة.
باتجاه مركز الدائرة
إيميت: لقد قلت أيضًا شيئًا مثيرًا للاهتمام أردت أن أعود إليه. تخيل المصممين الذين يتجمعون في الغالب من مكتبة. مهمة تصميم واجهة المستخدم مثيرة للاهتمام لأننا نعد أنفسنا لذلك باستخدام أنظمة التصميم. نظام التصميم هو مكتبة أنماط من المكونات. إذا كنت تقوم ببناء منتج كبير ، فأنت تريد أن يكون متسقًا ، وتريد أن تكون قادرًا على تجميعه بسرعة. لذا فإن الكثير من الأعمال الأساسية التي كنا نضعها والأنظمة التي نبنيها ، حتى على ، دعنا نقول ، فرق التصميم ، وربما الفرق الهندسية أيضًا ، لبناء المكونات التي يمكن إعادة استخدامها بسرعة بواسطة هذه الأنظمة ، كلها موجهة تجاه قدرتنا على إنشاء هذه الأدوات بسرعة إلى حد ما. ما كنت تصفه هو شيء يأخذ نظام التصميم الخاص بك ويبني منه واجهة مستخدم ، ولا يبدو على بعد أميال.
Fergal: أو ربما يأخذ نظام التصميم القياسي مفتوح المصدر ويبني أداة منه. لا أعرف ما إذا كان هذا سيحدث على مستوى الشركات الفردية أم أنه سيحدث على مستوى أفقي واسع.
إيميت: نعم ، سيكون ذلك مملًا جدًا. سيكون ذلك مأساويا. قبل نظام التشغيل iOS السابع ، كان لدينا شكوى وكل شيء ، ثم ذهبوا إلى تصميم مسطح شديد الرأي ، وتأثرت الصناعة بأكملها بهيمنة Apple لدرجة أن جميع مواقع الويب بدأت تبدو متشابهة. أصدرت شركة Apple إرشاداتها الخاصة بالواجهة البشرية وقالت ، "انظر ، يجب أن تبدو تطبيقات iPhone بهذا الشكل الآن." لكنه أدى إلى تبسيط التنوع وشبكة أكثر مللاً ، في رأيي. وكان ذلك في خدمة هذه الأنظمة التي يمكنها بناء نفسها.
فيرغال: ستتمكن من إخبار وكيلك أنك تريده أن يبدو غير تقليدي وعتيق. عليك أن تتخيل أن ذلك سيحدث ، وأعتقد أن الأشياء ستصبح أكثر قابلية للتخصيص فيما يتعلق بما يستخدمه الأشخاص بالفعل لأن لديك طبقة ذكية تفهم كيفية إنشاء واجهة مع فريق معين. من المحتمل أن تفعل ذلك اليوم. إذا بدأت اليوم لبناء Midjourney لواجهات المستخدم ، فمن المحتمل أن تفعل ذلك. لدينا GPT-4 التي يمكنها إنشاء كود أو CSS لكتابة واجهات المستخدم ، ولدينا نماذج تركيب الصور حيث تقوم بتضمين كل الصور والنص ، وتقوم نوعًا ما بضغطها معًا. أراهن أنك تستطيع بناء شيء بسرعة كبيرة.
إيميت: إنه مضحك للغاية لأنك تقول هذا ، ورد فعلي العاطفي هو ، "لا ، أنت لا تفهم ذلك. عليك أن تفكر في سهولة الاستخدام وفهم البشر وكل هذا النوع من الأشياء ". وبعد ذلك أقول ، "نعم ، إنها القدرات المنطقية التي تحدثنا عنها ، ويبدو أنها تمتلكها الآن." لذا وبينما نتحدث عن ذلك ، فإنني أعاني من ذلك العاطفي ...
فيرجال: أزمة.
Emmet: الذكاء الاصطناعي قادم من أجل انضباطك. لكنني بصراحة لست قلقًا حيال ذلك لأنني أعتقد أن الكثير من المصممين ، وقد سمعت هذا أيضًا للمبرمجين ، لن يحزنوا على العمل الشاق الذي يجعله هذا أسرع ويحسن إلى حد كبير. إنها في الواقع تسمح لهم ربما بالارتقاء إلى مستوى التكبير والتفكير قليلاً في الحل بدلاً من تنفيذ الحل. لا تزال منتجات البناء شاقة للغاية وتستغرق وقتًا طويلاً للغاية ، وأعتقد أنه سيكون من الرائع رؤية ما سيحدث إذا أخذنا بعض الأعمال الشاقة من ذلك.
فيرجال: أعني ، إنه هذا النقاش بأكمله حول الوظائف والتعيينات الوظيفية وتغيير الوظيفة ، وسيحدث شيء ما هنا. عندما أسمع ذلك ، فأنا أقول ، "ربما هذا يعني أنك لست بحاجة إلى مصممين بعد الآن - ربما تحتاج فقط إلى مديري منتجات." ويمكن لمدير المنتج الآن القيام بكل شيء اعتاد المصمم القيام به. ربما لا تحتاج إلى مبرمج - ربما تحتاج فقط إلى مدير منتج. ونتحول جميعًا إلى مديري منتجات في المستقبل. لا أعرف. ربما يمكن أن يكون هناك الكثير من الأدوار والوظائف من هذا القبيل ، أو ربما ستكون أقل.
إيميت: أعتقد أنه يجب علينا الاعتماد على ذلك. أحد الأشياء التي لاحظتها في مسيرتي هو أنه كلما تقدمت في السن ، قلت تحديدًا لانضباطك. عليك أن تصبح أكثر من قائد عام.
فيرغال: لقد أجريت هذه المحادثة مع أحد أعضاء فريق التصميم. عندما تكون مبتدئًا في تخصص مثل الهندسة أو المنتج أو التصميم ، فأنت على حافة دائرة. وبعد ذلك ، مع تقدمك في السن ، تتجه أكثر فأكثر نحو المركز. في وسط الدائرة يوجد المنتج. وهكذا ، كلما تقدمت أكثر فأكثر ، أصبح عالمك أكثر فأكثر حول المنتج الذي تقوم ببنائه وأقل وأقل فيما يتعلق بالزاوية التي أتيت منها.
إيميت: أستطيع أن أرى ذلك أيضًا. لذا ، سنصبح جميعًا رؤساء وزراء ، هل هذه هي الخطة؟
فيرغال: نعم ، أعني ، في النهاية ، هذا ما نحاول القيام به في وظيفة كهذه.
Emmet: أعني ، ما هو PM إن لم يكن شخص منتج بدون أي مهارات عملية قابلة للتطبيق بشكل مباشر ، هل أنا على حق ، Fergal؟
فيرغال ريد: أجل ، أعرف. ما هو PM؟
إيميت: أعتقد أننا يجب أن نختتم. في صحتك يا فيرغال.
Fergal: شكرًا ، Emmet.