يُعتبر نموذج GPT-4 من OpenAI إلى حدٍ ما أفضل نموذج ذكاء اصطناعي توليدي مُتاح حاليًا في السوق، لكن هذا لا يعني أننا لا نتطلع إلى المستقبل. مع قيام الرئيس التنفيذي لشركة OpenAI “سام التمان” بإسقاط بعض التلميحات المنتظمة حول قرب وصول GPT-5، يبدو من المُحتمل أننا سنرى نموذجًا جديدًا ومُحدثًا وأكثر تقدمًا للذكاء الاصطناعي قريبًا.
على الأقل، هذا ما نأمله. لا يوجد تاريخ مُحدد لإطلاق GPT-5، ومعظم ما نعتقد أننا نعرفه يأتي من تجميع المعلومات الأخرى ومحاولة ربط النقاط المُتفرقة مع بعضها. تحقق من أسباب البدء في استخدام Claude 3 بدلاً من ChatGPT.
ومع ذلك، بغض النظر عن تاريخ التسليم، هناك بعض الميزات الرئيسية التي نرغب في رؤيتها عند إطلاق GPT-5.
روابط سريعة
ما هو GPT-5 الخاص بـ OpenAI؟
يعد نموذج GPT-5 هو الوريث المُرتقب لنموذج GPT-4 AI من OpenAI، والذي من المُتوقع على نطاق واسع أن يكون أقوى نموذج توليدي في السوق. على الرغم من أنه لا يوجد حاليًا تاريخ إصدار رسمي لـ GPT-5، إلا أنَّ هناك دلائل تشير إلى أنه يمكن إصداره في وقت مُبكر من صيف عام 2024. ولا يُعرف سوى القليل جدًا من التفاصيل حول النموذج في هذا الوقت، ولكن يُمكن قول العديد من الأشياء حوله بقدر من الثقة. للتأكيد:
- قامت OpenAI بتقديم علامة تجارية للاسم لدى مكتب براءات الاختراع والعلامات التجارية بالولايات المتحدة.
- ناقش العديد من المُديرين التنفيذيين في OpenAI أو ألمحوا إلى القدرات المُحتملة للنموذج.
- ذكر سام ألتمان، الرئيس التنفيذي لشركة OpenAI، النموذج مرارًا وتكرارًا خلال مقابلة على YouTube في مارس 2024 مع ليكس فريدمان.
تُشير كل هذه الأمور إلى حقيقة واحدة مُثيرة: GPT-5 قادم! ومع ذلك، فإنَّ الكثير من الأشياء هي مجرد تكهنات حوله في هذه المرحلة. ولكن هناك بعض الميزات التي نأمل أن نراها ونحن واثقون إلى حد ما من رؤيتها في هذا النموذج. وهنا بعض منها:
1. دعم المزيد من الوسائط المُتعددة
أحد التحسينات الأكثر إثارة لعائلة GPT من نماذج الذكاء الاصطناعي هو تعدد الوسائط. من أجل الوضوح، تعدد الوسائط هو قدرة نموذج الذكاء الاصطناعي على معالجة أكثر من مجرد الإدخال النصي ولكن أيضًا أنواع أخرى من المُدخلات مثل الصور والصوت والفيديو. ستكون تعدد الوسائط بمثابة معيار تقدم مُهم لمجموعة نماذج GPT في المُستقبل.
نظرًا لمهارة GPT-4 بالفعل في التعامل مع مدخلات ومخرجات الصور، فإنَّ التحسينات التي تُغطي معالجة الصوت والفيديو هي الإنجاز التالي لـ OpenAI، ويُعد GPT-5 مكانًا جيدًا للبدء. تحرز Google بالفعل تقدمًا جديًا في هذا النوع من الوسائط المُتعددة من خلال نموذج Gemini AI الخاص بها. سيكون من غير المُعتاد أن لا تستجيب OpenAI. لكن، بالطبع، لا تأخذ كلمتنا على محمل الجد. في البودكاست الخاص به Unconfuse Me [نسخة PDF]، سأل بيل جيتس سام ألتمان، الرئيس التنفيذي لشركة OpenAI، عن المعالم الرئيسية التي يتوقعها لسلسلة GPT في العامين المُقبلين. إجابته الأولى؟ كانت معالجة الفيديو.
لذا، بالنسبة لـ GPT-5، نتوقع أن نكون قادرين على التعامل مع مقاطع الفيديو — تحميل مقاطع الفيديو كمُطالبات، وإنشاء مقاطع فيديو أثناء التنقل، وتعديل مقاطع الفيديو باستخدام مُطالبات نصية، واستخراج مقاطع من مقاطع الفيديو، والعثور على مشاهد مُحددة من ملفات فيديو كبيرة. نتوقع أن نكون قادرين على القيام بأشياء مُماثلة للملفات الصوتية. إنه طلب كبير، نعم. ولكن نظرًا لمدى سرعة تطور الذكاء الاصطناعي، فهو توقع معقول جدًا.
2. نافذة سياق أكبر وأكثر كفاءة
على الرغم من كونها واحدة من أكثر نماذج الذكاء الاصطناعي تطورًا في السوق، إلا أنَّ عائلة نماذج الذكاء الاصطناعي GPT لديها واحدة من أصغر نوافذ السياق. على سبيل المثال، يتميز Claude 3 من Anthropic بنافذة سياق تحتوي على 200.000 رمز مُميز، بينما يُمكن لـ Gemini من Google معالجة 1.000.000 رمز مُميز وهو رقم مُذهل (128.000 للاستخدام القياسي). في المقابل، يحتوي GPT-4 على نافذة سياق أصغر نسبيًا تبلغ 128.000 رمزًا مميزًا، مع ما يقرب من 32.000 رمزًا مميزًا أو أقل متاحة بشكل واقعي للاستخدام على واجهات مثل ChatGPT.
مع ظهور الوسائط المُتعددة المُتقدمة في الواجهة، أصبح تحسين نافذة السياق أمرًا لا مفر منه تقريبًا. ربما تكون الزيادة بعامل اثنين أو أربعة كافية، لكننا نأمل أن نرى شيئًا مثل عامل العشرة. سيسمح هذا لـ GPT-5 بمعالجة المزيد من المعلومات بطريقة أكثر كفاءة. الآن، لا تعني نافذة السياق الأكبر دائمًا الأفضل. لذا، بدلاً من مجرد زيادة نافذة السياق، نود أن نرى زيادة في كفاءة معالجة السياق.
كما ترى، قد يحتوي النموذج على نافذة سياق مُكوَّنة من 1.000.000 رمز مُميز (سعة حوالي 700.000 كلمة) ولكنه يفشل في إنتاج ملخص شامل عندما يُطلب منه تلخيص كتاب مُكوَّن من 500.000 كلمة لأنه لا يمكنه معالجة السياق بأكمله بشكل مناسب على الرغم من وجود القدرة على القيام بذلك من الناحية النظرية. إن قدرتك على قراءة كتاب مُكوَّن من 500.000 كلمة لا يعني أنه يمكنك تذكر كل شيء فيه أو معالجته بشكل معقول. تحقق من لماذا تُعد نافذة السياق التي تضم مليون رمز مُميز في Gemini 1.5 تغييرًا في قواعد اللعبة.
3. وكلاء GPT
ربما يكون أحد أكثر الاحتمالات إثارة لإصدار GPT-5 هو ظهور وكلاء GPT لأول مرة. في حين أنه من المُحتمل أن يكون مصطلح “مُغيِّر قواعد اللعبة” قد تم الإفراط في استخدامه في الذكاء الاصطناعي، فإنَّ إضافة عملاء GPT ستُغيِّر قواعد اللعبة بكل معنى الكلمة. ولكن إلى أي حد سيكون هذا التغيير المُحتمل؟
حاليًا، يُمكن لنماذج الذكاء الاصطناعي مثل GPT-4 مساعدتك في إكمال المُهمة. يمكنها كتابة بريد إلكتروني، أو فك نكتة، أو حل مسألة رياضية، أو صياغة مشاركة مدونة لك. ومع ذلك، يُمكنها فقط القيام بهذه المهمة المُحددة ولا يمكنها إكمال مجموعة من المهام ذات الصلة التي قد تكون ضرورية لإكمال عملك.
لنفترض أنك مطور ويب. كجزء من وظيفتك، يُتوقع منك القيام بالعديد من الأشياء: التصميم، وكتابة التعليمات البرمجية، واستكشاف الأخطاء وإصلاحها، وغير ذلك الكثير. حاليًا، يمكنك فقط تفويض جزء من هذه المهام إلى نماذج الذكاء الاصطناعي في المرة الواحدة. ربما يُمكنك أن تطلب من نموذج GPT-4 أن يكتب تعليمات برمجية لتكوين الصفحة الرئيسية، ثم تطلب منه القيام بذلك لصفحة الاتصال، ثم لصفحة “حول”، وما إلى ذلك. ستحتاج إلى إكمال هذه المهام بشكل مُتكرر. وهناك مهام لا تستطيع النماذج إكمالها.
هذه العملية التكرارية المتمثلة في تحفيز نماذج الذكاء الاصطناعي للقيام بمهام فرعية محددة تستغرق وقتًا طويلاً وغير فعالة. في هذا السيناريو، أنت — مطور الويب — هو الوكيل البشري المسؤول عن تنسيق وتحفيز نماذج الذكاء الاصطناعي بمهمة واحدة في كل مرة حتى يُكمل مجموعة كاملة من المهام ذات الصلة.
يَعد وكلاء GPT بوجود روبوتات مُتخصصة يتم تنسيقها بواسطة GPT-5، كما نأمل، قادرة على التوجيه الذاتي ومعالجة جميع المجموعات الفرعية لمهمة مُعقَّدة بشكل مُستقل. التركيز على “التحفيز الذاتي” و”الاستقلال الذاتي”.
لذا، إذا كان GPT-5 يأتي مع وكلاء GPT، فيُمكنك أن تطلب منه “إنشاء موقع ويب لمحفظة أعمال Maxwell Timothy” بدلاً من مجرد “كتابة كود للصفحة الرئيسية.” ومن ثم سيكون GPT-5 قادرًا من الناحية النظرية على بدء المُطالبة الذاتية من خلال استدعاء وكلاء الذكاء الاصطناعي الخبراء للتعامل مع المهام الفرعية المختلفة اللازمة لإنشاء موقع ويب. قد يستدعي GPT واحدًا لتصفح الويب للحصول على معلومات حول Maxwell Timothy، ووكيلًا آخر لكتابة التعليمات البرمجية لصفحات مُختلفة، ووكيلًا آخر لإنشاء الصور وتحسينها، وحتى وكيلًا آخر للذكاء الاصطناعي لنشر موقع الويب، كل ذلك دون الحاجة إلى تدخل بشري مُتكرر من خلال المُطالبات. تحقق من هل يستحق الأمر استخدام Auto-GPT بدون GPT-4؟
4. هلوسة أقل
على الرغم من أنَّ OpenAI قطعت شوطًا طويلًا في التعامل مع الهلوسة في نماذج الذكاء الاصطناعي الخاصة بها، فإن الاختبار الحقيقي لـ GPT-5 سيكون قدرتها على معالجة مشكلة الهلوسة المُستمرة، والتي أعاقت اعتماد الذكاء الاصطناعي على نطاق واسع بسبب المخاطر العالية المُرتبطة به خاصةً في المجالات الحرجة للسلامة مثل الرعاية الصحية والطيران والأمن السيبراني. هذه كلها مجالات من شأنها أن تستفيد بشكل كبير من المشاركة المُكثَّفة للذكاء الاصطناعي ولكنها تتجنب حاليًا أي اعتماد كبير.
# On the "hallucination problem"
I always struggle a bit with I'm asked about the "hallucination problem" in LLMs. Because, in some sense, hallucination is all LLMs do. They are dream machines.
We direct their dreams with prompts. The prompts start the dream, and based on the…
— Andrej Karpathy (@karpathy) December 9, 2023
من أجل الوضوح، تُشير الهلوسة في هذا السياق إلى المواقف التي يقوم فيها نموذج الذكاء الاصطناعي بإنشاء وتقديم معلومات تبدو معقولة ولكنها مُلفقة تمامًا بدرجة عالية من الثقة. تحقق من طرق منع الهلوسة لدى نماذج الذكاء الاصطناعي.
تخيل سيناريو يتم فيه دمج GPT-4 في نظام تشخيصي لتحليل أعراض المريض والتقارير الطبية. يُمكن للهلوسة أن تدفع الذكاء الاصطناعي إلى تقديم تشخيص غير صحيح بثقة أو التوصية بدورة علاجية قد تكون خطيرة بناءً على حقائق مُتخيلة ومنطق زائف. عواقب مثل هذا الخطأ في المجال الطبي يمكن أن تكون كارثية.
وتنطبق تحفظات مماثلة على مجالات أخرى ذات أهمية كبيرة، مثل الطيران، والطاقة النووية، والعمليات البحرية، والأمن السيبراني. لا نتوقع أن يحل GPT-5 مشكلة الهلوسة بشكل كامل، لكننا نتوقع أن يُقلل بشكل كبير من احتمالية وقوع مثل هذه الحوادث.
وبينما ننتظر بفارغ الصبر الإصدار الرسمي لنموذج الذكاء الاصطناعي هذا الذي طال انتظاره، هناك شيء واحد مؤكد: وهو أن GPT-5 لديه القدرة على إعادة تعريف حدود ما هو ممكن باستخدام الذكاء الاصطناعي، مما يُبشر بعصر جديد من التعاون والابتكار بين الإنسان والآلة. يُمكنك الإطلاع الآن على أفضل مُولدات المُطالبات الذكية لأي نموذج مدعوم بالذكاء الاصطناعي.