لقد قطع الذكاء الاصطناعي شوطًا طويلاً بدءًا من إنتاج مُخرجات غير ملائمة وغير مُتماسكة إلى أن يُصبح أكثر تطورًا. تستخدم روبوتات الدردشة الحديثة نماذج لغة مُتقدمة تُجيب على أسئلة المعرفة العامة ، وتُؤلف مقالات مطولة ، وتكتب التعليمات البرمجية ، من بين المهام المُعقَّدة الأخرى.
على الرغم من هذه التطورات ، لاحظ أنه حتى أكثر الأنظمة تطوراً لها قيود. لا يزال الذكاء الاصطناعي يرتكب الأخطاء. لتحديد روبوتات الدردشة الأقل عرضة للهلوسة ، يُمكنك اختبار دقتها بناءً على هذه العوامل. تحقق من معظم روبوتات الدردشة القائمة على الذكاء الاصطناعي للتحدث معها والاستمتاع.
روابط سريعة
1. الحساب الرياضي
يجب عليك البدء بإضافة المعادلات الرياضية من خلال روبوتات الدردشة. حيث ستختبر قدرة النموذج على تحليل مشاكل الكلمات وترجمة المفاهيم الرياضية وتطبيق الدوال الصحيحة. فقط عدد قليل من النماذج تظهر موثوقية الحساب. في الواقع ، كان الفهم الرهيب للرياضيات من أسوأ مشكلات ChatGPT خلال الأشهر الأولى.
تظهر الصورة أدناه فشل ChatGPT في الإحصائيات الأساسية.
أظهر ChatGPT تحسنًا بعد طرح OpenAI تحديثات مايو 2023. ولكن بالنظر إلى مجموعات البيانات المحدودة ، ستظل تواجه مشكلة في المعادلات الرياضية المُتوسطة إلى المُتقدمة.
وفي الوقت نفسه ، يُظهر Bing Chat و Google Gemini طريقة أفضل في الحساب. حيث تقوم بتشغيل الاستعلامات من خلال محركات البحث الخاصة بها ، مما يُمكنها من سحب الدوال وتفاصيل الإجابات.
نصيحة: حاول إعادة صياغة كلمات المشاكل الرياضية. تجنب الجمل المطولة واستبدل الأفعال الضعيفة ؛ خلاف ذلك ، قد تُسيء روبوتات الدردشة فهم أسئلتك.
2. الفهم
يُمكن لنماذج الذكاء الاصطناعي الحديثة القيام بمهام مُتعددة. تُمكِّنها LLMs المُتقدمة من الاحتفاظ بالتعليمات السابقة والإجابة على المُطالبات حسب القسم ، بينما تُعالج الأنظمة الأقدم أوامر فردية. على سبيل المثال ، يُجيب Siri على سؤال واحد في كل مرة.
قم بتغذية روبوتات الدردشة من ثلاث إلى خمس مهام في وقت واحد لاختبار مدى جودة تحليلها للمُطالبات المُعقَّدة. لا تستطيع النماذج الأقل تطورًا وتقدمًا معالجة هذا القدر من المعلومات. تُظهر الصورة أدناه حدوث خلل في HuggingChat في مُطالبة من ثلاث خطوات — يتوقف عند الخطوة الأولى ويبتعد عن أصل الموضوع.
سطور HuggingChat الأخيرة غير مُتماسكة بالفعل.
يقوم ChatGPT بإكمال نفس المُطالبة بسرعة ، مما ينتج عنه استجابات ذكية وخالية من الأخطاء في كل خطوة.
يُوفر Bing Chat إجابة مُكثفة على الخطوات الثلاث. تحظر قيوده الصارمة المخرجات الطويلة غير الضرورية التي تهدر طاقة المعالجة.
3. توقيت المعلومات
نظرًا لأن التدريب على الذكاء الاصطناعي يُكلف موارد هائلة ، فإنَّ معظم المطورين يقصرون مجموعات البيانات على فترات مُحددة. خذ ChatGPT كمثال. له موعد معرفي مُحدد في أيلول (سبتمبر) 2021 — لا يمكنك طلب تحديثات الطقس أو التقارير الإخبارية أو التطورات الأخيرة. إليك ChatGPT وهو يقول إنه لا يُمكنه الوصول إلى المعلومات في الوقت الفعلي.
Gemini لديه إمكانية الوصول إلى الإنترنت. حيث يسحب البيانات من Google SERPs ، بحيث يُمكنك طرح مجموعة أوسع من الأسئلة ، على سبيل المثال ، الأحداث الأخيرة والأخبار والتنبؤات.
وبالمثل ، يسحب Bing Chat المعلومات في الوقت الفعلي من محرك البحث الخاص به.
يُقدم كل من Bing Chat و Gemini معلومات مُحدثة في الوقت المُناسب ، ولكن الأخير يُوفر ردودًا أكثر تفصيلاً. يُقدم Bing البيانات كما هي فقط. ستُلاحظ أنَّ النتائج غالبًا ما تتطابق مع صياغة ولهجة المصادر المُرتبطة بها حرفيًا. تحقق من مُقارنة بين Gemini و ChatGPT وبين Offline Alpaca: أيهم أفضل نماذج اللغات الكبيرة؟
4. الصلة بالموضوع
يجب أن تُوفر روبوتات الدردشة المُخرجات ذات الصلة والمُتوقعة. يجب أن تأخذ في الاعتبار المعنى الحرفي والسياقي لمُطالباتك عند تقديم الاستجابة المُوافقة. خذ هذه المحادثة كمثال. تحتاج الشخصية إلى هاتف جديد ، ولكن لديها 1000 دولار فقط — لا يتجاوز ChatGPT الميزانية.
عند اختبار الملاءمة ، حاول صياغة تعليمات مُطولة. تميل روبوتات الدردشة الأقل تعقيدًا إلى الانحراف عند تلقي تعليمات مُربكة. على سبيل المثال ، يُمكن لـ HuggingChat أن يؤلف قصصًا خيالية. ولكن قد ينحرف عن الموضوع الرئيسي إذا قمت بتعيين الكثير من القواعد والإرشادات.
5. الذاكرة السياقية
تُساعد الذاكرة السياقية الذكاء الاصطناعي على إنتاج مخرجات دقيقة وموثوقة. بدلاً من أخذ أسئلتك في ظاهرها ، يقوم بتجميع التفاصيل التي ذكرتها معًا. خذ هذه المحادثة كمثال. يربط Bing Chat رسالتين مُنفصلتين لتكوين استجابة مفيدة وموجزة.
وبالمثل ، تسمح الذاكرة السياقية لروبوتات الدردشة بتذكر التعليمات. تُظهر هذه الصورة ChatGPT وهو يُحاكي الطريقة التي تتحدث بها الشخصية الخيالية خلال العديد من الدردشات.
اختبر هذه الوظيفة بنفسك من خلال الرجوع باستمرار إلى العبارات السابقة. قم بتغذية روبوتات الدردشة بمعلومات مختلفة ، ثم أجبرها على تذكرها في الردود اللاحقة.
ملاحظة: الذاكرة السياقية محدودة. يبدأ Bing Chat مُحادثات جديدة كل 20 منعطفًا ، بينما لا يستطيع ChatGPT معالجة المُطالبات التي تزيد عن 3000 رمز مُميز. تحقق من ما هو حد الرمز المُميز لـ ChatGPT وهل يُمكنك تجاوزه؟
6. القيود الأمنية
لا يعمل الذكاء الاصطناعي دائمًا على النحو المنشود. يُمكن أن يتسبب التدريب الخاطئ في ارتكاب تقنيات تعلم الآلة لأخطاء مختلفة ، من الأخطاء الحسابية البسيطة إلى التعليقات التي تنطوي على مشاكل. خذ Microsoft Tay كمثال. استغل مُستخدمو Twitter نموذج التعلم غير الخاضع للإشراف وشرطوه بقول الإهانات العرقية.
لحسن الحظ ، تعلمت شركات التكنولوجيا العالمية من خطأ Microsoft الفادح. على الرغم من أنَّ التعلم غير الخاضع للإشراف فعَّال من حيث التكلفة وملائم ، إلا أنه يترك أنظمة الذكاء الاصطناعي عرضة للخداع. وبالتالي ، يعتمد المُطورون بشكل أساسي على التعلم الخاضع للإشراف في الوقت الحاضر. لا تزال روبوتات الدردشة مثل ChatGPT تتعلم من المحادثات ، لكن المدربين يقومون بتصفية المعلومات أولاً.
توقع إرشادات مُختلفة من شركات الذكاء الاصطناعي. تستوعب قيود ChatGPT الأقل صرامة نطاقًا أوسع من المهام ، لكنها ضعيفة ضد الاستغلال. وفي الوقت نفسه ، يتبع Bing Chat حدودًا أكثر صرامة. بينما تُساعد في مكافحة محاولات الاستغلال ، فإنها تُعيق أيضًا الوظائف. يقوم Bing تلقائيًا بإغلاق المحادثات التي يُحتمل أن تكون ضارة. تحقق من هل يتعلم ChatGPT من مُحادثات المستخدم؟
7. تحيزات الذكاء الاصطناعي
الذكاء الاصطناعي مُحايد بطبيعته. إنَّ افتقاره إلى التفضيلات والعواطف يجعله غير قادر على تكوين الآراء — إنه مجرد طريقة لتقديم المعلومات التي تعرفها. إليك كيفية استجابة ChatGPT للمواضيع الشخصية.
على الرغم من هذا الحياد ، لا تزال تحيزات الذكاء الاصطناعي تظهر. إنها تنبع من الأنماط ومجموعات البيانات والخوارزميات والنماذج التي يستخدمها المطورون. قد يكون الذكاء الاصطناعي مُحايدًا ، لكن البشر ليسوا كذلك.
على سبيل المثال ، تدَّعي مؤسسة Brookings Institution أنَّ ChatGPT يُظهر تحيزات يسارية سياسية. OpenAI تنفي هذه المزاعم بالطبع. ولكن لتجنب حدوث مشكلات مُماثلة مع الطرز الأحدث ، يتجنب ChatGPT النواتج ذات الرأي تمامًا.
وبالمثل ، يتجنب Bing Chat الأمور الحساسة والذاتية.
يُمكن تقييم الذكاء الاصطناعي حول التحيز عن طريق طرح أسئلة مفتوحة قائمة على الرأي. تحدث عن مواضيع لا تحتوي على إجابة صحيحة أو خاطئة — من المحتمل أن تعرض روبوتات الدردشة الأقل تعقيدًا تفضيلات لا أساس لها تجاه مجموعات معينة. تحقق من طرق تُؤثر بها روبوتات الدردشة على إنشاء المُحتوى.
8. المراجع
نادرًا ما يتحقق الذكاء الاصطناعي من الحقائق مرة أخرى. إنه يقوم فقط بسحب المعلومات من مجموعات البيانات الخاصة به وإعادة صياغتها من خلال نماذج اللغة. لسوء الحظ ، يتسبب التدريب المحدود في حدوث هلوسة الذكاء الاصطناعي. لا يزال بإمكانك استخدام أدوات الذكاء الاصطناعي التوليدي للبحث ، ولكن تأكد من التأكد من الحقائق بنفسك. خذ الناتج على أنه توجيه.
يُبسط Bing Chat عملية التحقق من الحقائق من خلال سرد مراجعه بعد كل إخراج.
لا يسرد Gemini AI مصادره ولكنه يُنشئ تفسيرات مُحدثة ومُتعمقة عن طريق تشغيل استعلامات بحث Google. ستحصل على النقاط الرئيسية من SERPs.
ChatGPT عرضة لعدم الدقة. يمنعه انقطاع المعرفة عند عام 2021 من الإجابة على الأسئلة المُتعلقة بالأحداث والحوادث الأخيرة.
تحقق من بعض المشاكل الكبيرة مع ChatGPT من OpenAI.
أنشئ طرقًا جديدة لاختبار روبوتات الدردشة للتأكد من دقتها
الذكاء الاصطناعي ليس هو كل شيء وليس نهاية كل التكنولوجيا. على الرغم من أنَّ أنظمة الذكاء الاصطناعي ونماذج اللغة المُتطورة تُؤدي إنجازات رائعة ، فإنها ترتكب أيضًا أخطاء وتناقضات. اعرض روبوتات الدردشة أمام تقييمك. لا يُمكنك استخدام المنصات التي تعتمد على الذكاء الاصطناعي إلا إذا كنت تفهم وظائفها وقيودها.
على الرغم من وجود العشرات من روبوتات الدردشة مُتعددة المنصات ، إلا أنَّ موثوقيتها ودقتها قد تُخيب ظنك. سوف تُضيِّع الوقت فقط في اختبارها. لضمان نتائج عالية الجودة ، نقترح التركيز على النماذج الثلاثة الأكثر قوة في السوق: ChatGPT و Bing AI و Google Gemini.