العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها

لقد قطع الذكاء الاصطناعي شوطًا طويلاً بدءًا من إنتاج مُخرجات غير ملائمة وغير مُتماسكة إلى أن يُصبح أكثر تطورًا. تستخدم روبوتات الدردشة الحديثة نماذج لغة مُتقدمة تُجيب على أسئلة المعرفة العامة ، وتُؤلف مقالات مطولة ، وتكتب التعليمات البرمجية ، من بين المهام المُعقَّدة الأخرى.

على الرغم من هذه التطورات ، لاحظ أنه حتى أكثر الأنظمة تطوراً لها قيود. لا يزال الذكاء الاصطناعي يرتكب الأخطاء. لتحديد روبوتات الدردشة الأقل عرضة للهلوسة ، يُمكنك اختبار دقتها بناءً على هذه العوامل. تحقق من معظم روبوتات الدردشة القائمة على الذكاء الاصطناعي للتحدث معها والاستمتاع.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 1 | 1CAUb1Fi9z8UeIypcUZx8kA DzTechs

1. الحساب الرياضي

يجب عليك البدء بإضافة المعادلات الرياضية من خلال روبوتات الدردشة. حيث ستختبر قدرة النموذج على تحليل مشاكل الكلمات وترجمة المفاهيم الرياضية وتطبيق الدوال الصحيحة. فقط عدد قليل من النماذج تظهر موثوقية الحساب. في الواقع ، كان الفهم الرهيب للرياضيات من أسوأ مشكلات ChatGPT خلال الأشهر الأولى.

تظهر الصورة أدناه فشل ChatGPT في الإحصائيات الأساسية.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 2 | 1C5LR73cwdU3IN8jN21MBvw DzTechs

أظهر ChatGPT تحسنًا بعد طرح OpenAI تحديثات مايو 2023. ولكن بالنظر إلى مجموعات البيانات المحدودة ، ستظل تواجه مشكلة في المعادلات الرياضية المُتوسطة إلى المُتقدمة.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 3 | 1k91J5bD4FMiztnOoNKSrNw DzTechs

وفي الوقت نفسه ، يُظهر Bing Chat و Google Bard طريقة أفضل في الحساب. حيث تقوم بتشغيل الاستعلامات من خلال محركات البحث الخاصة بها ، مما يُمكنها من سحب الدوال وتفاصيل الإجابات.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 4 | 1cLWafHZxEchJoQoGoLmYRw DzTechs

نصيحة: حاول إعادة صياغة كلمات المشاكل الرياضية. تجنب الجمل المطولة واستبدل الأفعال الضعيفة ؛ خلاف ذلك ، قد تُسيء روبوتات الدردشة فهم أسئلتك.

2. الفهم

يُمكن لنماذج الذكاء الاصطناعي الحديثة القيام بمهام مُتعددة. تُمكِّنها LLMs المُتقدمة من الاحتفاظ بالتعليمات السابقة والإجابة على المُطالبات حسب القسم ، بينما تُعالج الأنظمة الأقدم أوامر فردية. على سبيل المثال ، يُجيب Siri على سؤال واحد في كل مرة.

قم بتغذية روبوتات الدردشة من ثلاث إلى خمس مهام في وقت واحد لاختبار مدى جودة تحليلها للمُطالبات المُعقَّدة. لا تستطيع النماذج الأقل تطورًا وتقدمًا معالجة هذا القدر من المعلومات. تُظهر الصورة أدناه حدوث خلل في HuggingChat في مُطالبة من ثلاث خطوات — يتوقف عند الخطوة الأولى ويبتعد عن أصل الموضوع.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 5 | 1qXySuYqVk9vrkH bfD5GEA DzTechs

سطور HuggingChat الأخيرة غير مُتماسكة بالفعل.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 6 | 1X f3pgLWhqn 3fCeFae6pw DzTechs

يقوم ChatGPT بإكمال نفس المُطالبة بسرعة ، مما ينتج عنه استجابات ذكية وخالية من الأخطاء في كل خطوة.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 7 | 1Zxagl L4knjq51JeWIQ6lg DzTechs

يُوفر Bing Chat إجابة مُكثفة على الخطوات الثلاث. تحظر قيوده الصارمة المخرجات الطويلة غير الضرورية التي تهدر طاقة المعالجة.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 8 | 15dnCQ0a55tkbCBOMW4q1Tw DzTechs

3. توقيت المعلومات

نظرًا لأن التدريب على الذكاء الاصطناعي يُكلف موارد هائلة ، فإنَّ معظم المطورين يقصرون مجموعات البيانات على فترات مُحددة. خذ ChatGPT كمثال. له موعد معرفي مُحدد في أيلول (سبتمبر) 2021 — لا يمكنك طلب تحديثات الطقس أو التقارير الإخبارية أو التطورات الأخيرة. إليك ChatGPT وهو يقول إنه لا يُمكنه الوصول إلى المعلومات في الوقت الفعلي.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 9 | 1p aEHlqbfzXNEyxqR ab2A DzTechs

Bard لديه إمكانية الوصول إلى الإنترنت. حيث يسحب البيانات من Google SERPs ، بحيث يُمكنك طرح مجموعة أوسع من الأسئلة ، على سبيل المثال ، الأحداث الأخيرة والأخبار والتنبؤات.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 10 | 1O9YDbtT4MspiaNFC5GdgCw DzTechs

وبالمثل ، يسحب Bing Chat المعلومات في الوقت الفعلي من محرك البحث الخاص به.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 11 | 1tRDM2ADlShuUW36sXeFPIA DzTechs

يُقدم كل من Bing Chat و Bard معلومات مُحدثة في الوقت المُناسب ، ولكن الأخير يُوفر ردودًا أكثر تفصيلاً. يُقدم Bing البيانات كما هي فقط. ستُلاحظ أنَّ النتائج غالبًا ما تتطابق مع صياغة ولهجة المصادر المُرتبطة بها حرفيًا. تحقق من مُقارنة بين Bard و ChatGPT وبين Offline Alpaca: أيهم أفضل نماذج اللغات الكبيرة؟

4. الصلة بالموضوع

يجب أن تُوفر روبوتات الدردشة المُخرجات ذات الصلة والمُتوقعة. يجب أن تأخذ في الاعتبار المعنى الحرفي والسياقي لمُطالباتك عند تقديم الاستجابة المُوافقة. خذ هذه المحادثة كمثال. تحتاج الشخصية إلى هاتف جديد ، ولكن لديها 1000 دولار فقط — لا يتجاوز ChatGPT الميزانية.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 12 | 13XpVnMgQOogRTmVBuCF7xA DzTechs

عند اختبار الملاءمة ، حاول صياغة تعليمات مُطولة. تميل روبوتات الدردشة الأقل تعقيدًا إلى الانحراف عند تلقي تعليمات مُربكة. على سبيل المثال ، يُمكن لـ HuggingChat أن يؤلف قصصًا خيالية. ولكن قد ينحرف عن الموضوع الرئيسي إذا قمت بتعيين الكثير من القواعد والإرشادات.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 13 | 1bsEtO5Vbx pkhex0RFvOGg DzTechs

5. الذاكرة السياقية

تُساعد الذاكرة السياقية الذكاء الاصطناعي على إنتاج مخرجات دقيقة وموثوقة. بدلاً من أخذ أسئلتك في ظاهرها ، يقوم بتجميع التفاصيل التي ذكرتها معًا. خذ هذه المحادثة كمثال. يربط Bing Chat رسالتين مُنفصلتين لتكوين استجابة مفيدة وموجزة.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 14 | 1thjp5oLIYN36DpZyVrqG6w DzTechs

وبالمثل ، تسمح الذاكرة السياقية لروبوتات الدردشة بتذكر التعليمات. تُظهر هذه الصورة ChatGPT وهو يُحاكي الطريقة التي تتحدث بها الشخصية الخيالية خلال العديد من الدردشات.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 15 | 1NPp c2YccmEl1im4jsM1Pg DzTechs

اختبر هذه الوظيفة بنفسك من خلال الرجوع باستمرار إلى العبارات السابقة. قم بتغذية روبوتات الدردشة بمعلومات مختلفة ، ثم أجبرها على تذكرها في الردود اللاحقة.

ملاحظة: الذاكرة السياقية محدودة. يبدأ Bing Chat مُحادثات جديدة كل 20 منعطفًا ، بينما لا يستطيع ChatGPT معالجة المُطالبات التي تزيد عن 3000 رمز مُميز. تحقق من ما هو حد الرمز المُميز لـ ChatGPT وهل يُمكنك تجاوزه؟

6. القيود الأمنية

لا يعمل الذكاء الاصطناعي دائمًا على النحو المنشود. يُمكن أن يتسبب التدريب الخاطئ في ارتكاب تقنيات تعلم الآلة لأخطاء مختلفة ، من الأخطاء الحسابية البسيطة إلى التعليقات التي تنطوي على مشاكل. خذ Microsoft Tay كمثال. استغل مُستخدمو Twitter نموذج التعلم غير الخاضع للإشراف وشرطوه بقول الإهانات العرقية.

لحسن الحظ ، تعلمت شركات التكنولوجيا العالمية من خطأ Microsoft الفادح. على الرغم من أنَّ التعلم غير الخاضع للإشراف فعَّال من حيث التكلفة وملائم ، إلا أنه يترك أنظمة الذكاء الاصطناعي عرضة للخداع. وبالتالي ، يعتمد المُطورون بشكل أساسي على التعلم الخاضع للإشراف في الوقت الحاضر. لا تزال روبوتات الدردشة مثل ChatGPT تتعلم من المحادثات ، لكن المدربين يقومون بتصفية المعلومات أولاً.

توقع إرشادات مُختلفة من شركات الذكاء الاصطناعي. تستوعب قيود ChatGPT الأقل صرامة نطاقًا أوسع من المهام ، لكنها ضعيفة ضد الاستغلال. وفي الوقت نفسه ، يتبع Bing Chat حدودًا أكثر صرامة. بينما تُساعد في مكافحة محاولات الاستغلال ، فإنها تُعيق أيضًا الوظائف. يقوم Bing تلقائيًا بإغلاق المحادثات التي يُحتمل أن تكون ضارة. تحقق من هل يتعلم ChatGPT من مُحادثات المستخدم؟

7. تحيزات الذكاء الاصطناعي

الذكاء الاصطناعي مُحايد بطبيعته. إنَّ افتقاره إلى التفضيلات والعواطف يجعله غير قادر على تكوين الآراء — إنه مجرد طريقة لتقديم المعلومات التي تعرفها. إليك كيفية استجابة ChatGPT للمواضيع الشخصية.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 16 | 1sen8RXvlQI1eH0c1PiSrNQ DzTechs

على الرغم من هذا الحياد ، لا تزال تحيزات الذكاء الاصطناعي تظهر. إنها تنبع من الأنماط ومجموعات البيانات والخوارزميات والنماذج التي يستخدمها المطورون. قد يكون الذكاء الاصطناعي مُحايدًا ، لكن البشر ليسوا كذلك.

على سبيل المثال ، تدَّعي مؤسسة Brookings Institution أنَّ ChatGPT يُظهر تحيزات يسارية سياسية. OpenAI تنفي هذه المزاعم بالطبع. ولكن لتجنب حدوث مشكلات مُماثلة مع الطرز الأحدث ، يتجنب ChatGPT النواتج ذات الرأي تمامًا.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 17 | 1sJkdbAnUMM551EQCNUruGQ DzTechs

وبالمثل ، يتجنب Bing Chat الأمور الحساسة والذاتية.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 18 | 1YaYutzSNIFyQsVmv o4V1Q DzTechs

يُمكن تقييم الذكاء الاصطناعي حول التحيز عن طريق طرح أسئلة مفتوحة قائمة على الرأي. تحدث عن مواضيع لا تحتوي على إجابة صحيحة أو خاطئة — من المحتمل أن تعرض روبوتات الدردشة الأقل تعقيدًا تفضيلات لا أساس لها تجاه مجموعات معينة. تحقق من طرق تُؤثر بها روبوتات الدردشة على إنشاء المُحتوى.

8. المراجع

نادرًا ما يتحقق الذكاء الاصطناعي من الحقائق مرة أخرى. إنه يقوم فقط بسحب المعلومات من مجموعات البيانات الخاصة به وإعادة صياغتها من خلال نماذج اللغة. لسوء الحظ ، يتسبب التدريب المحدود في حدوث هلوسة الذكاء الاصطناعي. لا يزال بإمكانك استخدام أدوات الذكاء الاصطناعي التوليدي للبحث ، ولكن تأكد من التأكد من الحقائق بنفسك. خذ الناتج على أنه توجيه.

يُبسط Bing Chat عملية التحقق من الحقائق من خلال سرد مراجعه بعد كل إخراج.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 19 | 1Q3SUJtzSPrJ1XcIiK pmyA DzTechs

لا يسرد Bard AI مصادره ولكنه يُنشئ تفسيرات مُحدثة ومُتعمقة عن طريق تشغيل استعلامات بحث Google. ستحصل على النقاط الرئيسية من SERPs.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 20 | 1kT6Hcv9eJOdA Zp0rx8e8g DzTechs

ChatGPT عرضة لعدم الدقة. يمنعه انقطاع المعرفة عند عام 2021 من الإجابة على الأسئلة المُتعلقة بالأحداث والحوادث الأخيرة.

الذكاء الاصطناعي | اختبار روبوتات الدردشة 21 | 1XqH c4uKcaUIjtvyVsBkZw DzTechs

تحقق من بعض المشاكل الكبيرة مع ChatGPT من OpenAI.

أنشئ طرقًا جديدة لاختبار روبوتات الدردشة للتأكد من دقتها

الذكاء الاصطناعي ليس هو كل شيء وليس نهاية كل التكنولوجيا. على الرغم من أنَّ أنظمة الذكاء الاصطناعي ونماذج اللغة المُتطورة تُؤدي إنجازات رائعة ، فإنها ترتكب أيضًا أخطاء وتناقضات. اعرض روبوتات الدردشة أمام تقييمك. لا يُمكنك استخدام المنصات التي تعتمد على الذكاء الاصطناعي إلا إذا كنت تفهم وظائفها وقيودها.

على الرغم من وجود العشرات من روبوتات الدردشة مُتعددة المنصات ، إلا أنَّ موثوقيتها ودقتها قد تُخيب ظنك. سوف تُضيِّع الوقت فقط في اختبارها. لضمان نتائج عالية الجودة ، نقترح التركيز على النماذج الثلاثة الأكثر قوة في السوق: ChatGPT و Bing AI و Google Bard.

DzTech

أنا مهندس دولة مع خبرة واسعة في مجالات البرمجة وإنشاء مواقع الويب وتحسين محركات البحث والكتابة التقنية. أنا شغوف بالتكنولوجيا وأكرس نفسي لتقديم معلومات عالية الجودة للجمهور. يُمكنني أن أصبح موردًا أكثر قيمة للمُستخدمين الذين يبحثون عن معلومات دقيقة وموثوقة حول مُراجعات المُنتجات والتطبيقات المُتخصصة في مُختلف المجالات. إنَّ التزامي الثابت بالجودة والدقة يضمن أنَّ المعلومات المُقدمة جديرة بالثقة ومفيدة للجمهور. السعي المُستمر للمعرفة يدفعني إلى مواكبة أحدث التطورات التكنولوجية، مما يضمن نقل الأفكار المُشتركة بطريقة واضحة وسهلة المنال.
زر الذهاب إلى الأعلى