العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها

لقد قطع الذكاء الاصطناعي شوطًا طويلاً بدءًا من إنتاج مُخرجات غير ملائمة وغير مُتماسكة إلى أن يُصبح أكثر تطورًا. تستخدم روبوتات الدردشة الحديثة نماذج لغة مُتقدمة تُجيب على أسئلة المعرفة العامة ، وتُؤلف مقالات مطولة ، وتكتب التعليمات البرمجية ، من بين المهام المُعقَّدة الأخرى.

على الرغم من هذه التطورات ، لاحظ أنه حتى أكثر الأنظمة تطوراً لها قيود. لا يزال الذكاء الاصطناعي يرتكب الأخطاء. لتحديد روبوتات الدردشة الأقل عرضة للهلوسة ، يُمكنك اختبار دقتها بناءً على هذه العوامل. تحقق من معظم روبوتات الدردشة القائمة على الذكاء الاصطناعي للتحدث معها والاستمتاع.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

1. الحساب الرياضي

يجب عليك البدء بإضافة المعادلات الرياضية من خلال روبوتات الدردشة. حيث ستختبر قدرة النموذج على تحليل مشاكل الكلمات وترجمة المفاهيم الرياضية وتطبيق الدوال الصحيحة. فقط عدد قليل من النماذج تظهر موثوقية الحساب. في الواقع ، كان الفهم الرهيب للرياضيات من أسوأ مشكلات ChatGPT خلال الأشهر الأولى.

تظهر الصورة أدناه فشل ChatGPT في الإحصائيات الأساسية.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

أظهر ChatGPT تحسنًا بعد طرح OpenAI تحديثات مايو 2023. ولكن بالنظر إلى مجموعات البيانات المحدودة ، ستظل تواجه مشكلة في المعادلات الرياضية المُتوسطة إلى المُتقدمة.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

وفي الوقت نفسه ، يُظهر Bing Chat و Google Bard طريقة أفضل في الحساب. حيث تقوم بتشغيل الاستعلامات من خلال محركات البحث الخاصة بها ، مما يُمكنها من سحب الدوال وتفاصيل الإجابات.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

نصيحة: حاول إعادة صياغة كلمات المشاكل الرياضية. تجنب الجمل المطولة واستبدل الأفعال الضعيفة ؛ خلاف ذلك ، قد تُسيء روبوتات الدردشة فهم أسئلتك.

2. الفهم

يُمكن لنماذج الذكاء الاصطناعي الحديثة القيام بمهام مُتعددة. تُمكِّنها LLMs المُتقدمة من الاحتفاظ بالتعليمات السابقة والإجابة على المُطالبات حسب القسم ، بينما تُعالج الأنظمة الأقدم أوامر فردية. على سبيل المثال ، يُجيب Siri على سؤال واحد في كل مرة.

قم بتغذية روبوتات الدردشة من ثلاث إلى خمس مهام في وقت واحد لاختبار مدى جودة تحليلها للمُطالبات المُعقَّدة. لا تستطيع النماذج الأقل تطورًا وتقدمًا معالجة هذا القدر من المعلومات. تُظهر الصورة أدناه حدوث خلل في HuggingChat في مُطالبة من ثلاث خطوات — يتوقف عند الخطوة الأولى ويبتعد عن أصل الموضوع.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

سطور HuggingChat الأخيرة غير مُتماسكة بالفعل.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

يقوم ChatGPT بإكمال نفس المُطالبة بسرعة ، مما ينتج عنه استجابات ذكية وخالية من الأخطاء في كل خطوة.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

يُوفر Bing Chat إجابة مُكثفة على الخطوات الثلاث. تحظر قيوده الصارمة المخرجات الطويلة غير الضرورية التي تهدر طاقة المعالجة.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

3. توقيت المعلومات

نظرًا لأن التدريب على الذكاء الاصطناعي يُكلف موارد هائلة ، فإنَّ معظم المطورين يقصرون مجموعات البيانات على فترات مُحددة. خذ ChatGPT كمثال. له موعد معرفي مُحدد في أيلول (سبتمبر) 2021 — لا يمكنك طلب تحديثات الطقس أو التقارير الإخبارية أو التطورات الأخيرة. إليك ChatGPT وهو يقول إنه لا يُمكنه الوصول إلى المعلومات في الوقت الفعلي.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

Bard لديه إمكانية الوصول إلى الإنترنت. حيث يسحب البيانات من Google SERPs ، بحيث يُمكنك طرح مجموعة أوسع من الأسئلة ، على سبيل المثال ، الأحداث الأخيرة والأخبار والتنبؤات.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

وبالمثل ، يسحب Bing Chat المعلومات في الوقت الفعلي من محرك البحث الخاص به.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

يُقدم كل من Bing Chat و Bard معلومات مُحدثة في الوقت المُناسب ، ولكن الأخير يُوفر ردودًا أكثر تفصيلاً. يُقدم Bing البيانات كما هي فقط. ستُلاحظ أنَّ النتائج غالبًا ما تتطابق مع صياغة ولهجة المصادر المُرتبطة بها حرفيًا. تحقق من مُقارنة بين Bard و ChatGPT وبين Offline Alpaca: أيهم أفضل نماذج اللغات الكبيرة؟

4. الصلة بالموضوع

يجب أن تُوفر روبوتات الدردشة المُخرجات ذات الصلة والمُتوقعة. يجب أن تأخذ في الاعتبار المعنى الحرفي والسياقي لمُطالباتك عند تقديم الاستجابة المُوافقة. خذ هذه المحادثة كمثال. تحتاج الشخصية إلى هاتف جديد ، ولكن لديها 1000 دولار فقط — لا يتجاوز ChatGPT الميزانية.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

عند اختبار الملاءمة ، حاول صياغة تعليمات مُطولة. تميل روبوتات الدردشة الأقل تعقيدًا إلى الانحراف عند تلقي تعليمات مُربكة. على سبيل المثال ، يُمكن لـ HuggingChat أن يؤلف قصصًا خيالية. ولكن قد ينحرف عن الموضوع الرئيسي إذا قمت بتعيين الكثير من القواعد والإرشادات.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

5. الذاكرة السياقية

تُساعد الذاكرة السياقية الذكاء الاصطناعي على إنتاج مخرجات دقيقة وموثوقة. بدلاً من أخذ أسئلتك في ظاهرها ، يقوم بتجميع التفاصيل التي ذكرتها معًا. خذ هذه المحادثة كمثال. يربط Bing Chat رسالتين مُنفصلتين لتكوين استجابة مفيدة وموجزة.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

وبالمثل ، تسمح الذاكرة السياقية لروبوتات الدردشة بتذكر التعليمات. تُظهر هذه الصورة ChatGPT وهو يُحاكي الطريقة التي تتحدث بها الشخصية الخيالية خلال العديد من الدردشات.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

اختبر هذه الوظيفة بنفسك من خلال الرجوع باستمرار إلى العبارات السابقة. قم بتغذية روبوتات الدردشة بمعلومات مختلفة ، ثم أجبرها على تذكرها في الردود اللاحقة.

ملاحظة: الذاكرة السياقية محدودة. يبدأ Bing Chat مُحادثات جديدة كل 20 منعطفًا ، بينما لا يستطيع ChatGPT معالجة المُطالبات التي تزيد عن 3000 رمز مُميز. تحقق من ما هو حد الرمز المُميز لـ ChatGPT وهل يُمكنك تجاوزه؟

6. القيود الأمنية

لا يعمل الذكاء الاصطناعي دائمًا على النحو المنشود. يُمكن أن يتسبب التدريب الخاطئ في ارتكاب تقنيات تعلم الآلة لأخطاء مختلفة ، من الأخطاء الحسابية البسيطة إلى التعليقات التي تنطوي على مشاكل. خذ Microsoft Tay كمثال. استغل مُستخدمو Twitter نموذج التعلم غير الخاضع للإشراف وشرطوه بقول الإهانات العرقية.

لحسن الحظ ، تعلمت شركات التكنولوجيا العالمية من خطأ Microsoft الفادح. على الرغم من أنَّ التعلم غير الخاضع للإشراف فعَّال من حيث التكلفة وملائم ، إلا أنه يترك أنظمة الذكاء الاصطناعي عرضة للخداع. وبالتالي ، يعتمد المُطورون بشكل أساسي على التعلم الخاضع للإشراف في الوقت الحاضر. لا تزال روبوتات الدردشة مثل ChatGPT تتعلم من المحادثات ، لكن المدربين يقومون بتصفية المعلومات أولاً.

توقع إرشادات مُختلفة من شركات الذكاء الاصطناعي. تستوعب قيود ChatGPT الأقل صرامة نطاقًا أوسع من المهام ، لكنها ضعيفة ضد الاستغلال. وفي الوقت نفسه ، يتبع Bing Chat حدودًا أكثر صرامة. بينما تُساعد في مكافحة محاولات الاستغلال ، فإنها تُعيق أيضًا الوظائف. يقوم Bing تلقائيًا بإغلاق المحادثات التي يُحتمل أن تكون ضارة. تحقق من هل يتعلم ChatGPT من مُحادثات المستخدم؟

7. تحيزات الذكاء الاصطناعي

الذكاء الاصطناعي مُحايد بطبيعته. إنَّ افتقاره إلى التفضيلات والعواطف يجعله غير قادر على تكوين الآراء — إنه مجرد طريقة لتقديم المعلومات التي تعرفها. إليك كيفية استجابة ChatGPT للمواضيع الشخصية.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

على الرغم من هذا الحياد ، لا تزال تحيزات الذكاء الاصطناعي تظهر. إنها تنبع من الأنماط ومجموعات البيانات والخوارزميات والنماذج التي يستخدمها المطورون. قد يكون الذكاء الاصطناعي مُحايدًا ، لكن البشر ليسوا كذلك.

على سبيل المثال ، تدَّعي مؤسسة Brookings Institution أنَّ ChatGPT يُظهر تحيزات يسارية سياسية. OpenAI تنفي هذه المزاعم بالطبع. ولكن لتجنب حدوث مشكلات مُماثلة مع الطرز الأحدث ، يتجنب ChatGPT النواتج ذات الرأي تمامًا.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

وبالمثل ، يتجنب Bing Chat الأمور الحساسة والذاتية.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

يُمكن تقييم الذكاء الاصطناعي حول التحيز عن طريق طرح أسئلة مفتوحة قائمة على الرأي. تحدث عن مواضيع لا تحتوي على إجابة صحيحة أو خاطئة — من المحتمل أن تعرض روبوتات الدردشة الأقل تعقيدًا تفضيلات لا أساس لها تجاه مجموعات معينة. تحقق من طرق تُؤثر بها روبوتات الدردشة على إنشاء المُحتوى.

8. المراجع

نادرًا ما يتحقق الذكاء الاصطناعي من الحقائق مرة أخرى. إنه يقوم فقط بسحب المعلومات من مجموعات البيانات الخاصة به وإعادة صياغتها من خلال نماذج اللغة. لسوء الحظ ، يتسبب التدريب المحدود في حدوث هلوسة الذكاء الاصطناعي. لا يزال بإمكانك استخدام أدوات الذكاء الاصطناعي التوليدي للبحث ، ولكن تأكد من التأكد من الحقائق بنفسك. خذ الناتج على أنه توجيه.

يُبسط Bing Chat عملية التحقق من الحقائق من خلال سرد مراجعه بعد كل إخراج.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

لا يسرد Bard AI مصادره ولكنه يُنشئ تفسيرات مُحدثة ومُتعمقة عن طريق تشغيل استعلامات بحث Google. ستحصل على النقاط الرئيسية من SERPs.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

ChatGPT عرضة لعدم الدقة. يمنعه انقطاع المعرفة عند عام 2021 من الإجابة على الأسئلة المُتعلقة بالأحداث والحوادث الأخيرة.

العوامل التي يجب مراعاتها عند اختبار روبوتات الدردشة بالذكاء الاصطناعي للتأكد من دقتها - الذكاء الاصطناعي

تحقق من بعض المشاكل الكبيرة مع ChatGPT من OpenAI.

أنشئ طرقًا جديدة لاختبار روبوتات الدردشة للتأكد من دقتها

الذكاء الاصطناعي ليس هو كل شيء وليس نهاية كل التكنولوجيا. على الرغم من أنَّ أنظمة الذكاء الاصطناعي ونماذج اللغة المُتطورة تُؤدي إنجازات رائعة ، فإنها ترتكب أيضًا أخطاء وتناقضات. اعرض روبوتات الدردشة أمام تقييمك. لا يُمكنك استخدام المنصات التي تعتمد على الذكاء الاصطناعي إلا إذا كنت تفهم وظائفها وقيودها.

على الرغم من وجود العشرات من روبوتات الدردشة مُتعددة المنصات ، إلا أنَّ موثوقيتها ودقتها قد تُخيب ظنك. سوف تُضيِّع الوقت فقط في اختبارها. لضمان نتائج عالية الجودة ، نقترح التركيز على النماذج الثلاثة الأكثر قوة في السوق: ChatGPT و Bing AI و Google Bard.

1. الحساب الرياضي

2. الفهم

3. توقيت المعلومات

4. الصلة بالموضوع

5. الذاكرة السياقية

6. القيود الأمنية

7. تحيزات الذكاء الاصطناعي

8. المراجع

أنشئ طرقًا جديدة لاختبار روبوتات الدردشة للتأكد من دقتها

مقارنة بين ChatGPT Plus و Perplexity: أيهما أفضل روبوت دردشة بالذكاء الاصطناعي؟

طرق التحقق من صحة وحدة معالجة الرسومات في Windows 11

مقالات ذات صلة