Claude AI يمتلك الآن القدرة على إنهاء المحادثة: آلية جديدة للتعامل مع الحالات القصوى

في الأشهر الأخيرة، كثفت شركة Anthropic جهودها في مجال السلامة، حيث قامت بتطبيق ميزات وإجراء أبحاث حول كيفية جعل الذكاء الاصطناعي أكثر أمانًا. ويبدو أن أحدث ميزة لـ Claude هي واحدة من أكثر الميزات تميزًا على الإطلاق.

كل من Claude Opus 4 و 4.1 (أحدث نسختين من Anthropic) يمتلكان الآن القدرة على إنهاء المحادثات في واجهة الدردشة الخاصة بالمستخدم. على الرغم من أن هذه الميزة لن تُستخدم بشكل شائع، إلا أنها تُطبَّق للحالات النادرة والمتطرفة من “تفاعلات المستخدم الضارة أو المسيئة بشكل مستمر”.

في تدوينة تستكشف الميزة الجديدة، ذكر فريق Anthropic: “ما زلنا غير متأكدين إلى حد كبير بشأن الوضع الأخلاقي المحتمل لـ Claude ونماذج اللغات الكبيرة الأخرى، سواء الآن أو في المستقبل. ومع ذلك، فإننا نأخذ هذه القضية على محمل الجد”.

في الاختبارات التي سبقت نشر أحدث نماذج Anthropic، أجرت الشركة تقييمات لرفاهية النموذج. وشمل ذلك فحص تفضيلات Claude المبلغ عنها ذاتيًا والسلوكية، ووجدت نفورًا قويًا وثابتًا من الأذى.

ما زلنا غير متأكدين إلى حد كبير بشأن الوضع الأخلاقي المحتمل لـ Claude ونماذج اللغات الكبيرة الأخرى، سواء الآن أو في المستقبل. ومع ذلك، فإننا نأخذ هذه القضية على محمل الجد
Anthropic

بعبارة أخرى، كان Claude سيقوم بإغلاق أو رفض المشاركة في هذه المحادثات بشكل فعال. وشمل ذلك طلبات من المستخدمين للحصول على محتوى جنسي يتعلق بقاصرين، ومحاولات لطلب معلومات يمكن أن تمكن من العنف واسع النطاق أو الأعمال الإرهابية.

في كثير من هذه الحالات، أصر المستخدمون على الطلبات الضارة أو الإساءة، على الرغم من رفض Claude الامتثال بشكل فعال. الميزة الجديدة، حيث يمكن لـ Claude إنهاء المحادثة بشكل فعال، تسعى إلى توفير بعض الحماية في هذه المواقف.

توضح Anthropic أن هذه الميزة لن يتم تطبيقها في موقف قد يكون فيه المستخدمون في خطر وشيك لإيذاء أنفسهم أو الآخرين.

“في جميع الحالات، يجب على Claude استخدام قدرته على إنهاء المحادثة كملاذ أخير فقط عندما تفشل محاولات متعددة لإعادة التوجيه وينتهي الأمل في تفاعل مثمر، أو عندما يطلب المستخدم صراحةً من Claude إنهاء الدردشة”، كما يتابع فريق Anthropic في التدوينة.

“السيناريوهات التي سيحدث فيها هذا الأمر هي حالات متطرفة ونادرة – الغالبية العظمى من المستخدمين لن يلاحظوا هذه الميزة أو يتأثروا بها في أي استخدام عادي للمنتج، حتى عند مناقشة قضايا خلافية للغاية مع Claude.”

في حين أن المستخدم لن يتمكن بعد الآن من إرسال أي رسائل جديدة في تلك المحادثة، إلا أن ذلك لن يمنعه من بدء محادثة أخرى على حسابه. ولمعالجة الخسارة المحتملة لسلسلة محادثات طويلة، سيظل بإمكان المستخدمين تعديل الرسائل السابقة وإعادة تجربتها لإنشاء فرع جديد من المحادثة.

هذا تطبيق فريد من نوعه إلى حد ما من Anthropic. ChatGPT و Gemini و Grok، المنافسون الثلاثة الأقرب إلى Claude، ليس لديهم أي شيء مماثل متاح، وعلى الرغم من أنهم جميعًا قدموا تدابير حماية أخرى، إلا أنهم لم يذهبوا إلى هذا الحد.

Claude