ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟

لا شك في قدرة نماذج الذكاء الاصطناعي على الإرتقاء بحياة المُستخدمين ، والمساعدة في اتخاذ قرارات صحيحة ، وأداء بعض المهام المُتكررة والروتينية ، والعمل لساعات مُتواصلة دون الإصابة بالإرهاق ، وزيادة الإنتاجية ، وغير ذلك من المهام التي تُساعد المجتمعات ، وتتجاوز في الوقت ذاته جوانب القصور البشري.

وقد ساهمت كل هذه الإيجابيات في تنامي استخدام الذكاء الاصطناعي في مختلف المجالات السياسية والعسكرية والأمنية ، الأمر الذي تولد عنه جملة من التهديدات والمخاطر في نفس تلك المجالات.

حيث كان للتقدم في الذكاء الاصطناعي تأثير كبير في مُختلف المجالات. والذي قد تسبب في قلق عدد كبير من المُتحمسين للتكنولوجيا. مع توسع استخدام هذه التقنيات في تطبيقات مُختلفة ، يمكن أن تؤدي إلى زيادة الهجمات العدائية. تحقق من أنواع الهجمات السلبية التي يُمكن أن لا يُلاحظها أحد بسهولة.

ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟ - الذكاء الاصطناعي حماية

ما هي الهجمات العدائية في الذكاء الاصطناعي؟

تستغل الهجمات العدائية المُواصفات السيئة ونقاط الضعف في نماذج الذكاء الاصطناعي. إنها تُفسد البيانات التي تعلمتها نماذج الذكاء الاصطناعي وتتسبب في إنشاء هذه النماذج لمُخرجات غير دقيقة أو خطيرة.

تخيل أن المخادع يغير الرسم المُرتب على كلمة Pineapple ليُصبح “Applepine”. هذا مشابه لما يحدث في الهجمات العدائية.

قبل بضع سنوات ، كان الحصول على بعض الردود أو المُخرجات غير الصحيحة من نموذج الذكاء الاصطناعي هو القاعدة والمُنتشر. والعكس هو الحال الآن ، حيث أصبحت عدم الدقة هي الاستثناء ، حيث يتوقع كل مُستخدم لنموذج الذكاء الاصطناعي الحصول على نتائج شبه مثالية.

عندما يتم تطبيق نماذج الذكاء الاصطناعي هذه على سيناريوهات العالم الحقيقي ، يُمكن أن تكون الأخطاء قاتلة ، مما يجعل الهجمات العدوانية خطيرة للغاية. على سبيل المثال ، يُمكن للملصقات الموجودة على إشارات المرور أن تُربك سيارة ذاتية القيادة وتتسبب في جعلها تُحافظ على سيرها أو الدخول مباشرة إلى أحد العوائق.

أنواع الهجمات العدائية

هناك أشكال مختلفة من الهجمات العدائية. مع زيادة تكامل الذكاء الاصطناعي في التطبيقات اليومية والإعتيادية ، من المرجح أن تزداد هذه الهجمات سوءًا وتعقيدًا.

ومع ذلك ، يُمكننا تصنيف الهجمات العدائية تقريبًا إلى نوعين بناءً على مدى معرفة مُمثل التهديد بنموذج الذكاء الاصطناعي المُستخدم.

1. هجمات الصندوق الأبيض

ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟ - الذكاء الاصطناعي حماية

في هجمات الصندوق الأبيض ، يكون لدى الجهات الفاعلة في التهديد معرفة كاملة بالأعمال الداخلية لنموذج الذكاء الاصطناعي. فهي تعرف مواصفاته وبيانات التدريب المُستخدمة وتقنيات المعالجة والمعلمات. تُمكنها هذه المعرفة من بناء هجوم عدائي خصيصًا للنموذج المُحدد.

تتمثل الخطوة الأولى في هجمات الصندوق الأبيض في تغيير بيانات التدريب الأصلية ، وإفسادها بأبسط طريقة مُمكنة. ستظل البيانات المُعدلة مشابهة جدًا للبيانات الأصلية ولكنها مُشوهة بما يكفي لجعل نموذج الذكاء الاصطناعي يُعطي نتائج غير دقيقة.

هذا ليس كل شيء. بعد الهجوم ، يقوم مُمثل التهديد بتقييم فعالية النموذج من خلال تقديم أمثلة معادية له — مدخلات مشوهة مُصممة لجعل النموذج يرتكب أخطاء — ويُحلل المخرجات. كلما كانت النتيجة غير دقيقة ، كان الهجوم أكثر نجاحًا.

2. هجمات الصندوق الأسود

على عكس هجمات الصندوق الأبيض ، أين يعرف مُمثل التهديد الإجراءات الداخلية لنموذج الذكاء الاصطناعي ، ليس لدى مرتكب هجمات الصندوق الأسود أي فكرة عن كيفية عمل النموذج. إنه ببساطة يلاحظ النموذج من نقطة عمياء ، ويُراقب قيم المدخلات والمخرجات ويُحللها.

تتمثل الخطوة الأولى في هجوم الصندوق الأسود في تحديد هدف الإدخال الذي يُريد نموذج الذكاء الاصطناعي تصنيفه. يقوم المهاجم بعد ذلك بإنشاء نسخة ضارة من المدخلات عن طريق إضافة ضوضاء مُصممة بعناية ، وإضافة الاضطرابات على البيانات غير المرئية للعين البشرية ولكنها قادرة على التسبب في خلل في نموذج الذكاء الاصطناعي.

يتم تغذية النسخة الخبيثة إلى النموذج ، ويتم ملاحظة المخرجات. تُساعد النتائج التي يقدمها النموذج ممثل التهديد على الاستمرار في تعديل الإصدار حتى يصبح واثقًا بدرجة كافية من أنَّ النموذج قد يُخطئ في تصنيف أي بيانات يتم إدخالها فيه. تحقق من أشياء يجب تجنب طلبها من روبوتات الدردشة المدعومة بالذكاء الاصطناعي.

الأساليب المُستخدمة في الهجمات العدائية

ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟ - الذكاء الاصطناعي حماية

يُمكن للكيانات الخبيثة استخدام تقنيات مُختلفة لتنفيذ الهجمات العدائية. فيما يلي بعض هذه التقنيات.

1. تسمم البيانات

يُمكن للمُهاجم التلاعب (تسميم) بجزء صغير من بيانات إدخال نموذج الذكاء الاصطناعي للتعديل على مجموعات بيانات التدريب ودقتها.

هناك عدة أشكال من التسمم. أحد أكثرها شيوعًا يسمى تسمم الباب الخلفي ، أين يتأثر القليل جدًا من بيانات التدريب. يستمر نموذج الذكاء الاصطناعي في إعطاء نتائج دقيقة للغاية حتى يتم “تنشيط حدوث الخلل” عند ملامسته لمُحفِزات مُحددة.

2. التهرب

هذه التقنية مُميتة إلى حد ما ، لأنها تتجنب أن يتم اكتشافها عن طريق مُلاحقة نظام الأمان الخاص بالذكاء الاصطناعي.

تم تجهيز معظم نماذج الذكاء الاصطناعي بأنظمة الكشف عن العيوب. تستفيد هجمات التهرب من الأمثلة العدائية التي تُلاحق هذه الأنظمة مباشرة.

يمكن أن تكون هذه التقنية خطيرة بشكل خاص ضد الأنظمة السريرية مثل السيارات ذاتية القيادة أو نماذج التشخيص الطبي. هذه هي المجالات التي يُمكن أن يكون فيها لعدم الدقة عواقب وخيمة.

3. قابلية التحويل

لا يحتاج مُمثل التهديد الذي يستخدم هذه التقنية إلى معرفة مُسبقة بمعلمات نموذج الذكاء الاصطناعي. يستخدم الهجمات العدائية التي نجحت في الماضي ضد الإصدارات الأخرى من النموذج.

على سبيل المثال ، إذا تسبب هجوم عدائي سابق في أنَّ نموذج مُصنف الصور يُخطئ في تصنيف السلحفاة كبندقية ، فقد يتسبب الهجوم الدقيق في قيام نماذج مصنّفات الصور الأخرى بارتكاب نفس الخطأ. ربما من المُمكن أن يكون قد تم تدريب النماذج الأخرى على مجموعة بيانات مُختلفة وحتى قد يكون لها بنية مُختلفة ولكن لا يزال من المُمكن أن تقع ضحية للهجوم.

4. النموذج البديل

بدلاً من ملاحقة أنظمة الأمان الخاصة بالنموذج باستخدام تقنيات المراوغة أو الهجمات الناجحة سابقًا ، يمكن لممثل التهديد استخدام نموذج بديل.

باستخدام هذه التقنية ، يقوم مُمثل التهديد بإنشاء نسخة متطابقة من النموذج المُستهدف ، نموذج بديل. يجب أن تكون النتائج والمعلمات وسلوكيات البديل متطابقة مع النموذج الأصلي الذي تم نسخه.

سيخضع البديل الآن لهجمات عدائية مختلفة حتى يتسبب أحدها في إنتاج نتيجة غير دقيقة أو إجراء تصنيف خاطئ. بعد ذلك ، سيتم استخدام هذا الهجوم على الهدف الأصلي للذكاء الاصطناعي. تحقق من ما هو حقن البرمجيات الخبيثة في العمليات وكيف يُمكنك منعه؟

كيفية وقف الهجمات العدائية

ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟ - الذكاء الاصطناعي حماية

قد يكون الدفاع ضد الهجمات العدائية أمرًا مُعقدًا ويستغرق وقتًا طويلاً حيث يستخدم مُمثل التهديد أشكالًا وتقنيات مُختلفة. ومع ذلك ، يمكن للخطوات التالية منع الهجمات العدائية وإيقافها.

1. التدريب على الخصومة

الخطوة الأكثر فاعلية التي يمكن أن تمنع الهجمات العدائية هي التدريب على الخصومة التوليدية ، وتدريب نماذج الذكاء الاصطناعي والآلات باستخدام الأمثلة العدائية. يعمل هذا على تحسين متانة النموذج ويسمح له بأن يكون مرنًا لأدنى اضطرابات الإدخال.

2. التدقيق المُنتظم

من الضروري التحقق بانتظام من نقاط الضعف في نظام اكتشاف العيوب في نموذج الذكاء الاصطناعي. يتضمن ذلك تغذية النموذج عمدًا بأمثلة معادية ومراقبة سلوك النموذج للمدخلات الضارة.

3. تعقيم البيانات

تتضمن هذه الطريقة التحقق من المدخلات الضارة التي يتم إدخالها في النموذج. بعد التعرف عليها ، يجب إزالتها على الفور.

يمكن تحديد هذه البيانات باستخدام التحقق من صحة الإدخال ، والذي يتضمن التحقق من البيانات بحثًا عن أنماط أو توقيعات لأمثلة عدائية معروفة سابقًا. تحقق من ما هو التحقق من تقييم المُدخلات ولماذا هو مُهم؟

4. تحديثات الأمان

سيكون من الصعب الخطأ عندما يتعلق الأمر بإضافة التحديثات الأمنية والتصحيحات. يمكن أن يساعد الأمان مُتعدد الطبقات مثل جدران الحماية وتطبيقات مكافحة البرامج الضارة وأنظمة الكشف عن التطفل والوقاية منه في منع التدخل الخارجي من الجهات الفاعلة في التهديد التي ترغب في تشويه نموذج الذكاء الاصطناعي. تحقق من طرق مسؤولة لاستخدام الذكاء الاصطناعي ككاتب أو مُحرِّر محتوى.

قد تكون الهجمات العدائية خصمًا جديرًا

يُمثل مفهوم الهجمات العدائية مشكلة في التعلم المُتقدم وتعلم الآلة.

نتيجة لذلك ، يجب أن تكون نماذج الذكاء الاصطناعي مُسلحة بالدفاعات مثل التدريب على الخصومة ، والتدقيق المنتظم ، وتعقيم البيانات ، والتحديثات الأمنية ذات الصلة. يُمكنك الإطلاع الآن على كيف تصبح مهندس تعلم الآلة والذكاء الاصطناعي: دليل المبتدئين.

زر الذهاب إلى الأعلى