ما هو DarkBERT؟ هل يمكن للذكاء الاصطناعي المساعدة في مكافحة التهديدات السيبرانية؟

تزداد شعبية نماذج اللغات الكبيرة (LLMs) بسرعة ، مع دخول نماذج جديدة وتقنيات مُتطورة تستند إليها باستمرار إلى المشهد. عادةً ما يتم تدريب هذه النماذج ، مثل ChatGPT ، على مصادر الإنترنت المُختلفة ، بما في ذلك المقالات ومحتويات المواقع الإلكترونية والكتب ومواقع التواصل الاجتماعي.

في خطوة غير مسبوقة ، طور فريق من الباحثين في المعهد الكوري المتقدم للعلوم والتكنولوجيا وشركة استخبارات البيانات S2W بتطوير DarkBERT ، وهو نموذج لغة كبيرة (LLM) تم تدريبه على مجموعات بيانات مأخوذة حصريًا من الويب المظلم. كان هدفهم هو إنشاء أداة ذكاء اصطناعي تتفوق في الأداء على نماذج اللغة الحالية وتُساعد الباحثين في مجال التهديد وإنفاذ القانون ومُتخصصي الأمن السيبراني في مكافحة التهديدات السيبرانية. تحقق من هل استخدام الذكاء الاصطناعي في الأمن السيبراني يجعل العالم أكثر أمانًا؟

ما هو DarkBERT؟

DarkBERT هو نموذج تشفير قائم على المُحولات يعتمد على بنية RoBERTa. تم تدريب نموذج LLM على الملايين من صفحات الويب المُظلمة ، بما في ذلك البيانات من منتديات القرصنة ومواقع الاحتيال والمصادر الأخرى عبر الإنترنت المُرتبطة بالأنشطة غير القانونية.

يُشير مُصطلح “الويب المظلم” إلى قسم إنترنت مخفي لا يُمكن الوصول إليه عبر متصفحات الويب القياسية. يشتهر القسم الفرعي بإيواء مواقع ويب مجهولة المصدر وأسواق مشهورة بالأنشطة غير القانونية ، مثل تجارة البيانات المسروقة والمخدرات والأسلحة. ويتطلب تطبيقًا مُتخصصًا مثل Tor (The Onion Router) للدخول إليه. يقوم Tor بإخفاء هوية عناوين IP الخاصة بالمُستخدمين ، مما يجعل تتبع أنشطتهم عبر الإنترنت أمرًا صعبًا.

لتدريب DarkBERT ، تمكَّن الباحثون من الوصول إلى الويب المظلم من خلال شبكة Tor وجمعوا البيانات الأولية. قاموا بتصفية هذه البيانات بعناية باستخدام تقنيات مثل إلغاء البيانات المُكررة ، وموازنة الفئات ، والمعالجة المسبقة لإنشاء قاعدة بيانات ويب مظلمة مُحسَّنة ، والتي تم تغذيتها بعد ذلك إلى RoBERTa على مدار 15 يومًا تقريبًا لإنشاء DarkBERT.

تعمل قاعدة البيانات هذه بمثابة بيانات تدريب لتحسين قدرة نموذج DarkBERT على فهم واستخراج معلومات ذات مغزى من المُحتوى المُشفر بشكل مُعقَّد والغني باللهجات الموجود على شبكة الويب المظلمة. تم تغذية DarkBERT بما يقرب من 6.1 مليون صفحة تم العثور عليها على الويب المظلم كجزء من التدريب المُسبق واسع النطاق على النصوص باللغة الإنجليزية.

يُميِّز DarkBERT نفسه عن نماذج اللغات الأخرى من خلال قدرته التي لا مثيل لها على فهم اللهجات الفريدة والرسائل المُشفرة السائدة على الويب المُظلم. في حالات الاستخدام المختلفة المتعلقة بالأمن السيبراني ، تفوق DarkBERT باستمرار على نماذج اللغة الراسخة مثل BERT و RoBERTa. تحقق من أفضل مواقع الويب المظلم التي لن تجدها على محركات البحث المختلفة.

الاستخدامات المُحتملة لـ DarkBERT في الأمن السيبراني

يتمتع DarkBERT بفهم رائع للغة مُجرمي الإنترنت ويتفوق في اكتشاف التهديدات المُحتملة المُحددة. يُمكنه البحث في الويب المظلم وتحديد تهديدات الأمن السيبراني والإبلاغ عنها بنجاح مثل تسرب البيانات وبرامج الفدية ، مما يجعله أداة مُفيدة مُحتملة لمُكافحة التهديدات السيبرانية.

لتقييم فعالية DarkBERT ، قارنه الباحثون بنموذجين مشهورين من NLP ، كل من BERT و RoBERTa ، حيث تم تقييم أدائه عبر ثلاث حالات استخدام ذات صلة بالأمن السيبراني ، كما يُشير البحث المنشور على arxiv.org.

1. مُراقبة منتديات الويب المظلم بحثًا عن مُناقشات تُحتمل أن تكون ضارة

تُعد مراقبة منتديات الويب المظلم ، والتي تُستخدم بشكل شائع لتبادل المعلومات غير المشروعة ، أمرًا بالغ الأهمية لتحديد المواضيع التي يحتمل أن تكون خطرة. ومع ذلك ، قد تستغرق المراجعة اليدوية لهذه العملية وقتًا طويلاً ، مما يجعل أتمتة العملية مُفيدة لخبراء الأمن.

ركز الباحثون على الأنشطة التي يُحتمل أن تكون ضارة في منتديات القرصنة ، ووضعوا إرشادات للتعليقات التوضيحية للمُناقشات الجديرة بالملاحظة ، بما في ذلك مشاركة البيانات السرية وتوزيع البرامج الضارة أو نقاط الضعف المُهمة.

تفوق DarkBERT على نماذج اللغات الأخرى من حيث الدقة والتذكر ودرجة F1 ، حيث ظهر كخيار أفضل لتحديد المُناقشات الجديرة بالملاحظة على الويب المظلم.

2. كشف مواقع الويب التي تستضيف معلومات سرية

يستخدم المُتسللون ومجموعات برامج الفدية شبكة الويب المظلمة لإنشاء مواقع ويب لتسريب البيانات ، حيث ينشرون بيانات سرية مسروقة من المنظمات التي ترفض الامتثال لمطالب الفدية. يقوم مجرمو الإنترنت الآخرون بتحميل البيانات الحساسة المُسربة ، مثل كلمات السر والمعلومات المالية ، إلى شبكة الإنترنت المظلمة بغرض بيعها.

في دراستهم ، جمع الباحثون بيانات من مجموعات برامج الفدية سيئة السمعة وقاموا بتحليل مواقع تسريب برامج الفدية التي تنشر البيانات الخاصة بالمُنظمات. تفوق DarkBERT على نماذج اللغات الأخرى في تحديد وتصنيف مثل هذه المواقع ، وعرض فهمه للغة المُستخدمة في منتديات القرصنة السرية على شبكة الإنترنت المظلمة.

3. تحديد الكلمات الرئيسية المُتعلقة بالتهديدات على شبكة الويب المظلمة

يستفيد DarkBERT من وظيفة قناع التعبئة ، وهي ميزة مُتأصلة في نماذج لغة BERT ، لتحديد الكلمات الرئيسية المُرتبطة بالأنشطة غير القانونية بدقة ، بما في ذلك مبيعات المخدرات على الويب المظلم.

عندما تم إخفاء كلمة “MDMA” في صفحة بيع الأدوية ، قام DarkBERT بإنشاء كلمات مُتعلقة بالمخدرات ، بينما اقترحت نماذج أخرى كلمات عامة ومصطلحات لا علاقة لها بالمخدرات ، مثل المهن المُختلفة.

يُمكن أن تكون قدرة DarkBERT على تحديد الكلمات الرئيسية المتعلقة بالأنشطة غير المشروعة ذات قيمة في تتبع التهديدات السيبرانية الناشئة ومعالجتها. تحقق من طرق مُختلفة لمنع هجمات سلسلة التوريد.

هل DarkBERT مُتاح لعامة الأشخاص؟

DarkBERT غير مُتاح حاليًا للجمهور ، لكن الباحثين منفتحون على طلبات استخدامه للأغراض الأكاديمية.

تسخير قوة الذكاء الاصطناعي لاكتشاف التهديدات والوقاية منها

تم تدريب DarkBERT مسبقًا على بيانات الويب المظلم وتفوق على نماذج اللغة الحالية عبر العديد من حالات استخدام الأمن السيبراني ، مما يجعله أداة حاسمة لتطوير أبحاث الويب المُظلم.

يتمتع الذكاء الاصطناعي المُدرب على الويب المظلم بإمكانية استخدامه في العديد من مهام الأمن السيبراني ، بما في ذلك تحديد مواقع الويب التي تبيع البيانات السرية المُسربة ، ومراقبة منتديات الويب المظلم للكشف عن مشاركة المعلومات غير المشروعة ، وتحديد الكلمات الرئيسية المُتعلقة بالتهديدات السيبرانية.

لكن يجب أن تتذكر دائمًا أنه ، مثل LLMs الأخرى ، يُعد DarkBERT عملاً قيد التقدم ، ويُمكن تحسين أدائه من خلال التدريب المستمر والضبط الدقيق. يُمكنك الإطلاع الآن على مقارنة بين الأمن السيبراني والقرصنة الأخلاقية: ما الفرق بينهما؟

DzTech

أنا مهندس دولة مع خبرة واسعة في مجالات البرمجة وإنشاء مواقع الويب وتحسين محركات البحث والكتابة التقنية. أنا شغوف بالتكنولوجيا وأكرس نفسي لتقديم معلومات عالية الجودة للجمهور. يُمكنني أن أصبح موردًا أكثر قيمة للمُستخدمين الذين يبحثون عن معلومات دقيقة وموثوقة حول مُراجعات المُنتجات والتطبيقات المُتخصصة في مُختلف المجالات. إنَّ التزامي الثابت بالجودة والدقة يضمن أنَّ المعلومات المُقدمة جديرة بالثقة ومفيدة للجمهور. السعي المُستمر للمعرفة يدفعني إلى مواكبة أحدث التطورات التكنولوجية، مما يضمن نقل الأفكار المُشتركة بطريقة واضحة وسهلة المنال.
زر الذهاب إلى الأعلى