Qu'est-ce que DarkBERT ? L'IA peut-elle aider à lutter contre les cybermenaces ?

Les grands modèles de langage (LLM) gagnent rapidement en popularité, avec de nouveaux paradigmes et des technologies en évolution basés sur eux entrant constamment sur la scène. Ces modèles, tels que ChatGPT, sont généralement formés sur diverses ressources Internet, notamment des articles, du contenu de sites Web, des livres et des sites de médias sociaux.

Dans un mouvement sans précédent, une équipe de chercheurs du Korea Advanced Institute of Science and Technology et de la société d'intelligence de données S2W a développé DarkBERT, un grand modèle de langage (LLM) formé sur des ensembles de données extraits exclusivement du dark web. Leur objectif était de créer un outil d'IA qui surpasse les modèles de langage existants et aide les chercheurs en menaces, les forces de l'ordre et les professionnels de la cybersécurité à combattre les cybermenaces. Vérifier L'utilisation de l'intelligence artificielle dans la cybersécurité rend-elle le monde plus sûr ?

Qu'est-ce que DarkBERT ? L'IA peut-elle aider à lutter contre les cybermenaces ? - protection

Qu'est-ce que DarkBERT ?

DarkBERT est un modèle cryptographique basé sur un commutateur basé sur l'architecture RoBERTa. Le modèle LLM a été formé sur des millions de pages Web sombres, y compris des données provenant de forums de piratage, de sites d'escroquerie et d'autres sources en ligne liées à des activités illégales.

Le terme « dark web » fait référence à une section cachée d'Internet qui n'est pas accessible via les navigateurs Web standard. La subdivision est connue pour héberger des sites Web et des marchés anonymes connus pour leurs activités illégales, telles que le commerce de données volées, de drogues et d'armes. Il nécessite une application spécialisée telle que Tor (The Onion Router) pour y accéder. Tor anonymise les adresses IP des utilisateurs, ce qui rend difficile le suivi de leurs activités en ligne.

Pour former DarkBERT, les chercheurs ont accédé au dark web via le réseau Tor et ont collecté des données brutes. Ils ont soigneusement filtré ces données à l'aide de techniques telles que la déduplication, l'équilibrage des classes et le prétraitement pour créer une base de données Web sombre optimisée, qui a ensuite été transmise à RoBERTa pendant environ 15 jours pour créer DarkBERT.

Cette base de données sert de données de formation pour améliorer la capacité du modèle DarkBERT à comprendre et à extraire des informations significatives à partir du contenu riche en dialectes encodés de manière complexe sur le Dark Web. DarkBERT a reçu près de 6.1 millions de pages trouvées sur le dark web dans le cadre d'une pré-formation à grande échelle sur les textes en anglais.

DarkBERT se distingue des autres paradigmes linguistiques par sa capacité inégalée à comprendre les dialectes uniques et les messages cryptés répandus sur le dark web. Dans divers cas d'utilisation liés à la cybersécurité, DarkBERT a constamment surpassé les paradigmes de langage établis tels que BERT et RoBERTa. Vérifier Les meilleurs sites sombres que vous ne trouverez pas sur différents moteurs de recherche.

Les utilisations potentielles de DarkBERT dans la cybersécurité

Qu'est-ce que DarkBERT ? L'IA peut-elle aider à lutter contre les cybermenaces ? - protection

DarkBERT a une grande compréhension du langage cybercriminel et excelle dans la détection des menaces potentielles identifiées. Il peut effectuer des recherches sur le dark web et identifier et signaler avec succès les menaces de cybersécurité telles que les fuites de données et les ransomwares, ce qui en fait un outil potentiellement utile pour lutter contre les cybermenaces.

Pour évaluer l'efficacité de DarkBERT, les chercheurs l'ont comparé à deux modèles NLP populaires, BERT et RoBERTa, évaluant ses performances dans trois cas d'utilisation liés à la cybersécurité, une recherche publiée sur arxiv.org.

1. Surveillez les forums du dark web pour les discussions potentiellement nuisibles

La surveillance des forums du dark web, qui sont couramment utilisés pour échanger des informations illégales, est cruciale pour identifier les sujets potentiellement dangereux. Cependant, l'examen manuel de ce processus peut prendre beaucoup de temps, ce qui rend l'automatisation du processus bénéfique pour les experts en sécurité.

Les chercheurs se sont concentrés sur les activités potentiellement malveillantes dans les forums de piratage et ont créé des directives d'annotation pour les discussions importantes, y compris le partage de données confidentielles et la distribution de logiciels malveillants ou de vulnérabilités critiques.

DarkBERT a surpassé les autres modèles de langage en termes de précision, de rappel et de score F1, devenant ainsi un meilleur choix pour identifier les discussions remarquables sur le dark web.

2. Détecter les sites Web qui hébergent des informations confidentielles

Les pirates et les groupes de rançongiciels utilisent le dark web pour créer des sites Web de fuite de données, où ils publient des données confidentielles volées à des organisations qui refusent de se conformer aux demandes de rançon. D'autres cybercriminels téléchargent des données sensibles divulguées, telles que des mots de passe et des informations financières, sur le dark web dans le but de les vendre.

Dans leur étude, les chercheurs ont collecté des données auprès de groupes notoires de ransomwares et analysé des sites de fuites de ransomwares qui publient des données pour des organisations. DarkBERT a surpassé les autres modèles de langage dans l'identification et la catégorisation de ces sites, et a démontré sa compréhension du langage utilisé dans les forums de piratage clandestins sur le Dark Web.

3. Identifiez les mots-clés liés aux menaces sur le dark web

Qu'est-ce que DarkBERT ? L'IA peut-elle aider à lutter contre les cybermenaces ? - protection

DarkBERT tire parti de la fonction de masque de remplissage, une fonctionnalité inhérente aux paradigmes du langage BERT, pour identifier avec précision les mots-clés associés à des activités illégales, y compris les ventes de drogue sur le dark web.

Lorsque le mot « MDMA » était masqué sur une page de vente de médicaments, DarkBERT générait des mots liés à la drogue, tandis que d'autres modèles suggéraient des mots génériques et des termes sans rapport avec la drogue, tels que différentes professions.

La capacité de DarkBERT à identifier des mots clés liés à des activités illégales peut être précieuse pour suivre et traiter les cybermenaces émergentes. Vérifier Différentes façons de prévenir les attaques de la chaîne d'approvisionnement.

DarkBERT est-il accessible au grand public ?

DarkBERT n'est actuellement pas accessible au public, mais les chercheurs sont ouverts aux demandes d'utilisation à des fins académiques.

Exploiter la puissance de l'intelligence artificielle pour détecter et prévenir les menaces

DarkBERT est pré-formé sur les données du dark web et surpasse les paradigmes de langage existants dans plusieurs cas d'utilisation de la cybersécurité, ce qui en fait un outil essentiel pour faire avancer la recherche sur le dark web.

L'IA formée sur le dark web peut être utilisée pour de nombreuses tâches de cybersécurité, notamment l'identification des sites Web vendant des données confidentielles divulguées, la surveillance des forums du dark web pour détecter le partage illégal d'informations et l'identification des mots clés liés aux cybermenaces.

Mais vous devez toujours vous rappeler que, comme les autres LLM, DarkBERT est un travail en cours et que ses performances peuvent être améliorées grâce à une formation continue et à un réglage fin. Vous pouvez voir maintenant Comparaison de la cybersécurité et du piratage éthique : quelle est la différence entre eux ?

Aller au bouton supérieur