Qu’est-ce que GTBot et quels sont ses risques ? Et pourquoi les sites Web le bloquent

En août 2023, OpenAI, la puissante société d'IA à qui l'on doit le développement de ChatGPT et de nombreux autres modèles avancés, a annoncé GTBot, un robot d'exploration Web conçu pour le scraping Web et la collecte de données.

Peu de temps après cette annonce, certains des plus grands sites Web sur Internet ont empêché un robot d'exploration d'accéder à leur site Web. Mais pourquoi? Qu'est-ce que le GTBot d'OpenAI ? Et pourquoi les grands sites Internet en ont-ils peur, et pourquoi tentent-ils de le bloquer ? Vérifier Comment créer le fichier Robots.txt parfait pour le référencement: qu'est-ce que c'est et comment l'utiliser en détail.

Qu’est-ce que GTBot et quels sont ses risques ? Pourquoi les sites Web le bloquent – ​​Explications

Qu'est-ce que le GTBot d'OpenAI ?

Qu’est-ce que GTBot et quels sont ses risques ? Pourquoi les sites Web le bloquent – ​​Explications

GTBot est un robot d'exploration Web créé par OpenAI pour rechercher sur Internet et collecter des informations dans le but de développer des modèles d'IA OpenAI. Il est programmé pour explorer les sites Web publics et envoyer les données collectées aux serveurs OpenAI. OpenAI utilise ensuite ces données pour entraîner et améliorer ses modèles d'IA, dans le but de créer des systèmes d'IA de plus en plus avancés et inclusifs. Afin d'accéder à des technologies avancées telles que GPT-4 ou à ses sous-produits tels que ChatGPT, les robots d'exploration Web sont presque indispensables.

La formation d'un modèle d'IA nécessite une énorme quantité de données, et l'un des moyens les plus efficaces de collecter ces données consiste à déployer des outils comme GTBot. Il peut parcourir systématiquement le Web, suivre des liens pour indexer de grandes quantités de pages Web et extraire des données de base telles que du texte, des images et des métadonnées qui correspondent à un modèle prédéterminé.

Ces données peuvent ensuite être organisées et introduites dans des modèles d’IA pour entraîner leurs capacités de traitement du langage naturel ou de génération d’images ou les former à d’autres tâches d’IA. Pour simplifier les choses, les robots d'exploration Web collectent des données qui sont mises à la disposition d'outils tels que ChatGPT ou DALL-E Faites ce que vous faites.

Les robots d'exploration du Web ne sont pas un concept nouveau. Ils sont probablement déjà des millions à parcourir les milliards de sites disponibles sur Internet aujourd’hui. Ils existent depuis au moins le début des années XNUMX. GTBot est l'un de ces robots d'exploration appartenant à OpenAI. Alors, pourquoi cette controverse autour de ce robot d’exploration de sites Web en particulier ?

Pourquoi les principaux sites Web technologiques bloquent-ils GTBot ?

Qu’est-ce que GTBot et quels sont ses risques ? Pourquoi les sites Web le bloquent – ​​Explications

Selon le site Business InsiderCertains des plus grands sites Web bloquent le robot d'exploration OpenAI afin d'empêcher l'accès à leur contenu. Alors, si le but ultime de GTTBot est de promouvoir le développement de l’IA, pourquoi certains des plus grands sites internet d’Internet, dont certains en ont bénéficié d’une manière ou d’une autre, s’y sont-ils opposés ?

Eh bien, voici de quoi il s'agit. Dès l’avènement des technologies d’IA générative en 2022, de nombreuses discussions ont eu lieu sur le droit des entreprises d’IA d’utiliser presque sans limites des données tirées d’Internet, dont une grande partie est légalement protégée par le droit d’auteur. Il n’existe pas de lois claires régissant la manière dont ces entreprises collectent et utilisent les données à leur propre profit. Vérifier Qui détient les droits d'auteur sur les créations d'IA ? Comment fonctionne le droit d'auteur pour ces œuvres ?

Qu’est-ce que GTBot et quels sont ses risques ? Pourquoi les sites Web le bloquent – ​​Explications

Donc, fondamentalement, les robots d'exploration comme GTBot accèdent aux informations disponibles sur le Web, récupèrent les œuvres créatives des gens sous forme de texte, d'images ou d'autres formes de médias et les utilisent à des fins commerciales sans aucune autorisation, licence ou compensation pour les créateurs d'origine. .

C'est la loi de la jungle : les forts se nourrissent des faibles et les sociétés d'IA s'emparent de tout ce qui leur tombe sous la main. Les grands sites Web comme Quora, CNN, le New York Times, Business Insider et Amazon ne sont pas très heureux que leur contenu protégé par le droit d'auteur soit récupéré par ces robots rampants, où OpenAI peut le monétiser sans aucune redevance.

C'est pourquoi ces sites Web utilisent le fichier « robots.txt » pour les bloquer, une méthode vieille de plusieurs décennies pour bloquer les robots d'exploration du Web. Selon OpenAI, GTBot respectera les instructions d'exploration ou évitera d'explorer les sites Web en fonction des règles contenues dans le fichier robots.txt, qui est un petit fichier texte qui indique aux robots d'exploration comment se comporter sur un site Web. Si vous possédez votre propre site et souhaitez empêcher GTBot de pirater vos données, le voici Comment empêcher un robot d'exploration OpenAI de voler le contenu de votre site Web.

Les sites Web peuvent-ils vraiment arrêter GTBot ?

Bien que les robots d'exploration comme GTBot soient indispensables pour collecter les quantités massives de données nécessaires à la formation des systèmes d'IA avancés, il existe des problèmes légitimes de droit d'auteur et d'utilisation équitable qui ne peuvent être ignorés.

Bien sûr, il existe des outils simples comme robots.txt qui peuvent être utilisés pour se protéger contre ces menaces potentielles, mais le fait que GTBot suive ou non les instructions de ce fichier dépend entièrement d'OpenAI. Il n’y a aucune garantie qu’il le fera, et aucun moyen immédiat garanti de savoir s’il l’a fait. Dans la bataille visant à garder GTBot à l’écart des données protégées par le droit d’auteur, OpenAI a toutes les cartes en main pour garantir l’intégrité et le respect du droit d’auteur, du moins pour le moment. Vous pouvez voir maintenant Comment supprimer un site Web et extraire ses données.

Aller au bouton supérieur