В августе 2023 года OpenAI, мощная компания в области искусственного интеллекта, которой приписывают разработку ChatGPT и многих других передовых моделей, анонсировала GTBot, веб-сканер, предназначенный для парсинга веб-страниц и сбора данных.
Вскоре после этого объявления некоторые крупнейшие веб-сайты в Интернете заблокировали доступ сканирующего бота к своему сайту. но почему? Что такое GTBot OpenAI? И почему крупные веб-сайты боятся этого и почему они пытаются это заблокировать? Проверять Как создать идеальный файл Robots.txt для SEO: что это такое и как его использовать подробно.
Что такое GTBot OpenAI?
GTBot — это веб-сканер, созданный OpenAI для поиска в Интернете и сбора информации с целью разработки моделей искусственного интеллекта OpenAI. Он запрограммирован на сканирование общедоступных веб-сайтов и отправку собранных данных на серверы OpenAI. Затем OpenAI использует эти данные для обучения и улучшения своих моделей ИИ с целью создания более совершенных и инклюзивных систем ИИ. Чтобы получить доступ к передовым технологиям, таким как GPT-4 или его подпродуктам, таким как ChatGPT, роботы для сканирования веб-страниц практически необходимы.
Для обучения модели ИИ требуется огромный объем данных, и один из наиболее эффективных способов сбора этих данных — развертывание таких инструментов, как GTBot. Он может систематически просматривать веб-страницы, переходить по ссылкам для индексации большого количества веб-страниц и извлекать базовые данные, такие как текст, изображения и метаданные, соответствующие заранее определенному шаблону.
Эти данные затем можно систематизировать и ввести в модели ИИ, чтобы обучить их возможностям обработки естественного языка или генерации изображений или обучить их выполнению других задач ИИ. Для простоты: боты, сканирующие веб-страницы, собирают данные, которые становятся доступными для таких инструментов, как ChatGPT или же DALL-E Делай то, что ты делаешь.
Боты, сканирующие веб-страницы, не являются новой концепцией. Вероятно, миллионы из них уже сканируют миллиарды сайтов, доступных сегодня в Интернете. Они существуют, по крайней мере, с начала XNUMX-х годов. GTBot — один из таких роботов-сканеров, принадлежащих OpenAI. Итак, почему же возникли разногласия вокруг этого конкретного веб-сканера?
Почему крупные технические сайты блокируют GTBot?
По данным сайта Business InsiderНекоторые крупнейшие веб-сайты блокируют сканер OpenAI, чтобы предотвратить доступ к их контенту. Итак, если конечной целью GTTBot является содействие развитию искусственного интеллекта, почему некоторые крупнейшие веб-сайты в Интернете, некоторые из которых так или иначе получили выгоду, выступают против этого?
Ну вот о чем речь. Еще с появлением генеративных технологий искусственного интеллекта в 2022 году велись многочисленные дискуссии о праве компаний, занимающихся искусственным интеллектом, использовать данные, полученные из Интернета, практически без ограничений, большая часть которых защищена законом об авторском праве. Не существует четких законов, регулирующих сбор и использование данных компаниями для собственной выгоды. Проверять Кому принадлежат авторские права на творения ИИ? Как действует авторское право на эти произведения искусства?
Таким образом, сканирующие боты, такие как GTBot, получают доступ к информации, доступной в Интернете, захватывают творческие работы людей в форме текста, изображений или других форм мультимедиа и используют их в коммерческих целях без какого-либо разрешения, лицензии или компенсации первоначальным создателям. .
Это закон джунглей, согласно которому сильные питаются слабыми, а компании, занимающиеся искусственным интеллектом, хватают все, что им попадается в руки. Крупные веб-сайты, такие как Quora, CNN, The New York Times, Business Insider и Amazon, не слишком довольны тем, что их контент, защищенный авторским правом, очищается этими сканирующими ботами, где OpenAI может монетизировать его без каких-либо гонораров.
Вот почему эти веб-сайты используют файл «robots.txt» для их блокировки, который является устаревшим методом блокировки роботов, сканирующих веб-страницы. В соответствии с OpenAI, GTBot будет следовать инструкциям по сканированию или избегать сканирования веб-сайтов на основе правил, содержащихся в файле robots.txt, который представляет собой небольшой текстовый файл, который сообщает сканирующим ботам, как вести себя на веб-сайте. Если у вас есть собственный сайт и вы хотите предотвратить захват ваших данных GTBot, вот он. Как не дать роботу-сканеру OpenAI украсть контент вашего сайта.
Могут ли веб-сайты действительно остановить GTBot?
Хотя сканирующие боты, такие как GTBot, незаменимы для сбора огромных объемов данных, необходимых для обучения передовых систем искусственного интеллекта, существуют законные проблемы авторского права и добросовестного использования, которые нельзя игнорировать.
Конечно, существуют простые инструменты, такие как robots.txt, которые можно использовать для защиты от этих потенциальных угроз, но будет ли GTBot следовать инструкциям в этом файле, полностью зависит от OpenAI. Нет никаких гарантий, что он это сделает, и нет гарантированного немедленного способа узнать, сделал ли он это. В борьбе за защиту GTBot от данных, защищенных авторским правом, у OpenAI есть все возможности для обеспечения целостности и уважения авторских прав, по крайней мере, на данный момент. Вы можете просмотреть сейчас Как очистить веб-сайт и извлечь из него данные.