Что такое GTBot и каковы его риски? И почему сайты блокируют его

В августе 2023 года OpenAI, мощная компания в области искусственного интеллекта, которой приписывают разработку ChatGPT и многих других передовых моделей, анонсировала GTBot, веб-сканер, предназначенный для парсинга веб-страниц и сбора данных.

Вскоре после этого объявления некоторые крупнейшие веб-сайты в Интернете заблокировали доступ сканирующего бота к своему сайту. но почему? Что такое GTBot OpenAI? И почему крупные веб-сайты боятся этого и почему они пытаются это заблокировать? Проверять Как создать идеальный файл Robots.txt для SEO: что это такое и как его использовать подробно.

Что такое GTBot и каковы его риски? Почему веб-сайты блокируют его – Объяснения

Что такое GTBot OpenAI?

Что такое GTBot и каковы его риски? Почему веб-сайты блокируют его – Объяснения

GTBot — это веб-сканер, созданный OpenAI для поиска в Интернете и сбора информации с целью разработки моделей искусственного интеллекта OpenAI. Он запрограммирован на сканирование общедоступных веб-сайтов и отправку собранных данных на серверы OpenAI. Затем OpenAI использует эти данные для обучения и улучшения своих моделей ИИ с целью создания более совершенных и инклюзивных систем ИИ. Чтобы получить доступ к передовым технологиям, таким как GPT-4 или его подпродуктам, таким как ChatGPT, роботы для сканирования веб-страниц практически необходимы.

Для обучения модели ИИ требуется огромный объем данных, и один из наиболее эффективных способов сбора этих данных — развертывание таких инструментов, как GTBot. Он может систематически просматривать веб-страницы, переходить по ссылкам для индексации большого количества веб-страниц и извлекать базовые данные, такие как текст, изображения и метаданные, соответствующие заранее определенному шаблону.

Эти данные затем можно систематизировать и ввести в модели ИИ, чтобы обучить их возможностям обработки естественного языка или генерации изображений или обучить их выполнению других задач ИИ. Для простоты: боты, сканирующие веб-страницы, собирают данные, которые становятся доступными для таких инструментов, как ChatGPT или же DALL-E Делай то, что ты делаешь.

Боты, сканирующие веб-страницы, не являются новой концепцией. Вероятно, миллионы из них уже сканируют миллиарды сайтов, доступных сегодня в Интернете. Они существуют, по крайней мере, с начала XNUMX-х годов. GTBot — один из таких роботов-сканеров, принадлежащих OpenAI. Итак, почему же возникли разногласия вокруг этого конкретного веб-сканера?

Почему крупные технические сайты блокируют GTBot?

Что такое GTBot и каковы его риски? Почему веб-сайты блокируют его – Объяснения

По данным сайта Business InsiderНекоторые крупнейшие веб-сайты блокируют сканер OpenAI, чтобы предотвратить доступ к их контенту. Итак, если конечной целью GTTBot является содействие развитию искусственного интеллекта, почему некоторые крупнейшие веб-сайты в Интернете, некоторые из которых так или иначе получили выгоду, выступают против этого?

Ну вот о чем речь. Еще с появлением генеративных технологий искусственного интеллекта в 2022 году велись многочисленные дискуссии о праве компаний, занимающихся искусственным интеллектом, использовать данные, полученные из Интернета, практически без ограничений, большая часть которых защищена законом об авторском праве. Не существует четких законов, регулирующих сбор и использование данных компаниями для собственной выгоды. Проверять Кому принадлежат авторские права на творения ИИ? Как действует авторское право на эти произведения искусства?

Что такое GTBot и каковы его риски? Почему веб-сайты блокируют его – Объяснения

Таким образом, сканирующие боты, такие как GTBot, получают доступ к информации, доступной в Интернете, захватывают творческие работы людей в форме текста, изображений или других форм мультимедиа и используют их в коммерческих целях без какого-либо разрешения, лицензии или компенсации первоначальным создателям. .

Это закон джунглей, согласно которому сильные питаются слабыми, а компании, занимающиеся искусственным интеллектом, хватают все, что им попадается в руки. Крупные веб-сайты, такие как Quora, CNN, The New York Times, Business Insider и Amazon, не слишком довольны тем, что их контент, защищенный авторским правом, очищается этими сканирующими ботами, где OpenAI может монетизировать его без каких-либо гонораров.

Вот почему эти веб-сайты используют файл «robots.txt» для их блокировки, который является устаревшим методом блокировки роботов, сканирующих веб-страницы. В соответствии с OpenAI, GTBot будет следовать инструкциям по сканированию или избегать сканирования веб-сайтов на основе правил, содержащихся в файле robots.txt, который представляет собой небольшой текстовый файл, который сообщает сканирующим ботам, как вести себя на веб-сайте. Если у вас есть собственный сайт и вы хотите предотвратить захват ваших данных GTBot, вот он. Как не дать роботу-сканеру OpenAI украсть контент вашего сайта.

Могут ли веб-сайты действительно остановить GTBot?

Хотя сканирующие боты, такие как GTBot, незаменимы для сбора огромных объемов данных, необходимых для обучения передовых систем искусственного интеллекта, существуют законные проблемы авторского права и добросовестного использования, которые нельзя игнорировать.

Конечно, существуют простые инструменты, такие как robots.txt, которые можно использовать для защиты от этих потенциальных угроз, но будет ли GTBot следовать инструкциям в этом файле, полностью зависит от OpenAI. Нет никаких гарантий, что он это сделает, и нет гарантированного немедленного способа узнать, сделал ли он это. В борьбе за защиту GTBot от данных, защищенных авторским правом, у OpenAI есть все возможности для обеспечения целостности и уважения авторских прав, по крайней мере, на данный момент. Вы можете просмотреть сейчас Как очистить веб-сайт и извлечь из него данные.

ДзТех

Я государственный инженер с большим опытом работы в области программирования, создания веб-сайтов, SEO и технического написания. Я увлечен технологиями и посвящаю себя предоставлению качественной информации общественности. Я могу стать более ценным ресурсом для пользователей, которые ищут точную и достоверную информацию об обзорах продуктов и специализированных приложениях в различных областях. Моя непоколебимая приверженность качеству и точности гарантирует, что предоставляемая информация заслуживает доверия и полезна для аудитории. Постоянное стремление к знаниям заставляет меня идти в ногу с новейшими технологическими разработками, гарантируя, что общие идеи будут передаваться в ясной и доступной форме.
Перейти к верхней кнопке