ما هو GTBot وما هي مخاطره؟ ولماذا تقوم مواقع الويب بحظره

في أغسطس 2023، أعلنت شركة OpenAI، وهي شركة الذكاء الاصطناعي القوية التي يُنسب إليها الفضل في تطوير ChatGPT والعديد من النماذج المُتقدمة الأخرى، عن GTBot، وهو زاحف ويب مُصمم لكشط الويب وجمع البيانات.

بعد وقت قصير من هذا الإعلان، قامت بعض من أكبر المواقع على الإنترنت بحظر روبوت الزحف من الوصول إلى موقعها على الويب. لكن لماذا؟ ما هو GTBot الخاص بـ OpenAI؟ ولماذا تخاف منه مواقع الويب الكبرى، ولماذا تحاول حظره؟ تحقق من كيفية إنشاء ملف Robots.txt المثالي لـ SEO: ما هو وكيفية استخدامه بالتفصيل.

ما هو GTBot وما هي مخاطره؟ ولماذا تقوم مواقع الويب بحظره - شروحات

ما هو GTBot الخاص بـ OpenAI؟

ما هو GTBot وما هي مخاطره؟ ولماذا تقوم مواقع الويب بحظره - شروحات

GTBot هو زاحف ويب تم إنشاؤه بواسطة OpenAI للبحث في الإنترنت وجمع المعلومات بهدف تطوير نماذج الذكاء الاصطناعي الخاصة بـ OpenAI. تمت برمجته للزحف إلى مواقع الويب العامة وإرسال البيانات المُجمَّعة إلى خوادم OpenAI. ثم تستخدم OpenAI هذه البيانات لتدريب وتحسين نماذج الذكاء الاصطناعي الخاصة بها، بهدف بناء أنظمة ذكاء اصطناعي مُتقدمة وتتضمَّن كافة التفاصيل بشكل مُتزايد. من أجل الوصول إلى تقنيات مُتطورة مثل GPT-4 أو مُنتجاته الفرعية مثل ChatGPT، لا غنى عن روبوتات زحف الويب تقريبًا.

يتطلب تدريب نموذج الذكاء الاصطناعي كمية هائلة من البيانات، وإحدى أكثر الطرق فعاليَّة لجمع هذه البيانات هي نشر أدوات مثل GTBot. والتي يُمكن لها تصفح الويب بشكل منهجي، واتباع الروابط لفهرسة كميات كبيرة من صفحات الويب، واستخراج البيانات الأساسية مثل النصوص والصور والبيانات التعريفية التي تُطابق نمطًا مُحددًا مسبقًا.

يُمكن بعد ذلك تنظيم هذه البيانات وإدخالها في نماذج الذكاء الاصطناعي لتدريب قدراتها على معالجة اللغة الطبيعية أو قدرات توليد الصور أو تدريبها على مهام الذكاء الاصطناعي الأخرى. من أجل تبسيط الأمور، تجمع روبوتات زحف الويب البيانات التي تُتيح لأدوات مثل ChatGPT أو DALL-E القيام بما تفعله.

روبوتات زحف الويب ليست مفهومًا جديدًا. من المحتمل أن يكون هناك الملايين منها تزحف بالفعل إلى مليارات المواقع المُتاحة على الإنترنت اليوم. لقد كانت موجودة منذ أوائل التسعينيات على الأقل. يُعد GTBot أحد روبوتات الزحف هذه المملوكة لشركة OpenAI. إذًا، ما سبب الجدل الدائر حول زاحف الويب هذا بالتحديد؟

لماذا تقوم مواقع التكنولوجيا الكبرى على الويب بحظر GTBot؟

ما هو GTBot وما هي مخاطره؟ ولماذا تقوم مواقع الويب بحظره - شروحات

وفقًا لموقع Business Insider، تعمل بعض أكبر مواقع الويب على حظر زاحف OpenAI من أجل منع الوصول إلى مُحتوياتها. لذا، إذا كان الهدف النهائي لـ GTTBot هو تعزيز تطوير الذكاء الاصطناعي، فلماذا تُعارضه بعض أكبر المواقع على الإنترنت، والتي استفاد بعضها بطريقة أو بأخرى من الذكاء الاصطناعي؟

حسنًا، إليك ما يدور حوله هذا الأمر. بالعودة إلى ظهور تقنيات الذكاء الاصطناعي التوليدي في عام 2022، كانت هناك مُناقشات عديدة حول حق شركات الذكاء الاصطناعي في استخدام البيانات المُستمدة من الإنترنت، دون حدود تقريبًا، والتي يتمتع جزء كبير منها بحماية قانونية بموجب حقوق الطبع والنشر. لا توجد قوانين واضحة تحكم كيفية قيام هذه الشركات بجمع البيانات واستخدامها لتحقيق مكاسب خاصة بها. تحقق من من يملك حق المؤلف لإبداعات الذكاء الاصطناعي؟ كيف تعمل حقوق الطبع والنشر لهذه الأعمال الفنية؟

ما هو GTBot وما هي مخاطره؟ ولماذا تقوم مواقع الويب بحظره - شروحات

لذا، في الأساس، تقوم روبوتات الزحف مثل GTBot بالوصول إلى المعلومات المُتاحة على الويب، والاستيلاء على الأعمال الإبداعية للأشخاص في شكل نصوص أو صور أو أشكال أخرى من الوسائط، واستخدامها لأغراض تجارية دون الحصول على أي إذن أو ترخيص أو تقديم تعويض للمُبدعين الأصليين.

إنه قانون الغاب أين القوي يتغذى على الضعيف، وشركات الذكاء الاصطناعي تستولي على كل ما يُمكنها الحصول عليه. مواقع الويب الكبيرة مثل Quora، و CNN، و New York Times، و Business Insider، و Amazon ليست سعيدة جدًا لأن مُحتواها المحمي بحقوق الطبع والنشر يتم كشطه بواسطة روبوتات الزحف هذه، أين يُمكن لـ OpenAI الحصول على فائدة مالية منه بدون أي عوائد لها.

ولهذا السبب تستخدم مواقع الويب هذه ملف “robots.txt” لحظره، وهي طريقة قديمة لعقود من الزمن لمنع روبوتات زحف الويب. وفقًا لـ OpenAI، سيلتزم GTBot بتعليمات الزحف إلى مواقع الويب أو يتجنب الزحف إليها بناءً على القواعد المُضمَّنة في ملف robots.txt، وهو ملف نصي صغير يُخبر روبوتات الزحف بكيفية التصرف على موقع الويب. إذا كان لديك موقع خاص بك وترغب في منع GTBot من الاستيلاء على بياناتك، فإليك كيفية منع روبوت زحف OpenAI من سرقة مُحتوى موقعك على الويب.

هل تستطيع مواقع الويب حقًا إيقاف GTBot؟

في حين أنَّ روبوتات الزحف مثل GTBot لا غنى عنها لجمع كميات هائلة من البيانات المطلوبة لتدريب أنظمة الذكاء الاصطناعي المُتقدمة، إلا أنَّ هناك مخاوف مشروعة حول حقوق الطبع والنشر والاستخدام العادل والتي لا يُمكن تجاهلها.

بالتأكيد، هناك أدوات بسيطة مثل ملف robots.txt التي يُمكن استخدامها للحماية من هذه التهديدات المُحتملة، ولكن ما إذا كان GTBot يلتزم بالتعليمات الموجودة في هذا الملف أم لا، فهو يخضع لتقدير OpenAI بالكامل. ولا توجد ضمانات بأنه سيفعل ذلك، ولا توجد طريقة فورية مضمونة لمعرفة ما إذا كان قد فعل ذلك. في المعركة من أجل إبقاء GTBot بعيدًا عن البيانات المحمية بحقوق الطبع والنشر، تمتلك OpenAI كافة الأوراق لضمان النزاهة واحترام حقوق الطبع والنشر، على الأقل في الوقت الحالي. يُمكنك الإطلاع الآن على كيفية تجريف موقع على شبكة الإنترنت واستخراج بياناته.

زر الذهاب إلى الأعلى