كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب

الانترنت هو كنز واسع من المعرفة. لكنه سريع الزوال ولا توجد ضمانات بأن المحتوى الذي تريده سيكون موجودًا في المستقبل. إذا كنت لا تستطيع أن تتحمل فقدان هذا المحتوى ، فيمكنك استخدام أداة أرشفة الويب لتخزين نسخة من صفحة الويب.

يستخدم العديد من الأشخاص خدمات القراءة لاحقًا لحفظ مقالات الويب. تعمل هذه التطبيقات بشكل أفضل مع المحتوى المستند إلى النص ولا تتعامل بشكل جيد مع تصميم صفحات الويب المعقدة أو الوسائط بشكل صحيح. لذا فهل تبحث عن بعض التحكم أكثر؟

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

دعونا نرى كيف يمكنك إنشاء استنساخ من Instapaper أو Pocket في جهاز الكمبيوتر الخاص بك دون أن تفقد أي أصول لصفحة الويب.

تقديم ArchiveBox

ArchiveBox هو حل مفتوح المصدر يمكنه مساعدتك في استضافة البديل الخاص بك لخدمة الأرشفة مثل Wayback Machine. أنت لا تتخلى عن خصوصيتك أو تبقى في خدمة لا يمكنك التحكم فيها.

حيث يعمل الأمر من خلال قائمة عناوين URL التي تريد أرشفتها ويقوم بإنشاء استنساخ HTML محلي قابل للتصفح للمحتوى بتنسيقات متعددة. يتضمن نسخًا محلية بتنسيق HTML ، لقطة شاشة للصفحة وملف PDF و WARC (Web ARCHive).

تبقى هذه النسخ معك حتى لو اختفت صفحة الويب الأصلية في المستقبل.

تم برمجة ArchiveBox بإستخدام Python 3. كما يستخدم تبعيات مثل Wget و Headless Chrome و Youtube-dl وأدوات Unix الأخرى لحفظ صفحة الويب. لا تحتاج إلى خادم يعمل باستمرار في الخلفية . ما عليك سوى تشغيله في كل مرة تريد استيراد ارتباطات جديدة وتحديث الإخراج الثابت.

بمجرد اكتمال الأرشفة ، يمكنك فتح الإخراج /index.html الذي تم إنشاؤه في المستعرض الخاص بك لعرض الأرشيف.

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

مزايا ArchiveBox

  • يقوم بحفظ الروابط في العديد من تنسيقات الملفات التي تعمل كنسخ احتياطية.
  • يحاول الاحتفاظ بصفحة الويب الأصلية باستخدام طرق التقاط معقدة.
  • لديه القدرة على استخراج المحتوى تلقائيًا وحفظه في مجلد واحد.
  • كما يوفر واجهة سطر أوامر بسيطة للتعامل مع روابط متعددة وخلاصات وإشارات مرجعية. يجب عليك ضبطها مرة واحدة وتشغيلها وفق جدول زمني لأرشفة الروابط الأحدث.

عيوب ArchiveBox

  • ArchiveBox يستخرج جميع الأصول من صفحة الويب. يستهلك مساحة كبيرة على القرص ويستخدم وحدة المعالجة المركزية بشكل مكثف.
  • يتطلب التطبيق ثلاثة أو أكثر من التبعيات خارج Python 3.5. يتطلب الأمر إجراء عمليات التجربة والخطأ لجعل هذه المكونات تعمل معًا.
  • لا يدعم التطبيق نظام التشغيل Windows بالكامل. يجب عليك تثبيت Docker أو تمكين نظام Windows الفرعي لنظام Linux (WSL). حتى مع ذلك ، قد تعمل أو لا تعمل بعض الميزات.
  كيفية تمكين الحد الأقصى للسرعة على تطبيق Google Maps

أنظمة التشغيل المدعومة

يدعم ArchiveBox رسميًا أنظمة التشغيل التالية:

  • macOS: 10.12 Sierra مع Homebrew.
  • Linux: Ubuntu, Debian (مع APT). قد يعمل (أو لا) التطبيق في توزيعات مثل Fedora و CentOS و SUSE و Arch وغير ذلك.
  • BSD: FreeBSD، OpenBSD ، NetBSD (مع pkg).

التبعيات

ArchiveBox هي أداة مرنة لأرشفة الويب. يجب تثبيت التبعيات التالية وتلبية الحد الأدنى من المتطلبات.

  • Python 3. لا تستخدم Python 2.0 الافتراضي الذي يأتي مع macOS.
  • Wget 1.16
  • Chromium 59. إذا كنت تستخدم Google Chrome بالفعل ، فلا تقم بتثبيت Chromium.
  • Youtube-dl (اختياري): تحتاج موارد الوسائط إلى مساحة تخزين كبيرة. عليك التخمين في هذا بشكل مفصل قبل أرشفة المواقع المفضلة لديك.

إعداد ArchiveBox

هناك طريقتان لإعداد ArchiveBox – تلقائي ويدوي.

في الطريقة التلقائية ، سيقوم البرنامج النصي المساعد بتثبيت التطبيق وتبعياته. لكنك لن تتمكن من استكشاف المشكلة في حالة حدوث أي خطأ. من الأفضل تثبيت التطبيق يدويًا.

لأغراض العرض التوضيحي ، سوف نستخدم macOS 10.14.6.

تثبيت التبعيات

أفضل طريقة لتثبيت التبعيات هي من خلال مدير الحزم يسمى Homebrew. لفهم أساسياته ، تحقق من هذه المقالة حول كيفية تثبيت التطبيقات باستخدام Homebrew.

افتح Terminal واكتب في

brew install python3 git wget curl youtube-dl
brew cask install chromium
(تجاوز ذلك إذا كان لديك Google Chrome / Chromium مثبتًا بالفعل في التطبيقات)

التحقق من رقم إصدار جميع التبعيات

للتحقق من رقم إصدار جميع التبعيات ، اكتب

dependency app --version

(استبدل dependency app بـ python3 و wget و youtube-dl والمزيد)

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

تنزيل ملف تصدير الإشارات المرجعية الخاص بك

يمكن لجميع خدمات القراءة لاحقًأ والمتصفحات تصدير الإشارات المرجعية كملف HTML. اتبع الإرشادات الموجودة في هذه المقالة حول كيفية تصدير الإشارات المرجعية من المتصفح الخاص بك. يمكنك أيضًا حفظ ارتباط واحد أو قائمة عناوين URL في ملف نصي.

تثبيت ArchiveBox

استنسخ المستودع من GitHub. عليك فتح Terminal ، واكتب

git clone https://github.com/pirate/ArchiveBox

ثم،

cd ArchiveBox/

عند استنساخ هذا الريبو ، سيقوم المثبت بإنشاء مجلد ArchiveBox في الدليل الرئيسي. يحتوي هذا المجلد على جميع ملفات التطبيق والتكوينات الرئيسية.

  كيفية الوصول بسرعة إلى فئات Netflix المخفية على Chrome

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

أضف عنوان URL الخاص بك إلى الأرشيف

إذا كنت تريد أرشفة ارتباط واحد ، فاكتب

echo 'https://example.com'| ./archive
كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

انتقل إلى مجلد ArchiveBox لمشاهدة مجلد الإخراج المنشأ حديثًا. هنا ، سترى ملف index.html.

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

إضافة روابط متعددة إلى الأرشيف

عندما تريد حفظ روابط متعددة (العشرات أو أكثر) ، فمن الأفضل أن تضيف الروابط إلى ملف نصي. سيقوم التطبيق بتحليل عناوين URL داخل الملف وأرشفتها. افتح Terminal واكتب في

./archive [Path to Your File.txt]

إذا كان الملف موجودًا في مجلد التنزيلات ، فسيظهر المسار الخاص بك مثل

./archive /Users/(Home directory name)/Downloads/links.txt

انتظر بضع دقائق / ساعات لإكمال العملية. للوصول إلى الأرشيف الخاص بك ، افتح الإخراج /index.html في المستعرض الخاص بك. يمكنك الفرز حسب العمود ، والبحث في العنوان باستخدام المربع الموجود في الجزء العلوي الأيمن ، ومشاهدة العدد الإجمالي للروابط في الأسفل.

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

انقر فوق favicon أسفل عمود الملفات لزيارة صفحة التفاصيل. ستجد روابط لتنسيق الملف الفردي كما هو موضح في لقطة الشاشة. يتم تحميل نفس الرابط أيضًا على archive.org.

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

بالطريقة نفسها ، قم بتصدير ارتباطات Instapaper أو Pocket كملف HTML. ثم ، اكتب في

./archive ~/Downloads/instapaper-export.html

يمكنك أيضًا استيراد قائمة الروابط من عنوان URL للخلاصة. لكن تذكر أنك قد تصادف الكثير من حالات الفشل أو انتهاء الجلسة. إذا كان هناك الآلاف من عناوين URL ، فمن الأفضل تقسيمها إلى ملفات أصغر لزيادة معدل النجاح.

تكوين ArchiveBox

تعمل الإعدادات الافتراضية في معظم الحالات ، ولكن هناك بعض المعلمات الهامة التي يمكنك تعديلها للحصول على المزيد من الميزات. ملف التكوين يبواجد في

~/ArchiveBox/etc/ArchiveBox.conf.default
ملاحظة: لا تقم بتعديل هذا الملف ، لأنه سيتم مسحه كلما قمت بتحديث التطبيق. لإنشاء ملف تكوين مستمر ، اكتب
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

سيُنشئ الأمر cp نسخة مكررة من ملف التكوين في دليلك الرئيسي. بشكل افتراضي ، الملف غير مرئي في الدليل الخاص بك. لإظهار أي الملف المخفي إضغذ على Cmd + Shift + Period. افتح ملف التكوين في TextEdit.

  كيفية الحصول على نتائج بحث Google حسب التاريخ: بعض الطرق

كيفية إنشاء تطبيق القراءة لاحقًا ذاتي الاستضافة لحفظ مختلف مواقع الويب - شروحات

المعلمات

يوفر لك ArchiveBox العديد من الخيارات. وهنا بعض منها مهمة.

  • ONLY_NEW: اضبط هذا على True لتنزيل الأرشيف للارتباطات المضافة حديثًا. مفيد إذا كنت تراجع الروابط بانتظام.
  • TIMEOUT: القيم المحتملة هي 60 أو 120 ثانية. إذا رأيت أخطاء مهلة متكررة فقم برفعها إلى 120 ثانية.
  • URL_BLACKLIST: يمكنك استخدام تعبير regex لاستبعاد نطاقات أو امتدادات أو أنماط URL معينة من الأرشيف.
  • FETCH_MEDIA: جلب جميع ملفات الصوت والفيديو باستخدام youtube-dl. اضبط هذا على True فقط عندما يكون لديك مساحة تخزين كافية.
  • WGET_USER_AGENT: استخدمه لتغيير وكيل المستخدم أثناء الأرشفة. إذا تم حظرك بواسطة خوادم معينة ، فسيكون هذا الخيار مفيدًا.

لمعرفة المزيد حول تفاصيل التكوين ، تفضل بزيارة ArchiveBox Configuration للحصول على مزيد من المعلومات.

نشر الأرشيف الخاص بك

الأرشيف الذي يتم إنتاجه بواسطة ArchiveBox متوافق مع أي مزود يمكنه استضافة HTML ثابت. على سبيل المثال ، صفحات GitHub .

يمكنك أيضًا إنشاؤه على خادم المنزل أو VPS عن طريق تحميل مجلد الإخراج مباشرة إلى دليل الويب الخاص بك.

تأكد من عدم تشغيل أي محتوى مثل CGI أو PHP ، وتريد استضافة ملفات HTML الثابتة فقط.

استضافة الأرشيف الخاص بك على حد سواء لها إيجابيات وسلبيات. عندما تقوم بتنزيل روابط من مواقع عشوائية ، يجب أن تفهم مخاطر استضافة ملفات CSS و JS الضارة في نطاقك المشترك. قد ترغب أيضًا في وضع قائمة المحفوظات في ملف robots.txt على القائمة السوداء لتظل سرية.

تحميل كامل المواقع لمراجعتها دون إتصال

جذبت أرشفة الويب الانتباه على مدار الأعوام القليلة الماضية. يقومون بتسجيل محتويات صفحة الويب بالكامل ، بما في ذلك HTML المصدر ، الصور المضمنة ، الأنماط ، وشفرة JavaScript. يتناسب ArchiveBox مع الفئة الواسعة من أدوات وخدمات أرشفة الويب.

إذا كنت محبطًا من Instapaper أو Pocket ، فسيكون ArchiveBox بديلاً ممتازًا. بصرف النظر عن مقالات الويب ، قد ترغب في أرشفة مواقع ويب كاملة للوصول إليها دون اتصال بالإنترنت أو للحفاظ على معلوماتها. إذا كان هذا يهمك ، فاقرأ هذه المقالة عن كيفية تنزيل أي موقع ويب للقراءة في وضع عدم الاتصال.

المصدر
انتقل إلى أعلى