Comment créer une application auto-hébergée à lire plus tard pour sauvegarder divers sites Web

Internet est un vaste trésor de connaissances. Mais c'est éphémère et il n'y a aucune garantie Que le contenu que vous voulez existera à l'avenir. Si vous ne pouvez pas vous permettre de perdre ce contenu, vous pouvez utiliser l'outil d'archivage Web pour stocker une copie de votre page Web.

Beaucoup de gens l'utilisent Services de lecture Plus tard Enregistre les articles Web. Ces applications fonctionnent correctement Mieux avec le contenu du document Texte et ne traite pas bien avec la conception de pages Web complexes ou des médias correctement. Vous cherchez donc un peu plus de contrôle?

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Voyons comment créer un clone d’Instapaper ou de Pocket sur votre ordinateur sans perdre d’actifs dans la page Web.

Présentation de ArchiveBox

ArchiveBox Est une solution open source qui peut vous aider à héberger votre service d'archivage alternatif tel que Wayback Machine. Vous n'abandonnez pas votre vie privée et ne restez pas dans un service que vous ne pouvez pas contrôler.

Il fonctionne à partir de la liste des URL que vous souhaitez archiver et crée un clone HTML de contenu pouvant être parcouru localement dans plusieurs formats. Comprend les versions HTML locales, les captures d'écran, PDF et WARC (Web ARCHive).

Ces copies restent avec vous même si la page Web d'origine disparaît à l'avenir.

ArchiveBox est programmé en utilisant Python 3. Il utilise également des dépendances telles que Wget و Chrome sans tête Et Youtube-dl et outils Unix Autre pour enregistrer la page Web. Vous n'avez pas besoin d'un serveur qui s'exécute constamment en arrière-plan. Exécutez-le simplement chaque fois que vous souhaitez importer de nouveaux liens et mettre à jour la sortie du firmware.

Une fois l'archivage terminé, vous pouvez ouvrir la sortie. index.html Ceci est créé dans votre navigateur pour voir les archives.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Avantages de ArchiveBox

  • Il enregistre les liens dans de nombreux formats de fichiers qui servent de sauvegardes.
  • Essaie de conserver la page Web d'origine à l'aide de méthodes de capture complexes.
  • Possibilité d'extraire automatiquement le contenu et de le sauvegarder dans un seul dossier.
  • Il fournit également une interface de ligne de commande simple permettant de gérer plusieurs liens, flux et signets. Vous devez le définir une fois et l'exécuter selon un calendrier pour archiver les nouveaux liens.

Inconvénients de ArchiveBox

  • ArchiveBox extrait tous les actifs d'une page Web. Il consomme beaucoup d’espace disque et utilise de manière intensive le processeur.
  • L'application nécessite trois dépendances ou plus en dehors de Python 3.5. Des essais et des erreurs sont nécessaires pour que ces composants fonctionnent ensemble.
  • L'application ne prend pas totalement en charge Windows. Vous devriez Vous devez installer Docker ou Activer le sous-système Windows Linux (WSL). Malgré tout, certaines fonctionnalités peuvent ou ne peuvent pas fonctionner.

Systèmes d'exploitation supportés

ArchiveBox prend officiellement en charge les systèmes d'exploitation suivants:

  • macOS: 10.12 Sierra avec Homebrew.
  • Linux: Ubuntu, Debian (avec APT). L'application peut fonctionner (ou pas) Distributions Tels que Fedora, CentOS, SUSE, Arch, etc.
  • BSD: FreeBSD, OpenBSD, NetBSD (avec pkg).

Les dépendances

ArchiveBox est un outil flexible pour l'archivage Web. Les dépendances suivantes doivent être installées et répondent à la configuration minimale requise.

  • Python 3. N'utilisez pas le 2.0 Python par défaut fourni avec macOS.
  • Wget 1.16
  • Chrome 59. Si vous utilisez Google Chrome Déjà, ne pas installer Chrome.
  • Youtube-dl (facultatif): les ressources multimédias nécessitent beaucoup d'espace de stockage. Vous devriez le deviner en détail avant d’archiver vos sites favoris.

Configurer ArchiveBox

Il existe deux façons de configurer ArchiveBox - automatique et manuel.

De manière automatique , Le script du plugin installera l’application et ses dépendances. Cependant, vous ne pourrez pas résoudre le problème si quelque chose ne va pas. Il est préférable d'installer l'application manuellement.

À des fins de démonstration, nous utiliserons macOS 10.14.6.

Installer des dépendances

Le meilleur moyen d'installer des dépendances consiste à utiliser un gestionnaire de paquets appelé Homebrew. Pour comprendre ses bases, consultez cet article Comment installer des applications avec Homebrew.

Ouvrir le terminal et taper

brew install python3 git wget curl youtube-dl
brew cask install chromium
(Ignorez-le si Google Chrome / Chromium est déjà installé dans les applications)

Vérifiez le numéro de version de toutes les dépendances

Pour vérifier le numéro de version de toutes les dépendances, tapez

dependency app --version

(Remplacez l'application de dépendance par python3, wget, youtube-dl, etc.)

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Téléchargez votre fichier d'export de marque-pages

Tous les services de lecture et navigateurs ultérieurs peuvent exporter des signets sous forme de fichier HTML. Suivez les instructions de cet article pour exporter des signets à partir de votre navigateur. Vous pouvez également enregistrer un lien unique ou une liste d'URL dans un fichier texte.

Installer ArchiveBox

Copier le référentiel de GitHub. Ouvrez un terminal et tapez

git clone https://github.com/pirate/ArchiveBox

Puis,

cd ArchiveBox/

Lors de la reproduction de ce référentiel, le programme d'installation créera un dossier ArchiveBox dans le répertoire de base. Ce dossier contient tous les fichiers d'application et les principales configurations.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Ajoutez votre URL à l'archive

Si vous souhaitez archiver un lien, tapez

echo 'https://example.com'| ./archive
Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Accédez au dossier ArchiveBox pour voir le dossier de sortie nouvellement créé. Ici, vous verrez un fichier index.html.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Ajouter plusieurs liens à l'archive

Lorsque vous souhaitez enregistrer plusieurs liens (des dizaines ou plus), il est préférable d'ajouter les liens à un fichier texte. L'application analysera les URL dans le fichier et les archivera. Ouvrez un terminal et saisissez

./archive [Path to Your File.txt]

Si le fichier est dans le dossier Téléchargements, votre chemin ressemblera à

./archive /Users/(Home directory name)/Downloads/links.txt

Attendez quelques minutes pour terminer le processus. Pour accéder à vos archives, ouvrez la sortie index.html Dans votre navigateur. Vous pouvez trier par colonne, rechercher le titre à l'aide de la case en haut à gauche et voir le nombre total de liens ci-dessous.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Cliquez sur l'icône en dessous de la colonne Fichiers pour accéder à la page de détails. Vous trouverez des liens vers le format de fichier individuel, comme indiqué dans la capture d'écran. Le même lien est également téléchargé sur archive.org.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

De la même manière, exportez les liens Instapaper ou Pocket en tant que fichier HTML. Ensuite, tapez

./archive ~/Downloads/instapaper-export.html

Vous pouvez également importer une liste de liens à partir de l'URL du flux. Rappelez-vous cependant que vous pouvez rencontrer beaucoup d'échecs ou que la session se termine. S'il existe des milliers d'URL, il est préférable de les scinder en fichiers plus petits pour augmenter votre taux de réussite.

Configurer ArchiveBox

Les paramètres par défaut fonctionnent dans la plupart des cas, mais vous pouvez modifier certains paramètres importants pour obtenir davantage de fonctionnalités. Le fichier de configuration réside dans

~/ArchiveBox/etc/ArchiveBox.conf.default
Note: Ne modifiez pas ce fichier car il sera effacé à chaque mise à jour de l'application. Pour créer un fichier de configuration persistant, tapez
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

La commande sera créée cp Une copie du fichier de configuration dans votre répertoire de base. Par défaut, le fichier n'est pas visible dans votre répertoire. Pour afficher tout fichier caché, cliquez sur Cmd + Maj + Période. Ouvrez le fichier de configuration dans TextEdit.

Comment créer une application à lire plus tard auto-hébergée pour enregistrer divers sites Web - Instructions

Paramètres

ArchiveBox vous offre de nombreuses options. En voici quelques unes importantes.

  • ONLY_NEW: Définissez-le sur True pour télécharger l'archive des liens récemment ajoutés. Utile si vous consultez régulièrement les liens.
  • TIMEOUT: Les valeurs possibles sont 60 ou 120 secondes. Si vous constatez des erreurs de timeout répétées, relancez-le à 120.
  • URL_BLACKLIST: Vous pouvez utiliser l'expression regex pour exclure des domaines, des extensions ou des modèles d'URL spécifiques de l'archive.
  • FETCH_MEDIA: Récupérez tous les fichiers audio et vidéo en utilisant youtube-dl. Définissez ce paramètre sur True uniquement lorsque vous disposez de suffisamment d'espace de stockage.
  • WGET_USER_AGENT: Utilisez pour changer l'agent utilisateur pendant l'archivage. Si vous êtes bloqué par certains serveurs, cette option est utile.

Pour en savoir plus sur les détails de la configuration, visitez le site Configuration de ArchiveBox Pour plus d'informations.

Publiez vos archives

L'archive produite par ArchiveBox est compatible avec tout fournisseur capable d'héberger du HTML statique. Par exemple, Pages GitHub.

Vous pouvez également le créer sur Serveur domestique ou VPS En téléchargeant le dossier de sortie directement dans votre répertoire Web.

Assurez-vous qu'aucun contenu tel que CGI ou PHP n'est en cours d'exécution et que vous souhaitez héberger uniquement des fichiers HTML statiques.

L'hébergement de vos archives a ses avantages et ses inconvénients. Lorsque vous téléchargez des liens de sites choisis au hasard, vous devez comprendre les risques d’hébergement de fichiers CSS et JS malveillants dans votre domaine partagé. Vous pouvez également vouloir placer la liste de l'historique dans un fichier robots.txt Sur la liste noire pour rester secret.

Télécharger des sites complets pour révision sans contact

L'archivage Web a attiré l'attention au cours des dernières années. Ils enregistrent l'intégralité du contenu de la page Web, y compris le code source HTML, les images incorporées, les styles et le code JavaScript. ArchiveBox convient à un large éventail d'outils et de services d'archivage Web.

Si vous êtes frustré avec Instapaper ou poche ArchiveBox sera une excellente alternative. Outre les articles Web, vous pouvez également archiver des sites Web entiers pour y accéder sans connexion Internet ou pour conserver leurs informations. Si cela vous intéresse, lisez cet article sur la façon dont Téléchargez n'importe quel site Web pour une lecture hors ligne.

source
Aller au bouton supérieur