Cómo crear una aplicación Read Later autohospedada para guardar varios sitios web

Internet es un gran tesoro de conocimiento. Pero es efímero y no hay garantías. Que el contenido que quieres estará ahí en el futuro. Si no puede soportar perder este contenido, puede utilizar la herramienta de archivo web para almacenar una copia de la página web.

Mucha gente usa servicios de lectura Luego Para guardar artículos web. Estas aplicaciones funcionan bien Mejor con el contenido del documento a texto y no le va bien con el diseño de páginas web complejas o medios correctamente. Entonces, ¿estás buscando un poco más de control?

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Veamos cómo puede crear un clon de Instapaper o Pocket en su PC sin perder ningún activo de la página web.

Presentación de ArchiveBox

Caja de archivo Es una solución de código abierto que puede ayudarlo a alojar su propia alternativa a un servicio de archivo como Wayback Machine. No renuncia a su privacidad ni permanece en un servicio sobre el que no tiene control.

El comando funciona a través de la lista de URL que desea archivar y crea un clon de contenido HTML navegable local en múltiples formatos. Incluye copias locales en HTML, captura de pantalla de página, PDF y WARC (Web ARCHive).

Estas copias permanecen contigo incluso si la página web original desaparece en el futuro.

ArchiveBox se programa usando 3 Python. También utiliza dependencias como Obtener و Cromo sin cabeza Y herramientas Youtube-dl Unix Otro para guardar la página web. No necesita un servidor que se ejecute constantemente en segundo plano. Simplemente ejecútelo cada vez que desee importar nuevos enlaces y actualizar la salida estática.

Una vez que se completa el archivo, puede abrir la salida /index.html creado en su navegador para ver el archivo.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Ventajas de ArchiveBox

  • Guarda enlaces en varios formatos de archivo que actúan como copias de seguridad.
  • Intenta preservar la página web original utilizando métodos de captura complejos.
  • Tiene la capacidad de extraer contenido automáticamente y guardarlo en una sola carpeta.
  • También proporciona una interfaz de línea de comandos simple para manejar múltiples enlaces, fuentes y marcadores. Debe configurarlo una vez y ejecutarlo de forma programada para archivar los enlaces más recientes.

Desventajas ArchiveBox

  • ArchiveBox extrae todos los activos de la página web. Consume mucho espacio en disco y utiliza intensamente la CPU.
  • La aplicación requiere tres o más dependencias fuera de Python 3.5. Se necesita prueba y error para que estos componentes funcionen juntos.
  • La aplicación no es totalmente compatible con el sistema operativo Windows. Él debería Tienes que instalar Docker O Habilitar subsistema de Windows para Linux (WSL). Incluso entonces, algunas características pueden o no funcionar.

Sistemas operativos compatibles

ArchiveBox admite oficialmente los siguientes sistemas operativos:

  • macOS: 10.12 Sierra con Homebrew.
  • Linux: Ubuntu, Debian (con APT). La aplicación puede (o no) funcionar en Distribuciones Como Fedora, CentOS, SUSE, Arch y más.
  • BSD: FreeBSD, OpenBSD, NetBSD (con paquete).

dependencias

ArchiveBox es una herramienta de archivo web flexible. Las siguientes dependencias deben estar instaladas y cumplir con los requisitos mínimos.

  • Python 3. No use el Python 2.0 predeterminado que viene con macOS.
  • Obtener 1.16
  • Cromo 59. Si usa Google Chrome Ya, no instalar Cromo.
  • Youtube-dl (opcional): los recursos multimedia necesitan mucho espacio de almacenamiento. Tienes que adivinar esto en detalle antes de archivar tus sitios favoritos.

Configuración de ArchiveBox

Hay dos formas de configurar ArchiveBox: automática y manual.

en modo automático , el script del complemento instalará la aplicación y sus dependencias. Pero no podrá solucionar el problema si algo sale mal. Es mejor instalar la aplicación manualmente.

Para fines de demostración, usaremos macOS 10.14.6.

instalar dependencias

La mejor manera de instalar dependencias es a través de un administrador de paquetes llamado Homebrew. Para comprender sus conceptos básicos, consulte este artículo. Acerca de cómo instalar aplicaciones usando Homebrew.

Abre Terminal y escribe

brew install python3 git wget curl youtube-dl
brew cask install chromium
(Omita esto si ya tiene Google Chrome/Chromium instalado en las aplicaciones)

Comprobar el número de versión de todas las dependencias

Para comprobar el número de versión de todas las dependencias, escriba

dependency app --version

(reemplace la aplicación de dependencia con python3, wget, youtube-dl y más)

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Descargue su archivo de exportación de marcadores

Todos los servicios y navegadores Leer más tarde pueden exportar marcadores como un archivo HTML. Siga las instrucciones de este artículo sobre cómo exportar marcadores desde su navegador. También puede guardar un solo enlace o una lista de URL en un archivo de texto.

Instalar ArchiveBox

Copiar repositorio de GitHub. Tienes que abrir la Terminal y escribir

git clone https://github.com/pirate/ArchiveBox

Entonces,

cd ArchiveBox/

Cuando se clone este repositorio, el instalador creará una carpeta ArchiveBox en su directorio de inicio. Esta carpeta contiene todos los principales archivos y configuraciones de la aplicación.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Agrega tu URL al archivo

Si desea archivar un solo enlace, escriba

echo 'https://example.com'| ./archive
Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Vaya a la carpeta ArchiveBox para ver la carpeta de salida recién creada. Aquí, verá el archivo index.html.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Agregar múltiples enlaces al archivo

Cuando desee guardar varios enlaces (docenas o más), es mejor que agregue los enlaces a un archivo de texto. La aplicación analizará y archivará las URL dentro del archivo. Abre Terminal y escribe

./archive [Path to Your File.txt]

Si el archivo está en la carpeta Descargas, su ruta se verá como

./archive /Users/(Home directory name)/Downloads/links.txt

Espere unos minutos/horas para que se complete el proceso. Para acceder a su archivo, abra la salida /index.html en tu navegador. Puede ordenar por columna, buscar el título usando el cuadro en la parte superior derecha y ver el número total de enlaces en la parte inferior.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

Haga clic en el icono favorito debajo de la columna Archivos para visitar la página de detalles. Encontrará enlaces al formato de archivo único como se muestra en la captura de pantalla. El mismo enlace también está subido a archivo.org.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

De la misma manera, exporte los enlaces de Instapaper o Pocket como un archivo HTML. Luego, escribe

./archive ~/Downloads/instapaper-export.html

También puede importar la lista de enlaces desde la URL del feed. Pero recuerde que puede encontrar muchas fallas o caducidad de la sesión. Si hay miles de URL, es mejor dividirlas en archivos más pequeños para aumentar la tasa de éxito.

Configuración de ArchiveBox

La configuración predeterminada funciona en la mayoría de los casos, pero hay algunos parámetros importantes que puede modificar para obtener más funciones. El archivo de configuración se encuentra en

~/ArchiveBox/etc/ArchiveBox.conf.default
ملاحظة: No modifique este archivo, ya que se borrará cada vez que actualice la aplicación. Para crear un archivo de configuración persistente, escriba
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

El comando será generado cp Copia duplicada del archivo de configuración en su directorio de inicio. De forma predeterminada, el archivo no está visible en su directorio. Para mostrar cualquier archivo oculto, presione Cmd + Mayús + Punto. Abra el archivo de configuración en TextEdit.

Cómo crear una aplicación de lectura posterior autohospedada para guardar varios sitios web - Instrucciones

los maestros

ArchiveBox le ofrece muchas opciones. Aquí hay algunos importantes.

  • SOLO_NUEVO: Establézcalo en Verdadero para descargar el archivo de enlaces recién agregados. Útil si revisa los enlaces regularmente.
  • SE ACABÓ EL TIEMPO: Los valores posibles son 60 o 120 segundos. Si ve errores de tiempo de espera recurrentes, súbalo a 120 segundos.
  • URL_LISTA NEGRA: Puede usar la expresión regular para excluir dominios, extensiones o patrones de URL específicos del archivo.
  • FETCH_MEDIA: Obtenga todos los archivos de audio y video usando youtube-dl. Establézcalo en Verdadero solo cuando tenga suficiente espacio de almacenamiento.
  • AGENTE_USUARIO_WGET: Úselo para cambiar el agente de usuario mientras archiva. Si está bloqueado por ciertos servidores, esta opción será útil.

Para obtener más información sobre los detalles de configuración, visite Configuración de ArchiveBox Para más información.

Publica tu archivo

El archivo producido por ArchiveBox es compatible con cualquier proveedor que pueda alojar HTML estático. Por ejemplo, Páginas de GitHub.

También puedes crearlo en sirviente de la casa O VPS Subiendo la carpeta de salida directamente a su directorio web.

Asegúrese de que no tiene ningún contenido como CGI o PHP en ejecución, y desea alojar solo archivos HTML estáticos.

Alojar su archivo tiene sus pros y sus contras. Cuando descarga enlaces de sitios aleatorios, debe comprender los riesgos de alojar archivos CSS y JS maliciosos en su dominio compartido. También puede querer poner la lista de historial en un archivo robots.txt En la lista negra para permanecer confidencial.

Descargar todos los sitios web para revisarlos sin conexión

El archivo web ha llamado la atención en los últimos años. Registran todo el contenido de una página web, incluido el HTML fuente, las imágenes en línea, los estilos y el código JavaScript. ArchiveBox encaja en la amplia categoría de herramientas y servicios de archivo web.

Si estás frustrado con Instapaper O Pocket ArchiveBox sería una excelente alternativa. Además de los artículos web, es posible que desee archivar sitios web completos para acceder sin conexión o para conservar su información. Si esto te interesa, lee este artículo sobre cómo Descargue cualquier sitio web para leer sin conexión.

fuente
Ir al botón superior