Internet es un gran tesoro de conocimiento. Pero es efímero y no hay garantías. Que el contenido que quieres estará ahí en el futuro. Si no puede soportar perder este contenido, puede utilizar la herramienta de archivo web para almacenar una copia de la página web.
Mucha gente usa servicios de lectura Luego Para guardar artículos web. Estas aplicaciones funcionan bien Mejor con el contenido del documento a texto y no le va bien con el diseño de páginas web complejas o medios correctamente. Entonces, ¿estás buscando un poco más de control?
Veamos cómo puede crear un clon de Instapaper o Pocket en su PC sin perder ningún activo de la página web.
Presentación de ArchiveBox
Caja de archivo Es una solución de código abierto que puede ayudarlo a alojar su propia alternativa a un servicio de archivo como Wayback Machine. No renuncia a su privacidad ni permanece en un servicio sobre el que no tiene control.
El comando funciona a través de la lista de URL que desea archivar y crea un clon de contenido HTML navegable local en múltiples formatos. Incluye copias locales en HTML, captura de pantalla de página, PDF y WARC (Web ARCHive).
Estas copias permanecen contigo incluso si la página web original desaparece en el futuro.
ArchiveBox se programa usando 3 Python. También utiliza dependencias como Obtener و Cromo sin cabeza Y herramientas Youtube-dl Unix Otro para guardar la página web. No necesita un servidor que se ejecute constantemente en segundo plano. Simplemente ejecútelo cada vez que desee importar nuevos enlaces y actualizar la salida estática.
Una vez que se completa el archivo, puede abrir la salida /index.html creado en su navegador para ver el archivo.
Ventajas de ArchiveBox
- Guarda enlaces en varios formatos de archivo que actúan como copias de seguridad.
- Intenta preservar la página web original utilizando métodos de captura complejos.
- Tiene la capacidad de extraer contenido automáticamente y guardarlo en una sola carpeta.
- También proporciona una interfaz de línea de comandos simple para manejar múltiples enlaces, fuentes y marcadores. Debe configurarlo una vez y ejecutarlo de forma programada para archivar los enlaces más recientes.
Desventajas ArchiveBox
- ArchiveBox extrae todos los activos de la página web. Consume mucho espacio en disco y utiliza intensamente la CPU.
- La aplicación requiere tres o más dependencias fuera de Python 3.5. Se necesita prueba y error para que estos componentes funcionen juntos.
- La aplicación no es totalmente compatible con el sistema operativo Windows. Él debería Tienes que instalar Docker O Habilitar subsistema de Windows para Linux (WSL). Incluso entonces, algunas características pueden o no funcionar.
Sistemas operativos compatibles
ArchiveBox admite oficialmente los siguientes sistemas operativos:
- macOS: 10.12 Sierra con Homebrew.
- Linux: Ubuntu, Debian (con APT). La aplicación puede (o no) funcionar en Distribuciones Como Fedora, CentOS, SUSE, Arch y más.
- BSD: FreeBSD, OpenBSD, NetBSD (con paquete).
dependencias
ArchiveBox es una herramienta de archivo web flexible. Las siguientes dependencias deben estar instaladas y cumplir con los requisitos mínimos.
- Python 3. No use el Python 2.0 predeterminado que viene con macOS.
- Obtener 1.16
- Cromo 59. Si usa Google Chrome Ya, no instalar Cromo.
- Youtube-dl (opcional): los recursos multimedia necesitan mucho espacio de almacenamiento. Tienes que adivinar esto en detalle antes de archivar tus sitios favoritos.
Configuración de ArchiveBox
Hay dos formas de configurar ArchiveBox: automática y manual.
en modo automático , el script del complemento instalará la aplicación y sus dependencias. Pero no podrá solucionar el problema si algo sale mal. Es mejor instalar la aplicación manualmente.
instalar dependencias
La mejor manera de instalar dependencias es a través de un administrador de paquetes llamado Homebrew. Para comprender sus conceptos básicos, consulte este artículo. Acerca de cómo instalar aplicaciones usando Homebrew.
Abre Terminal y escribe
brew install python3 git wget curl youtube-dl
brew cask install chromium
Comprobar el número de versión de todas las dependencias
Para comprobar el número de versión de todas las dependencias, escriba
dependency app --version
(reemplace la aplicación de dependencia con python3, wget, youtube-dl y más)
Descargue su archivo de exportación de marcadores
Todos los servicios y navegadores Leer más tarde pueden exportar marcadores como un archivo HTML. Siga las instrucciones de este artículo sobre cómo exportar marcadores desde su navegador. También puede guardar un solo enlace o una lista de URL en un archivo de texto.
Instalar ArchiveBox
Copiar repositorio de GitHub. Tienes que abrir la Terminal y escribir
git clone https://github.com/pirate/ArchiveBox
Entonces,
cd ArchiveBox/
Cuando se clone este repositorio, el instalador creará una carpeta ArchiveBox en su directorio de inicio. Esta carpeta contiene todos los principales archivos y configuraciones de la aplicación.
Agrega tu URL al archivo
Si desea archivar un solo enlace, escriba
echo 'https://example.com'| ./archive
Vaya a la carpeta ArchiveBox para ver la carpeta de salida recién creada. Aquí, verá el archivo index.html.
Agregar múltiples enlaces al archivo
Cuando desee guardar varios enlaces (docenas o más), es mejor que agregue los enlaces a un archivo de texto. La aplicación analizará y archivará las URL dentro del archivo. Abre Terminal y escribe
./archive [Path to Your File.txt]
Si el archivo está en la carpeta Descargas, su ruta se verá como
./archive /Users/(Home directory name)/Downloads/links.txt
Espere unos minutos/horas para que se complete el proceso. Para acceder a su archivo, abra la salida /index.html en tu navegador. Puede ordenar por columna, buscar el título usando el cuadro en la parte superior derecha y ver el número total de enlaces en la parte inferior.
Haga clic en el icono favorito debajo de la columna Archivos para visitar la página de detalles. Encontrará enlaces al formato de archivo único como se muestra en la captura de pantalla. El mismo enlace también está subido a archivo.org.
De la misma manera, exporte los enlaces de Instapaper o Pocket como un archivo HTML. Luego, escribe
./archive ~/Downloads/instapaper-export.html
También puede importar la lista de enlaces desde la URL del feed. Pero recuerde que puede encontrar muchas fallas o caducidad de la sesión. Si hay miles de URL, es mejor dividirlas en archivos más pequeños para aumentar la tasa de éxito.
Configuración de ArchiveBox
La configuración predeterminada funciona en la mayoría de los casos, pero hay algunos parámetros importantes que puede modificar para obtener más funciones. El archivo de configuración se encuentra en
~/ArchiveBox/etc/ArchiveBox.conf.default
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf
El comando será generado cp Copia duplicada del archivo de configuración en su directorio de inicio. De forma predeterminada, el archivo no está visible en su directorio. Para mostrar cualquier archivo oculto, presione Cmd + Mayús + Punto. Abra el archivo de configuración en TextEdit.
los maestros
ArchiveBox le ofrece muchas opciones. Aquí hay algunos importantes.
- SOLO_NUEVO: Establézcalo en Verdadero para descargar el archivo de enlaces recién agregados. Útil si revisa los enlaces regularmente.
- SE ACABÓ EL TIEMPO: Los valores posibles son 60 o 120 segundos. Si ve errores de tiempo de espera recurrentes, súbalo a 120 segundos.
- URL_LISTA NEGRA: Puede usar la expresión regular para excluir dominios, extensiones o patrones de URL específicos del archivo.
- FETCH_MEDIA: Obtenga todos los archivos de audio y video usando youtube-dl. Establézcalo en Verdadero solo cuando tenga suficiente espacio de almacenamiento.
- AGENTE_USUARIO_WGET: Úselo para cambiar el agente de usuario mientras archiva. Si está bloqueado por ciertos servidores, esta opción será útil.
Para obtener más información sobre los detalles de configuración, visite Configuración de ArchiveBox Para más información.
Publica tu archivo
El archivo producido por ArchiveBox es compatible con cualquier proveedor que pueda alojar HTML estático. Por ejemplo, Páginas de GitHub.
También puedes crearlo en sirviente de la casa O VPS Subiendo la carpeta de salida directamente a su directorio web.
Asegúrese de que no tiene ningún contenido como CGI o PHP en ejecución, y desea alojar solo archivos HTML estáticos.
Alojar su archivo tiene sus pros y sus contras. Cuando descarga enlaces de sitios aleatorios, debe comprender los riesgos de alojar archivos CSS y JS maliciosos en su dominio compartido. También puede querer poner la lista de historial en un archivo robots.txt En la lista negra para permanecer confidencial.
Descargar todos los sitios web para revisarlos sin conexión
El archivo web ha llamado la atención en los últimos años. Registran todo el contenido de una página web, incluido el HTML fuente, las imágenes en línea, los estilos y el código JavaScript. ArchiveBox encaja en la amplia categoría de herramientas y servicios de archivo web.
Si estás frustrado con Instapaper O Pocket ArchiveBox sería una excelente alternativa. Además de los artículos web, es posible que desee archivar sitios web completos para acceder sin conexión o para conservar su información. Si esto te interesa, lee este artículo sobre cómo Descargue cualquier sitio web para leer sin conexión.