Como criar um aplicativo de leitura posterior auto-hospedado para salvar vários sites

A Internet é um vasto tesouro de conhecimento. Mas é passageiro e não há garantias Que o conteúdo que você deseja estará lá no futuro. Se você não pode perder esse conteúdo, pode usar uma ferramenta de arquivo da web para armazenar uma cópia da página da web.

Muitas pessoas usam isso Serviços de leitura Mais tarde Para salvar artigos da web. Esses aplicativos funcionam perfeitamente Melhor com conteúdo de documento Texto e não se sai bem com o design de mídia ou páginas da web complexas. Você está procurando mais controle?

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Vamos ver como você pode criar um clone do Instapaper ou Pocket em seu computador sem perder nenhum ativo de página da web.

Enviar ArchiveBox

Caixa de Arquivo É uma solução de código aberto que pode ajudá-lo a hospedar sua própria alternativa a um serviço de arquivamento, como o Wayback Machine. Você nunca desiste de sua privacidade ou permanece em um serviço que não pode controlar.

O comando funciona com uma lista de URLs que você deseja arquivar e cria uma reprodução HTML navegável local do conteúdo em vários formatos. Inclui cópias HTML locais, captura de tela da página, PDF e WARC (Web ARCHive).

Essas cópias permanecem com você mesmo se a página da Web original desaparecer no futuro.

ArchiveBox é programado com Python 3. Ele também usa dependências como wget و Cromado sem cabeça Youtube-dl e ferramentas Unix Outro para salvar a página da web. Você não precisa de um servidor que esteja constantemente em execução em segundo plano. Basta executá-lo sempre que quiser importar novos links e atualizar a saída do firmware.

Assim que o arquivamento for concluído, você pode abrir a saída /index.html Que foi criado em seu navegador para visualizar o arquivo.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Vantagens do ArchiveBox

  • Ele salva links em vários formatos de arquivo que servem como backups.
  • Tenta reter a página da web original usando métodos de captura complexos.
  • Ele tem a capacidade de extrair automaticamente o conteúdo e salvá-lo em uma única pasta.
  • Ele também fornece uma interface de linha de comando simples para lidar com vários links, feeds e marcadores. Você deve configurá-lo uma vez e executá-lo em uma programação para arquivar links mais recentes.

Desvantagens do ArchiveBox

  • ArchiveBox extrai todos os ativos da página da web. Ele consome muito espaço em disco e usa a CPU intensamente.
  • O aplicativo requer três ou mais dependências fora do Python 3.5. É preciso tentativa e erro para que esses componentes funcionem juntos.
  • O aplicativo não é totalmente compatível com o Windows. Devemos ser Você tem que instalar o Docker ou Ativar subsistema Windows para Linux (WSL). Mesmo assim, alguns recursos podem ou não funcionar.

Sistemas operacionais suportados

O ArchiveBox é oficialmente compatível com os seguintes sistemas operacionais:

  • macOS: 10.12 Sierra com Homebrew.
  • Linux: Ubuntu, Debian (com APT). O aplicativo pode (ou não) funcionar em Distribuições Como Fedora, CentOS, SUSE, Arch e muito mais.
  • BSD: FreeBSD, OpenBSD, NetBSD (com pacote).

Dependências

ArchiveBox é uma ferramenta flexível de arquivamento da web. As seguintes dependências devem ser instaladas e atender aos requisitos mínimos.

  • Python 3. Não use o Python 2.0 padrão que vem com o macOS.
  • wget 1.16
  • Chromium 59. Se você estiver usando Google Chrome Na verdade, não instale crômio.
  • Youtube-dl (opcional): os recursos de mídia precisam de muito espaço de armazenamento. Você tem que adivinhar isso em detalhes antes de arquivar seus favoritos.

Configuração do ArchiveBox

Existem duas maneiras de configurar o ArchiveBox - automática e manual.

No método automático , O script do plug-in instalará o aplicativo e suas dependências. Mas você não conseguirá solucionar o problema se algo der errado. É melhor instalar o aplicativo manualmente.

Para fins de demonstração, usaremos o macOS 10.14.6.

Instale dependências

A melhor maneira de instalar dependências é por meio de um gerenciador de pacotes chamado Homebrew. Para entender seus fundamentos, leia este artigo Como instalar aplicativos usando o Homebrew.

Abra um terminal e digite

brew install python3 git wget curl youtube-dl
brew cask install chromium
(Ignore se você já tiver o Google Chrome / Chromium instalado nos aplicativos)

Verifique o número da versão de todas as dependências

Para verificar o número da versão de todas as dependências, digite

dependency app --version

(Substitua o aplicativo de dependência por python3, wget, youtube-dl e mais)

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Baixe seu arquivo de exportação de favoritos

Todos os navegadores e leitores posteriores podem exportar favoritos como um arquivo HTML. Siga as instruções neste artigo sobre como exportar favoritos de seu navegador. Você também pode salvar um único link ou lista de URLs em um arquivo de texto.

Instalar ArchiveBox

Repositório clonado de GitHub. Abra um terminal e digite

git clone https://github.com/pirate/ArchiveBox

Então,

cd ArchiveBox/

Ao clonar este repo, o instalador criará uma pasta ArchiveBox no diretório inicial. Esta pasta contém todos os arquivos do aplicativo e as principais configurações.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Adicione o seu URL ao arquivo

Se você deseja arquivar um único link, digite

echo 'https://example.com'| ./archive
Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Vá para a pasta ArchiveBox para ver a pasta de saída recém-criada. Aqui, você verá o arquivo index.html.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Adicionar vários links ao arquivo

Quando você deseja salvar vários links (dezenas ou mais), é melhor adicionar os links a um arquivo de texto. O aplicativo analisará os URLs dentro do arquivo e os arquivará. Abra um terminal e digite

./archive [Path to Your File.txt]

Se o arquivo estiver na pasta Downloads, seu caminho aparecerá como

./archive /Users/(Home directory name)/Downloads/links.txt

Aguarde alguns minutos / horas para concluir o processo. Para acessar seu arquivo, abra a saída /index.html Em seu navegador. Você pode classificar por coluna, pesquisar o título usando a caixa no canto superior direito e ver o número total de links na parte inferior.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Clique no favicon abaixo da coluna de arquivos para visitar a página de detalhes. Você encontrará links para o formato de arquivo individual, conforme mostrado na captura de tela. O mesmo link também é enviado para arquivo.org.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

Da mesma forma, exporte os links Instapaper ou Pocket como um arquivo HTML. Então, digite

./archive ~/Downloads/instapaper-export.html

Você também pode importar a lista de links do URL do feed. Mas lembre-se de que você pode encontrar muitas falhas ou encerramentos de sessão. Se houver milhares de URLs, é melhor dividi-los em arquivos menores para aumentar a taxa de sucesso.

Configurar ArchiveBox

As configurações padrão funcionam na maioria dos casos, mas existem alguns parâmetros importantes que você pode ajustar para obter mais recursos. O arquivo de configuração está localizado em

~/ArchiveBox/etc/ArchiveBox.conf.default
Perceber: Não modifique este arquivo, porque ele será apagado sempre que você atualizar o aplicativo. Para criar um arquivo de configuração persistente, digite
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

Irá criar o comando cp Uma cópia duplicada do arquivo de configuração em seu diretório inicial. Por padrão, o arquivo não está visível em seu diretório. Para mostrar qual arquivo está oculto, clique em Cmd + Shift + Ponto. Abra o arquivo de configuração no TextEdit.

Como criar um aplicativo auto-hospedado Ler mais tarde para salvar vários sites - Instruções

os professores

O ArchiveBox oferece muitas opções. Aqui estão alguns importantes.

  • APENAS_NOVO: Defina como True para baixar o arquivo para links recém-adicionados. Útil se você revisar os links regularmente.
  • TEMPO ESGOTADO: Os valores possíveis são 60 ou 120 segundos. Se você vir erros de atraso frequentes, aumente-os para 120 segundos.
  • URL_BLACKLIST: Você pode usar a expressão regex para excluir URLs, extensões ou estilos específicos do arquivo.
  • FETCH_MEDIA: Obtenha todos os arquivos de áudio e vídeo com o youtube-dl. Defina como True somente quando você tiver espaço de armazenamento suficiente.
  • WGET_USER_AGENT: Use-o para alterar o agente do usuário durante o arquivamento. Se você for bloqueado por determinados servidores, esta opção será útil.

Para saber mais sobre os detalhes de configuração, visite Configuração do ArchiveBox Para maiores informações.

Publique o seu arquivo

O arquivo produzido por ArchiveBox é compatível com qualquer provedor que pode hospedar HTML estático. Por exemplo, as páginas do GitHub.

Você também pode criá-lo em Servo doméstico ou VPS Baixando a pasta de saída diretamente para o diretório da web.

Certifique-se de que não está executando nenhum conteúdo como CGI ou PHP e deseja apenas hospedar arquivos HTML estáticos.

Hospedar seu arquivo tem seus prós e contras. Ao baixar links de sites aleatórios, você deve compreender os riscos de hospedar arquivos CSS e JS maliciosos em seu domínio compartilhado. Você também pode querer colocar a lista de histórico em um arquivo robots.txt Na lista negra deve ser mantida em segredo.

Baixe todos os sites para revisão offline

O arquivamento da Web atraiu atenção nos últimos anos. Eles gravam todo o conteúdo da página da web, incluindo o HTML de origem, imagens incorporadas, estilos e código JavaScript. O ArchiveBox é adequado para uma ampla gama de ferramentas e serviços de arquivamento da web.

Se você está frustrado com Instapaper ou Bolso , O ArchiveBox seria uma excelente alternativa. Além dos artigos da web, você pode arquivar sites inteiros para acesso offline ou para preservar suas informações. Se isso for do seu interesse, leia este artigo sobre como Baixe qualquer site para leitura offline.

Ir para o botão superior