Как создать собственное приложение Read Later для сохранения различных веб-сайтов

Интернет - это огромная сокровищница знаний. Но это эфемерно и нет никаких гарантий Что контент, который вы хотите, будет в будущем. Если вы не можете потерять это содержимое, вы можете использовать инструмент веб-архивирования, чтобы сохранить копию веб-страницы.

Многие люди используют услуги чтения Потом Для сохранения веб-статей. Эти приложения работают нормально Лучше с содержанием документа в текст и недостаточно хорошо справляется с проектированием сложных веб-страниц или мультимедиа. Так вы ищете больше контроля?

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Давайте посмотрим, как вы можете создать клон Instapaper или Pocket на своем ПК, не потеряв при этом никаких ресурсов веб-страницы.

Представляем ArchiveBox

АрхивБокс Это решение с открытым исходным кодом, которое может помочь вам разместить собственную альтернативу службе архивирования, такой как Wayback Machine. Вы не отказываетесь от своей конфиденциальности и не остаетесь в службе, которую вы не контролируете.

Команда работает со списком URL-адресов, которые вы хотите заархивировать, и создает локальный, доступный для просмотра HTML-клон содержимого в нескольких форматах. Включает локальные копии в HTML, снимки экрана страницы, PDF и WARC (веб-архив).

Эти копии останутся с вами, даже если исходная веб-страница исчезнет в будущем.

ArchiveBox запрограммирован с использованием Python 3. Он также использует такие зависимости, как Wget و Безголовый хром И инструменты Youtube-dl Юникс Другое, чтобы сохранить веб-страницу. Вам не нужен постоянно работающий в фоновом режиме сервер. Просто запускайте его каждый раз, когда хотите импортировать новые ссылки и обновить статический вывод.

После завершения архивирования вы можете открыть вывод /index.html созданный в вашем браузере для просмотра архива.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Преимущества ArchiveBox

  • Он сохраняет ссылки в нескольких форматах файлов, которые действуют как резервные копии.
  • Он пытается сохранить исходную веб-страницу, используя сложные методы захвата.
  • Он имеет возможность автоматически извлекать контент и сохранять его в одной папке.
  • Он также предоставляет простой интерфейс командной строки для обработки нескольких ссылок, каналов и закладок. Вы должны установить его один раз и запускать по расписанию, чтобы архивировать самые свежие ссылки.

Недостатки ArchiveBox

  • ArchiveBox извлекает все ресурсы с веб-страницы. Он потребляет много места на диске и интенсивно использует процессор.
  • Приложение требует трех или более зависимостей вне Python 3.5. Чтобы эти компоненты работали вместе, требуется метод проб и ошибок.
  • Приложение не полностью поддерживает операционную систему Windows. Должен Вам необходимо установить Docker или же Включить подсистему Windows для Linux (WSL). Даже в этом случае некоторые функции могут работать, а могут и не работать.

Поддерживаемые операционные системы

ArchiveBox официально поддерживает следующие операционные системы:

  • macOS: 10.12 Sierra с Homebrew.
  • Linux: Ubuntu, Debian (с APT). Приложение может (а может и не) работать в Распределения Такие как Fedora, CentOS, SUSE, Arch и другие.
  • BSD: FreeBSD, OpenBSD, NetBSD (с пакетом pkg).

зависимости

ArchiveBox - это гибкий инструмент веб-архивирования. Следующие зависимости должны быть установлены и соответствовать минимальным требованиям.

  • Python 3. Не используйте Python 2.0 по умолчанию, поставляемый с macOS.
  • Wget 1.16
  • Хром 59. Если вы используете Google Chrome Уже не устанавливаю Chromium.
  • Youtube-dl (необязательно): мультимедийным ресурсам требуется много места для хранения. Вы должны детально угадать это, прежде чем архивировать любимые сайты.

Настройка ArchiveBox

Есть два способа настроить ArchiveBox - автоматический и ручной.

в автоматическом режиме , скрипт плагина установит приложение и его зависимости. Но вы не сможете устранить проблему, если что-то пойдет не так. Лучше установить приложение вручную.

В демонстрационных целях мы будем использовать macOS 10.14.6.

установить зависимости

Лучше всего устанавливать зависимости через диспетчер пакетов Homebrew. Чтобы понять его основы, ознакомьтесь с этой статьей О том, как устанавливать приложения с помощью Homebrew.

Откройте Терминал и введите

brew install python3 git wget curl youtube-dl
brew cask install chromium
(Обойдите это, если у вас уже установлен Google Chrome / Chromium в приложениях)

Проверить номер версии всех зависимостей

Чтобы проверить номер версии всех зависимостей, введите

dependency app --version

(замените приложение зависимости на python3, wget, youtube-dl и другие)

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Загрузите файл экспорта закладок

Все службы и браузеры Read Later могут экспортировать закладки в виде HTML-файла. Следуйте инструкциям в этой статье о том, как экспортировать закладки из вашего браузера. Вы также можете сохранить одну ссылку или список URL-адресов в текстовый файл.

Установить ArchiveBox

Скопировать репозиторий из GitHub. Вам нужно открыть терминал и ввести

git clone https://github.com/pirate/ArchiveBox

Потом,

cd ArchiveBox/

Когда это репо будет клонировано, установщик создаст папку ArchiveBox в вашем домашнем каталоге. Эта папка содержит все основные файлы и конфигурации приложений.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Добавьте свой URL в архив

Если вы хотите заархивировать одну ссылку, введите

echo 'https://example.com'| ./archive
Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Перейдите в папку ArchiveBox, чтобы увидеть вновь созданную выходную папку. Здесь вы увидите файл index.html.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Добавить несколько ссылок в архив

Если вы хотите сохранить несколько ссылок (десятки или больше), лучше добавить ссылки в текстовый файл. Приложение проанализирует и заархивирует URL-адреса в файле. Откройте Терминал и введите

./archive [Path to Your File.txt]

Если файл находится в папке «Загрузки», ваш путь будет выглядеть так:

./archive /Users/(Home directory name)/Downloads/links.txt

Подождите несколько минут / часов для завершения процесса. Чтобы получить доступ к вашему архиву, откройте вывод /index.html в вашем браузере. Вы можете сортировать по столбцу, искать заголовок, используя поле в правом верхнем углу, и видеть общее количество ссылок внизу.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Щелкните значок в столбце "Файлы", чтобы перейти на страницу с подробными сведениями. Вы найдете ссылки на один формат файла, как показано на скриншоте. Эта же ссылка также загружена в архив.орг.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

Таким же образом экспортируйте ссылки Instapaper или Pocket в виде файла HTML. Затем введите

./archive ~/Downloads/instapaper-export.html

Вы также можете импортировать список ссылок из URL-адреса канала. Но помните, что вы можете столкнуться с множеством сбоев или истечением срока действия сеанса. Если есть тысячи URL-адресов, лучше разделить их на файлы меньшего размера, чтобы увеличить вероятность успеха.

Конфигурация ArchiveBox

Настройки по умолчанию работают в большинстве случаев, но есть некоторые важные параметры, которые вы можете настроить, чтобы получить больше функций. Файл конфигурации находится в

~/ArchiveBox/etc/ArchiveBox.conf.default
Заметка: Не изменяйте этот файл, потому что он будет стираться при каждом обновлении приложения. Чтобы создать постоянный файл конфигурации, введите
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

Команда будет сгенерирована cp Дублирующая копия файла конфигурации в вашем домашнем каталоге. По умолчанию файл не отображается в вашем каталоге. Чтобы показать любой скрытый файл, нажмите Cmd + Shift + точка. Откройте файл конфигурации в TextEdit.

Как создать самостоятельное приложение для чтения для последующего чтения для сохранения различных веб-сайтов - инструкции

учителя

ArchiveBox предоставляет множество возможностей. Вот несколько важных.

  • ТОЛЬКО_НОВОЕ: Установите значение True, чтобы загрузить архив только что добавленных ссылок. Полезно, если вы регулярно просматриваете ссылки.
  • ТАЙМ-АУТ: Возможные значения: 60 или 120 секунд. Если вы видите повторяющиеся ошибки тайм-аута, увеличьте время до 120 секунд.
  • URL_ЧЕРНЫЙ СПИСОК: Вы можете использовать выражение регулярного выражения, чтобы исключить из архива определенные домены, расширения или шаблоны URL.
  • FETCH_MEDIA: Загрузите все аудио и видео файлы с помощью youtube-dl. Установите значение True, только если у вас достаточно места для хранения.
  • WGET_USER_AGENT: Используйте его для изменения пользовательского агента во время архивирования. Если вас заблокируют определенные серверы, эта опция вам пригодится.

Чтобы узнать больше о деталях конфигурации, посетите Конфигурация ArchiveBox Для дополнительной информации.

Опубликуйте свой архив

Архив, созданный ArchiveBox, совместим с любым провайдером, который может размещать статический HTML. Например, GitHub Pages.

Вы также можете создать его на домашний слуга или же VPS Загрузив выходную папку прямо в ваш веб-каталог.

Убедитесь, что у вас нет работающего контента, такого как CGI или PHP, и вы хотите размещать только статические файлы HTML.

Хостинг вашего архива имеет как свои плюсы, так и минусы. Когда вы загружаете ссылки со случайных сайтов, вы должны понимать риски размещения вредоносных файлов CSS и JS в вашем общем домене. Вы также можете поместить список истории в файл robots.txt В черный список, чтобы сохранить конфиденциальность.

Загрузите все веб-сайты для офлайн-просмотра

Веб-архивирование привлекает внимание в последние несколько лет. Они записывают все содержимое веб-страницы, включая исходный HTML-код, встроенные изображения, стили и код JavaScript. ArchiveBox относится к широкой категории инструментов и услуг веб-архивирования.

Если вы разочарованы Instapaper или же карманный ArchiveBox станет отличной альтернативой. Помимо веб-статей, вы можете захотеть заархивировать целые веб-сайты для доступа в автономном режиме или для сохранения их информации. Если вас это интересует, прочтите эту статью о том, как Загрузите любой веб-сайт для чтения в автономном режиме.

Источник
Перейти к верхней кнопке