Я давно пытаюсь решить эту проблему, есть много возможностей. Это становится запутанным ...
В основном, действие, которое я хочу автоматизировать, заключается в том, чтобы на КАЖДОЙ странице посещать любой браузер - действие «щелкнуть правой кнопкой мыши, сохранить как, xxx.html), чтобы у меня была полностью сохраненная запись истории посещенных страниц.
- Надстройка Shelve для Firefox делает именно это автоматически в фоновом режиме, и она работает довольно хорошо (на самом деле она может использовать архив MAFF html-as-a-single-file, что отлично, но этот формат замедляет все, поэтому я просто используйте это для HTML).
ПРОБЛЕМА: я использую 5 других браузеров, так что этого недостаточно для создания полной записи.
- Я изучил Cyotek WebCopy и WinHTTrack; оба по сути являются веб-сканерами, которые получают URL-адрес, а затем начинают извлекать / сохранять его в HTML. WinHTTTrack на самом деле работает нормально, но это занимает много времени (гораздо дольше, чем просто щелкнуть правой кнопкой мыши, сохранить как, xxx.html в браузере), и, что хуже всего, он НЕ автоматизирован.
Теоретически, что мне нужно сделать, это получить историю просмотров из каждого браузера, экспортировать ее в виде txt-файла с аддонами (поскольку собственно истории браузера обычно представляют собой файлы .sqlite) и передать его программе в виде txt-файла, который он принимает Затем он будет сканировать этот список URL-адресов до уровня 0 или 1 или любого другого значения (вы можете указать глубину сканирования в этой конкретной программе).
Это очень громоздко, так как это означает, что я не могу автоматизировать процесс на самом деле. Мне нужно вручную кормить URL-адреса программы.
В качестве дополнения к этому я исследовал регистрацию URL-адресов на уровне маршрутизатора / настройку веб-прокси, чтобы можно было создавать список URL-адресов, не зависящих от браузера, всех посещенных страниц. Теоретически я мог бы затем передать это гусеничному механизму и, возможно, автоматизировать его? Хотя я еще не решил создать этот журнал URL-адресов - есть несколько программ, которые кажутся многообещающими: Charles (веб-прокси с журналированием) и Fiddler (веб-инструмент отладки / журналирования) и другие.
Программа под названием Proxy-offline-browser выглядела многообещающе, поскольку она делает именно то, что я хочу, используя веб-прокси для захвата каждого URL-адреса и последующего автоматического сохранения URL-адреса, но, по-видимому, она довольно глючная, старая и слишком сильно замедляет работу браузера. Я постараюсь связаться с разработчиками, чтобы проверить, правильно ли я их использую.
Похоже, что он одновременно работает только в одном браузере.
Я не думаю, что то, что я хочу, должно быть таким сложным.
В резюме идеально, что я хочу, это:
Каждый раз, когда ЛЮБОЙ браузер посещает веб-сайт, URL-адрес регистрируется (я думаю, что история веб-сайта достаточна, но иногда веб-история, кажется, не захватывает каждый URL-адрес). Эти журналы из каждого браузера затем объединяются в огромный список URL-адресов.
Затем браузер автоматически посещает каждый URL-адрес, сохраняя его в формате HTML (или в другом формате). И я бы запускал его каждый час, или когда компьютер бездействует и т.д., Через некоторый интервал.
Кроме того, я изучил макросы, так как теоретически, если бы я просто делал щелчок правой кнопкой мыши на КАЖДОЙ странице, которую я посетил, я бы воспроизвел ТОЧНО то, что хочу. Макросы для браузеров, похоже, не работают, так как вам действительно нужно запускать макрос вручную, что противоречит цели для меня.
Кто-нибудь знает, как я мог это сделать ?!