Хотите автоматически сохранять КАЖДУЮ веб-страницу, которую я посещаю (в формате HTML или MAFF/MHTML) - Решения?

Question

Я давно пытаюсь решить эту проблему, есть много возможностей. Это становится запутанным ...

В основном, действие, которое я хочу автоматизировать, заключается в том, чтобы на КАЖДОЙ странице посещать любой браузер - действие «щелкнуть правой кнопкой мыши, сохранить как, xxx.html), чтобы у меня была полностью сохраненная запись истории посещенных страниц.

Надстройка Shelve для Firefox делает именно это автоматически в фоновом режиме, и она работает довольно хорошо (на самом деле она может использовать архив MAFF html-as-a-single-file, что отлично, но этот формат замедляет все, поэтому я просто используйте это для HTML).

ПРОБЛЕМА: я использую 5 других браузеров, так что этого недостаточно для создания полной записи.

Я изучил Cyotek WebCopy и WinHTTrack; оба по сути являются веб-сканерами, которые получают URL-адрес, а затем начинают извлекать / сохранять его в HTML. WinHTTTrack на самом деле работает нормально, но это занимает много времени (гораздо дольше, чем просто щелкнуть правой кнопкой мыши, сохранить как, xxx.html в браузере), и, что хуже всего, он НЕ автоматизирован.

Теоретически, что мне нужно сделать, это получить историю просмотров из каждого браузера, экспортировать ее в виде txt-файла с аддонами (поскольку собственно истории браузера обычно представляют собой файлы .sqlite) и передать его программе в виде txt-файла, который он принимает Затем он будет сканировать этот список URL-адресов до уровня 0 или 1 или любого другого значения (вы можете указать глубину сканирования в этой конкретной программе).

Это очень громоздко, так как это означает, что я не могу автоматизировать процесс на самом деле. Мне нужно вручную кормить URL-адреса программы.

В качестве дополнения к этому я исследовал регистрацию URL-адресов на уровне маршрутизатора / настройку веб-прокси, чтобы можно было создавать список URL-адресов, не зависящих от браузера, всех посещенных страниц. Теоретически я мог бы затем передать это гусеничному механизму и, возможно, автоматизировать его? Хотя я еще не решил создать этот журнал URL-адресов - есть несколько программ, которые кажутся многообещающими: Charles (веб-прокси с журналированием) и Fiddler (веб-инструмент отладки / журналирования) и другие.
Программа под названием Proxy-offline-browser выглядела многообещающе, поскольку она делает именно то, что я хочу, используя веб-прокси для захвата каждого URL-адреса и последующего автоматического сохранения URL-адреса, но, по-видимому, она довольно глючная, старая и слишком сильно замедляет работу браузера. Я постараюсь связаться с разработчиками, чтобы проверить, правильно ли я их использую.

Похоже, что он одновременно работает только в одном браузере.

Я не думаю, что то, что я хочу, должно быть таким сложным.
В резюме идеально, что я хочу, это:

Каждый раз, когда ЛЮБОЙ браузер посещает веб-сайт, URL-адрес регистрируется (я думаю, что история веб-сайта достаточна, но иногда веб-история, кажется, не захватывает каждый URL-адрес). Эти журналы из каждого браузера затем объединяются в огромный список URL-адресов.

Затем браузер автоматически посещает каждый URL-адрес, сохраняя его в формате HTML (или в другом формате). И я бы запускал его каждый час, или когда компьютер бездействует и т.д., Через некоторый интервал.

Кроме того, я изучил макросы, так как теоретически, если бы я просто делал щелчок правой кнопкой мыши на КАЖДОЙ странице, которую я посетил, я бы воспроизвел ТОЧНО то, что хочу. Макросы для браузеров, похоже, не работают, так как вам действительно нужно запускать макрос вручную, что противоречит цели для меня.
Кто-нибудь знает, как я мог это сделать ?!

score 0 · Answer 1 · 2011-03-09T19:38:42

Вы упомянули, что вы используете 5 веб-браузеров. Просмотр истории просмотра имеет в общей сложности 4 браузера и, кажется, захватывает довольно близко к каждому посещенному сайту, но я сомневаюсь, что вы используете Safari, и IE также становится менее вероятным. Он извлекается из самих браузеров, поэтому это будет сохранение после просмотра.

Это может облегчить, если это захватит пару браузеров, и вы можете найти что-то еще для других.

Редактировать: Технически Просмотр истории просмотра теперь фактически вытягивает 9 историй (8, потому что у него есть предварительные версии IE10 и IE10/11+Edge в качестве 2 отдельных опций)

score -1 · Answer 2 · 2011-03-09T19:38:42

Я в той же лодке, что и ты. Единственный намек на решение, которое я нашел, - это настройка js, которая выдает POST локальному веб-серверу, когда вы посещаете веб-страницу. Если вы найдете что-то еще или нашли лучшее решение, я был бы признателен за информацию :) Я тоже буду искать.

Сейчас выбран русский

Хотите автоматически сохранять КАЖДУЮ веб-страницу, которую я посещаю (в формате HTML или MAFF/MHTML) - Решения?

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками browser logging history web url.

Хотите автоматически сохранять КАЖДУЮ веб-страницу, которую я посещаю (в формате HTML или MAFF/MHTML) - Решения?

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками browser logging history web url.

Похожие