18

Я ищу способ конвертировать веб-страницу в PDF, но сохранить внешний вид веб-страницы. Также сохраняющий текст веб-страницы (выбираемый), доступный для поиска [Создание снимка экрана для веб-страницы не сделает текст доступным для выбора или поиска].

Я ищу печать веб-страницы в PDF как есть (как в веб-браузере) без каких-либо манипуляций со стилем или выравниванием или без потери статических компонентов любой веб-страницы.

Это поможет сохранить автономные копии веб-страниц, которые легко читаются, комментируются и доступны для поиска.


Вам не нужно читать что-либо из нижеперечисленного (вопрос только вышеупомянутого раздела) , чтобы получить мой вопрос. Следующий раздел просто перечисляет то, что я получил путем исследования или ответов других людей, чтобы получить ответ на вопрос.

Результаты исследований (предложения, которые не решили мою проблему)

Результаты до сих пор при попытке найти решение (Все еще не работают в качестве решения для этого вопроса)

Я пробовал эти печатные двигатели PDF веб , но все манипулируют внешний вид страницы, даже больше повреждений и делает некоторые едва читаемым: (Пример страницы скриншоты включены в квадратных скобках)

  • Chrome [ Оригинал, Стили печати (отключено | не отключено)]
  • Firefox [ Оригинал, Стили печати (Отключено p1, p2 | Не отключено p1, p2)]
  • читабельность
    • Это упрощает веб-страницу (что хорошо для целенаправленного чтения - однако это не то, что я ищу). Я ищу для сохранения всех свойств позиций / стилей веб-страницы, как видно в веб-браузере, в формате PDF без каких-либо манипуляций.
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ Original, Zoom Factor: 0.4: Скриншоты, Вывод PDF]
    • Я добавлю ссылки после того, как решу проблемы с запуском программы на Windows "
  • wkhtmltopdf [ Original, Zoom Factor: 0.4: Скриншоты, Вывод PDF ]
    • Он не поддерживает CSS3.

Все плагины для захвата изображений с веб-страницы (например, « Похищение», « Удивительный снимок экрана», « Fireshot», « Средство разработки снимков экрана Firefox», « Полный захват страницы», « Page2Images», веб-захват ...) не отвечают на мой вопрос, поскольку они не сохраняют текст и ссылки

Scrible отлично подходит для сохранения веб-страниц, а также для дальнейших аннотаций и исследований, но, к сожалению, все еще в сети и без преобразования в формат PDF.

Есть два других вопроса о сообществе, похожих как-то на мой, однако, этот вопрос немного отличается, но с такими важными отличиями:

Еще похожие вопросы, где сохранение текста и ссылок не является обязательным (страницы в основном представлены в виде снимков экрана ):


Заметки

ОС: Windows 10

6 ответов6

4

Мы столкнулись с той же проблемой в проекте университета и смогли решить ее, используя

wkhtmltopdf

Нам вполне понравились возможности этого инструмента в командной строке. Мы также назвали это, используя код Python для отображения текущего состояния веб-страниц. У него есть опция доставки веб-страницы в формате pdf, обычно не идеальная для сохранения вида веб-сайта из-за форматирования страницы (например, A4) или в виде png (сохраняет вид страницы, но не ссылки).

Кроме того, мы использовали проект читабельности (для Python:pypi.python.org/pypi/readability-lxml), который достаточно хорошо удаляет рекламу и обнаруживает контент (например, для газетных статей и тому подобное). Если вы просто хотите добавить дополнение или расширение для своего браузера, следующая реализация читабельности может удовлетворить ваши потребности:

https://www.readability.com/addons/

1

У меня была та же проблема, и я понял это через Chrome и с драйвером принтера PDF995, который я скачал безопасно и бесплатно (одна ссылка для скачивания - https://pdf995.en.softonic.com/ другая - http://downloads.tomsguide.com/pdf995,0301-829.html).

Тем не менее, я думаю, что любой веб-браузер и любой PDF-конвертер будет достаточно. Во всяком случае, вот что я сделал:

  1. выбрать все или выделить все.
  2. Щелкните правой кнопкой мыши на выделенном выделении или нажмите Ctrl+P (оба варианта дают несколько разные результаты, но вы получите тот же результат после завершения).

  3. Если вы щелкнули правой кнопкой мыши в 2., выделение (ярлык), нажмите "печать", и только все, что вы выбрали, будет в предварительном просмотре печати. Убедитесь, что вы изменили место назначения принтера на любой конвертер PDF, который вы решили использовать (PDF995 или другой).

  4. Нажмите "распечатать", и файл будет сохранен в формате PDF.

  5. Если вместо этого вы нажали Ctrl+P в 2. (немного более длинный путь), нажмите "Дополнительные настройки" и прокрутите вниз до "Параметры".

  6. Нажмите на поле с надписью "Только выбор", и все, что я описал в ярлыке, последует.

  7. Не забудьте сменить место назначения принтера на любой конвертер PDF, который вы выберете (PDF995 или другой).

  8. Нажмите "распечатать".

1

Если вы работаете в Linux, попробуйте этот небольшой инструмент командной строки CutyCapt, который зависит только от Qt и QtWebkit и экспортирует в PDF.

0

Хотя это не совсем ваш запрос, как не в PDF, если цель состоит в том, чтобы просто сохранить автономную копию веб-страниц для последующего просмотра, сохранение этого как веб-страницы сделает именно это.

Большое предостережение заключается в том, что он создаст файл .html и папку со всем медиаконтентом на странице, а не в виде одного документа.

В Chrome и Firefox вы можете сохранить страницу, щелкнув по ней правой кнопкой мыши и выбрав Сохранить как ... В Internet Explorer вы можете сохранить его в меню «Файл» -> «Сохранить как» (нажав клавишу «Alt» для отображения меню).

0

Попробуйте этот сервис. Создает PDF с веб-сайта, как вы видите его в браузере. https://lomotoh.com/ (я связан с этим сайтом)

0

По крайней мере весь текст на некоторых страницах доступен для поиска, выбора, вырезания и вставки. Я попробовал на странице, вставленной роботом компьютером из текста и пикселя, и он превратил все это в изображение.

Я использовал эти вещи в течение многих лет. Я получаю лучшие результаты в Linux, перестраивая страницу в XX слове по вашему выбору и экспортируя результат в формате PDF. Я могу получить то, что хочу, за значительную цену. Из архива моего ограниченного использования ivin Сайт Дэвида Херса, размещенный на https://lomotoh.com/НЕ связан с этим сайтом), работает так же хорошо, как и любой другой, который я когда-либо использовал. Я буду моим источником информации о веб-страницах в формате PDF до тех пор, пока я не найду лучшее, или мне не придется платить слишком дорого из своего тонкого кошелька.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .