7

Существует много способов преобразования веб-страницы в формат PDF (онлайн-сервисы, закладки, решения для печати в PDF и т.д.).

Но ни один из них не производит доступный для поиска PDF. Кажется, они все конвертируют HTML в одно гигантское изображение. Есть ли способ конвертировать веб-страницу в PDF с возможностью поиска?

8 ответов8

7

Я нашел проект wkhtmltopdf , который, кажется, делает свое дело. Это командная строка, так что есть немного кривой обучения, но не так уж плохо.

В частности, чтобы преобразовать веб-страницу, откройте командное окно в каталоге, где был установлен wkhtmltopdf и выполните следующее:

wkhtmltopdf.exe http://www.yourpage.com/index.htm c:\misc\cnn.pdf

Приложение имеет смехотворное количество опций, предназначенных для настройки вывода по мере необходимости, но значения по умолчанию дают довольно хороший результат.

6

Писатель CutePDF использует GhostScript для обработки текста, а затем ps2pdf для создания PDF-файлов веб-страниц с возможностью поиска. Это, конечно, не сработает, если текст на странице является изображением, с которого нужно начать.

3

В чем проблема с решениями для печати в PDF? В моей системе установлено два виртуальных принтера: PDF Creator и Virtual Printer от Adobe Acrobat X. Оба работают нормально. Я могу легко искать текст в сгенерированных PDF-файлах, если у моего средства просмотра PDF есть возможности оптического распознавания текста (что часто встречается в наши дни).
Если вы думаете о создании чего-то вроде текстового и текстового документа, вы не можете. Его ограничение формата PDF или говорит о том, как работает формат PDF. Благодаря этому мы можем встраивать шрифты и т.д. В этот формат без какой-либо зависимости, чтобы сделать его универсальным.
И я не думаю, что проект wkhtmltopdf может сгенерировать PDF-файл, в котором текст можно искать без использования технологии OCR (потому что это нарушит спецификацию PDF).

1

Я использую Adobe Acrobat 8 Professional (текущая версия - Adobe Acrobat X). У него есть пункт меню File... Create PDF... From Web Page... которая запрашивает URL-адрес, а затем загружает страницу по URL-адресу в виде файла PDF с текстом для поиска. Он также будет конвертировать страницы, ссылки на которые есть на этой странице, рекурсивно. Вы можете получить множество HTML-страниц в одном многостраничном PDF-файле с сохранением межстраничных ссылок.

Для некоторых веб-страниц Acrobat Create PDF неправильно форматирует. В этом случае я использую драйвер принтера Adobe PDF 8.0 который Acrobat 8 Professional установлен в моей системе. Это очень хорошо дает мне PDF-эквивалент веб-страницы, на которую я смотрю, с возможностью поиска текста.

Adobe Acrobat 8 Professional не является свободным программным обеспечением. Это полноценное проприетарное программное обеспечение. Однако, ИМХО, он заслуживает такого же места в компьютере каждого работника знаний, как и Microsoft Office. И вы не указали, что настаивали на бесплатном программном способе преобразования веб-страницы в PDF с возможностью поиска.

0

Это довольно хороший инструмент, который преобразует веб-страницы в PDF-файлы с возможностью поиска: http://kitpdf.com/web_to_pdf/. Попробуйте и посмотрите, удовлетворяет ли он вашим потребностям.

0

Я просто распечатал эту страницу в Google Chrome и сохранил ее в формате PDF. У меня нет проблем с использованием поиска в печатном файле PDF. Вывод может варьироваться в зависимости от типа страницы, если страница содержит флеш-кадры - тогда вы, скорее всего, не сможете искать контент там.

0

GrabzIt может конвертировать веб-страницы в полностью доступные для поиска PDF-файлы. Более того, они предоставляют бесплатный онлайн-инструмент запланированных задач, что означает, что кодирование не требуется.

0

PrimoPDF! Это свободно. Он отлично работает, и он может превратить все, что вы можете распечатать, в PDF (с возможностью поиска). Он работает, добавляя себя в качестве нового принтера. Легко удалить также.

Надеюсь это поможет.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .