3

Я ищу бесплатный или платный (около 50 $/40 фунтов) BATCH PDF в HTML конвертер, чтобы конвертировать несколько файлов PDF одновременно.

Необходимо иметь возможность обрабатывать векторные и растровые изображения в файле, выводя оба в формате jpegs, на которые ссылаются html-страницы.

Я попробовал iorigsoft заплатить за PDF в HTML - проблемы, которые, кажется, зависают или просто простаивают, и вещи, которые он на самом деле конвертирует, имеют неработающие ссылки - неправильное имя используется для составных глав как html.

Также пробовал приложение с intrapdf.com, но это сбой в начале конверсии, соответственно.

Обновить:

intrapdf работает на моей машине с Windows XP, но не на моей машине с Windows 7. Единственный сбой в HTML-содержимом заключенного в рамку - графика на странице не отображается на странице во фрейме - но если вы откроете фрейм только в новой вкладке, вы сможете их увидеть. Это может быть сбой браузера только в Chrome.

Это решение достаточно для меня, учитывая, что я уже потратил деньги (я потратил их раньше, чем попросил), но я не могу принять свой собственный ответ, так как он не работает в Windows 7.

Посмотрел инструменты с открытым исходным кодом, но они выглядят одинаково изящно или используют старые версии PDF.

Нужно это на Windows 7 32bit home.

Мысли?

8 ответов8

5

PDF - отвратительный входной формат для конвертации, так что "flakey" - это, пожалуй, правило. Некоторые файлы могут быть преобразованы относительно легко, но у большинства будут проблемы. (Очень кратко: файл PDF представляет собой сжатый список «переместить сюда, вывести это, переместить туда, ...». Если документ содержит что-то кроме простого текста L-to-R - таблицы, изображения, текст RTL, сноски и т.д. - преобразование, вероятно, приведет к некоторому количеству мусора.)

3

Существует рендерер PDF на основе HTML Javascript под названием PDF.js, который использует элемент Canvas. http://mozilla.github.com/pdf.js/web/viewer.html

Он находится в стадии разработки, но он может сделать работу для некоторых.

2

Я бы проверил, есть ли у openoffice/libreoffice флаги командной строки для конвертации.

PDF-файлы - отстой, что вы пытаетесь сделать. Существует огромное несоответствие модели документа между тем, как PDF видит страницу, и тем, как HTML видит страницу. Будут файлы PDF, которые просто не могут быть легко преобразованы в HTML.

2

«Близнецы» из партии Iceni преобразует документы PDF в HTML ...

http://www.iceni.com/gemini-features.htm

Результат не на 100% идеален, но вы можете найти его приемлемым. И это хорошая база для работы. Если вы перфекционист, то пост-продакшн «поиск и замена» обычно может решить большинство проблем.

1

Вы можете попробовать Okdo PDF в HTML конвертер

0

Существует бесплатный инструмент командной строки с открытым исходным кодом http://sourceforge.net/projects/pdftohtml/.

После непродолжительной оценки он в настоящее время подходит в основном для простых документов. Сложное форматирование может отличаться.

Плохо себя ведет с нелатинскими кодировками.

0

Существует также БЕСПЛАТНЫЙ инструмент FREE PDF to HTML от http://www.freepdfsolutions.com.

Особенности простой графический интерфейс с поддержкой партии. Без рекламы.

Он изо всех сил пытается сохранить равное форматирование с помощью смертельно простого пуленепробиваемого приема Вся графика отображается на одном большом фоновом jpg-изображении на каждой странице. Также все текстовые div в html используют абсолютное выравнивание. Это дает точный результат, но большой размер и ужасный HTML.

0

Моим решением было бы 2 части 1) продолжать использовать программу IntraPDF PDF to JPG (я заплатил за нее) (http://www.intrapdf.com/convert_pdf_to_html.htm) на моей платформе XP (похоже, не работает на Windows 7 Home 32bit, висит).

Но я согласен с вами, @geekosaur, в том, что у PDF и HTML разные цели, поэтому перевод / преобразование не будут точными (даже с применением CSS к HTML, возможно), и на самом деле результат HTML, который я видел на некоторых страницах имеет форматирование, которое не то же самое, но это будет делать.

Таким образом, вторая часть решения будет заключаться в использовании бесплатного программного инструмента IrfanView для преобразования из PDF в JPG, причем документ PDF представляет собой серию изображений JPG, по одному на каждую страницу документа. Это легко установить, просмотр IrfanView упаковывает конвертацию PDF как часть своего набора плагинов, и предварительным условием для PDF является загрузка GhostView, на которую IrfanView предоставляет ссылку. Это работает очень хорошо, за исключением того, что во время процесса пользовательский интерфейс иногда зависает, но преобразование все еще продолжается.

http://en.irfanview-forum.de/vb/showthread.php?7689-Irfanview-freezes-during-PDF-to-JPG-conversion-if-you-try-to-continue-with-other-prog

Чтобы прояснить свою цель, я хотел, чтобы документы в формате pdf были проприетарными, что предоставило бы мне больше возможностей для просмотра документов в будущем. PDF довольно широко распространен, но мне нравится, что мои данные бесплатны, как не привязанные к формату.

Спасибо другим авторам:

  • @ AffineMesh94464: http://www.iceni.com/gemini-features.htm (еще не пробовал, но, учитывая, что я уже заплатил за инструмент, который делает это разумно, я, вероятно, не собираюсь покупать другой ).

  • @Sathya: http://www.okdosoft.com/okdo-pdf-to-all-converter-professional.htm (выглядит хорошо, но я получил сообщение об ошибке, что-то вроде этого хотел компонент Microsoft).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .