Извлечение отформатированного, разбираемого HTML из PDF

Question

Как извлечь извлеченный отформатированный HTML из файла PDF? (Я мог только найти программы, которые генерировали HTML, который трудно анализировать и который боролся с обработкой уравнений.) В частности, я хотел бы проанализировать, чтобы проанализировать вопросы в файлах PDF следующим образом: http://nysedregents.org/algebraone/118/algone12018-exam.pdf. Есть ли способ сделать это в Windows, Linux или Python?

score 0 · Accepted Answer · 2011-03-09T19:38:42

Вы не можете "извлечь" HTML из файла PDF.

PDF-файл состоит из команд, сообщающих рендереру PDF, куда помещать глифы, а строки - это другие примитивы на странице.

HTML, с другой стороны, состоит из тегов и текста, где такие теги, как <b> говорят HTML-рендереру использовать жирный шрифт для текста и т.д. Он не сообщает рендереру, где следует размещать символы, но обычно Рендерер определяет расположение и расположение на основе другой информации.

Теперь можно угадать форматирование файла PDF, используя положение глифов, и использовать это предположение, чтобы сгенерировать HTML, который может неопределенно напоминать макет файла PDF при визуализации. Кроме того, если имеются необходимые таблицы (которые обычно есть, но есть сюрпризы), вы также можете преобразовать глифы в исходные символы Юникода.

Это означает, что любое преобразование HTML останется догадкой. Это будет приемлемо до некоторой степени, но для сложных форматов это потерпит неудачу. Вы всегда должны будете вручную исправить предположение.

Если вам нужен список инструментов, которые вы могли бы использовать для этого: это программная рекомендация, а не тематическая в этом стеке обмена.

Сейчас выбран русский

Извлечение отформатированного, разбираемого HTML из PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux windows pdf python html.

Извлечение отформатированного, разбираемого HTML из PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux windows pdf python html.

Похожие