Как извлечь извлеченный отформатированный HTML из файла PDF? (Я мог только найти программы, которые генерировали HTML, который трудно анализировать и который боролся с обработкой уравнений.) В частности, я хотел бы проанализировать, чтобы проанализировать вопросы в файлах PDF следующим образом: http://nysedregents.org/algebraone/118/algone12018-exam.pdf. Есть ли способ сделать это в Windows, Linux или Python?
1 ответ
Вы не можете "извлечь" HTML из файла PDF.
PDF-файл состоит из команд, сообщающих рендереру PDF, куда помещать глифы, а строки - это другие примитивы на странице.
HTML, с другой стороны, состоит из тегов и текста, где такие теги, как <b>
говорят HTML-рендереру использовать жирный шрифт для текста и т.д. Он не сообщает рендереру, где следует размещать символы, но обычно Рендерер определяет расположение и расположение на основе другой информации.
Теперь можно угадать форматирование файла PDF, используя положение глифов, и использовать это предположение, чтобы сгенерировать HTML, который может неопределенно напоминать макет файла PDF при визуализации. Кроме того, если имеются необходимые таблицы (которые обычно есть, но есть сюрпризы), вы также можете преобразовать глифы в исходные символы Юникода.
Это означает, что любое преобразование HTML останется догадкой. Это будет приемлемо до некоторой степени, но для сложных форматов это потерпит неудачу. Вы всегда должны будете вручную исправить предположение.
Если вам нужен список инструментов, которые вы могли бы использовать для этого: это программная рекомендация, а не тематическая в этом стеке обмена.