1

У меня есть набор файлов PDF, каждый из которых содержит текст. Однако некоторые из этих файлов были как-то не созданы должным образом; Выбираемый текст не доступен для поиска и не может быть преобразован в обычный текст (полученный текстовый файл содержит расширенные символы ASCII). Некоторые из файлов имеют еще более скрытную ошибку: экспорт в txt приводит к тому, что читается только определенный текст (например, заголовки). Кроме того, поскольку это технически «текстовые» PDF-файлы, запуск OCR непосредственно на них невозможен (появляется сообщение «Эта страница содержит визуализируемый текст».) Я пытаюсь определить, почему это происходит и как поврежденные PDF-файлы можно исправить.

Вот что я хотел бы сделать как пакетный процесс для каждого файла PDF:

  1. Извлеките тег метаданных "PDF Producer"

  2. Конвертировать PDF в текст

  3. Конвертировать PDF в формат TIFF

  4. Запустите OCR на полученном TIFF и экспортируйте его в txt

  5. Запустите diff в текстовом файле PDF-> TXT против текстового файла PDF-> TIFF-> OCR-> TXT

  6. Записать тег метаданных и логический результат txt diff в файл csv

У меня есть Adobe Acrobat X Pro, установка Cygwin и Windows Exiftool (отсюда) для работы, и при необходимости могу получить доступ к другим инструментам.

У кого-нибудь есть какие-либо советы о том, как я могу решить эту проблему?

0