У меня есть набор файлов PDF, каждый из которых содержит текст. Однако некоторые из этих файлов были как-то не созданы должным образом; Выбираемый текст не доступен для поиска и не может быть преобразован в обычный текст (полученный текстовый файл содержит расширенные символы ASCII). Некоторые из файлов имеют еще более скрытную ошибку: экспорт в txt приводит к тому, что читается только определенный текст (например, заголовки). Кроме того, поскольку это технически «текстовые» PDF-файлы, запуск OCR непосредственно на них невозможен (появляется сообщение «Эта страница содержит визуализируемый текст».) Я пытаюсь определить, почему это происходит и как поврежденные PDF-файлы можно исправить.
Вот что я хотел бы сделать как пакетный процесс для каждого файла PDF:
Извлеките тег метаданных "PDF Producer"
Конвертировать PDF в текст
Конвертировать PDF в формат TIFF
Запустите OCR на полученном TIFF и экспортируйте его в txt
Запустите diff в текстовом файле PDF-> TXT против текстового файла PDF-> TIFF-> OCR-> TXT
Записать тег метаданных и логический результат txt diff в файл csv
У меня есть Adobe Acrobat X Pro, установка Cygwin и Windows Exiftool (отсюда) для работы, и при необходимости могу получить доступ к другим инструментам.
У кого-нибудь есть какие-либо советы о том, как я могу решить эту проблему?