Конвертировать PDF в текст, игнорируя структуру

Question

Я ищу инструмент, который может конвертировать PDF в текст

Я не хочу, чтобы инструмент пытался поддерживать какую-либо структуру, просто печатайте построчно с пробелами между словами.

Все инструменты, с которыми я сталкивался до сих пор: pdftotext, pdf2text и т.д. ... все пытаются отделить структуры и в конечном итоге создают беспорядок. Исходный документ был плохо структурирован, и после сканирования многие структуры перепутаны, поэтому я хочу получить наиболее согласованные данные из всех моих PDF-файлов, и в настоящее время наилучшим способом является извлечение каждого слова построчно.

Моя цель - извлечь текст, который содержит пары ключ-значение, и сравнить его с данными в базе данных.

score 2 · Accepted Answer · 2011-03-09T19:38:42

Если вы хотите конвертировать PDF-файлы в текстовый пакет, посмотрите продукт моей компании Debenu PDF Tools Pro.

Он имеет три различных варианта для преобразования файлов PDF в текст, который должен дать вам вывод, который вы ищете. Первая опция, показанная на скриншоте ниже, будет просто извлекать текст построчно, как он находит его в PDF, не форматируя его. Второй вариант пытается сохранить исходный макет.

Это инструмент, предназначенный для пакетной обработки. Существует полнофункциональная 14-дневная пробная версия, а затем она возвращается в облегченный режим, который не ограничен по функциям, но имеет ограничение на количество файлов, которые могут быть обработаны в день.

Сейчас выбран русский

Конвертировать PDF в текст, игнорируя структуру

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf file-conversion.

Конвертировать PDF в текст, игнорируя структуру

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf file-conversion.

Похожие