Я ищу инструмент, который может конвертировать PDF в текст
Я не хочу, чтобы инструмент пытался поддерживать какую-либо структуру, просто печатайте построчно с пробелами между словами.
Все инструменты, с которыми я сталкивался до сих пор: pdftotext, pdf2text и т.д. ... все пытаются отделить структуры и в конечном итоге создают беспорядок. Исходный документ был плохо структурирован, и после сканирования многие структуры перепутаны, поэтому я хочу получить наиболее согласованные данные из всех моих PDF-файлов, и в настоящее время наилучшим способом является извлечение каждого слова построчно.
Моя цель - извлечь текст, который содержит пары ключ-значение, и сравнить его с данными в базе данных.