Я делаю текстовый поисковик. Мне нужно сначала преобразовать двоичные документы в текст. Я хочу использовать кроссплатформенную (мы разрабатываем как для Windows, так и для Linux) командную строку (чтобы я мог получить вывод через подпроцесс python). Каковы варианты для этого?
2 ответа
Есть PDF- текст для PDF-файлов и антислов для DOC (не уверен насчет DOCX). Оба бесплатные программы для командной строки. Использовал оба на Linux раньше, работал довольно хорошо.
Sphider, бесплатная поисковая система, использует pdftotext и catdoc. catdoc я тоже использовал, работал нормально.
Для файлов DOC есть также wv и abiword (abiword представляет собой графический интерфейс, но также имеет интерфейс командной строки). Однако я не смог их проверить.
Один совет для DOCX:
Я использовал это для преобразования DOC в PDF раньше, было довольно хорошо. Возможно, он также поддерживает TXT или вы можете использовать pdftotext. LiveDocX также может быть доступен через веб-сервис SOAP
PS: есть также pdftohtml
, pdftk
командной строки pdftk , а также набор LibreOffice
, OpenOffice
которые могут принимать DOCX и преобразовывать / сохранять все в текст. Не пробовал LibreOffice и OpenOffice из командной строки, хотя ...
Одно дополнение для PDF в текст, я знаю другой открытый исходный код: инструмент PDFLib. эта библиотека может конвертировать всю страницу PDF в текст с макетом страницы. и он поддерживает несколько языков (все языки ascii), такие как английский, французский, латинский, кроме того, также поддерживается язык CJK, поэтому он очень полезен для вашей системы текстового поиска. и я нахожу онлайн-инструмент для PDF-текста , используя PDFLib, чтобы вы могли сделать представление PDFlib.