1

Я делаю текстовый поисковик. Мне нужно сначала преобразовать двоичные документы в текст. Я хочу использовать кроссплатформенную (мы разрабатываем как для Windows, так и для Linux) командную строку (чтобы я мог получить вывод через подпроцесс python). Каковы варианты для этого?

2 ответа2

0

Есть PDF- текст для PDF-файлов и антислов для DOC (не уверен насчет DOCX). Оба бесплатные программы для командной строки. Использовал оба на Linux раньше, работал довольно хорошо.

Sphider, бесплатная поисковая система, использует pdftotext и catdoc. catdoc я тоже использовал, работал нормально.

Для файлов DOC есть также wv и abiword (abiword представляет собой графический интерфейс, но также имеет интерфейс командной строки). Однако я не смог их проверить.

Один совет для DOCX:

http://www.livedocx.com/

Я использовал это для преобразования DOC в PDF раньше, было довольно хорошо. Возможно, он также поддерживает TXT или вы можете использовать pdftotext. LiveDocX также может быть доступен через веб-сервис SOAP

PS: есть также pdftohtml , pdftk командной строки pdftk , а также набор LibreOffice , OpenOffice которые могут принимать DOCX и преобразовывать / сохранять все в текст. Не пробовал LibreOffice и OpenOffice из командной строки, хотя ...

-1

Одно дополнение для PDF в текст, я знаю другой открытый исходный код: инструмент PDFLib. эта библиотека может конвертировать всю страницу PDF в текст с макетом страницы. и он поддерживает несколько языков (все языки ascii), такие как английский, французский, латинский, кроме того, также поддерживается язык CJK, поэтому он очень полезен для вашей системы текстового поиска. и я нахожу онлайн-инструмент для PDF-текста , используя PDFLib, чтобы вы могли сделать представление PDFlib.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .