16

Мне нужен способ извлечения текста из всех типов документов MS Office (Word, Excel, Powerpoint) в Linux. Я предполагаю, что может быть несколько разных подходов для достижения этой цели, например, сценарий Bash или Python или преобразование их в PDF, а затем извлечение текста с помощью такого инструмента, как pdftotext.

Кажется, это может быть обычным требованием. Существует ли установленная процедура или инструмент, позволяющий легко это сделать?

9 ответов9

16

Catdoc может конвертировать doc, xls & ppt в текст. Второй вариант будет wvWare.

Для получения дополнительной утилиты проверьте http://www.linux.com/archive/articles/52385 на слово к тексту обложки и

7

Abiword может конвертировать из командной строки любые форматы файлов, которые он знает.

Конвертировать из Word в обычный текст:

abiword --to=txt myfile.doc

Создайте PDF из файла Word:

abiword --to=pdf myfile.doc

И так далее. Результатами в этих случаях будут myfile.txt или myfile.pdf. Если вы хотите указать имя вывода, вы можете сделать это тоже:

abiword --to=txt --to-name=output.txt myfile.doc

Конвертировать ODT в Word:

abiword --to=doc myfile.odt

Преобразовать слово в ODT:

abiword --to=odt myfile.doc

Справедливости ради других ответов следует отметить, что AbiWord использует wvWare для обработки документов Word, но даже домашняя страница wvWare рекомендует использовать AbiWord вместо этого для большинства преобразований.

Я ненавижу текстовые процессоры. Это основная причина, по которой я установил AbiWord.

Возможно, вас также заинтересует unoconv, аналогичный инструмент, поддерживающий форматы, известные OpenOffice (включая электронные таблицы и т. П.), Но у меня нет опыта работы с ним лично.

6

Наконец-то я нашел идеальный инструмент для разбора скриптов документов, это apache-tika, он может разбирать тысячи нетекстовых форматов в текст, что очень круто!

Получите Apache Tika здесь:

http://tika.apache.org/

(Пользователи Mac Homebrew: brew install tika)

Интерфейс командной строки работает так:

tika --text something.docx > something.txt

3

С LibreOffice вы можете сделать:

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt
0

1.doc catdoc или antiword для файлов doc для конвертации вы можете использовать следующую команду catdoc file.doc> file или antiword file.doc> file

  1. docx docx2txt

  2. pdf файл emacs.pdf файл ctrl-x ctrl-s

0

Вы можете использовать CUPS (виртуальный принтер) и с помощью ld.

0

wv - это одна из опций, и IIRC OpenOffice может сказать из командной строки экспортировать как pdf и выйти.

0

Если вы хотите использовать Apache Tika в проекте Python, ознакомьтесь с этим сообщением в блоге.

-1

Docsplit является идеальным инструментом для извлечения текста из PDF. Это рубиновый камень. Поэтому вы должны установить ruby и gem в вашей системе Linux перед использованием команды docsplit.

Если в вашей системе нет рубина и драгоценного камня, следуйте инструкциям.

Для установки программного обеспечения вы должны быть пользователем root (при условии, что вы хотите, чтобы оно было доступно всем пользователям).

Установите ruby в Linux: yum установите ruby
Установите гем, пожалуйста, скачайте последнюю версию пакета, затем следуйте инструкциям

tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb

Теперь, когда RubyGems установлен, у вас должна быть команда gem (gem - команда, используемая для взаимодействия с системой пакетов RubyGems). Проверьте это, запустив:

список драгоценных камней

Теперь перейдите к следующему шагу, чтобы установить гем docsplit, перейдите на следующий сайт. http://documentcloud.github.com/docsplit/

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .