Мой начальник дал мне PDF и попросил создать алфавитный указатель.

Указатель будет содержать только интересные (для него) слова. Список «интересных слов» недоступен, и я должен создать его и показать его на утверждение.

Я думаю, что могу найти способ преобразовать pdf в .doc, и Libreoffice может создать алфавитный указатель, как только вы дадите ему файл .sdi, содержащий «интересные слова».

Поэтому моя большая задача сейчас состоит в том, чтобы извлечь все уникальные слова из pdf, отфильтровать их, чтобы исключить слишком распространенные и создать список наиболее значимых. Какие-либо предложения ? Должен ли я написать простое приложение для фильтрации слов или я могу использовать существующее программное обеспечение?

Спасибо Филиппо

1 ответ1

-1

Да, вы должны извлечь документ, чтобы получить доступ к тексту, а затем использовать программное обеспечение для анализа и получения ключевых слов (или, как вы выразились - интересные слова).

TexLexAn - хороший вариант с открытым исходным кодом:http://texlexan.sourceforge.net/

Вот другие:http://www.quora.com/What-are-good-tools-to-extract-key-words-and-or-topics-tags-from-a-random-paragraph-of-text

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .