Мой начальник дал мне PDF и попросил создать алфавитный указатель.
Указатель будет содержать только интересные (для него) слова. Список «интересных слов» недоступен, и я должен создать его и показать его на утверждение.
Я думаю, что могу найти способ преобразовать pdf в .doc, и Libreoffice может создать алфавитный указатель, как только вы дадите ему файл .sdi, содержащий «интересные слова».
Поэтому моя большая задача сейчас состоит в том, чтобы извлечь все уникальные слова из pdf, отфильтровать их, чтобы исключить слишком распространенные и создать список наиболее значимых. Какие-либо предложения ? Должен ли я написать простое приложение для фильтрации слов или я могу использовать существующее программное обеспечение?
Спасибо Филиппо