Существует ли какое-либо программное обеспечение, которое будет выполнять анализ ключевых слов для пакета файлов Microsoft Word? Другими словами, я просто хотел бы подсчитать все используемые слова. Цель состоит в том, чтобы определить ключевые слова в качестве основы для создания таксономии.

2 ответа2

1

Я использую скрипт Python, который использует модуль docx.py (см. Здесь), чтобы читать файлы Word и обрабатывать отдельные слова для связанной задачи. Ключевые биты находятся в следующем коде (который читает только один файл .docx, заданный в качестве первого аргумента командной строки, но может быть легко расширен для подсчета слов во многих файлах:

from docx import *
import sys

try:
    document = opendocx(sys.argv[1])
except:
    print('Could not open '+sys.argv[1])
    exit()

## Fetch all the text out of the document       
paratextlist = getdocumenttext(document)    

count = {}
for line in paratextlist:
    for word in line.rstrip().split():
        count{word} = count.get(word,0) + 1
0

Как насчет WordStat ?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .