Существует ли какое-либо программное обеспечение, которое будет выполнять анализ ключевых слов для пакета файлов Microsoft Word? Другими словами, я просто хотел бы подсчитать все используемые слова. Цель состоит в том, чтобы определить ключевые слова в качестве основы для создания таксономии.
2 ответа
1
Я использую скрипт Python, который использует модуль docx.py
(см. Здесь), чтобы читать файлы Word и обрабатывать отдельные слова для связанной задачи. Ключевые биты находятся в следующем коде (который читает только один файл .docx, заданный в качестве первого аргумента командной строки, но может быть легко расширен для подсчета слов во многих файлах:
from docx import *
import sys
try:
document = opendocx(sys.argv[1])
except:
print('Could not open '+sys.argv[1])
exit()
## Fetch all the text out of the document
paratextlist = getdocumenttext(document)
count = {}
for line in paratextlist:
for word in line.rstrip().split():
count{word} = count.get(word,0) + 1
0
Как насчет WordStat ?