1

Я хочу создать концептуальную карту из неструктурированного текста. Например

Desired input: find "/" -name "*.txt"
Desired output: concepts-graph.dot

Другими словами, я хочу добыть свои текстовые файлы и создать некое структурированное представление ключевых слов / понятий. Слабо плохой анализатор текста Google.

Существует ли инструмент /API с открытым исходным кодом, который может найти отношения между терминами в текстовом файле?

1 ответ1

1

Есть много инструментов, которые вы можете создать с помощью:

Что касается ключевых слов, то есть базовые инструменты, такие как stemmer от Porter, доступные на большинстве языков программирования, и множество дополнительных опций для конкретных языков.

Например, есть NLTK (инструментарий естественного языка) - система классификации текста Python - которую вы можете использовать для таких вещей, как тегирование части речи (http://nltk.org/)

Кроме того, существуют различные пакеты для интеллектуального анализа текста, которые вы можете использовать в R: http://tm.r-forge.r-project.org/, например (также см. Эти слайды: http://www.zinkov.com/posts/2010-10-21-slides_from_larug/tm_slides.pdf).

Если вы можете дать более четкое представление о том, какой анализ текста вы имеете в виду, было бы проще предложить конкретные пакеты, которые могут иметь отношение к делу?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .