8

Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.

В идеале, он будет иметь все эти функции:

  1. Черный список слов (игнорировать)
  2. Слово stemming
  3. Пользовательский синоним слияния
  4. Подсчет всех использований
  5. Подсчет количества постов, в которых появляется слово.

Я бы подумал, что такого рода текстовый анализ будет чрезвычайно распространенным, но я не смог найти ни одного программного обеспечения, которое бы выполняло подобные действия во всех блогах. Есть ли программное обеспечение для этого?

6 ответов6

3

Программное обеспечение, которое вы ищете, может иметь много названий, таких как "Анализ содержимого", "Облако тегов" или "Метатеги" и многие другие, такие как "анализ текста" и "Анализ текста".

Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.

У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста , в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.

Другим таким списком является программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации.

2

Взгляните на Rapidminer или Weka

Видя, что это блог клиентов, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1, 2, 3 и 5).

Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.

2

WordStat - одна из самых популярных программ анализа контента, разработанная Provalis Research.

WordStat - это модуль анализа текста для QDA Miner или SimStat. WordStat объединяет метод анализа контента с использованием словарного подхода и множества алгоритмов исследования или различных методов анализа текста. WordStat может применять существующие словари категоризации к новому текстовому корпусу. Он также может быть использован при разработке и валидации новых словарей категоризации. При использовании в сочетании с ручным кодированием этот модуль может помочь в более систематическом применении правил кодирования, помочь выявить различия в использовании слов между подгруппами отдельных лиц и помочь в пересмотре существующего кодирования с использованием таблиц KWIC (Keyword In Context). WordStat специально разработан для изучения текстовой информации, такой как ответы на открытые вопросы, интервью, заголовки, журнальные статьи, публичные выступления, электронные сообщения и т.д.

http://provalisresearch.com/products/content-analysis-software/

1

Вы можете попробовать Mathematica Вольфрама попробовать. Вам придется немного программировать, но все необходимые инструменты есть:

0

На некоторые из этих вопросов можно было бы быстро и грязно ответить с помощью поиска Google в своем блоге (проще всего, если у него есть собственный домен).

0

Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.

Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.

Однако для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны найти плагин поиска и дать несколько попыток.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .