Фон: я анализирую частоту, с которой темы появляются в ряде электронных писем. Каждой теме соответствует соответствующий символ (az), и каждому электронному письму присваивалось несколько таких символов каждый раз, когда возникал какой-либо аспект темы:
В приведенном выше примере MAIL2 затрагивал тему «c» 2 раза и «d» 2 раза.
Вопрос: Как мне суммировать эти вхождения для каждого электронного письма отдельно, если число строк и символов, соответствующих каждому электронному письму, непредсказуемо (от 1 до ~ 12)?
Я думаю о форматировании результатов, как это:
Я могу дать каждой строке соответствующий адрес электронной почты. Я думаю, что тогда я бы нашел в каждом подсчете числа серых ячеек одного символа (например, 'a' для C2
) в какой-то строке, объединенной из всех ячеек в строках, отмеченных как MAIL1? Но я буду благодарен за любое решение, которое позволяет получать отдельные результаты для каждого электронного письма.