Для исследовательского проекта я пытаюсь выяснить, как часто пациенты поступают в различные отделения больницы. Для каждого отделения у меня есть файл Excel с множеством данных, но я сократил его до двух столбцов: идентификатор пациента и допустимая дата. Каждый пациент (около 300 из них) принимался множество раз, поэтому на каждом листе более 20000 строк, примерно так:
ID1 23/07/15
ID1 25/08/15
ID1 09/01/16
ID2 14/06/14
ID2 12/08/15
За исключением того, что на пациента приходится больше дат, чем два или три.
Теперь я, очевидно, не хочу проходить 20000 строк (на файл, из которых у меня шесть) и считать все вручную. Мне нужен способ:
а) удалить целые строки, содержащие повторяющиеся даты, следующие друг за другом (по какой-то причине один и тот же пациент часто имеет две одинаковые даты поступления в две соседние строки)
а также
b) в Excel подсчитать общее количество дат (т. е. строк) на пациента на основе идентичного идентификатора в первом столбце.
Немного поигравшись с ним, я нашел способы выделить дубликаты, следующие друг за другом (с условным форматированием), но не могу заставить Excel удалить всю строку или выполнить подсчет.
Есть ли способ добиться этого в Excel, или мне придется делать все вручную?