У меня есть дамп данных CSV, который сплющивает связанные таблицы из базы данных SQL. Так что для упрощения это выглядит так.
| col1 | col2 | col3 | col4 |
+------+------+------+------+
| A | Ad | B | B1 |
| A | Ad | B | B2 |
| A | Ad | B | B3 |
| A | Ad | C | C1 |
| A | Ad | C | C2 |
| X | Xx | D | D1 |
| X | Xx | D | D2 |
| X | Xx | E | E3 |
Из этой таблицы мне нужно генерировать различные графики и сводки из подмножеств этих данных
поэтому я хотел бы сгенерировать (ссылку) на эти данные и создать таблицы, которые представляют запрашиваемые наборы, которые я, например, после.
| col1 | col2 |
+------+------+
| A | Ad |
| X | Xx |
а также
| col1 | col2 | col3 |
+------+------+------+
| A | Ad | B |
| A | Ad | C |
| X | Xx | D |
| X | Xx | E |
в основном, поэтому я могу делать подсчеты уникальных комбинаций сглаженных данных.
Важно, чтобы при обновлении данных из источника данных эти таблицы обновлялись точно.
Так как мне это сделать?
РЕДАКТИРОВАТЬ
Ваши ответы были полезны, кажется, мой вопрос был недостаточно хорош
для первого стола я действительно хочу произвести это
| col1 | col2 | count
+------+------+------
| A | Ad | 1
| X | Xx | 1
и второй
| col1 | col2 | col3 | count
+------+------+------+------
| A | Ad | B | 1
| A | Ad | C | 1
| X | Xx | D | 1
| X | Xx | E | 1
Таким образом, значения отражают различное количество записей на данном уровне, а не сумму всех строк.
Мне нужно ответить на такие вопросы, как "что общее количество отдельных элементов в столбце col1"
Мне также нужно ответить на этот вопрос "показать количество col3 для col1"
Я ожидаю, что меня попросят составить графики и представить данные на различных нормированных уровнях.
Я надеюсь, что это более точно для вас. Пока спасибо за помощь