У меня есть таблица, содержащая следующие четыре столбца, каждый с ~ 18 000 строк:
- Код субрегиона: географическая переменная, которая использовалась статистическим бюро моей страны для создания штатов и федеральных округов.
- Регион # 1: Столбец из ~ 90 областей штатов, которые соответствуют каждому из приведенных выше кодов субрегионов.
- Регион № 3: столбец из ~ 60 федеральных округов, которые соответствуют каждому из субрегионов.
- Население: расчетная численность населения каждого из субрегионов.
Я предоставил упрощенную версию этой таблицы на изображении ниже:
Я хотел бы создать список уникальных переменных региона № 1 в одном столбце, во втором смежном столбце показаны уникальные переменные региона № 2, которые перекрывают показатели области № 1 , а в третьем столбце - общая численность населения в пределах перекрывающиеся области № 1 и области № 2 .
Затем я могу вручную рассчитать процент населения региона № 1 в каждой области № 2 .
Если возможно, я бы хотел, чтобы конечный продукт был похож на (созданное вручную) изображение ниже:
Я не уверен, с чего начать, чтобы выполнить эту задачу, поэтому буду очень признателен за любые советы относительно того, какая функция лучше для такой работы.