У меня есть пять столбцов, которые определяют идентификатор статьи и категории, с которыми связана статья. Пример данных как ниже:
article_id category_id subcategory_id 2nd_category_id 2nd_subcategory_id
94 C02 M1001
96 C06
98 C06
101 C03 M1001
108 C01 M1001
110 C01 M1001
111 C03 M1003 C02 M1001
114 C01 C02
115 C01 M1001 C01 M1002
Из представленной выше презентации видно, что статью можно отнести к четырем категориям. В действительности это назначено одной или двум категориям, каждая с дополнительной подкатегорией. (Есть шесть родительских категорий. Каждая категория может иметь до четырех подкатегорий. В файле приблизительно 11 000 записей (т. Е. Строк / статей).) К сожалению, кодовые имена подкатегорий не являются глобально уникальными. Например, категория C01 - это "Деревья", а категория C02 - это фрукты. Но C01 подкатегория M1001 является Evergreens, в то время как C02 подкатегория M1001 является яблоки. Обратите внимание, что статья может быть присвоена одной и той же категории дважды, если хотя бы одно из назначений связано с подкатегорией - в приведенном выше примере статья 115 присваивается C01 дважды.
Что мне нужно сделать, это создать формулу, которая объединит их в одно значение поля, разделенное запятыми, в котором перечислены идентифицированные категории и подкатегории.
Как я мог этого добиться? Я предполагаю, что есть три части к этому:
Найти + Заменить в столбце category_id и 2nd_category_id, чтобы заменить значение родительской категории соответствующим именем строки. Таким образом, C01 становится деревьями.
Используйте некоторую формулу, чтобы заменить значения subcategory_id их именами, в зависимости от значения строки в category_id. Повторите для 2nd_subcategory_id. Если subcategory_id не существует, оставьте значение пустым.
Используйте другую формулу для копирования значений в новый столбец, по возможности удаляя дубликаты записей (например, статья может быть присвоена C01 (родительская категория, унаследованная от подкатегории) и M1001 (подкатегория) и C01 (2-я категория). В этом случае формула должна содержать значение в новом столбце как «Деревья, вечнозеленые, деревья». Нет необходимости дублировать записи "Деревья", поэтому в новом значении столбца должны существовать только «Деревья, вечнозеленые».
Возможно, я слишком усложняю вещи, и есть очень простой способ добиться этого. Возможно нет. Есть указатели?
Пример того, что я хотел бы создать, приведен ниже:
article category subcategory category2 subcat2 categories
94 C02 M1001 Fruits, Apples
96 C06 Seeds
98 C06 Seeds
101 C03 M1001 Plants, Shrubs
108 C01 M1001 Trees, Evergreens
110 C01 M1001 Trees, Evergreens
111 C03 M1003 C02 M1001 Plants, Climbers, Fruits, Apples
112 C06 Seeds
113 C01 Trees
114 C01 C02 Trees, Fruits
115 C01 M1001 C01 M1002 Trees, Evergreens, Deciduous