У меня есть две таблицы с разными размерами. У них общий столбец, но не все имена на 100% похожи. В частности, я объединяю два файла данных из округов США, один из которых содержит экономические данные, а другой - данные голосования.

В одном файле у меня может быть "Округ Харрис", а в другом - "Харрис", оба в общей колонке. Каков наилучший способ сопоставления файлов, в Excel или R (хотя я менее знаком с R). Я думал, что у VLOOKUP есть решение для этого, но я не смог заставить его работать.

County  Total Vote  C   O   E   R   Margin  %Margin Clinton Obama   Edwards Richardson  Other       Clinton Obama   Edwards Richardson  Other
Harris  12,525  1   2   3   4   41  0.33%   37.31%  36.98%  18.85%  4.31%   2.55%   4,673   4,632       2,361   540 319

STATEFP10   COUNTYFP10  census track    county  state   economic variable
48  201 Census Tract 2225.01     Harris County   Texas  5
48  201 Census Tract 4214.01     Harris County   Texas  6

Ключевые столбцы не отличаются ни в каком порядке 100% времени, поэтому я не могу просто найти и заменить. Каков хороший способ объединить эти файлы? У того, у кого есть информация для голосования, гораздо меньше строк и столбцов.

1 ответ1

2

Том, самым надежным решением было бы использование надстройки Fuzzy. Ряд других решений VBA был создан с использованием расстояния Левенштейна, но я предлагаю вам сначала попробовать надстройку.

http://www.microsoft.com/en-us/download/details.aspx?id=15011

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .