2

Я обычно получаю файлы, обычно электронные таблицы Excel, которые содержат введенные вручную данные, которые переросли полезность электронных таблиц. Затем я очищаю эти файлы для импорта в базу данных.

это иногда легко, иногда кропотливо, в зависимости от того, насколько "чисты" данные.

например, что-то вроде:

Name            Age     Phone #
J Smith         31 yo   8019219210
Smith, Mary Alice  43     (203) 456-7788

Я перевожу на:

First_Name  Middle_Name Last_Name      Age  Phone_Number
J            NULL        Smith          31   801-921-9210
Mary          Alice       Smith          43   203-456-7788

Мне бы очень понравилось какое-то программное обеспечение, которое помогает мне устанавливать параметры для того, как "должен выглядеть" каждый столбец, автоматически помечать значения, которые являются подозрительными, и позволять мне циклически просматривать их для внесения необходимых изменений.

Кто-нибудь знает, существует ли такое программное обеспечение? Я должен представить, что это так, но я не знаю, как начать его находить.

Я также открыт для стандартных рабочих процедур, которые помогают эффективно решать такие же задачи.

Спасибо!

2 ответа2

4

Вскоре после того, как я опубликовал это, Google выпустил Google Refine, который, похоже, обладает всеми функциями, которые я представлял, а затем и некоторыми.

http://code.google.com/p/google-refine/

Я получил новую работу как раз тогда, когда узнал об улучшении, иначе я бы наверняка попробовал это на некоторых реальных данных. на данный момент я не использовал его сам, поэтому не могу комментировать его качество - но это демонстрационное видео поразило меня, и, безусловно, похоже, что это та утилита, которую я искал, когда выкладывал этот вопрос.

Если вы использовали это, и это полезно, пожалуйста, проголосуйте за этот ответ. если он получит пару голосов, я выберу этот ответ.

0

Если ваш столбец в файлах, которые вы получаете, является полусогласованным, вы, вероятно, могли бы написать макрос, чтобы сделать большинство всего. Разделите имя (с правилами определения Last, запятой и т.д.), Сделайте Age a number, отформатируйте телефон.

Вы могли бы даже сделать это циклически и, если сомневаетесь, условно отформатировать строку для дальнейшего внимания.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .