1

Genome Biology недавно опубликовала результаты, показывающие, что автоматический форматер даты в Excel вызывал ошибки примерно в 20% опубликованных статей о дополнительных списках генов.

Например, генные символы, такие как SEPT2 (Септин 2) и MARCH1 [Мембранно-ассоциированный безымянный палец (C3HC4) 1, E3 Убиквитин-протеин-лигаза] по умолчанию конвертируются в «2-Sep» и «1-Mar» соответственно. Кроме того, идентификаторы RIKEN, как было описано, были автоматически преобразованы в числа с плавающей запятой (т. Е. От присоединения '2310009E13' к '2.31E+13')

Они предоставляют bash-скрипты, которые идентифицируют ошибки на основе имен генов, конвертируемых в даты.

Мой вопрос: существует ли общий способ написания такого скрипта для анализа всех моих файлов Excel и обнаружения аномально отформатированных данных? Может ли скрипт отменить эти изменения? В обоих случаях, что должен искать этот скрипт?

1 ответ1

1

Скажем, мы импортируем данные в Excel из какого-то внешнего файла. Есть три вопроса:

  1. запретить преобразование в Date для полей, которые должны быть текстовыми
  2. для данных, которые уже были импортированы, определите ячейки, которые были ошибочно преобразованы в даты
  3. для данных, которые уже были импортированы, исправьте плохие ячейки

Первые два шага просты. Детали кода зависят от схемы данных (какие столбцы Excel необходимо обработать).

Третий требует построения таблицы перевода, которая может использоваться для преобразования дат обратно в текст.

Таблица перевода не так плоха, как кажется (в таблице может быть только 365 записей).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .