Genome Biology недавно опубликовала результаты, показывающие, что автоматический форматер даты в Excel вызывал ошибки примерно в 20% опубликованных статей о дополнительных списках генов.
Например, генные символы, такие как SEPT2 (Септин 2) и MARCH1 [Мембранно-ассоциированный безымянный палец (C3HC4) 1, E3 Убиквитин-протеин-лигаза] по умолчанию конвертируются в «2-Sep» и «1-Mar» соответственно. Кроме того, идентификаторы RIKEN, как было описано, были автоматически преобразованы в числа с плавающей запятой (т. Е. От присоединения '2310009E13' к '2.31E+13')
Они предоставляют bash-скрипты, которые идентифицируют ошибки на основе имен генов, конвертируемых в даты.
Мой вопрос: существует ли общий способ написания такого скрипта для анализа всех моих файлов Excel и обнаружения аномально отформатированных данных? Может ли скрипт отменить эти изменения? В обоих случаях, что должен искать этот скрипт?