Впервые с тех пор, как у меня был компьютер (30 лет), я столкнулся с необнаруженной ошибкой однобитового диска. В массиве RAID. Последовательность событий была
- Загрузите коллекцию цифровых изображений (файлы Camera Raw) с CF-карты.
- Сделайте некоторое редактирование в Lightroom (который не обновляет оригинальный файл)
- Резервное копирование всего на внешний архивный диск (используя Retrospect)
... проходит время (около 1 недели) ... - Снова откройте файл в Lightroom - он поврежден (большое квадратное пурпурное пятно)
- Восстановите копию с архивного диска - восстановленная копия НЕ повреждена
- Сравните два файла. Разница только в одном бите ... байт, который был первоначально 0x34, теперь 0xB4
Сетевое устройство представляет собой пару дисков по 2 ТБ в RAID-1 на аппаратной карте RAID (3WARE 9560SE-4LPML).
Учитывая вышеприведенную последовательность, ошибка была явно введена через некоторое время после шага 3, поскольку архивная копия не была повреждена, поэтому она не могла возникнуть во время первоначальной записи. Этот файл является необработанным файлом Canon CR2, и Lightroom никогда не обновляет оригинальные файлы RAW, они считаются "цифровыми негативами" и никогда не обновляются. Вместо этого он сохраняет все правки в виде файлов XMP боковой панели, содержащих последовательность примененных правок. Дата / время файла не изменяются с оригинала.
Ясно, что битовая ошибка произошла и была распространена аппаратным обеспечением RAID без предупреждения. Я проверил журналы ошибок RAID, и за последние 18 месяцев нет ничего примечательного (с момента последнего обновления программного обеспечения и прошивки).
Подвести итоги:
- Данные изначально были написаны правильно
- Затем он был прочитан правильно, когда он был скопирован в резервную копию.
- Через некоторое время бит перевернулся на диске (поскольку файл ничего не переписывал).
- Аппаратное обеспечение RAID настроено на запуск "проверки" один раз в неделю. Он не обнаружил ошибку.
Это просто причудливо. Я ожидаю ошибку несоответствия в журналах оборудования RAID.
Также я могу исключить неисправный диск, так как данные SMART на обоих дисках показывают ноль для всех применимых атрибутов ошибок:
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
а все остальное тоже номинально.
У кого-нибудь есть сценарий, при котором это может произойти незамеченным?