1

Я настроил пул ZFS с двумя дисками в качестве зеркала. Операционная система - Ubuntu 16.04, и я использую zfs 0.6.5, поставляемую поставщиком. Жесткие диски 3T WD Green и 3T WD Red (вероятно, не оптимальны для производительности, но это не имеет значения), которые имеют одинаковый размер в байтах и секторах. Я не использую разделы, но zpool create сделал для меня два диска на каждом, как обычно. По умолчанию ОС выполняет очистку пула раз в месяц, и я несколько раз запускал очистку вручную.

Несколько раз процесс очистки обнаруживал ошибки контрольной суммы на диске WD Red, но не при каждом запуске. Они были отремонтированы автоматически и, насколько я знаю, не вызвали проблем. Число, показанное в столбце CKSUM, указывает 3, 5 и 9, и теперь, после недавнего обновления до предстоящей Ubuntu 18.04 и ZFS 0.7.5, также 31 (с дополнительной информацией "слишком много ошибок", если я правильно помню сообщение ).

Встревоженный, я отделил диск от пула и экспортировал пул. Не импортируя диск, я запустил на нем badblocks -b 4096 -s -v -w , но он сообщил об ошибках (0/0/0) . Кроме того, smartctl -a /dev/sda показывает ничего необычного, если я правильно понимаю (| grep -i error):

  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

Я повторно подключил диск к пулу, и в настоящее время он снова серебрен. Но я остаюсь в замешательстве: что могло вызвать повторяющиеся ошибки очистки? Что я должен делать в будущем, чтобы лучше понять, в чем проблема, или вообще ее избежать? Я не особенно заинтересован в покупке сменных дисков, тем более что WD Red выпускается только в 2016 году.

(Я не уверен, что это актуально, но в какой-то момент ошибка оператора или ошибка программного обеспечения привели к повреждению таблицы проблемных дисков WD Green. Я не мог найти никакого другого действия, чтобы вернуть его в пул, кроме его отсоединения, очистки таблицы разделов и ее повторного присоединения. Во время процесса повторного серебрения некоторые блоки не читались с диска WD Red, и я восстановил один поврежденный файл из резервных копий. Очистка обнаруженных ошибок контрольной суммы как до, так и после этого инцидента.)

1 ответ1

1

Нет простого способа определить причину сбоев контрольной суммы, поскольку они происходят независимо от файловой системы (если только они не вызваны ошибками в самой FS, но я не думаю, что это происходит здесь). smartctl и badblocks позволяют мне надеяться, что проблема не в неисправном диске.

Эта страница предназначена для того, чтобы помочь вам понять ошибку: http://illumos.org/msg/ZFS-8000-9P. Цитата из этого:

For example, the following cases will all produce errors that do not 
indicate potential device failure:

- A network attached device lost connectivity but has now recovered
- A device suffered from a bit flip, an expected event over long
  periods of time
- An administrator accidentally wrote over a portion of the disk
  using another program

Я думаю, что на этом этапе проверка подключения к дискам и запуск Resilver - правильный путь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .