24

У меня дома работает небольшой сервер Ubuntu с двумя жесткими дисками. На дисках есть два программных рейда (raid1), управляемых mdadm, которые я считаю неактуальными, но упоминать об этом все равно.

Оба жестких диска являются Western Digital и использовались около 2 лет, когда один из них начал издавать звуки щелчка и умер. Я подумал, что, может быть, это естественно через 2 года, поэтому я купил новый и повторно синхронизировал наборы рейдов. Примерно через месяц другой диск тоже умер.

У меня не было подозрений, так как оба диска были куплены одновременно, не удивительно, что они оба рядом, поэтому я купил другой.

Пока что 2 старых диска вышли из строя, а 2 абсолютно новых в системе. Через месяц один из новых дисков умер. Это когда это начало становиться подозрительным. Поскольку ПК был собран из действительно старых компонентов (например, AthlonXP), я решил, что, возможно, виноват SATA-контроллер материнской платы. Конечно, вы не можете легко переключать части на старом ПК, как это, поэтому я купил целую систему, новый МБ, новый ЦП, новый ОЗУ. Забрал только что вышедший из строя диск, так как он был на гарантии, и получил его на замену.

Таким образом, это до 2 неисправных дисков от старых и 1 неисправный диск от новых. Без проблем, за 1 месяц. После этого ошибки снова появлялись в /var /log /messages, и mdadm сообщал о сбоях raid-массивов. Я начал рвать на себе волосы. Все новое в системе, до третьего абсолютно нового жесткого диска, просто невозможно, чтобы все новые диски, которые я купил, были неисправны.

Давайте посмотрим, что еще распространено ... кабели. Хорошо, в общем, давайте заменим кабели SATA. Возьми жесткий диск обратно, улыбнись парню за стойкой и скажи, что мне действительно не повезло. Он заменяет жесткий диск. Я прихожу домой, проходит один месяц и снова выходит из строя один из жестких дисков. Я не шучу.

Два совершенно новых жестких диска вышли из строя. Может быть, это ошибка в ОС. Давайте посмотрим, что говорит инструмент тестирования производителя. Загрузите инструмент тестирования, запишите его на компакт-диск, перезагрузите компьютер, оставьте тестирование жесткого диска на ночь. Тест говорит, что диск неисправен, и я должен сделать резервную копию всего, если я все еще могу. Я не знаю, что происходит, но это не похоже на проблему с программным обеспечением, что-то определенно бьет по жестким дискам.

Я должен упомянуть сейчас, что вся система находится в обувной коробке. Так как есть множество вещей "создай свой собственный случай с ikea", я подумал, что не должно быть никаких проблем в том, чтобы выбросить вещь в коробку и куда-нибудь ее спрятать. Коробка хорошо проветривается, но я подумал, что, может быть, диски перегревались. Нет другого возможного ответа на это. Поэтому я взял жесткий диск обратно, заменил его (в третий раз) и купил кулеры для жесткого диска.

И только сейчас я услышал звук обреченности. нажмите нажмите whizzzzzzzzz. SSH в поле:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

вывод dmesg:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Резюме:

  1. Нет возможности перегрева
  2. 6 дисков вышли из строя, 4 из них были совершенно новыми. Я не уверен, что первые два были неисправны или перенесли то же самое, что и новые.
  3. В системе нет ничего общего, кроме ОС, которая сейчас называется Ubuntu Karmic (началась с Jaunty). Новый MB, новый процессор, новая RAM, новые кабели SATA.
  4. Нет, маленькие отверстия на жестком диске не закрыты

Я плачу. В самом деле. У меня нет лица, чтобы вернуться в магазин сейчас, 4 диска не могут выйти из строя менее чем за 4 месяца.

Несколько идей, над которыми я размышлял: возможно ли, что я что-то напутал, когда разделил и заново синхронизировал диски? Может ли быть так плохо, что это физически разрушает диск? (поскольку предоставленный поставщиком инструмент сообщает, что диск поврежден), я делаю разделы с помощью fdisk и использую тот же размер блока для разделов raid1 (я проверяю точные размеры блоков с помощью fdisk -lu)

Возможно ли, что ядро Linux или mdadm, или что-то не совместимое с жесткими дисками этой конкретной марки, и их молотит?

Возможно ли, что это может быть обувная коробка? Попробуйте разместить его где-нибудь еще? Сейчас он под полкой, поэтому влажность тоже не проблема. Возможно ли, что нормальный корпус ПК решит мою проблему (я собираюсь застрелить себя тогда)? Я получу картину завтра.

Я просто проклят?

Любая помощь или предположение с благодарностью.

Изменить: удлинитель защищен от перенапряжения.

Edit2: я переехал между этими 4 месяцами, поэтому вероятность того, что причиной является "грязное" электричество в обоих местах, очень мала.

Edit3: я проверил напряжения в BIOS (не мог заимствовать мультиметр), и все они кажутся правильными, самое большое расхождение в 12V, потому что он поставляет 11,3. Должен ли я беспокоиться об этом?

Edit4: я поместил блок питания моего настольного компьютера в сервер. BIOS сообщил о гораздо более точных показаниях напряжения, а также успешно восстановил массив raid1, что заняло около 3-4 часов, поэтому я чувствую себя немного уверенно. Завтра получим новый блок питания для тестирования. Также прикрепляем картинку про коробку: (не обращая внимания на 3-й диск)

изображение коробки судьбы

13 ответов13

27

Ваш блок питания тоже старый? Возможно, он недооценен или перегружен приводом, который вызывает сбой. Если у вас есть мультиметр, я бы попробовал измерить напряжение, которое работает на ваших жестких дисках, и посмотреть его в течение определенного периода времени. Другим виновником может быть «грязное» электричество, поэтому ИБП может быть в порядке, чтобы он «чистил» питание, поступающее в блок питания.

14

Я согласен с другими: власть.

Однако с изюминкой.

ВСЕ компоненты должны иметь ОБЩЕЕ заземление - типичное шасси, но в вашем случае, кто знает! Я уверен, что это приведет к "дрейфующей земле" .

Вы хотите, чтобы все компоненты были привязаны к одному заземлению И это заземление было привязано к заземлению от заземления вашего энергосистемы. Это важно.

Кстати, вполне возможно, что все ваше старое оборудование на самом деле все еще в порядке! Я обнаружил, что оборудование, которое обслуживалось с помощью нестабильного источника питания, иногда переживает это нормально, когда обеспечивается надлежащее питание.

Надеюсь, это поможет.

RT

5

Это старая запись, и оригинальный вопрос может больше не относиться к человеку, задающему вопрос. Тем не менее, для использования в будущем для людей, создающих бюджетный ПК, Power не является всеобъемлющей проблемой с дисководами. По моему профессиональному мнению, как сертифицированного инженера по внедрению EMC, вводящий в заблуждение ответ обвиняет источник питания в качестве единственной ответственной стороны, учитывая, что компьютер находится внутри картонной коробки.

Жесткие диски вибрируют, и, хотя нет определенного положения, вертикального или горизонтального, которое увеличивает или уменьшает долговечность диска, существует, однако, фактор вибрации, который создает жесткий диск со шпинделями. Диски, показанные здесь, просто лежат в картонной коробке. Это пример бюджетного инжиниринга, и вибрирующие приводы сидят на боку, еще больше усиливая резонанс на блюде. Хотя сам по себе это не является ответом, неправильно смонтированные жесткие диски МОГУТ привести к поломке диска из-за вибрирующего диска, нарушающего правильное касание диска при чтении и записи.

Питание, дешевые блоки питания всегда вредны для компьютеров в целом, однако вряд ли этот блок питания погубит жесткие диски, а не другие более чувствительные компоненты на плате. Эта система находится в картонной коробке, поэтому инженерные решения и энергопотребление могли привести к более катастрофическому отказу, но не обязательно к его повреждению диска. Это возможно, но не доказано в этом случае.

Нагрев: нагрев может разрушить диск, однако, если он не был горячим на ощупь во время сбоя, нагрев не является причиной. Картонная коробка не является хорошим подвигом для ПК или сервера. Вам лучше прикрепить свои детали к столу компьютера или рабочему столу, по крайней мере, они будут заземлены.

Мягкий RAID и дешевые диски. Учитывая коробку платы и старые детали, показанные на фотографии, вы, похоже, используете стандартные настольные накопители и программный RAID. Настольные накопители могут быть размещены на RAID-контроллере, однако с увеличением количества операций ввода-вывода на диске вероятность сбоя диска возрастает. Диски, представленные в этом случае, не находятся на аппаратном RAID-контроллере, а сгруппированы вместе с программным компонентом на материнской плате. Это не идеально для жестких дисков. Это увеличивает нагрузку на ваш процессор, а программные RAID-массивы, как известно, имеют ошибки и преждевременно убивают жесткие диски. Вполне вероятно, что мягкий RAID убил эти диски превыше всего.

Предотвращение для будущих сборок: Если вы читаете это и видите этот старый сценарий пользователя через вопрос Google или что нет:

-Убедитесь, что ваши диски правильно установлены в устойчивом корпусе жесткого диска. Прикрутите диски минимум 4 винтами для жесткого диска или используйте специальные салазки для дисков, которые поставляются с вашим шасси.

-Убедитесь, что в вашем случае имеется достаточный поток воздуха, жесткие диски в RAID имеют больший объем ввода-вывода на диске и будут намного горячее, чем если бы физический том монтировался отдельно.

-Не используйте дешевый источник питания. Грязная власть - убийца дорогих компьютерных частей. Также убедитесь, что ваш блок питания обеспечивает достаточную мощность для работы с желаемой рабочей нагрузкой.

-Используйте карту контроллера RAID! Никогда не используйте программный RAID на вашей материнской плате. Программные RAID снижают производительность диска и увеличивают вероятность сбоев диска в большей степени, чем карты контроллера RAID.

-RID в общем увеличивает вероятность сбоя диска из-за увеличения ввода-вывода на всех ваших томах. Чем больше пул подключаемых дисков, тем выше вероятность выхода из строя дисков. Если вы используете RAID на своих дисках, всегда используйте диски четности и горячие резервы. Вы можете потерять свои данные, если у вас RAID 0 2-3 диска. Если у вас 3 диска, используйте RAID 5! 6 дисков на RAID 5 (4+1) с горячим резервом идеально подходят, если на ваши диски распространяется гарантия. Если вы не можете позволить себе больше дисков или ваши диски не имеют гарантии, не используйте RAID.

-Диски Desktop не являются дисками Enterprise. Диски для настольных компьютеров аналогичны дискам для предприятий, но не предназначены для работы с большими рабочими нагрузками, вызванными RAID-контроллерами Если вы купите настольные диски у newegg и подключите их к своей материнской плате, вы, скорее всего, увидите, как минимум, один из них в первый год. Чем дольше вы работаете на своем компьютере с RAID, тем больше операций ввода-вывода записывается на диск и тем выше вероятность того, что у вашего тома будут сбои. Объедините дешевые диски с дешевым программным RAID-массивом материнской платы, и вам будет больно

Вполне вероятно, что этот пользователь испытал все эти факторы на своем сервере обувной коробки. Низкое энергопотребление, плохой поток воздуха, старые дешевые диски, неправильно установленные в корпусе, и программный RAID-массив материнской платы ... все это увеличивает вероятность сбоя диска.

4

Я не представляю, как у вас хорошая вентиляция и охлаждение в обувной коробке? Вы действительно должны раскошелиться на 50 или 60 долларов за реальный компьютерный корпус?

Разъемы питания защищают только от скачков напряжения; Распространенные проблемы для электронного оборудования - это напряжение (коричневое) и перенапряжение (пики). Также распространенным является шум электромагнитных помех - некоторое время назад у нас был нестабильный компьютер, который, как оказалось, был вызван наличием беговой дорожки в той же цепи (я лично это проверял, вне всякого сомнения). Это отключит модем и приведет к зависанию системы время от времени.

Кроме того, постоянное воздействие шума и колебаний в блоке питания со временем может повредить блок питания, со временем снижая качество энергии, подаваемой на электронику.

РЕДАКТИРОВАТЬ: Колебания электроэнергии могут быть изолированы для конкретных цепей. Что еще более важно, приборы высокого напряжения, такие как микроволновые печи, холодильники, беговые дорожки, печи и тому подобное, могут оказать существенное влияние на качество электроэнергии в этой цепи. А такие вещи, как холодильники, также имеют непрерывный цикл включения / выключения, который, в свою очередь, приводит к коричневому цвету и скачкам мощности в линии, когда двигатель включается и выключается.

Кроме того, если вас обслуживает одна и та же энергетическая компания, у них могут продолжаться проблемы с подачей напряжения на плату. Постоянное колебание между 105 В и 125 В будет иметь негативное влияние на электронику (насколько я понимаю).

2

Это действительно похоже на проблемы с питанием.

Если у вас есть скачки напряжения, многие дешевые удлинители будут работать только один раз - и обычно нет никаких признаков того, что они больше не защищают.

Хороший ИБП может помочь - некоторые из более дорогих действительно генерируют энергию от батарей и непрерывно перезаряжаются, обеспечивая полностью изолированное питание. Единственным недостатком является то, что они могут быть шумными.

2

На самом деле производители жестких дисков не печатают информацию о рабочих положениях на своих дисках, но стоять на жестких дисках по бокам совершенно нормально. В прошлый раз, когда я проверял эту информацию, приводы можно было расположить, лежа плоско или по бокам, и под углом 5 или 10 градусов от этих положений. Положите их вверх дном или разъемы вверх или вниз не являются законными положениями. Разъемы, обращенные вверх или вниз, были наилучшим положением для транспортировки около 15 лет назад. Это последняя информация, которую я имею об этом.

У меня такая же ошибка на новом зеленом жестком диске WD емкостью 500 ГБ, и ваши кабели SATA выглядят так же, как мои, и я их подозреваю плохо.

Проблема заземления не так уж и плоха, компоненты должны быть заземлены путем правильного монтажа на металлическом корпусе, но это не должно быть проблемой, если все разъемы и кабели в порядке на 100%.

Конечно, плохой блок питания может сделать много плохого для всей системы, я бы протестировал с новым блоком питания как можно скорее, желательно со всем, что установлено на приличном шасси.

Удачи

1

Я согласен, что плохая почва - вероятный виновник. Тем не менее, рассматривайте перегрев в качестве возможной причины. Если диски горячие на ощупь, значит, они слишком горячие. Положите веер на них.

1

Вы можете проверить, не перегрелись ли они, посмотрев на значения SMART. Заземление корпуса не требуется, так как многие держатели горячей замены являются пластиковыми и не заземлены. Заземления через кабель SATA должно быть достаточно. Надежное крепление МОЖЕТ помочь при вибрации. Голова не касается диска, но движется немного выше, и воздействие на блюдо может привести к разрушению мельчайших частиц, что в конечном итоге может привести к поломке головы.

0

Вам, вероятно, следует обновить установленную версию Ubuntu. Пару месяцев (лет?) назад была обнаружена ошибка, которая вызывает повышенный износ жесткого диска в установках Ubuntu.

Проверьте эту ссылку об этой проблеме / ошибке: высокая частота циклов загрузки / выгрузки на некоторых жестких дисках может сократить срок службы

0

Я согласен, что плохая земля может быть причиной вашей трагедии хранения. Тем не менее, я бы также "закрепил" жесткие диски более плотно, потому что вибрации могут привести к необратимому повреждению.

0

Проверьте делители мощности, которые разделяют мощность для приводных вентиляторов. Прерывистый разъем может привести к тому, что ваш диск потеряет питание в критический момент и выйдет из строя. Обязательно нужен чехол для прочного заземления между MB, PSU и HD.

0

Могут ли быть большие громкоговорители, холодильники, кондиционеры, электродвигатели или другие магнитные источники рядом с вашей (полностью неэкранированной) обувной коробкой?

-3

Я думаю, что установка жестких дисков на их боковые поверхности может привести к тому, что они не будут работать должным образом, потому что в большинстве случаев жесткие диски монтируются в корпусе компьютера.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .