2

Я пытаюсь диагностировать интересную проблему, которая затрагивает около десятка или более одинаковых компьютеров. В последнее время у нас увеличился уровень ошибок паники в ядре, но я не могу понять, как диагностировать причину.

Ситуация такова, что мы приобрели множество идентичных машин, и на этих машинах мы запускаем Debian Wheezy для воспроизведения флэш-файлов и AVI-контента; они сидят весь день, просто играя серию полноэкранных картинок. Мы покупали эти машины некоторое время (это компьютер для вывесок LG), но в прошлом месяце мы значительно увеличили количество панических ошибок в ядре.

Я сфотографировал каждую ошибку, и, как правило, каждый раз они приводят довольно случайный процесс. Это был ntpd, или mplayer, или любое количество других, казалось бы, не связанных процессов. Когда аварийный дамп выводится на экран, я не вижу ничего, что бы окончательно определяло, почему могут происходить эти сбои.

Поэтому я запустил memtest86 на машинах, возможно, на 8 из них (все машины, которые ранее испытывали панику), и не обнаружил ошибок. fsck не возвращает никаких проблем с файловой системой.

Я очень скромно прошу, как человек, не имеющий большого опыта работы с сбоями в linux, дать совет о том, как попытаться определить источник этой проблемы.

  • Первоначально это казалось коррелированным с выходом HDMI, но мы переключились на выход VGA и после нескольких дней стабильности у нас было три паники ядра
  • Чип представляет собой процессор i5-520M под управлением Intel HD Graphics, поэтому, насколько я знаю, он поддерживается драйвером Intel Wheezy в ядре 3.2, но, возможно, я ошибаюсь.
  • Паника действительно кажется коррелированной с машинами, изготовленными примерно в одно и то же время, что предполагает, возможно, аппаратную проблему, но для жизни я не могу ее обнаружить.

Я много читал на kdump, но у меня возникли проблемы с выяснением, как установить его на Debian.

Есть ли что-нибудь еще, что я могу попробовать? Любые журналы, которые я могу попытаться просмотреть после того, как машина с ядром-паникой была удалена с сайта и возвращена в мой офис? Я хотел бы либо исключить программное или аппаратное обеспечение и приблизиться к объяснению. Если нам придется вернуть эти компьютеры или полностью удалить их из наших операций, я бы хотел быть как можно более информированным о том, почему.

Извиняюсь за неопределенность моего вопроса, но большое спасибо за любую помощь.

1 ответ1

0

В конце концов я обнаружил ответ на эту проблему.

Пролистывая логи dmesg я понял, что в некоторых случаях записи SSD имеют различную шестнадцатеричную строку в зависимости от того, к какому движку я подключен.

Поскольку мы создавали образы этих двигателей с разделом стандартного размера, я этого не осознавал, но некоторые из них имели 64-гигабайтные твердотельные накопители Sandisc U100, а некоторые имели 32-гигабайтные диски.

Только 64-гигабайтные версии страдали от паники ядра. Так что я не знаю, была ли это проблема с нашим ядром, или с прошивкой для SSD, или с чем, но наше решение теперь полностью аппаратное, и мы можем поменять диски и сделать все счастливыми.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .