У меня ноутбук Lenovo X250, на котором выполняется тестирование Debian. Он имеет 512 ГБ Crucial MX100 2,5 "SATA SSD.

Иногда компьютер зависает, и мне нужно перезагрузить компьютер. Если я могу переключиться на консоль, я вижу много сообщений об ошибках ATA COM RESET и ошибках чтения / записи btrfs. Иногда это становится отзывчивым, но с корневой файловой системой, смонтированной только для чтения, и фактически не читаемой. Файлы в кеше могут быть прочитаны, но не другие файлы.

Странные вещи:

  • это может продолжаться в течение многих дней, не капризничая
  • это сильно коррелирует с перемещением компьютера, пока он включен; Я всегда закрывал крышку при движении
  • проблема требует циклического выключения питания - мягкая перезагрузка через волшебный sysreq приведет к тому, что BIOS не найдет загрузочное устройство

Мое смутное убеждение в том, что какой-то контакт зависит от гибкости шасси. Вещи, которые я пробовал:

  • проверка статуса SMART (все ясно)
  • пересаживание диска

У меня нет запасного 2,5 "SATA SSD для тестирования. Я, конечно, могу получить новый, но предпочел бы нет, если я не ожидаю, что это все исправит.

Любые идеи будут с благодарностью!

Вывод smartctl -A:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.14.0-2-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocate_NAND_Blk_Cnt 0x0033   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       5888
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7741
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   086   086   000    Old_age   Always       -       431
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       126
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       4403
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       0
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   074   040   000    Old_age   Always       -       26 (Min/Max 12/60)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Used   0x0031   086   086   000    Pre-fail  Offline      -       14
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_Host_Sector_Write 0x0032   100   100   000    Old_age   Always       -       31996614953
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       1008715183
248 Bckgnd_Program_Page_Cnt 0x0032   100   100   000    Old_age   Always       -       258122736

1 ответ1

0

Вы не упомянули ничего из этого, поэтому я перечислю их:

  1. Проверьте журналы ошибок SMART на диске. Если вы можете доказать, что есть ошибки и на диск все еще распространяется гарантия производителя, Crucial заменит его.

    smartctl -l error /dev/sda
    
  2. Запустите тест на переносимость и переместите ноутбук, пока он выполняет тест.

    smartctl -t conveyance /dev/sda
    

    Из справочной страницы:

    транспортировка - [только ATA] запускает самотестирование SMART Conveyance (в минутах). Эта процедура самопроверки предназначена для выявления повреждений, возникших при транспортировке устройства. Эта процедура самопроверки должна занимать порядка нескольких минут. Обратите внимание, что эта команда может быть дана во время нормальной работы системы (если только она не запущена в неактивном режиме - см. Параметр «-C» ниже).

  3. Запустите long самопроверку.

    smartctl -t long /dev/sda
    

    long - [ATA] запускает расширенный самотестирование SMART (от десятков минут до нескольких часов). Это более длинная и более полная версия Краткого самотестирования, описанного выше. Обратите внимание, что эта команда может быть дана во время нормальной работы системы (если только она не запущена в неактивном режиме - см. Параметр «-C» ниже).

  4. Если он был изготовлен до марта 2015 года, имеется обновление прошивки для накопителя. Это могло бы помочь. Последнее замечание в сводной информации о корректировке отчетов для атрибута SMART 5, которое представляет собой перераспределенное число секторов (технически неисправные блоки флэш-памяти, поскольку это SSD), вызывает у меня особое подозрение. У вас может быть большое количество перераспределенных секторов, и SMART не будет правильно сообщать об этом.

    Дата выхода: 10/10/2015

    Прошивка для MX100 (все форм-факторы) обновляется с версии MU01 до MU02. MX100 можно обновить до этой новой прошивки, начиная с предыдущих версий, используя инструменты, предоставленные Micron.

    Это обновление будет обязательным включением для нового продукта, созданного на заводах Micron, и является НЕОБЯЗАТЕЛЬНЫМ обновлением для любого накопителя в полевых условиях. Для конечных пользователей рекомендуется, если пользователь испытывает или хочет предотвратить проблему, связанную со следующими элементами.

    Версия MU02 включает в себя следующие изменения:

    Улучшенная стабильность, эффективность и производительность при переходах между состояниями питания
    Улучшенное управление средами с нестабильными источниками питания
    Улучшенная обработка сред с проблемами целостности сигнала интерфейса SATA
    Улучшено время отклика для команд чтения SMART
    Исправленная обработка ошибок NCQ Trim Commands
    Исправлена отчетность SMART Attribute 5

    http://www.crucial.com/usa/en/support-ssd-firmware

  5. Попробуйте переразбить диск и, возможно, попробовать другую операционную систему. Особенно потому, что вы используете тестовую версию Debian.

  6. Учтите, что ваша проблема не в накопителе, а, возможно, в материнской плате.

  7. Извлеките диск и загрузитесь из оперативной среды Debian (флешка или компакт-диск). Попробуйте повторить замораживание. Очевидно, что если он все еще делает это, то это не может быть двигателем.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .