LSI sas 9361-8i: Controller encountered a fatal error and was reset Event Code: 345
Контроллер стал отправлять на почту с интервалом в пару минут сообщения о критических ошибках с кодом 345.
В сообщении:
1 2 3 4 5 6 |
SAS_ADDR: 0x500605b0112f1380 Controller ID: 0 Controller encountered a fatal error and was reset Event Code: 345 Severity: CRITICALSystem Details--- Server IP: 10.7.153.52 Operating System Name: Windows Server 2019 10.0.17763 Driver Name: megasas2.sys Driver Version: 6.714.18.00Image Details--- Firmware Version: 4.680.00-8577 BIOS Version: 6.36.00.3_4.19.08.00_0x06180206 Package Version: 24.21.0-0159Generated On: 2023-11-3T17:22:9 |
При этом сам контроллер в статусе Optimal. Диски – Optimal. Hot Spare – Optimal. Контроллер на сервере W2019, прошивка последняя, драйвер последний. Перед тем, как все это началось, контроллер по своим соображениям запустил проверку всех дисков. Raid 10. В системном журнале периодически фиксируются информационные сообщения 113 одного из дисков массива. Нужна помощь, куда копать и какой порядок выявления виновника. Пока мысль приходит только одна, выдернуть диск из массива, на который в журнале идут эти 113 сообщения. и перестроить массив.
Возможные причины ошибки RAID контроллера, приводящие к периодическому reset:
- перегрев чипа, его температура выше 90 град;
- ошибки набортной памяти на RAID контроллере.
- требуется обновление прошивки