Диагностика и замена компонентов серверов
1.Базовая диагностика сервера
Проверка аппаратного состояния
– IPMI / iLO / iDRAC / BMC – удалённый мониторинг железа
– BIOS/UEFI – проверка ошибок железа
– POST (Power-On Self-Test) – отслеживание ошибок при загрузке
– Лог сервера (DMESG, Syslog, Event Log)
Команды диагностики в Linux
– Просмотр оборудования:
1 |
lshw -short |
– Информация о процессоре:
1 |
lscpu |
– Информация о памяти:
1 2 |
free -m dmidecode -t memory |
– Проверка SMART-дисков:
1 |
smartctl -a /dev/sdX |
– Загрузка и температура компонентов:
1 2 |
sensors htop |
– Проверка ошибок оперативной памяти:
1 |
journalctl -k | grep -i "memory" |
– Проверка RAID-массива:
1 2 |
cat /proc/mdstat sudo mdadm --detail /dev/md0 |
– Мониторинг сетевых интерфейсов:
1 2 |
ethtool eth0 ip -s link show eth0 |
2.Замена компонентов
Замена процессора (CPU)
1)Выключите сервер и отключите питание
2)Снимите систему охлаждения (радиатор, вентилятор)
3)Аккуратно замените процессор (проверить контакты)
4)Нанесите термопасту, установите охлаждение
5)Включите сервер и проверьте BIOS
Замена оперативной памяти (RAM)
1)Отключите сервер
2)Извлеките старые модули, установите новые
3)Проверьте в BIOS (должна определиться)
4)Протестируйте память:
1 |
memtester 512M 5 |
Замена дисков (HDD / SSD)
– Для обычного диска:
1)Выключите сервер
2)Извлеките неисправный диск, вставьте новый
3)Проверьте BIOS / RAID
4)Инициализируйте диск в ОС:
1 2 |
lsblk fdisk /dev/sdX |
– Для RAID:
1)Проверить статус RAID:
1 |
cat /proc/mdstat |
2)Отметить диск как неисправный и удалить:
1 2 |
mdadm --fail /dev/md0 /dev/sdX mdadm --remove /dev/md0 /dev/sdX |
3. Добавить новый диск:
1 |
mdadm --add /dev/md0 /dev/sdX |
Замена блока питания (PSU)
1)Полностью обесточьте сервер
2)Снимите старый блок питания
3)Установите новый (проверить разъемы)
4)Включите сервер, проверьте питание
Замена вентиляторов и системы охлаждения
1)Очистите пыль
2)Проверьте работу вентиляторов:
1 |
ipmitool sdr list | grep FAN |
3)При необходимости замените, учитывая направление воздушного потока
3.После замены
Проверка работоспособности
– Просмотр логов:
1 2 |
dmesg | tail -50 journalctl -xe |
– Тестирование нагрузки:
1 |
stress-ng --cpu 4 --timeout 60s |
– Мониторинг температуры:
1 2 |
sensors watch -n 2 sensors |
Создание отчёта о системе
1 2 3 |
lshw > hardware_report.txt dmidecode > bios_info.txt journalctl -b > boot_log.txt |