반응형
서버 IDRAC 로그에서 ECC ERROR를 확인 했습니다.
이 에러가 떴을때는 어떻게 조치하는지 조사해보았습니다.
ECC(Error Correction Code) 란?
메모리가 동작하면서 발생하는 미세한 잡음(방사선, 미세 전압 등)으로 인해 발생한 코드의 변형을 복구하는 기능입니다.
대부분의 메모리에는 이 기능이 탑재 돼있습니다.
메모리 ECC ERROR의 종류는 다음과 같습니다.

Correctable errors 와 Uncorrectable errors로 나뉩니다.
Correctable errors
해당 메모리에서 잡음을 처리했다는 에러로 24시간 기준 각 슬롯 10회 이하이면 모니터링 강화 조치도 가능(벤더사 별 상이)
UnCorrectable errors
치명적인 오류로 OS 크래시가 일어날 수 있습니다. 즉시 dimm 교체가 필요합니다.
즉 Correctable error는 간헐적으로 일어날 수 있지만 특정 슬롯에서 주기적으로 반복된다면 교체를 권장합니다.
ps.
즉시교체까지는 필요없으나 고객사입장에서는 서비스를 하는 서버이기에 매우 보수적으로 생각해야합니다.
따라서 교체가 권장된다고 하는게 맞습니다.
반응형