어느 날 갑자기 'ESXi 6.7'에 접속이 안 되는 것입니다.
재부팅하면 살아나지만 금방 또 같은 증상이 일어났습니다.
로그 상으로는 꺼지는 타이밍 언저리에 물리적 네트워크가 끊겼다는 로그만 있어서 당연히 네트워크 문제인 줄 알고
허브, 랜카드, 랜선 싹 다 교체했지만..... 증상이 그대로라 공유기 고객센터와도 통화하면서 실랑이했습니다.
모든 방법이 통하지 않아서 결국 모니터를 연결했습니다.
그랬더니 아래와 같은 오류가 표시됐습니다.
PCPU {number} locked up. Failed to ack TLB invalidate (total of {count} locked up, PCPU(s) : {number} )
완전히 헛짓거리 하고 있었네요 ㅎㅎㅎㅎㅎ
오류 내용을 보면 CPU 3, 10번이 응답을 하고 있지 않다고 합니다.
CPU가 문제인지 메인보드가 문제인지는 알 수 없고, 코어 문제인지 스레드(프로세스) 문제인지 알 수 없지만
3, 10번이 동작하지 않는다는 의미입니다.
하드웨어 문제일 확률이 높아서 교체 아니면 회피입니다.
가장 좋은 방법은 CPU와 메인보드를 교체하는 것입니다.
높은 확률로 CPU가 문제가 되지 않을까 예상합니다.
상황이 여유롭지 않다면 청소라도 해보는 것이 좋습니다.
고쳐진다는 글이 있긴 한데........ 확률이 매우 낮습니다.
메인보드에 따라 코어나 프로세스를 끌 수 있는 기능이 있는 경우가 있습니다.
매뉴얼에 따라 꺼주면 됩니다.
소프트웨어적으로 할 수 있는 조치는 가상 시스템의 "스케줄링 선호도"를 지정해 주는 것입니다.
'스케줄링 선호도'를 지정하면 지정된 논리 CPU중에서만 사용하게 됩니다.
하지만 이 방법은 임시적인 방법입니다.
'스케줄링 선호도'를 수정한다고 해도 상황에 따라 같은 오류가 발생할 수 있습니다.
가상 시스템 > 작업 > 설정 편 > CPU > 스케줄링 선호도
를 수정해 줍니다.
콤마(,)로 여러 개 지정할 수 있습니다.
하이븐(-)으로 범위를 지정할 수 있습니다.
저는 3번, 10번이 문제라서 수동으로 다른 번호만 지정하고 있습니다.
근데....
웹UI의 문제인지 버전 문제인지 모르겠지만 스케줄링 선호도를 2개 초과로 지정하면 번호가 지멋대로 들어가 버립니다;;;
이 문제만 잘 회피하면 갑자기 죽는 현상이 사라집니다.
다른 일 하면서 점검하느냐 원인 찾는데 한참걸렸는데.....
CPU문제인지 메인보드 문제인지 확인하는 건 너무 힘들 것 같아서 일단 둘 다 교체해야 하지 않을까 싶습니다.
높은 확률로 하드웨어 문제이기 때문입니다.