2025. 3. 23. 15:30

어느 날 갑자기 'ESXi 6.7'에 접속이 안 되는 것입니다.

재부팅하면 살아나지만 금방 또 같은 증상이 일어났습니다.

 

로그 상으로는 꺼지는 타이밍 언저리에 물리적 네트워크가 끊겼다는 로그만 있어서 당연히 네트워크 문제인 줄 알고

허브, 랜카드, 랜선 싹 다 교체했지만..... 증상이 그대로라 공유기 고객센터와도 통화하면서 실랑이했습니다.

 

모든 방법이 통하지 않아서 결국 모니터를 연결했습니다.

 

 

1. 증상

그랬더니 아래와 같은 오류가 표시됐습니다.

PCPU {number} locked up. Failed to ack TLB invalidate (total of {count} locked up, PCPU(s) : {number} )

 

 

완전히 헛짓거리 하고 있었네요 ㅎㅎㅎㅎㅎ

오류 내용을 보면 CPU 3, 10번이 응답을 하고 있지 않다고 합니다.

 

 

CPU가 문제인지 메인보드가 문제인지는 알 수 없고, 코어 문제인지 스레드(프로세스) 문제인지 알 수 없지만

3, 10번이 동작하지 않는다는 의미입니다.

 

 

2. 해결 방법

하드웨어 문제일 확률이 높아서 교체 아니면 회피입니다.

 

 

2-1. 청소 & 교체

가장 좋은 방법은 CPU와 메인보드를 교체하는 것입니다.

높은 확률로 CPU가 문제가 되지 않을까 예상합니다.

 

상황이 여유롭지 않다면 청소라도 해보는 것이 좋습니다.

고쳐진다는 글이 있긴 한데........ 확률이 매우 낮습니다.

 

 

2-2. 코어 & 프로세스 끄기

메인보드에 따라 코어나 프로세스를 끌 수 있는 기능이 있는 경우가 있습니다.

매뉴얼에 따라 꺼주면 됩니다.

 

 

2-3. '스케줄링 선호도' 변경

소프트웨어적으로 할 수 있는 조치는 가상 시스템의 "스케줄링 선호도"를 지정해 주는 것입니다.

'스케줄링 선호도'를 지정하면 지정된 논리 CPU중에서만 사용하게 됩니다.

 

하지만 이 방법은 임시적인 방법입니다.

'스케줄링 선호도'를 수정한다고 해도 상황에 따라 같은 오류가 발생할 수 있습니다.

 

 

가상 시스템 > 작업 > 설정 편 > CPU > 스케줄링 선호도

를 수정해 줍니다.

 

콤마(,)로 여러 개 지정할 수 있습니다.

하이븐(-)으로 범위를 지정할 수 있습니다.

 

 

저는 3번, 10번이 문제라서 수동으로 다른 번호만 지정하고 있습니다.

근데....

 

웹UI의 문제인지 버전 문제인지 모르겠지만 스케줄링 선호도를 2개 초과로 지정하면 번호가 지멋대로 들어가 버립니다;;;

이 문제만 잘 회피하면 갑자기 죽는 현상이 사라집니다.

 

 

 

마무리

다른 일 하면서 점검하느냐 원인 찾는데 한참걸렸는데.....

CPU문제인지 메인보드 문제인지 확인하는 건 너무 힘들 것 같아서 일단 둘 다 교체해야 하지 않을까 싶습니다.

높은 확률로 하드웨어 문제이기 때문입니다.