기술 지원 #13419

오 지호님이 19일 전에 추가함.

상태:

닫힘

우선 순위:

보통

담당자:

시작 시간:

완료 기한:

진척도:

추정 시간:

발견 버전:

난이도:

중요도:

하

조력자:

회사:

연락처:

점수:

0.00

설명

2026.05.13 (수)¶

방문 조사 결과, 당시 이슈는 CSI 드라이버가 thin lv의 용량을 thin pool의 크기 이상으로 못만들게 설정되어 용량 한계에 도달해서 멈춘 것으로 확인
thinpool 용량을 확장하여 해결 후 철수
당일 저녁 6시 반 경, 진행이 안된다는 연락을 받아, CSI Driver를 재시작 요청, 이후 재진행되었다는 연락을 받음
당일 저녁 8시부터 다시 동작하지 않는 다는 연락을 받음. 이번엔 재실행을 해도 변화가 없음
- API 통신하는 pod의 로그를 사진으로 전달받아 확인해보니, /pacemaker/cluster API가 timeout으로 실패
- 해당 API의 소스코드 확인 결과, pcs status를 xml로 parsing하는 부분이 존재, pcs 리소스의 증가로 시간이 너무 오래걸리게 된 것으로 추정 (해당 순간 총 리소스는 약 120개 정도 볼륨 약 60개)
- 익일 바로 처리 요청으로 방문 결정

오전 8시 경, 사내에서 대응 방안 미팅
도착 후, CSI 드라이버 사용을 안하기로 결정
작업 전, curl로 /pacemaker/cluster 호출해보니, 100초가까이 걸림
Web에서도 API가 timeout으로 실패하여, 임시로 300초까지 늘려 웹에서 하나 제거
- pcs 리소스 제거 과정에서 fail-over를 하였는데, 반대 노드로 넘어가니 CSI 드라이버가 실패했던 /pacemaker/cluster API를 성공함
- 리소스가 늘어나면서 부하가 누적되고 API가 timeout이 되었지만 GMS가 내부적으로 연산은 지속하니 부하가 쌓여서 실패한 것이 아닐까 추정
CSI 드라이버로 제거하는쪽을 더 빠를 것으로 예상되어 CSI 드라이버에서 제거를 진행
- 볼륨 개수가 60개 가까이에서는 개당 3분 정도 시간이 걸렸지만 점차 줄어들어 30개 정도 남았을 땐 2분 이내, 15개 정도부턴 1분 이내로 제거됨

표시할 데이터가 없습니다.

실행

내보내기 Atom PDF