실행
기술 지원 #13419
건강보험공단 히스토리 기록
상태:
닫힘
우선 순위:
보통
담당자:
-
시작 시간:
완료 기한:
진척도:
0%
추정 시간:
발견 버전:
난이도:
중요도:
하
조력자:
회사:
연락처:
점수:
0.00
설명
2026.05.13 (수)¶
- CSI 드라이버가 더 이상 pvc 진행을 하지 않는다는 이슈로 연락. 익일 방문하기로 결정
2026.05.14 (목)¶
- 방문 조사 결과, 당시 이슈는 CSI 드라이버가 thin lv의 용량을 thin pool의 크기 이상으로 못만들게 설정되어 용량 한계에 도달해서 멈춘 것으로 확인
- thinpool 용량을 확장하여 해결 후 철수
- 당일 저녁 6시 반 경, 진행이 안된다는 연락을 받아, CSI Driver를 재시작 요청, 이후 재진행되었다는 연락을 받음
- 당일 저녁 8시부터 다시 동작하지 않는 다는 연락을 받음. 이번엔 재실행을 해도 변화가 없음
- API 통신하는 pod의 로그를 사진으로 전달받아 확인해보니,
/pacemaker/clusterAPI가 timeout으로 실패 - 해당 API의 소스코드 확인 결과, pcs status를 xml로 parsing하는 부분이 존재, pcs 리소스의 증가로 시간이 너무 오래걸리게 된 것으로 추정 (해당 순간 총 리소스는 약 120개 정도 볼륨 약 60개)
- 익일 바로 처리 요청으로 방문 결정
- API 통신하는 pod의 로그를 사진으로 전달받아 확인해보니,
2026.05.15 (금)¶
- 오전 8시 경, 사내에서 대응 방안 미팅
- 도착 후, CSI 드라이버 사용을 안하기로 결정
- 작업 전, curl로
/pacemaker/cluster호출해보니, 100초가까이 걸림 - Web에서도 API가 timeout으로 실패하여, 임시로 300초까지 늘려 웹에서 하나 제거
- pcs 리소스 제거 과정에서 fail-over를 하였는데, 반대 노드로 넘어가니 CSI 드라이버가 실패했던
/pacemaker/clusterAPI를 성공함 - 리소스가 늘어나면서 부하가 누적되고 API가 timeout이 되었지만 GMS가 내부적으로 연산은 지속하니 부하가 쌓여서 실패한 것이 아닐까 추정
- pcs 리소스 제거 과정에서 fail-over를 하였는데, 반대 노드로 넘어가니 CSI 드라이버가 실패했던
- CSI 드라이버로 제거하는쪽을 더 빠를 것으로 예상되어 CSI 드라이버에서 제거를 진행
- 볼륨 개수가 60개 가까이에서는 개당 3분 정도 시간이 걸렸지만 점차 줄어들어 30개 정도 남았을 땐 2분 이내, 15개 정도부턴 1분 이내로 제거됨
표시할 데이터가 없습니다.
실행