프로젝트

일반

사용자 정보

실행

기술 지원 #13419

건강보험공단 히스토리 기록

오 지호님이 19일 전에 추가함.

상태:
닫힘
우선 순위:
보통
담당자:
-
시작 시간:
완료 기한:
진척도:

0%

추정 시간:
발견 버전:
난이도:
중요도:
조력자:
회사:
연락처:
점수:
0.00

설명

2026.05.13 (수)

  • CSI 드라이버가 더 이상 pvc 진행을 하지 않는다는 이슈로 연락. 익일 방문하기로 결정

2026.05.14 (목)

  • 방문 조사 결과, 당시 이슈는 CSI 드라이버가 thin lv의 용량을 thin pool의 크기 이상으로 못만들게 설정되어 용량 한계에 도달해서 멈춘 것으로 확인
  • thinpool 용량을 확장하여 해결 후 철수
  • 당일 저녁 6시 반 경, 진행이 안된다는 연락을 받아, CSI Driver를 재시작 요청, 이후 재진행되었다는 연락을 받음
  • 당일 저녁 8시부터 다시 동작하지 않는 다는 연락을 받음. 이번엔 재실행을 해도 변화가 없음
    • API 통신하는 pod의 로그를 사진으로 전달받아 확인해보니, /pacemaker/cluster API가 timeout으로 실패
    • 해당 API의 소스코드 확인 결과, pcs status를 xml로 parsing하는 부분이 존재, pcs 리소스의 증가로 시간이 너무 오래걸리게 된 것으로 추정 (해당 순간 총 리소스는 약 120개 정도 볼륨 약 60개)
    • 익일 바로 처리 요청으로 방문 결정

2026.05.15 (금)

  • 오전 8시 경, 사내에서 대응 방안 미팅
  • 도착 후, CSI 드라이버 사용을 안하기로 결정
  • 작업 전, curl로 /pacemaker/cluster 호출해보니, 100초가까이 걸림
  • Web에서도 API가 timeout으로 실패하여, 임시로 300초까지 늘려 웹에서 하나 제거
    • pcs 리소스 제거 과정에서 fail-over를 하였는데, 반대 노드로 넘어가니 CSI 드라이버가 실패했던 /pacemaker/cluster API를 성공함
    • 리소스가 늘어나면서 부하가 누적되고 API가 timeout이 되었지만 GMS가 내부적으로 연산은 지속하니 부하가 쌓여서 실패한 것이 아닐까 추정
  • CSI 드라이버로 제거하는쪽을 더 빠를 것으로 예상되어 CSI 드라이버에서 제거를 진행
    • 볼륨 개수가 60개 가까이에서는 개당 3분 정도 시간이 걸렸지만 점차 줄어들어 30개 정도 남았을 땐 2분 이내, 15개 정도부턴 1분 이내로 제거됨

표시할 데이터가 없습니다.

실행

내보내기 Atom PDF

클립보드 이미지 추가 (최대 크기: 50 MB)