관측성 기본선 구축: 메트릭·probe·대시보드·알림 추가#249
Open
ckdals4600 wants to merge 5 commits into
Open
Conversation
- answer/title/summary/link-sync 클라이언트에 success/empty/failure - 카운터를 client·operation·result 태그로 집계. 앱 시작 시 0으로 미리 등록. - RagAnswerClient 빈 응답 시 IndexOutOfBounds 발생하던 버그도 함께 수정.
재시도 소진 후 @Recover/catch 지점(link-sync, summary-enqueue, summary-generate)에 최종 실패 카운터를 task별로 집계. 0으로 미리 등록.
- http.server.requests 히스토그램(p95/p99) 활성화, - tomcat·hikaricp·jvm 메트릭 노출 - readiness/liveness probe 활성화.
- ai_client_calls·async_task_failures 메트릭을 패널로 시각화 (AI 실패율·호출량·비동기 최종 실패). - 프로비저닝 폴더에 추가하여 자동 로드.
- 5xx 에러율·p95 지연·AI 실패율·비동기 최종 실패·인스턴스 다운 룰 정의. - alerting/ 폴더로 룰·alertmanager 설정 분리 - 전달 경로는 미정(placeholder).
Contributor
Author
|
Alertmanager 전달 경로 연결의 경우 확정 이후 작업 진행하도록 하겠습니다. |
📊 코드 커버리지 리포트
|
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
관련 이슈
PR 설명
운영 관측성 기본선을 구축했습니다. 로그에 의존하지 않고 메트릭/대시보드/알림으로
시스템 상태를 파악할 수 있도록, 지표 수집부터 시각화·알림까지 추가했습니다.
배경
변경 사항
메트릭 수집 (코드)
ai_client_calls_total{client, operation, result}추가(answer/title/summary/link-sync, success/empty/failure)
async_task_failures_total{task, action}추가(재시도 소진 후 @Recover/catch 지점)
Actuator 설정
시각화 (Grafana)
모니터링·알림 (인프라)
테스트
확인