Prometheus 문서/경보/Alertmanager

1 개요[ | ]

ALERTMANAGER
경보매니저, 얼럿매니저

Alertmanager는 Prometheus 서버와 같은 클라이언트 애플리케이션에서 보낸 경보를 처리합니다. 중복 제거, 그룹화뿐만 아니라, 이메일, PagerDuty, OpsGenie와 같은 알맞은 수신자 연계로 라우팅하는 작업을 처리합니다. 또한 경보를 무음화하고 억제합니다.

다음은 Alertmanager가 구현하는 핵심 개념을 설명합니다. 자세한 사용 방법을 알아보려면 설정 문서를 참조하세요 .

2 그룹화[ | ]

그룹화는 유사한 성격의 경보를 단일 알림으로 범주화합니다. 이는 많은 시스템이 동시에 실패하고 수백에서 수천 개의 경고가 동시에 발생할 수 있는 대규모 중단 상황에서 특히 유용합니다.

예: 네트워크 파티션이 발생할 때 클러스터에서 수십 또는 수백 개의 서비스 인스턴스가 실행 중입니다. 서비스 인스턴스의 절반이 더 이상 데이터베이스에 도달할 수 없습니다. Prometheus의 경보 규칙은 데이터베이스와 통신할 수 없는 경우 각 서비스 인스턴스에 대해 경보를 보내도록 설정되었습니다. 결과적으로 수백 개의 경고가 Alertmanager로 전송됩니다.

사용자는 어떤 서비스 인스턴스가 영향을 받았는지 정확히 확인하면서 단일 페이지만 가져오기를 원합니다. 따라서 클러스터 및 경보이름에 따라 경보를 그룹화하여 단일 집약 알림을 보내도록 Alertmanager를 설정할 수 있습니다.

경보 그룹화, 그룹화된 알림의 타이밍, 해당 알림의 수신자는 설정 파일의 라우팅 트리에 의해 설정됩니다.

3 억제[ | ]

억제는 다른 특정 경보가 이미 실행 중인 경우 특정 경보에 대한 알림을 억제하는 개념입니다.

예: 전체 클러스터에 연결할 수 없음을 알리는 경보가 발생합니다. 특정 경보가 실행되는 경우 이 클러스터와 관련된 다른 모든 경보를 음소거하도록 Alertmanager를 설정할 수 있습니다. 이렇게 하면 실제 문제와 관련이 없는 수백 또는 수천 개의 경보 발생에 대한 알림을 방지할 수 있습니다.

억제는 Alertmanager의 설정 파일을 통해 설정됩니다.

4 무음화[ | ]

무음화는 특정 시간 동안 알림을 음소거하는 간단한 방법입니다. 무음화는 라우팅 트리와 마찬가지로 매처를 기반으로 설정됩니다. 들어오는 경고는 활성 무음화의 모든 등식 또는 정규식 매처와 매칭되는지 여부를 확인합니다. 그렇다면 해당 경보에 대한 알림이 전송되지 않습니다.

무음화는 Alertmanager의 웹 인터페이스에서 설정됩니다.

5 클라이언트 행동[ | ]

Alertmanager에는 클라이언트 동작에 대한 특별한 요구사항이 있습니다. 이는 경보를 보내는 데 Prometheus를 사용하지 않는 고급 사용사례에만 관련됩니다.

6 고가용성[ | ]

Alertmanager는 고가용성을 위한 클러스터 생성을 위한 설정을 지원합니다. 이는 --cluster-* 플래그를 사용하여 설정할 수 있습니다.

Prometheus와 해당 Alertmanager 간의 트래픽을 로드 밸런싱하지 않고 대신 Prometheus가 모든 Alertmanager 목록을 가리키도록 하는 것이 중요합니다.

7 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}