IA & Monitoring
AIOps, observabilité et supervision: détection d'anomalies, corrélation d'événements, SLO/SLA et optimisation.
Sources principales
OpenAI
Modèles et API IA
Actualités et docs sur les modèles, agents et intégrations IA utiles à l'AIOps et à l'automatisation de la supervision.
Grafana Blog
Observabilité
Tableaux de bord, alerting, Tempo/Trace, Mimir, Loki; bonnes pratiques d'observabilité et cas d'usage IA.
Prometheus
Metrics & Alerting
Écosystème Prometheus/Alertmanager/Exporter; SLO/SLA, alerting based on SLI et pratiques d'ingestion à grande échelle.
Découvertes récentes
Détection d'anomalies sur métriques Prometheus
Mise en place d'un prototype d'anomaly detection sur séries temporelles (z-score/prophet) pour anticiper incidents et SLO breaches.
LLM pour corrélation d'événements
Test d'un agent qui regroupe des alertes multi-sources (logs, métriques, traces) et propose des pistes de résolution prioritaires.
Dashboards SLO avec Grafana
Création de tableaux de bord par service avec objectifs SLO, budget d'erreur et alertes basées sur SLI.