O que observar

🔍 GUIA DO QUE OBSERVAR - OBSERVABILIDADE MEMUDE

Portal MeMude | Guia de Monitoramento e Observabilidade

📊 VISÃO GERAL DO QUE ESTÁ SENDO MONITORADO

✅ FUNCIONANDO ATUALMENTE

📈 Métricas Prometheus (self + Traefik)
📝 Logs completos (todos containers + Traefik access)
🎯 Targets básicos operacionais
🔒 Autenticação e SSL

⚠️ LIMITAÇÕES ATUAIS

❌ Docker Swarm Service Discovery (erro permissão)
❌ Métricas de sistema (Node Exporter ausente)
❌ Métricas detalhadas containers (cAdvisor ausente)
⚠️ Dashboards personalizados (não configurados)

🎯 MÉTRICAS DISPONÍVEIS (PROMETHEUS)

✅ Self-Monitoring (Prometheus)

Target: prometheus (1/1 up)

Métricas disponíveis:

prometheus_build_info              # Informações da versão
prometheus_config_last_reload_successful  # Status recarregamento config
prometheus_tsdb_head_samples_appended_total  # Samples processadas
prometheus_rule_evaluation_duration_seconds  # Performance das rules
up{job="prometheus"}               # Status do Prometheus

✅ Traefik (Proxy/Load Balancer)

Target: traefik (1/1 up)

Métricas disponíveis:

traefik_http_requests_total        # Total de requests HTTP
traefik_http_request_duration_seconds  # Latência das requests
traefik_http_requests_per_second   # RPS (requests per second)
traefik_backend_open_connections   # Conexões ativas
traefik_backend_request_duration_seconds  # Performance backend

❌ Docker Swarm (Não Funcionando)

Target: docker-swarm-nodes (❌ erro)
Target: docker-swarm-services (❌ erro)
Problema: Permission denied no Docker socket
Métricas perdidas: CPU, memória, disco, rede dos nós

📝 LOGS DISPONÍVEIS (LOKI)

✅ Logs de Containers (Docker)

Job: docker
Coleta: Service Discovery automático

Labels disponíveis:

container_name    # Nome do container
service_name      # Nome do serviço Docker Swarm
image_name        # Imagem Docker
node_name         # Nó do Swarm

Queries úteis:

{job="docker"}                                    # Todos logs containers
{job="docker", container_name="memude_app"}      # Container específico
{job="docker"} |= "ERROR"                        # Filtrar por ERROR
{job="docker"} |= "status=500"                   # Filtrar 500s

✅ Logs de Acesso (Traefik)

Job: traefik_access
Arquivo: /var/log/traefik/access.log
Formato: JSON estruturado

Queries úteis:

{job="traefik"}                                   # Todos access logs
{job="traefik"} | json | StatusCode >= 400       # Erros HTTP 4xx/5xx
{job="traefik"} | json | Duration > 5000         # Requests lentas (>5s)
{job="traefik"} | json | ClientAddr="1.2.3.4"   # IP específico

🚨 PRINCIPAIS INDICADORES A OBSERVAR

1. SAÚDE DO SISTEMA (Health Checks)

Prometheus Targets:

up                                    # Status de todos targets (1=up, 0=down)
up{job="prometheus"} == 0             # Alerta: Prometheus down
up{job="traefik"} == 0                # Alerta: Traefik down

2. PERFORMANCE HTTP (Traefik)

Latência:

histogram_quantile(0.95, traefik_http_request_duration_seconds_bucket)  # P95 latency
traefik_http_request_duration_seconds_sum / traefik_http_request_duration_seconds_count  # Latência média

Volume de Requests:

rate(traefik_http_requests_total[5m])                    # RPS por 5min
increase(traefik_http_requests_total[1h])                # Requests última hora
sum by (code) (rate(traefik_http_requests_total[5m]))    # RPS por status code

Erros HTTP:

rate(traefik_http_requests_total{code=~"4..|5.."}[5m])   # Taxa erros 4xx/5xx
rate(traefik_http_requests_total{code="500"}[5m])        # Taxa erro 500 específico

3. ERROS EM LOGS

Containers com problemas:

{job="docker"} |= "ERROR" | rate by (container_name) [5m]     # Taxa erros por container
{job="docker"} |= "FATAL" or "CRITICAL"                       # Logs críticos
{job="docker"} |= "OutOfMemory" or "killed"                   # Problemas de memória

Traefik access errors:

{job="traefik"} | json | StatusCode >= 500 | rate[5m]         # Taxa 5xx
{job="traefik"} | json | StatusCode >= 400 and StatusCode < 500 | rate[5m]  # Taxa 4xx

📈 DASHBOARDS RECOMENDADOS

🔴 ALTA PRIORIDADE - Dashboards Críticos

1. Sistema Geral (Overview)

Status de todos os targets
RPS total e por serviço
Latência P95/P99
Taxa de erros 4xx/5xx

2. Logs em Tempo Real

Stream de erros em tempo real
Top containers com mais erros
Análise de patterns de log

3. Traefik Performance

Requests por minuto
Latência por endpoint
Status codes distribution
Conexões ativas

🟡 MÉDIA PRIORIDADE - Dashboards Úteis

4. Container Health

Status dos containers
Logs por container
Restart frequency

5. System Resources (quando Node Exporter for adicionado)

CPU utilização
Memória disponível
Disk I/O
Network traffic

🎯 QUERIES ESSENCIAIS PARA TROUBLESHOOTING

Investigação de Problemas

1. Verificar se serviços estão UP:

up

2. Encontrar requests com erro:

{job="traefik"} | json | StatusCode >= 400

3. Logs de erro recentes:

{job="docker"} |= "ERROR" | rate[10m]

4. Performance degradada:

traefik_http_request_duration_seconds{quantile="0.95"} > 2.0

5. Containers que reiniciaram:

{job="docker"} |= "starting" or "stopped"

Monitoramento Proativo

1. Alertas básicos recomendados:

Target down por > 1 minuto
Taxa de erro > 5% por 5 minutos
Latência P95 > 5 segundos por 5 minutos
Ausência de logs por > 2 minutos

2. Métricas de tendência:

Growth rate de requests (week over week)
Padrões de uso por hora do dia
Distribuição de status codes

🔧 LIMITAÇÕES ATUAIS E WORKAROUNDS

❌ Sem Métricas de Sistema

Faltam: CPU, RAM, Disk, Network dos nós Workaround: Usar logs para identificar problemas Solução: Instalar Node Exporter

❌ Sem Métricas Detalhadas de Containers

Faltam: CPU/RAM por container, I/O Workaround: Usar docker stats quando necessário Solução: Instalar cAdvisor

❌ Service Discovery Quebrado

Problema: Não descobre serviços automaticamente Workaround: Adicionar targets estáticos no Prometheus Solução: Corrigir permissões Docker socket

📊 RETENÇÃO DE DADOS

Prometheus (Métricas)

Período: 30 dias
Granularidade: 15s (configurável)
Storage: TSDB local

Loki (Logs)

Período: 30 dias (720h)
Compressão: Ativa
Storage: Filesystem

Grafana (Dashboards)

Período: Persistente (SQLite)
Backups: Não configurado ainda

🎯 RESUMO - FOQUE NESTES INDICADORES

📊 Métricas Críticas

up - Status dos serviços
traefik_http_requests_total - Volume HTTP
traefik_http_request_duration_seconds - Latência

📝 Logs Críticos

{job="docker"} |= "ERROR" - Erros de aplicação
{job="traefik"} | json | StatusCode >= 400 - Erros HTTP

🚨 Sinais de Problema

Target up = 0 (serviço down)
Taxa alta de 5xx errors
Latência P95 > 5 segundos
Logs de ERROR aumentando
Ausência súbita de logs

📋 Atualizado em: 23/01/2026 🔍 Environment: memude-vps (Docker Swarm) 📊 Dados disponíveis: 2+ dias de histórico

Próximos Passos: Corrigir Docker Service Discovery e adicionar Node Exporter + cAdvisor para monitoramento completo.