「短网址服务」运维监控指标清单

1. 应用层监控 1.1 短链跳转 跳转 QPS 指标:每秒短链访问次数 目标:单节点 ≥ 5k QPS 告警:超过 80% 峰值 → 告警 跳转延迟(RT) P50、P95、P99 响应时间 目标:P95 ≤ 100ms 告警:P95 > 200ms 1.2 短链生成 生成 API QPS

1. 应用层监控

1.1 短链跳转

  • 跳转 QPS

    • 指标:每秒短链访问次数
    • 目标:单节点 ≥ 5k QPS
    • 告警:超过 80% 峰值 → 告警
  • 跳转延迟(RT)

    • P50、P95、P99 响应时间
    • 目标:P95 ≤ 100ms
    • 告警:P95 > 200ms

1.2 短链生成

  • 生成 API QPS

    • 指标:每秒生成请求数
  • 生成延迟

    • P95 ≤ 300ms
  • 生成失败率

    • 占比 ≤ 0.1%
    • 错误码分布:120001(非法URL)、120004(冲突)

1.3 错误率

  • 全局错误率

    • (错误请求数 / 总请求数)
    • 阈值:> 1% 告警
  • 错误码分布

    • Top 5 错误码实时统计(110004、120005、120006、130003、100003)

2. 数据库监控

2.1 MySQL

  • 连接数

    • 当前连接数 vs 最大连接数
  • 慢查询

    • 1s 查询次数

  • 写入 TPS

    • 每秒写入短链数
  • 磁盘空间

    • short_linksclick_logs 增长情况

2.2 Redis

  • 命中率

    • (hits / (hits+misses))
    • 目标:≥ 90%
    • 告警:< 70%
  • 内存使用

    • used_memory vs maxmemory
    • 阈值:超过 80% 告警
  • Key 过期率

    • 短链缓存过期是否正常生效

3. 统计系统监控

  • 点击日志写入速率

    • 每秒写入数(Kafka / MQ / DB)
  • 统计落库延迟

    • 点击行为入库 → 聚合结果展示的延迟
    • 目标:≤ 5s
  • PV/UV 偏差

    • 实际 vs 聚合结果
    • 偏差 ≤ 1%

4. API Key 与限流

  • API Key 调用次数

    • 每 Key 每分钟调用数
  • 限流触发次数

    • 返回 130003 的请求数
  • 异常 Key 调用

    • 使用已删除/过期 Key 的请求数

5. 系统资源监控

5.1 应用节点

  • CPU 使用率

    • 平均 ≤ 70%
    • 阈值:> 85% 告警
  • 内存使用率

    • 平均 ≤ 70%
    • 阈值:> 85% 告警
  • GC 延迟

    • 平均 ≤ 50ms
    • 告警:单次 GC > 200ms

5.2 容器/Pod 级

  • Pod 副本数(是否自动伸缩正常)
  • 重启次数(异常重启需告警)
  • 网络延迟与丢包率

6. 可用性与业务监控

  • 健康检查接口

    • /health 定期探测 → 返回 200 即可
  • 业务 SLA

    • 短链跳转成功率 ≥ 99.9%
  • 核心路径监控

    • 首页生成 → 短链跳转 → 统计刷新
    • 自动化探针(Synthetic Monitoring)
  • 异常报警

    • 短链跳转错误率 > 1%
    • 短链生成错误率 > 2%
    • Redis 命中率 < 70%
    • DB 慢查询激增

7. 日志与审计

  • 访问日志

    • 短链访问记录(短码、IP、UA、时间)
  • 错误日志

    • 包含错误码、请求上下文、TraceID
  • 安全审计日志

    • 登录失败次数
    • API Key 滥用
    • 短链黑名单拦截

工具建议

  • 监控系统:Prometheus + Grafana(实时指标)
  • 日志系统:ELK / Loki(集中存储、查询)
  • 报警系统:Alertmanager + 飞书/钉钉/Slack
  • 链路追踪:Jaeger / OpenTelemetry(跟踪跳转延迟)

📌 这样一份 运维监控指标清单 可以直接作为 SRE/运维的落地方案,用来搭建监控面板和报警规则。

继续阅读

探索更多技术文章

浏览归档,发现更多关于系统设计、工具链和工程实践的内容。

全部文章 返回首页