「DeployLite」第五章：非功能性需求与运维保障

By Leeting Yan

October 23, 2025

第五章：非功能性需求与运维保障（Non-Functional Requirements & Operational Assurance）

5.1 性能与容量规划（Performance & Capacity Planning）

目标

确保平台在中等规模负载下（1000+ 项目、10000+ 构建/天）仍具备高性能与可扩展性。

性能指标目标表

模块	指标	目标值	测试条件
API Server	平均响应延迟	≤ 200ms	并发 500 请求
	P95 延迟	≤ 500ms	并发 1000 请求
Scheduler	调度延迟	≤ 500ms	任务队列 1000 条
Runner	启动延迟	≤ 2s	并发 50 Job
	日志回传延迟	≤ 1s	持续 10 分钟任务
Artifact 上传	吞吐量	≥ 50 MB/s	S3 存储后端
Pipeline Engine	状态切换	≤ 100ms	1000 并发 Pipeline
Dashboard 页面加载	完整渲染时间	≤ 2.5s	首屏请求量 ≤ 10
系统启动时间	冷启动	≤ 30 秒	全组件启动
并发构建上限	单节点	≥ 100 Job	8 核 16G 环境

性能测试范围

构建时长测试（Build Duration Benchmark）：
不同语言项目在缓存命中 / 未命中状态下的平均时长。
高并发调度测试（Scheduler Benchmark）：
测试 1000 并发任务分配的稳定性。
制品上传压力测试：
并发上传 1GB 文件 50 个。
数据库吞吐测试：
每秒 5000 次写入 + 20000 次查询。
缓存命中率测试：
Go 模块缓存 ≥ 85%，Node 依赖缓存 ≥ 70%。

扩展性要求

所有服务可横向扩展（Stateless 组件支持负载均衡）。
Runner 池可按租户标签分布式部署。
支持多区域（Region）Runner 注册。
架构应支持“热升级”（不影响正在执行任务）。

验收标准

✅ 系统在并发 500 请求下平均响应 ≤ 200ms；
✅ 单节点可稳定执行 100 并发任务；
✅ 系统冷启动 < 30 秒；
✅ 在节点宕机情况下任务可自动迁移。

5.2 安全与合规（Security & Compliance）

安全设计目标

默认安全（Security by Default）；
零信任（Zero-Trust）；
数据全程加密；
可追溯（Auditable）。

安全架构分层

层级	安全机制
身份认证（AuthN）	JWT + OAuth2 + MFA
授权（AuthZ）	RBAC + Policy as Code
通信安全	全链路 TLS1.3 + 双向 gRPC TLS
数据安全	AES-256 + 数据脱敏日志
执行隔离	Runner 容器沙箱
访问审计	审计日志全链路追踪
密钥管理	Secret Vault、Key Rotation
漏洞扫描	Trivy + cosign 校验
供应链安全	SBOM + 签名校验 + Policy 验证

漏洞与依赖管理

所有基础镜像定期扫描；
发现 CVE 后自动禁用对应 Runner；
SBOM 自动生成；

生成报告格式：

{
  "package": "openssl",
  "version": "1.1.1t",
  "vulnerabilities": [
    {"cve": "CVE-2023-2650", "severity": "HIGH", "fix_version": "1.1.1u"}
  ]
}

合规标准

标准	对应措施
GDPR	可导出与删除个人数据
ISO27001	访问控制、日志保留
SOC 2 Type II	审计流程、加密存储
OWASP CI/CD Top 10	防止命令注入、凭据泄露
CNCF Supply Chain Security (SLSA Level 2)	SBOM、签名与策略验证

验收标准

✅ 所有 API 均使用 TLS；
✅ Secret 永不以明文形式输出；
✅ 策略拒绝未签名镜像；
✅ 审计日志可回溯 180 天。

5.3 宕机与恢复策略（Disaster Recovery & Fault Handling）

目标

在组件或节点宕机时，保证：

任务不中断或可自动迁移；
数据不丢失；
平台恢复时间可预测。

故障分类

故障类型	影响范围	处理策略
Runner 崩溃	单任务失败	自动重试（最多 3 次）
Scheduler 崩溃	队列阻塞	冗余副本热备
Database 故障	全局中断	热备 + 延迟复制
Artifact Store 不可达	构建受阻	自动降级存储到临时卷
控制平面异常	API 无响应	K8s AutoRestart + LB 重路由
网络隔离	分区 Runner	缓存任务队列，恢复后同步

数据恢复策略

数据库备份：每日全量，间隔 6 小时增量；
制品备份：每 24 小时同步到副存储；
日志备份：Loki/ES 每 3 小时快照；
密钥备份：仅加密形式存储，双副本；
恢复目标（RTO / RPO）：
- RTO ≤ 30 分钟
- RPO ≤ 10 分钟

验收标准

✅ 数据库崩溃后 30 分钟内可恢复；
✅ 构建任务中断时自动重试；
✅ 备份可验证恢复；
✅ 制品一致性（hash 匹配）验证通过。

5.4 SLA / SLO / SLI 设计

SLA（服务等级协议）

维度	指标	目标
可用性	服务可访问时间	≥ 99.9%
响应时间	API 平均响应	≤ 200ms
任务可靠性	构建成功率	≥ 98%
数据持久性	丢失率	0
恢复时间（RTO）	故障恢复时间	≤ 30min

SLO（目标）

服务	指标	目标值
构建服务	平均成功率	≥ 99%
调度系统	分配延迟	< 500ms
日志系统	日志可用率	≥ 99.8%
通知系统	通知延迟	≤ 3s

SLI（测量指标）

API 成功率 (2xx / total_requests)
任务平均耗时
Runner 健康率 (healthy / total)
Pipeline 错误率
平均回滚时间

SLA 违约响应策略

若月度可用性 < 99.9%，用户获得账期抵扣；
连续两次违反 SLA → 启动根因分析（RCA）报告。

5.5 可观测性（Observability）

监控指标（Metrics）

分类	指标名称	描述
系统指标	`cpu_usage`, `memory_usage`, `disk_io`	节点层监控
Pipeline 指标	`pipeline_run_duration`, `success_rate`	CI/CD 运行效率
Runner 指标	`runner_queue_length`, `job_latency`	任务执行性能
API 指标	`http_latency_ms`, `request_per_second`	Web/API 性能
业务指标	`deploy_success_rate`, `rollback_count`	业务稳定性
计费指标	`build_minutes`, `storage_usage_gb`	运营数据

日志体系（Logging）

结构化日志（JSON 格式）；
日志级别：TRACE, INFO, WARN, ERROR；
关键字段：
- trace_id
- job_id
- runner_id
- pipeline_id
- timestamp
日志采集：Filebeat → Loki；
保留周期：默认 90 天；
敏感信息脱敏规则：正则屏蔽 Token、密码。

追踪体系（Tracing）

使用 OpenTelemetry 标准；
链路：Trigger → Scheduler → Runner → Deploy；
每次构建生成唯一 traceId；
支持与 Jaeger、Tempo 集成；
Trace 可视化 UI 嵌入 Dashboard。

告警（Alerting）

触发条件	通知方式
构建失败率 > 5%	Slack / 飞书 / 邮件
Runner 离线 > 10 分钟	系统告警
Artifact 存储容量 > 90%	系统邮件
部署失败连续 3 次	需要审批人介入

5.6 运维管理（Operations & Admin）

管理控制台（Ops Console）

提供平台级管理界面，包括：

系统健康总览（节点状态、负载、延迟）；
Runner 管理（注册、标签、健康）；
任务队列监控；
存储空间使用；
告警日志；
策略管理；
配额与计费；
租户管理。

管理操作接口（Admin API）

方法	路径	功能
`GET`	`/admin/tenants`	查看所有租户
`POST`	`/admin/tenants/:id/scale`	调整配额
`GET`	`/admin/runners`	查看 Runner 列表
`DELETE`	`/admin/runners/:id`	注销 Runner
`GET`	`/admin/audit`	审计日志
`POST`	`/admin/policy/reload`	热更新策略

命令行工具（CLI）

提供 dlctl 命令行：

dlctl runner list
dlctl tenant scale --id 1001 --concurrency 10
dlctl pipeline rerun --id 3021
dlctl artifact purge --project core-api

5.7 部署模式（Deployment Modes）

模式	描述	适用场景
单节点（Standalone）	所有组件同机	开发/测试
集群（Clustered）	控制面多副本 + Runner 集群	生产
混合（Hybrid）	控制面自建 + Runner 分布式	SaaS 模式
离线（Air-Gap）	无外网依赖	政企内网环境

部署流程（Compose 模式示例）

version: '3'
services:
  control-plane:
    image: deploylite/server:latest
    ports:
      - 8080:8080
    env_file:
      - .env
  runner:
    image: deploylite/runner:latest
    environment:
      - RUNNER_TOKEN=xxxx
    depends_on:
      - control-plane
  db:
    image: postgres:16
  redis:
    image: redis:7
  minio:
    image: minio/minio

安装脚本示例

curl -sSL https://dlite.sh/install.sh | bash
dlite up --with-runner --compose

安装完成后自动检测：

数据库连接；
Redis 队列；
Runner 注册；
UI 可访问性。

5.8 异常与回退机制（Failure & Rollback Procedures）

异常场景	自动处理机制	人工干预
Runner 离线	自动移除 + 再注册	否
Scheduler 停止响应	备份节点接管	否
API Server 崩溃	Kubernetes 重启	否
数据库连接失败	连接重试 + 降级只读	否
存储超限	自动清理旧制品	否
配额限制	暂停任务 + 提示	否
策略加载失败	回退上一次策略版本	否
Pipeline 执行异常	自动中止 + 回滚版本	可选

5.9 系统维护计划（Maintenance Plan）

每月版本升级；
每季度安全扫描；
每半年灾备演练；
每年 SLA 审核；
自动更新 Runner 镜像；
异常检测与预测（AI 基线分析）。

✅ 第五章总结：
该章节确立了 DeployLite 的质量基准：

“即使在 1000 项目、万级任务的复杂场景下，也能保持高可用、安全可追溯、快速恢复、全链路可观测。”

下一章节将进入：

第六章：交互原型与用户体验设计（Interaction Design & UX Specification）
这一章会详细描述每个界面结构、交互逻辑、状态流转、空状态/错误态设计、暗黑模式规范，以及移动端自适应原则。