DiAL/openspec/changes/enhance-frontend-metrics/design.md at e983e5d75d23257ba2e78e92571572d50663b78e

lanyuanxiaoyao/DiAL

Fork 0

Files

lanyuanxiaoyao 0fa2c0c811 feat: 新增两个 OpenSpec 变更提案 — CMD Checker 增强与前端指标增强

2026-05-14 01:39:26 +08:00

9.3 KiB

Raw Blame History

Context

DiAL 是一个基于 Bun 的全栈拨测监控系统，当前前端统计指标体系存在以下问题：

计算逻辑缺陷：可用率基于全量历史数据计算（store.ts:getAllTargetStats 无 WHERE 时间条件），随运行时间增长近期变化被稀释；computeTrendStats 从已截断的百分比反推整数有累积精度损失；lastCheckTime 已返回但前端未展示
指标维度单一：Summary 仅 3 个计数卡片；Drawer 统计区 4 个指标（总检查/正常/异常/可用率）本质是同一维度的冗余表达
缺少关键运维指标：无 P95 延迟、无 MTTR、无故障分析、无连续状态信息

当前技术栈：后端 Bun + SQLite（bun:sqlite），前端 React + TDesign + recharts + TanStack Query。

Goals / Non-Goals

Goals:

修复可用率时间窗口、趋势数据精度损失、lastCheckTime 未展示三个计算逻辑问题
Summary 增加「24h 异常事件数」卡片
表格增加「连续状态」列（Tag 样式，按次数）
Drawer 统计区重构为 2×4 多维度布局（可用率/平均延迟/P95/检查总数 + MTTR/最长故障/故障次数/连续正常）
趋势图增加延迟范围面积（min/max），去掉可用率线改为异常时刻红色标记点
新增 /api/targets/:id/stats 端点，职责清晰（单目标非时序聚合指标）
Drawer 统计区支持时间窗口切换（24h/7d/30d），联动统计+趋势

Non-Goals:

不做整体可用率（不同分组不同目的的 target 算到一起无意义）
不做延迟 sparkline（表格已有状态条，信息密度够了）
不做趋势对比（vs 上周）
不做连续状态按时长展示（不同间隔的目标无法统一）

Decisions

Decision 1：P95 在应用层计算，不在 SQL 层

选择：新增 getTargetDurations(targetId, from, to) 方法，一次性取出时间窗口内所有成功检查的 duration_ms，在 TypeScript 层排序取 P95/P99。

理由：SQLite 无原生 PERCENTILE 函数，用子查询模拟的 SQL 复杂且性能不可控。应用层排序对于单目标时间窗口内的数据量（24h × 每分钟 1 次 = 1440 条）完全可接受。

替代方案：SQLite 扩展函数 / 窗口函数模拟 — 复杂度高，可移植性差。

命名：方法名统一为 getTargetDurations（非 getTargetPercentiles），因为该方法职责是取原始数据，百分位计算在调用方完成。

Decision 2：新增独立 `/api/targets/:id/stats` 端点

选择：创建新端点而非扩展现有 /api/targets/:id/trend。

理由：

/trend 的职责是时序聚合数据（按小时分组），返回数组
/stats 的职责是非时序聚合指标（P95、MTTR、故障分析），返回单个对象
两者语义清晰，避免一个大而全的端点
/stats 只在 Drawer 打开时请求，不影响列表页性能

替代方案：扩展 /trend 在响应中附加 summary 字段 — 混淆了时序和聚合两种数据语义。

Decision 3：异常事件数按「状态翻转」计数

选择：统计 matched 从 1→0 的转换次数（跨所有目标），而非每次 matched=0 的检查次数。

理由：一个目标连续异常 10 次只算 1 次事件，反映的是「发生了几次故障」而非「有多少次检查失败」。后者已经在可用率中体现。

实现：SQL 使用 LAG 窗口函数检测前后状态变化：

SELECT COUNT(*) FROM (
  SELECT matched, LAG(matched) OVER (PARTITION BY target_id ORDER BY timestamp) as prev
  FROM check_results WHERE timestamp >= ?
) WHERE matched = 0 AND (prev = 1 OR prev IS NULL)

Decision 4：连续状态从 recentSamples 前端计算

选择：不新增 API，从已有的 recentSamples（30 条）在前端计算连续状态次数。

理由：

recentSamples 已经按时间倒序返回，遍历到第一个状态不同的即可
无需额外网络请求
30 条样本对于连续状态计数足够（超过 30 次连续正常/异常的场景下，显示 "30+" 即可）

Decision 5：趋势图去掉可用率线，改为异常标记点

选择：移除 availability 折线和右侧 Y 轴（%），改为单 Y 轴（ms）。在 avgDurationMs 线上，对 availability < 100 的时间点渲染红色 dot 标记异常。

理由：可用率通常是 100% 或接近 100%，作为连续曲线信息量极低（大部分时间是一条直线）。改为离散标记点后，异常时刻一目了然，且不占用 Y 轴空间。

实现：使用 recharts <Line> 的 dot 回调函数，对 availability < 100 的点渲染红色圆点（fill: var(--td-error-color)），其余点不渲染 dot。移除右侧 Y 轴和 availability Line 组件。

Decision 6：时间窗口切换联动机制

选择：Drawer 中的时间窗口切换同时影响统计区和趋势图，stats 和 trend 同时刷新。

实现：

stats 请求直接复用 Drawer 现有的 timeFrom/timeTo 状态，不引入额外时间状态
统计区数据来自 /api/targets/:id/stats?from=&to=
趋势图数据来自 /api/targets/:id/trend?from=&to=
切换快捷按钮（1h/6h/24h/7d）时，timeFrom/timeTo 更新，stats 和 trend 的 queryKey 变化触发同时刷新
默认选中 24h
表格的可用率固定 24h 窗口：前端 useTargets 请求 /api/targets?window=24h，后端解析 window 查询参数并转换为时间范围传递给 getAllTargetStats(from, to)，列标题改为"可用率(24h)"

Decision 7：Drawer 统计区 2×4 布局

选择：统计区和可靠性区合并为一个 2 行 × 4 列的 Statistic 网格。

┌────────────┬────────────┬────────────┬────────────┐
│  可用率     │  平均延迟   │  P95延迟    │  检查总数   │
├────────────┼────────────┼────────────┼────────────┤
│  MTTR      │  最长故障   │  故障次数    │  连续正常   │
└────────────┴────────────┴────────────┴────────────┘

理由：原来的「总检查/正常/异常/可用率」4 指标信息冗余，正常/异常计数已在环形图中展示。重构后每个格子都是独立维度，信息密度大幅提升。

Decision 8：TrendPoint 增加 min/max 延迟字段

选择：在 SQL 聚合层直接计算 MIN(duration_ms) 和 MAX(duration_ms)，零额外成本。

实现：趋势图使用 recharts <Area> 组件渲染 min-max 范围（半透明品牌色填充），叠加 avg 实线。

Decision 9：Summary lastCheckTime 展示为相对时间

选择：在 Summary 区域底部展示 "最后更新: X秒前" 文本，前端每秒更新。

实现：使用 useState + setInterval 每秒计算相对时间差。超过 60 秒时文字变为警告色（--td-warning-color），提示数据可能不新鲜。

Decision 10：StatusDonut 数据来源改为 statsData

选择：StatusDonut 的 up/down 改为使用 statsData.upChecks / statsData.downChecks，不再从 trendData 反推。

理由：statsData 的 upChecks 是精确值（直接从 SQL COUNT 返回），与统计区的"检查总数"一致，消除了之前从百分比反推的精度损失。

影响：computeTrendStats 工具函数不再有调用方，直接删除。

Decision 11：MTTR 窗口边界截断处理

选择：如果时间窗口内第一条记录即为 matched=0（故障跨越了 from 边界），该故障段不计入 MTTR 平均值，但计入 incidentCount。

理由：无法确定故障的真实开始时间，计入 MTTR 会低估实际恢复时间。incidentCount 计数是因为用户确实在窗口内经历了这次故障。

Decision 12：getIncidents24h 作为独立方法

选择：getIncidents24h() 是 ProbeStore 的独立方法（单条 SQL），在 handleSummary 路由中调用并附加到响应。

理由：职责分离，getSummary() 保持原有的目标状态快照逻辑，incidents24h 是独立的时序分析查询。

Risks / Trade-offs

[P95 数据量] 30d 窗口下单目标可能有 ~43200 条记录需要排序 → 对于内存排序仍然可接受（<1MB），但如果未来数据量增长可考虑近似算法
[异常事件计数的 LAG 查询] 窗口函数在大数据量下可能较慢 → 24h 窗口内数据量有限（所有目标 × 24h ÷ 间隔），可接受；如果性能不佳可改为应用层遍历
[前端连续状态上限 30] recentSamples 固定 30 条，连续状态超过 30 次时显示 "30+" → 对于运维场景足够，真正需要精确值时可查看 Drawer 详情
[趋势图去掉可用率线] 用户可能习惯看可用率曲线 → 异常标记点提供了等价信息且更直观，环形图仍展示可用率分布
[LAG 窗口边界误差] 使用 LAG 窗口函数检测状态翻转时，若故障跨越时间窗口 from 边界（窗口内第一条即为 matched=0），会被计为一次新事件，实际可能是窗口外已开始的故障延续 → 对于 24h 窗口内的事件计数，该误差可接受且难以避免（需要额外查询窗口外数据才能消除）

9.3 KiB Raw Blame History Unescape Escape