数据质量监控报警

调度和报警

配置好建模任务后，如何保障任务连续性和数据质量？

比如调度任务若因系统故障、资源不足或代码错误导致失败，未配置监控时需人工巡检才能发现，可能延误数小时甚至数天，如何解决？再比如重要数据必须9点前产出，如何保证？数据是否有重复？值是否准确？

下面从数据质量监控分类（完整性、准确性、一致性、时效性）和报警机制（报警级别、通知方式、响应要求）两部分展开，结合行业实践与技术方案进行系统性整理。

一、数据质量监控分类

数据质量监控的核心维度包括完整性、准确性、一致性、时效性，每个维度的监控目标与方法如下：

1. 完整性监控

确保数据无缺失。

监控方法：
- 字段填充率：检查关键字段的空值率（如客户联系方式缺失率≤5%）。
- 最新分区数据量：验证最新分区的数据量是否在阈值范围内。
- 数据量波动率：对比历史分区大小，陡降超阈值（如日环比下降30%）则告警。

2. 准确性监控

确保数据真实反映业务事实。

监控方法：
- 字段值区间校验：字段值符合逻辑范围（如年龄≤130、手机号为11位、折扣率≤30%）。
- 字段枚举值校验：字段的枚举值限定，超过范围则报警。
- 指标波动率检测：指标值对比历史值（如日销售额环比超±20%触发告警，适用于可sum类指标）。

3. 一致性监控

确保跨主题或跨表数据逻辑的统一性。

监控方法：
- 两表指标值对比：对比两个表同一个指标的值是否相等（如上下游的两个表）。
- 主键唯一性：检测重复记录（如用户id、订单id等重复）。

4. 时效性监控

确保数据按时产出与更新。

监控方法：
- 模型产出时间：关键表是否在SLA内完成（如7:00前产出）。
- 数据新鲜度：业务发生到数据可用的延迟（如库存数据延迟≤1小时）。

多维监控方法总结表：

维度	监控目标	典型监控方法
完整性	数据无缺失	字段填充率、最新分区数据量、数据量波动率
准确性	数据真实有效	字段值区间校验、字段枚举值校验、指标波动率检测
一致性	跨模型口径一致	两表指标值对比、主键唯一性
时效性	数据按时产出	模型产出时间、数据新鲜度

下面简单列举几个监控方法的实现：

字段填充率：

1）需要被检测的字段【genre】3）空值率阈>【10%】

 select
    null_cnt / total_cnt actual_value, --实际值
    0.1 as except_value, --期望值
    if((null_cnt / total_cnt) > 0.1, 1, 0) is_alert --是否报警
from(
    select
        count(*) total_cnt,
        count(if(genre is null or genre = '', true, null)) null_cnt
    from wtw_douban_video_list
) t11

数据量波动率：

波动率<【-15%】或者波动率>【15%】

select 
    today_cnt,
    pre_7days_avg_cnt,
    actual_value,
    except_value_min,
    except_value_max,
    if(actual_value < -0.15 or actual_value > 0.15, 1, 0) is_alert
from (
    select
        today_cnt,
        pre_7days_avg_cnt,
        (today_cnt - pre_7days_avg_cnt) / pre_7days_avg_cnt actual_value, 
        -0.15 as except_value_min,
        0.15 as except_value_max
    from (
        select 
            count(if(DATE_FORMAT(create_time, '%Y-%m-%d') = '2025-07-08', true, null)) today_cnt,
            count(if(DATE_FORMAT(create_time, '%Y-%m-%d') between '2025-07-01' and '2025-07-07', true, null)) / 7 pre_7days_avg_cnt
        from wtw_douban_video_list
        where DATE_FORMAT(create_time, '%Y-%m-%d') >= '2025-07-01'
    ) t11
) t21

二、报警机制设计

报警机制需根据问题严重性分级，确保快速响应与闭环处理。

1. 报警级别划分

紧急（P0）：阻塞核心流程（如支付交易数据异常），需立即修复。
重要（P1）：影响业务决策（如报表指标错误），2小时内响应。
警告（P2）：潜在风险（如字段空值率上升），24小时内分析。
信息（P3）：仅需记录（如数据量正常波动），无需即时处理。

2. 通知方式

即时通讯：飞书、企业微信、钉钉等推送P0-P2级告警。
电话：P0级问题自动呼叫负责人。
邮件/看板：P2-P3级问题汇总至日报或可视化看板（Grafana）。

3. 响应要求

响应时效：P0级10分钟内响应，P1级2小时内分析根因。
处理过程：
- 自动工单分配，跟踪处理进度；
- 反馈机制：标记误报、调整阈值，优化规则。
根因分析：
结合数据血缘定位问题源头（如上游任务失败导致下游缺失）。

报警机制总结表

报警级别	适用场景	通知方式	响应要求
P0（紧急）	核心业务阻塞、数据完全中断	电话、短信、即时通讯	10分钟内响应，立即修复
P1（重要）	关键指标错误、影响决策	即时通讯、电话（重要指标）	2小时内定位根因
P2（警告）	潜在数据漂移、波动异常	邮件、可视化看板	24小时内分析
P3（信息）	日常波动记录	周报/月报汇总	无需即时处理

总结

数据质量监控需覆盖全链路（接入、清洗、产出），结合规则与算法实现多维检测；报警机制需分级精准，通过闭环反馈持续优化阈值与规则。

如果觉得文章对你有用，请随意赞赏

数据质量监控报警

一、数据质量监控分类

1. 完整性监控

2. 准确性监控

3. 一致性监控

4. 时效性监控

多维监控方法总结表：

字段填充率：

最新分区数据量：

数据量波动率：

二、报警机制设计

1. 报警级别划分

2. 通知方式

3. 响应要求

报警机制总结表

总结

评论

数据质量监控报警

​​一、数据质量监控分类​​

​​1. 完整性监控​​

​​2. 准确性监控​​

​​3. 一致性监控​​

​​4. 时效性监控​​

​​多维监控方法总结表​：​

字段填充率：

最新分区数据量：

数据量波动率：

二、报警机制设计​​

​​1. 报警级别划分​​

​​2. 通知方式​​

​​3. 响应要求​​

​​报警机制总结表​​

​​总结​​

评论

一、数据质量监控分类

1. 完整性监控

2. 准确性监控

3. 一致性监控

4. 时效性监控

多维监控方法总结表：

二、报警机制设计

1. 报警级别划分

2. 通知方式

3. 响应要求

报警机制总结表

总结