数据治理
数据质量监控并不能解决问题,更有效的解决方案应该是:
- 构建稳健的测试与CI/CD
- 规范的变革管理(Change Management) :如data contracts, SLAs, SLIs, SLOs, 等
- 领导层与外部部门的支持
- 端对端的测试覆盖(从原数据到数据产品)
- 完整的异常分析流程
- 详细的数据沿袭(data lineage)文档
- 给予数据平台足够的投入
数据质量控制
低质量数据来自:错误数据(incorrectness),缺失(incompleteness),设计缺陷
生产环境数据质量控制模式:写入-审查-发布(write-audit-publish)1
- 先讲数据写入测试区(staging)
- 进行数据质量测试(如非空检查,唯一性检查)
- 常用工具包括(Amazon Deequ, Apache Griffin, Great Expectations)
- 测试完成后写入生产环境
1 Why data engineers should care about data quality (and how to do it right) https://www.youtube.com/watch?v=GKQTp2TvWGY