Skip to main content

数据治理

数据质量监控并不能解决问题,更有效的解决方案应该是:

  • 构建稳健的测试与CI/CD
  • 规范的变革管理(Change Management) :如data contracts, SLAs, SLIs, SLOs, 等
  • 领导层与外部部门的支持
  • 端对端的测试覆盖(从原数据到数据产品)
  • 完整的异常分析流程
  • 详细的数据沿袭(data lineage)文档
  • 给予数据平台足够的投入

数据质量控制

低质量数据来自:错误数据(incorrectness),缺失(incompleteness),设计缺陷

生产环境数据质量控制模式:写入-审查-发布(write-audit-publish)1


1 Why data engineers should care about data quality (and how to do it right) https://www.youtube.com/watch?v=GKQTp2TvWGY