Skip to main content

数据工程

数据平台设计

  • 语言(Python, SQL, Scala)
  • 文件系统(Apache Hadoop / HDFS, Amazon S3)
  • 数据格式 (Parquet, Iceberg, Delta, Hudi, ORC)
  • 任务编排工具 (Airflow, Argo)
  • 计算引擎 (Apache Spark, Apache Flink)

任务编排(data orchestration)模式

  1. 模式1: 定时任务 (cronjob)

    • 通过时间安排确认任务先后关系
    • 对于时间敏感,任何延迟完成的任务会导致整个任务序列异常
  2. 模式2: 有向无环图(DAG)

    • 通过DAG工具管理依赖关系
    • DAG本身仍依赖时间触发
    • 难以灵活处理部分任务
  3. 模式3:事件驱动(event-driven)

    • 通过具体的事件来触发对应的任务

数据团队

给企业带来价值在于从描述性(Descriptive)到指导性(Prescriptive)分析转型:

  • 避免:报表、琐碎的汇报
  • 关注:实验 A/B test、预测