数据工程
数据平台设计
- 语言(Python, SQL, Scala)
- 文件系统(Apache Hadoop / HDFS, Amazon S3)
- 数据格式 (Parquet, Iceberg, Delta, Hudi, ORC)
- 任务编排工具 (Airflow, Argo)
- 计算引擎 (Apache Spark, Apache Flink)
任务编排(data orchestration)模式
模式1: 定时任务 (cronjob)
- 通过时间安排确认任务先后关系
- 对于时间敏感,任何延迟完成的任务会导致整个任务序列异常
模式2: 有向无环图(DAG)
- 通过DAG工具管理依赖关系
- DAG本身仍依赖时间触发
- 难以灵活处理部分任务
模式3:事件驱动(event-driven)
- 通过具体的事件来触发对应的任务
数据团队
给企业带来价值在于从描述性(Descriptive)到指导性(Prescriptive)分析转型:
- 避免:报表、琐碎的汇报
- 关注:实验 A/B test、预测