数据
数据科学的本质只是一种工具
你需要真正的问题来作为支撑
数据工程师的工作就是尝试各种工具解决各种问题
反而失去了专业性
Big Data Technology知识框架
基本概念
大数据技术的核心:大规模数据的分布式处理
Apache Hadoop:分布式数据存储和处理框架
HDFS:Hadoop的分布式文件系统,文件是冗余存储的(3份拷贝)
MapReduce:Hadoop的分布式数据处理框架,分两步:map、reduce
Hive:另一个大数据处理框架,操作模式为HQL(类似SQL)
Pig:也是一个大数据处理框架
YARN
Hadoop & mapreduce
数据库
关系型数据库
- 技术完善
- 性能高效
- 对于小型数据库非常合适
NoSQL的优势:
- 可以简答地添加column
- 一致性难以保证,
- transactional latency
- 适合大型数据库
NoSQL的类型:
- key-value: Redis / Oracle BDB / Amazon Dynamo / Riak
- Document stores: CouchDB / MongoDB
- Wide-column: HBase / Apache Cassandra
- Graph stores 储存关系:Neo4J / InfoGrid / Infinite Graph
Data Warehousing 两类数据库:
- 用户密集型:服务用户交易、信息查询等,更新&查询频繁
- 数据存储型:数据定期更新,数据量极大,用户量少,用于分析、存档 Data warehouse是集合:
- Metadata
- Rawdata
- Summary Data 用于data mining / reporting 常用的warehouse:
- IBM netezza
- Amazon Redshift
- MS SQL Parallel Data Warehouse
- Oracle Exadata 轻量级的Data warehouse称为 Data Mart
- 用于小型部门、特定的主题,没有warehouse那么复杂 Data Warehouse
- 效率高,
- 可以解决不一致性
- 用于Business intelligence
- 建设麻烦,维护复杂
- 有安全性问题