Skip to main content

数据

数据科学的本质只是一种工具

你需要真正的问题来作为支撑

数据工程师的工作就是尝试各种工具解决各种问题

反而失去了专业性

Big Data Technology知识框架

基本概念

大数据技术的核心：大规模数据的分布式处理

Apache Hadoop：分布式数据存储和处理框架

HDFS：Hadoop的分布式文件系统，文件是冗余存储的（3份拷贝）

MapReduce：Hadoop的分布式数据处理框架，分两步：map、reduce

Hive：另一个大数据处理框架，操作模式为HQL（类似SQL）

Pig：也是一个大数据处理框架

YARN

Hadoop & mapreduce

数据库

关系型数据库

技术完善
性能高效
对于小型数据库非常合适

NoSQL的优势：

可以简答地添加column
一致性难以保证，
transactional latency
适合大型数据库

NoSQL的类型：

key-value: Redis / Oracle BDB / Amazon Dynamo / Riak
Document stores: CouchDB / MongoDB
Wide-column: HBase / Apache Cassandra
Graph stores 储存关系：Neo4J / InfoGrid / Infinite Graph

Data Warehousing 两类数据库：

用户密集型：服务用户交易、信息查询等，更新&查询频繁
数据存储型：数据定期更新，数据量极大，用户量少，用于分析、存档 Data warehouse是集合：
Metadata
Rawdata
Summary Data 用于data mining ／ reporting 常用的warehouse：
IBM netezza
Amazon Redshift
MS SQL Parallel Data Warehouse
Oracle Exadata 轻量级的Data warehouse称为 Data Mart
用于小型部门、特定的主题，没有warehouse那么复杂 Data Warehouse
效率高，
可以解决不一致性
用于Business intelligence
建设麻烦，维护复杂
有安全性问题

基本概念
数据库