Skip to main content

数据

数据科学的本质只是一种工具

你需要真正的问题来作为支撑

数据工程师的工作就是尝试各种工具解决各种问题

反而失去了专业性

Big Data Technology知识框架

基本概念

大数据技术的核心:大规模数据的分布式处理

Apache Hadoop:分布式数据存储和处理框架

HDFS:Hadoop的分布式文件系统,文件是冗余存储的(3份拷贝)

MapReduce:Hadoop的分布式数据处理框架,分两步:map、reduce

Hive:另一个大数据处理框架,操作模式为HQL(类似SQL)

Pig:也是一个大数据处理框架

YARN

Hadoop & mapreduce

数据库

关系型数据库

  • 技术完善
  • 性能高效
  • 对于小型数据库非常合适

NoSQL的优势:

  • 可以简答地添加column
  • 一致性难以保证,
  • transactional latency
  • 适合大型数据库

NoSQL的类型:

  • key-value: Redis / Oracle BDB / Amazon Dynamo / Riak
  • Document stores: CouchDB / MongoDB
  • Wide-column: HBase / Apache Cassandra
  • Graph stores 储存关系:Neo4J / InfoGrid / Infinite Graph

Data Warehousing 两类数据库:

  • 用户密集型:服务用户交易、信息查询等,更新&查询频繁
  • 数据存储型:数据定期更新,数据量极大,用户量少,用于分析、存档 Data warehouse是集合:
  • Metadata
  • Rawdata
  • Summary Data 用于data mining / reporting 常用的warehouse:
  • IBM netezza
  • Amazon Redshift
  • MS SQL Parallel Data Warehouse
  • Oracle Exadata 轻量级的Data warehouse称为 Data Mart
  • 用于小型部门、特定的主题,没有warehouse那么复杂 Data Warehouse
  • 效率高,
  • 可以解决不一致性
  • 用于Business intelligence
  • 建设麻烦,维护复杂
  • 有安全性问题