大数据知识结构

大数据脑图

大数据

云计算

1、云服务

  • SaaS
  • PaaS
  • LaaS

2、Openstack

3、Docker

分布式计算

1、hadoop

  • HDFS(分布式文件系统)
  • Mapreduce(计算框架)
  • yarn(资源管理平台)
  • pig(piglatin语句到mapreduce的映射)
  • hive(数据仓库,提供SQL)
  • mahout(机器学习算法的mapreduce实现库)

2、spark

  • RDO
  • Spark SQL
  • Spark Streaming(流处理)
  • MLlib(用于机器学习)

3、storm

  • Topology
  • 和KAFKA集合

数据分析工具

1、R语言
2、matlab
3、SAS

算法

1、机器学习

  • 聚类
  • 时间序列
  • 推荐系统
  • 回归分析
  • 文本挖掘
  • 决策树
  • 支持向量机
  • 贝叶斯分类
  • 神经网络

2、一致性

  • paxos
  • raft
  • gossip

3、数据结构

  • 栈、队列、链表
  • 散列表
  • 二叉树、红黑树、B树

4、常用算法

  • 排序
  • 最大子数组
  • 最长公共子序列
  • 最小生成树
  • 最短路径
  • 矩阵的存储和运算

书签

大数据资源整理
http://www.toutiao.com/i6361620880396648962/

0%