博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark源码分析系列(目录)
阅读量:6092 次
发布时间:2019-06-20

本文共 1246 字,大约阅读时间需要 4 分钟。

记录自己学习研究 Spark 的探索过程,为后续总结奠定基础。

本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,对应的 Spark 版本。

图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack)

这里要先说BDAS(伯克利数据分析栈),是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈,这其中包括了这两年火的爆棚的Spark(Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib或MLbase的机器学习和GraphX的图处理),也包括了冉冉升起的分布式内存系统Alluxio(Tachyon),当然还包括著名的资源管理的开源软件Mesos。可以说Amplab最近几年引领了大数据发展的技术创新的浪潮。从它的可以看到这张图片,其中,有不少文字是有链接,指向各自项目的主页的。要查看这些链接,可以到上面BDAS的官网。

1、论文篇

  • ......

2、准备篇

3、核心篇

图2 一个 Spark 作业执行图

1)Spark 的初始化

  • Spark 核心篇-SparkConf
  • Spark 核心篇-RpcEnv
  • Spark 核心篇-SparkStatusTracker
  • Spark 核心篇-SecurityManager
  • Spark 核心篇-SparkUI
  • Spark 核心篇-MetricsSystem

2)Spark 内存模型

  • ......

3)Spark 存储体系

  • Spark 核心篇-SerializerManager
  • Spark 核心篇-BroadcastManager
  • Spark 核心篇-ShuffleManager
  • Spark 核心篇-MemoryManager
  • Spark 核心篇-NettyBlockTransferService
  • Spark 核心篇-BlockManagerMaster
  • Spark 核心篇-BlockManager

4)Spark 计算体系

  • Spark 核心篇-LiveListenerBus
  • Spark 核心篇-MapOutputTracker
  • Spark 核心篇-DAGScheduler
  • Spark 核心篇-TaskScheduler
  • Spark 核心篇-ExecutorAllocationManager
  • Spark 核心篇-OutputCommitCoordinator
  • Spark 核心篇-ContextClearner

5)Spark 运行模式

  • ......

4、组件篇

1)Spark SQL

  • ......

2)Spark Streaming

  • ......

3)Spark MLib

  • ......

4)Spark Graphx

  • ......

 

5、公共篇

1)Tags

 

转载地址:http://kfmwa.baihongyu.com/

你可能感兴趣的文章
以太坊系列之六: p2p模块--以太坊源码学习
查看>>
使用scikit-learn解决文本多分类问题(附python演练)
查看>>
2018 年最值得关注的 JavaScript 趋势
查看>>
什么是区块链?超级账本 Brian Behlendorf 从五个方面教你认识
查看>>
Linux中的帮助功能
查看>>
针对Android的Pegasus恶意软件版本和针对iOS的有什么不同?
查看>>
全局探色器
查看>>
Hive Export和Import介绍及操作示例
查看>>
http://mongoexplorer.com/ 一个不错的 mongodb 客户端工具。。。
查看>>
上传jar包到nexus私服
查看>>
Why Namespace? - 每天5分钟玩转 OpenStack(102)
查看>>
Project:如何分析项目中的资源分配情况
查看>>
HDU 4803 Poor Warehouse Keeper (贪心+避开精度)
查看>>
小错误汇总
查看>>
Spring源码系列 — Envoriment组件
查看>>
java正则表达式去除html标签,Java中正则表达式去除html标签
查看>>
使用Cobbler批量部署Linux操作系统
查看>>
zabbix企业应用之服务端与客户端的安装
查看>>
实例讲解遗传算法——基于遗传算法的自动组卷系统【理论篇】
查看>>
无法在web服务器上启动调试。调试失败,因为没有启用集成windows身份验证
查看>>