博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark Streaming揭秘 Day26 JobGenerator源码图解
阅读量:6991 次
发布时间:2019-06-27

本文共 635 字,大约阅读时间需要 2 分钟。

Spark Streaming揭秘 Day26

JobGenerator源码图解

今天主要解析一下JobGenerator,它相当于一个转换器,和机器学习的pipeline比较类似,因为最终运行在SparkCore上,作为应用程序,需要开发者提供一些信息才能够运行。

简述

JobGenerator这个类会负责从DStream中产生Jobs,同时进行checkpoint和清理数据。

JobGenerator的核心是一个钟,这里采用反射生成,并提供给定时器,根据周期性触发事件

Snip20160614_2

generateJobs是核心方法,分为5个运行步骤:

Snip20160614_3

  1. 获取时间段内的Block信息,所以说SparkStreaming的本质是一个小型的批处理。
  2. 根据graph基于时间来使用Block,最终会调用OutputStream的generateJob方法。
  3. 处理元数据inputInfo。
  4. 提交处理作业,首先处理监听器,之后交给线程池来执行。
  5. 进行checkpoint归档,并更新元数据信息。

下面进入启动方法start,这里面除了启动定时器以外,还对graph进行了初始化。

Snip20160614_4

graph的初始化,最终会调用DStream上的方法,首先是设置起始时间,最后会根据依赖关系初始化父DStream。

Snip20160614_5

绘图

Snip20160614_1

欲知后事如何,且听下回分解!

DT大数据每天晚上20:00YY频道现场授课频道68917580

转载于:https://www.cnblogs.com/dt-zhw/p/5585880.html

你可能感兴趣的文章
jquery常识
查看>>
EF中的MySql返回 DataTable公共类库
查看>>
Visual Studio 2008常见问题
查看>>
【洛谷 P4254】 [JSOI2008]Blue Mary开公司(李超线段树)
查看>>
scrapy初体验 - 安装遇到的坑及第一个范例
查看>>
OC内存管理
查看>>
C#中Split用法
查看>>
3月6日 c#语言
查看>>
[LeetCode] Surrounded Regions, Solution
查看>>
MySQL系列:数据库基本操作(1)
查看>>
cpu真实核数
查看>>
hdu1058(dp)
查看>>
android EditText与TextView几个常用的属性
查看>>
SDN第五次上机作业
查看>>
redis 重要的配置参数
查看>>
Oracle 高级编程 01 ~
查看>>
JS重点整理之JS原型链彻底搞清楚
查看>>
springboot 配置文件
查看>>
浏览器插件 - Chrome 对 UserScript 的声明头(metadata)兼容性一览
查看>>
两个list<object> 比较 得到相同数据 差异数据
查看>>