扣丁学堂大数据培训简述大数据Spark中对RDD的理解

2019-04-28 13:13:56 1496浏览

大数据开发技术在各大公司企业中一直备受关注,因此想要参加大数据培训学习大数据开发技术的人有很多,本篇文章小编就给读者们分享一下大数据Spark中对RDD的理解。RDD(Resilient Distributed Datasets),RDD是一个弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限共享内存模型。关于大数据Spark中对RDD的理解,现在分享给大家。



扣丁学堂大数据培训简述大数据Spark中对RDD的理解



RDD的特性:


1、分片的数据集(list of partiton)

假设要读取HDFS上的数据,每个block块就是一个分片(partiton),所有的分片(partiton)组合在一起就是一个集合(list) 一个RDD。


2、在分片中使用函数计算(function for computing each partiton)

现在假设我们有map的函数,和一个RDD,这个RDD中有3个partiton,那么这个map函数会在每个partiton之上的进行计算。

计算完毕后,又组成一个新的RDD,以迭代的方式进行计算。


3、数据集依赖RDD

从2.在分片中使用函数计算可以看出。

首先RDD1初始化的时候是在HDFS系统中读出来的数据,然后通过map函数在partiton进行计算又组成了一个新的RDD2,这样我们可以得出结论RDD都是有依赖关系的。依赖的好处就是有容错,假设RDD2中的partiton数据丢失了,可以重新在RDD1中计算过来。


4、KV的RDD

如果RDD中的元素是二元组类型的话,那么这个RDD就叫KV格式的RDD


5、task计算数据本地化

task理解为是一个线程,在任务调度的时候RDD会提供一个接口给我们调用,知道partiton所在的位置之后就分发task让其执行任务。



Driver的作用:


1、负责任务的分发(task的分发)

2、将每一个task的计算结果拉回到Driver端。



spark的代码执行流程:


1、从文件系统中读取数据(Flie System)加载到RDD。

2、使用transformations算子 对RDD的计算(不会立即执行)。

3、触发Action类算子执行(立即执行)。


关于大数据Spark中对RDD的理解,还有不明白的地方的话,大家可以点自学扣丁学堂咨询老师。想要了解更多关于大数据开发方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂IT职业在线学习教育有专业的大数据讲师为您指导,此外扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。扣丁学堂大数据学习群:209080834。


扣丁学堂微信公众号                          Python全栈开发爬虫人工智能机器学习数据分析免费公开课直播间


      【关注微信公众号获取更多学习资料】         【扫码进入Python全栈开发免费公开课】



查看更多关于“大数据培训资讯”的相关文章>



标签: 大数据培训 大数据视频教程 大数据分析培训 大数据学习视频 Hadoop生态圈

热门专区

暂无热门资讯

课程推荐

微信
微博
15311698296

全国免费咨询热线

邮箱:codingke@1000phone.com

官方群:148715490

北京千锋互联科技有限公司版权所有   北京市海淀区宝盛北里西区28号中关村智诚科创大厦4层
京ICP备12003911号-6   Copyright © 2013 - 2019

京公网安备 11010802030908号