扣丁学堂大数据培训简述如何高效的阅读hadoop源代码

2019-05-06 15:39:24 2052浏览

本篇文章扣丁学堂大数据培训小编给读者们分享一下如何高效的阅读hadoop源代码,对大数据开发感兴趣的小伙伴就随小编来了解一下,希望对小伙伴们有所帮助。



扣丁学堂大数据培训简述如何高效的阅读hadoop源代码



首先,必须要说,对于互联网工程师而言,不管hadoop源代码质量怎么样,是好还是差,我们都不得不看,别无选择,因为hadoop已逐渐成为大数据代名词,成为互联网公司的基础设施和软件,和传统的操作系统一样基础而又重要。另外,有人会问,对于只是使用hadoop的人,有没有必要学习hadoop源代码?这个取决于你个人的兴趣,追求和工作内容。


一般而言,hadoop职位分别内核开发工程师(修改hadoop源代码,打patch,加feature等),hadoop运维工程师(遇到hadoop服务问题,比如namenode挂了,主备切换失败,可以采取相应的措施快速解决),hadoop应用开发工程师(在hadoop基础上写一些app,比如写HQL生成报表,写一些数据挖掘算法等),对于前两个岗位,如果你是一个有追求的工程师的话,需要好好看源代码,尤其是运维工程师,不能仅仅依赖于搜索引擎和各种杂七杂八的文档,因为hadoop的很多东西,比如参数配置(hadoop中有几百个配置参数),跟hadoop版本相关,而hadoop版本迭代和发布频繁,很多文档和论坛里的帖子已经失效而无法及时更新,因此,一味的依赖这种二手资料,只会让你浪费更多时间。 这时候,最好的方式是查看源代码,找到相关的类,看一下怎么实现的,问题可以马上解决。你可以把hadoop源代码看成一本巨大的参考手册,遇到问题,就翻到能够给你带来答案的“页”中。



hadoop源代码:


理解了相关背景后,接下来聊聊hadoop源代码质量。


Hadoop源代码质量绝对是开源软件中的佼佼者,从代码规范,到代码组织,再到代码实现技巧。这一点,可以与各种杂七杂八的公司自己开发的软件作对比(提一点,即使是非常有名的公司,挂在自己名下的开源软件代码质量也不高,比如facebook的presto,比如linkedin的azkaban等,提高代码质量和发动更多人关注这些软件,最好的方式是加入apache基金会,成为它的顶级项目),很容易得知。hadoop专门的基金会组织管理和运营,有一整套完善的项目管理流程。可以这么说,如果你把hadoop源代码学到精通,那么学习其他开源软件,尤其是分布式系统,绝对是小case,另外,对你自己从头写一个分布式系统也有巨大帮助。


hadoop源代码中包含着很多有价值的,可以借鉴和学习的宝贵经验,比如:


(1)如果自己实现一个高效的RPC框架(hadoop自己实现了一个RPC框架,这个框架由HDFS,MAPREDUCE,YARN和HBASE公用)


(2)如何对单点的服务实现leader election(包括HDFS,YARN,HBase等都存在单点故障问题,均采用zookeeper实现了准备切换)


(3)如何实现一个分布式存储系统和分布式计算引擎


(4)如何设计一个极简且抽象度高的编程API(记得MapReduce刚刚发布时,很多公司对外公布说,自己公司内部早就有了类似于mapreduce的框架,一直在用。但mapreduce成熟之后,所有公司都弃掉了自己的框架,转而采用hadoop mapreduce,主要原因是他们的框架抽象度不高,使用起来比较麻烦。虽然现在大家使用mapreduce觉得这玩意非常简单,但是这是高度抽象后去繁留简的结果,如果你自己做一个分布式计算框架,能设计出这么精简的编程模型和编程API吗)。



hadoop现状:


需要注意的是,hadoop从第一个原型开始,到现在已经有多年。目前hadoop代码庞大,学习起来越来越困难,这个跟linux内核发展史差不多。由于hadoop源代码是很多人贡献的,里面多多少少存在代码冗余,且个别功能点的实现比较令人费解。此外,一些hadoop公司的的出现,比如cloudera,hortonworks(已经上市),使得hadoop更新频率越来越快,这些公司的绝大部分工程师每天的任务就是为hadoop贡献代码,全部贡献给社区,这推进了hadoop快速发展,但同时使得hadoop学习成本越来越大,很多中小型公司无法找到合适的技术人员,不得不反过来向这些hadoop公司求助,给他们交比较昂贵的咨询费用。


现在每一行hadoop源代码的提交均要经过很多人的review,从代码规范到实现方式上,都会有很多人在jira(Hadoop YARN - ASF JIRA)上提出各种意见,估计要改上好几遍才可能被merge到主干上,整个流程很低效,但是这样可使hadoop源代码保持很高的水准。


想要了解更多关于大数据方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂IT职业在线学习教育有专业的大数据讲师为您指导,此外扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。扣丁学堂大数据学习群:209080834。


扣丁学堂微信公众号                          Python全栈开发爬虫人工智能机器学习数据分析免费公开课直播间


      【关注微信公众号获取更多学习资料】         【扫码进入Python全栈开发免费公开课】



查看更多关于“大数据培训资讯”的相关文章>


标签: 大数据培训 大数据视频教程 大数据分析培训 大数据学习视频 Hadoop生态圈

热门专区

暂无热门资讯

课程推荐

微信
微博
15311698296

全国免费咨询热线

邮箱:codingke@1000phone.com

官方群:148715490

北京千锋互联科技有限公司版权所有   北京市海淀区宝盛北里西区28号中关村智诚科创大厦4层
京ICP备12003911号-6   Copyright © 2013 - 2019

京公网安备 11010802030908号