2018-02-06 13:38:03 688浏览
谈到大数据框架,不得不提Hadoop和Spark,今天我们进行历史溯源,帮助大家了解Hadoop和Spark的过去,感应未来。在Hadoop出现前人们采用什么计算模型呢?是典型的高性能HPCworkflow,它有专门负责计算的computecluster,clustermemory很小,所以计算产生的任何数据会存储在storage中,最后在Tape里进行备份,这种workflow主要适用高速大规模复杂计算,像核物理模拟中会用到。
在Google发出三大论文后,Yahoo用相同的框架开发出JAVA语言的project,这就是Hadoop。HadoopEcosystem在十年多时间发展的如火如荼,其核心就是HDFS,Mapreduce和Hbase。
故障检测与恢复
大家从图中可以看到HDFS数据读取和写入的过程,这个Architecture非常稳定,当数据量越来越大时Namenode从一个发展为多个,使内存增大,产生了NamenodeFederation。
如果有1PBsizelog,当需要计数时,一个machine肯定无法计算海量数据,这时候可能需要写Multi-threadscode,但也会存在进程坏了,性能不稳定等问题,如果DataScientist还要写multi-threats程序是非常浪费时间的,这时候Mapreduce就应运而生,目的是让framework代替人来处理复杂问题,使人集中精力到重要的数据分析过程中,只需要通过codeMap和Reduce就可以实现数据运算。
循环过程一直往硬盘里写,效率非常低,如果把中间数据写入内存,可以极大提高性能,于是Spark出现了
当把数据从HDFS中读出来到内存中,通过spark分析,Intermediatedata再存到内存,继续用spark进行分析,不断进行循环,这样Spark会很大地提高计算速度。
Spark在2009年由AMPLab开发,吸取了很多Hadoop发展的经验教训,比如Hadoop对其他语言支持不够,Spark提供了Java,Scala,Python,R这些广泛受到DataScientist欢迎的语言
Spark有更多的API/language支持(Java,python,scala)
以上就是关于扣丁学堂大数据培训之大数据框架从Hadoop到Spark详解,最后想要了解更多关于大数据发展前景趋势,请关注扣丁学堂官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供权威的大数据视频教程系统,通过千锋旗下金牌讲师在线录制的大数据视频教程系统,让你快速掌握大数据从入门到精通大数据开发实战技能。扣丁学堂大数据学习群:209080834。
【关注微信公众号获取更多学习资料】