扣丁学堂大数据培训简述内存分析技术哪家强 Spark有几成胜算

2019-05-09 11:21:27 2319浏览

企业数据如今呈现指数型暴涨,如今的用户企业公司越来越多的意识到数据的重要价值,于是,数据分析成为了一个快速发展的行业,数据分析技术也是快速发展,成为了企业业务快速增长的一个强大助力。那么内存分析技术哪家强呢?Spark有几成胜算?本篇文章扣丁学堂大数据培训小编给读者们分享一下,感兴趣的小伙伴就随小编来了解一下吧。



扣丁学堂大数据培训简述内存分析技术哪家强 Spark有几成胜算



内存分析的好处就是企业用户可以“实时”执行复杂的分析,并允许用户大型数据集切片和切块的那种通常与桌面电子表格软件的灵活性。


随着内存计算的发展,越来越多的厂商开始发现内存分析的强大优势,越来越多的厂商开始推出一系列的产品,如SAP HANA,当然,除此之外,我们还不能忘了这个在开源领域可以和Hadoop、openstrack相提并论的Apache Spark。那么下面就让我们来看一下用户该如何选择这些不同产品呢?


说到内存分析,相信更多的人都听说过SAP HANA这个平台,其是一个软硬件的结合体,SAP提供分析平台,同时与多个产生过合作生产支持HANA的高性能服务器,包括戴尔、HP、富士通、以及中国的华为和收购IBM的联想如今都能够支持。简单的说,这些高性能的服务器大多具有较高的内存支持,来为HANA提供支持。



华为FusionCube HANA一体机


用户采用HANA可以直接对量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。用户拿到的是一个装有预配置软件的设备。至于HANA的云服务,只是对用户而言可以在不购买相关硬件的情况下享受HANA的高性能,而HANA云服务的背后其实还是需要更高性能的硬件支撑的。


除了SAP HANA,甲骨文也推出了类似的软硬件结合体Exadata,Exadata由Exadata数据库机器、Exadata数据库服务器、Exadata存储服务器以及高速网络接口等组成。InfiniBand端口的传输速度可以达到40Gb/秒。


与HANA不同的是,Exadata的快在于把大部分数据库操作push到硬件,通过高性能硬件提高数据查询速度,通过采用列式结构减少需要在存储和内存间移动的数据量,通过高速网络接口提供数据传输的效率。


Oracle Exalytics内存分析一体机是面向分析的集成设计系统,可以无限制提供最佳可视化分析和更智能的分析应用程序。内存分析硬件部分是一台为基于内存计算的商务智能而特别优化的服务器,具有提供 强劲计算能力的40核中央处理器,高达1TB的内存以及快速的网络。



开源SPark的优势及发展前景


IBM solidDB是一个专为用户获取极高的速度和可用性的内存数据库,用户既可以单独部署作为独立的数据库支持应用程序,也可以部署为其它关系型数据库的加速缓存以提高应用程序性能。



IBM solidDB


其中,IBM solidDB Universal Cache功能将这些数据库中存储的性能关键型数据缓存到solidDB Universal Cache中,加快领先关系数据库的速度。solidDB Universal Cache 功能使用检查点和事务日志将数据持久保存在磁盘上,从而保持数据耐久性。


除了SAP、IBM和甲骨文等IT巨头推出的软硬件的部署内存分析平台,在开源市场,Spark也越来越多的得到用户的关注,这个在开源领域可以说能够跟OpenStack相提并论。


Spark的核心机制方面主要由两个层面构成,首先是RDD(Resilient Distributed Datasets),RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现,它表示已被分区,不可变的并能够被并行操作的数据集合,并且通常缓存到内存中,并且每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了Map Reduce框架中由于Shuffle操作所引发的大量磁盘IO。


其次,在RDD上面执行的算子(Operator),在Spark的支持算子方面,主要有转换(Transformation)和操作(Action)这两大类。在转换方面支持算子有map,filter,groupBy和join等,而在操作方面支持算子有count,collect和save等。


Spark常见存储数据的格式是Key-Value,也就是Hadoop标准的Sequence File,但同时也听说支持类似Parquet这样的列存格式。Key-Value格式的优点在于灵活,上至数据挖掘算法,明细数据查询,下至复杂SQL处理都能承载,缺点也很明显就是存储空间比较浪费,和类似Parquet列存格式相比更是如此,key-Value格式数据一般是原始数据大小的2倍左右,而列存一般是原始数据的1/3到1/4。


当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启SparkSQL或许已经初见端倪。


因此,尽管它今天看起来可能仍是昂贵的,但内存计算最终的总拥有成本更低将会被证明,因为它性能更强。在内存计算方面,SAP、甲骨文、IBM以及开源Spark都快速发展,随着新一轮的至强E7 v3处理器的发布,相信会给内存分析带来新的动力。


想要了解更多关于大数据方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂IT职业在线学习教育有专业的大数据讲师为您指导,此外扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。扣丁学堂大数据学习群:209080834。


扣丁学堂微信公众号                                 HTML5前端开发VIP免费公开课


     【关注微信公众号获取更多学习资料】           【扫码进入HTML5前端开发VIP免费公开课



查看更多关于“大数据培训资讯”的相关文章>

标签: 大数据培训 大数据视频教程 大数据分析培训 大数据学习视频 Hadoop生态圈

热门专区

暂无热门资讯

课程推荐

微信
微博
15311698296

全国免费咨询热线

邮箱:codingke@1000phone.com

官方群:148715490

北京千锋互联科技有限公司版权所有   北京市海淀区宝盛北里西区28号中关村智诚科创大厦4层
京ICP备12003911号-6   Copyright © 2013 - 2019

京公网安备 11010802030908号