扣丁学堂大数据培训之Hadoop中Hive原理及安装详解
2018-09-25 16:46:42
467浏览
今天扣丁学堂
大数据培训老师给大家介绍一下关于Hadoop中Hive原理及安装的详细介绍,希望对学习大数据的同学有所帮助,下面我们一起来看一下吧。
Hive是什么(官网概念)
ApacheHive?数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。
Hive是建立在Hadoop(HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制;Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据;允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;Hive没有专门的数据格式(分隔符等可以自己灵活的设定);
适用场景
Hive不适用于在线事务处理。它最适用于传统的数据仓库任务Hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;Hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。
1、ExecuteQuery
Hive接口,如命令行或WebUI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2、GetPlan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3、GetMetadata
编译器发送元数据请求到Metastore(任何数据库)。
4、SendMetadata
Metastore发送元数据,以编译器的响应。
5、SendPlan
编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
6、ExecutePlan
驱动程序发送的执行计划到执行引擎。
7、ExecuteJob
在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。
MetadataOps
与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
8、FetchResult
执行引擎接收来自数据节点的结果。
9、SendResults
执行引擎发送这些结果值给驱动程序。
10、SendResults
驱动程序将结果发送给Hive接口。
Hadoop中实际应用
通过上面流程解释,要想在hadoop中使用hive,至少需要安装hive和Metastore(任何数据库)本文安装mysql。
1,安装mysql
下载linux环境下的mysql安装包,需要两个,一个是server端的,一个是client端的。
查询linux机器上默认安装的mysql或者你以前安装的mysql,暴力卸载之。
rpm -e mysql-libs-5.xxxxxx_i686 --nodeps
执行安装命令
rpm -ivh Mysql-server-xxx.i386.rpm
rpm -ivh Mysql-client-xxx.i386.rpm
执行命令初始化设置mysql
/usr/bin/mysql_secure_installation
使用客户端登陆
mysql-uroot-proot
登陆成功后输入命令:(授予mysql远程用户连接的权限)
GRANTALLPRIVILEGESON*.*TO'root'@'%'IDENTIFIEDBY'root'WITHGRANTOPTION;
使用远程客户端连接(navicat或AdvancedQueryTools等等工具)我用的navicat,如图自行领悟。
到这里hive就安装搭建完成了,以上就是关于扣丁学堂大数据开发之Hadoop中Hive原理及安装的详细介绍,希望对同学们有所帮助,扣丁学堂提供完整大数据学习路线内容包含Linux&&Hadoop生态体系、大数据计算框架体系、云计算体系、机器学习&&深度学习等大数据视频教程内容,根据大数据学习路线图可以让你对学习大数据需要掌握的知识有个清晰的了解,并快速入门大数据开发,大数据学习群:827371640
【关注微信公众号获取更多学习资料】
查看更多关于“大数据培训资讯”的相关文章>
标签:
大数据培训
大数据视频教程
大数据分析培训
大数据学习视频
Hadoop生态圈