• 【分布式数据仓库Hive】Hive的安装配置及测试

    时间:2024-07-05 18:16:36

    目录 一、数据库MySQL安装 1. 检查操作系统是否有MySQL安装残留 2. 删除残留的MySQL安装(使用yum) 3. 安装MySQL依赖包、客户端和服务器 4. MySQL登录账户root设置密码 5. 启动MySQL服务 6. 登录MySQL,进入数据库操作提示符 7. 授权Hive远程...

  • Hive基础(3)---Fetch Task(转)

    时间:2024-06-26 09:40:04

    我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示:我们会发现这个属性所对应着两种模式,minimal和more。   ...

  • Hive快捷查询:不启用Mapreduce job启用Fetch task三种方式介绍

    时间:2024-06-26 09:08:40

    如果查询表的某一列,Hive中默认会启用MapReduce job来完成这个任务,如下:hive>select id,name from m limit 10;--执行时hive会启用MapReduce job我们都知道,启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hiv...

  • Hive创建一个简单的UDF

    时间:2024-06-25 22:04:36

    创建一个类package com.dufeng.hive;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;/**...

  • ETL hive update 之 deltamerge 优化

    时间:2024-06-25 16:47:16

    full join 横向join ,不能map join 走shufflerow_number() over ( partition by 主键 order by $flag desc) rank ... where rank =1 ,走shufleselect id, order_date...

  • Hive分区和桶

    时间:2024-06-24 17:05:54

    SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,...

  • hadoop-spark-hive-hbase配置相关说明

    时间:2024-06-24 13:42:29

    1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z...

  • Hive篇--相关概念整理一

    时间:2024-06-21 23:21:00

    一.前述hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分...

  • Hive入门学习随笔(一)

    时间:2024-06-19 14:10:33

    Hive入门学习随笔(一)===什么是Hive?它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别。Hive跟传统方式是不一样的,Hive是建立在Hadoop HDFS基础之上的数据仓库基础框架。也就是说--Hive这个数据仓库中的数据是保存在HDFS上。--Hive可以用ET...

  • Hive常见问题汇总

    时间:2024-06-14 23:24:37

    参考资料:Hive常见问题汇总啟動hive出錯,提示沒有權限2015年04月02日 09:58:49阅读数:31769这里小编汇集,使用Hive时遇到的常见问题。 1,执行#hive命令进入Hive CLI时报如下错误:Exception in thread "main" java.lang.Run...

  • 大数据学习——linux操作系统(Centos)安装mysql(Hive的元数据库)

    时间:2024-06-13 11:31:11

    一. 准备工作 1. 打开虚拟机并连接shell工具 2. 将mysql安装包上传至虚拟机 mysql安装包 提取码:6666 将下载好的jar包拖至install_package目录下 3. 检查环境 rpm -qa|grep mariadb 如果上述命令返回有结果 那么进行mariadb的...

  • Hive之SerDe&Beeline

    时间:2024-06-11 20:44:53

    一.SerDeSerDe:Serializer and Deserializer 序列化及反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。Hive通过ROW FORMAT DELIMITED 以及SERDE进行内容的读写。样板:row format:DELIMITED[FIELDS TERM...

  • 【hive】null值判断

    时间:2024-06-10 21:08:43

    hive用作null值的判断是不能用 = , != 来判断的只能用is [not] null来完成不支持ifnull()函数(mysql支持)适用于所有数据类型(1)条件中判断是否为空where a is null(2)select判断是否为空select if(a is null,’true’,’

  • Hive 执行计划

    时间:2024-06-10 14:41:24

    执行语句hive> explain select s.id, s.name from student s left outer join student_tmp st on s.name = st.name;结果,红色字体为我添加的注释hive> explain select s.id,...

  • hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误

    时间:2024-06-03 08:22:29

    今天跑一条统计的SQL出现Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {“key”:错误报出的异常是说group by数字格式...

  • hive中的join操作及其数据倾斜

    时间:2024-06-03 07:49:43

    hive中的join操作及其数据倾斜 join操作是一个大数据领域一个常见的话题。归根结底是由于在数据量超大的情况下,join操作会使内存占用飙升。运算的复杂度也随之上升。在进行join操作时,也会更容易发生数据倾斜。这些都是需要考虑的问题。 过去了解到很多关于join操作的知识点,特此总结一下。 ...

  • sqoop数据导入到Hdfs 或者hive

    时间:2024-05-29 10:07:58

    用java代码调用shell脚本执行sqoop将hive表中数据导出到mysqlhttp://www.cnblogs.com/xuyou551/p/7999773.html用sqoop将mysql的数据导入到hive表中https://www.cnblogs.com/xuyou551/p/79988...

  • 11.把文本文件的数据导入到Hive表中

    时间:2024-05-29 08:40:56

    先在hive里面创建一个表create table mydb2.t3(id int,name string,age int) row format delimited fields terminated by ','stored as textfile;接下来创建数据文件把本地的数据文件导入到hi...

  • 用sqoop将mysql的数据导入到hive表中

    时间:2024-05-29 08:12:54

    1:先将mysql一张表的数据用sqoop导入到hdfs中准备一张表需求 将 bbs_product 表中的前100条数据导 导出来  只要id  brand_id和 name 这3个字段数据存在 hdfs 目录   /user/xuyou/sqoop/imp_bbs_product_sannpy_...

  • 22.把hive表中数据导入到mysql中

    时间:2024-05-28 23:19:07

    先通过可视化工具链接mysql,在链接的时候用sqoop 用户登录在数据库userdb下新建表保存,输入表名upflow现在我们需要把hive里面的数据通过sqoop导入到mysql里面sqoop export --connect \ jdbc:mysql://node1:3306/userdb \...