• Hive(数据仓库)与数据库的区别

    时间:2024-04-13 12:38:04

    数据库和数据仓库,虽然名字只有一点点不同,但是性质却有很大的区别。数据仓库是什么?数据仓库是为企业制定各个级别的决策,可以提供各种数据类型支持的战略集合。它们两种之间的区别,就由我来给大家介绍一下吧。1. 存储数据位置众所周知,Hive是Hadoop生态圈中不可缺少的一部分。Hive的元数据存储在自...

  • hive中join导致的数据倾斜问题排查

    时间:2024-04-13 11:33:56

    hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。selectappid,count(*)fr...

  • Hadoop的数据分析引擎:Hive

    时间:2024-04-12 15:15:08

    数据分析的引擎:1、Hive  ---> 属于Hadoop,支持SQL   Pig   ---> 属于Hadoop,支持PigLatin   2、Spark SQL ---> 类似Hive,支持SQL和DSL3、(了解)Impala一、什么是Hive? 1、Hive是一个翻译器,S...

  • Hive服务停止导致Flume收集数据到Hive后无法通过Hue使用分区查询

    时间:2024-04-11 19:18:05

    首先要说明的是本篇所解决的问题1、hive分区没创建成功。2、分区下面小文件过多。3、合并小文件后新生成的文件没有按指定格式压缩。  数据流场景如下图: Hive分区按每小时4个每15分钟生成一个的策略,也就是说每小时会有mm=00、mm=15、mm=30、mm=45 四个分区。问题背景:当时在通过...

  • elasticsearch 与 hive集成

    时间:2024-04-10 22:34:06

    ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 Hive是一个基于hdfs的数据仓库,方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问,通过elasti...

  • Hive某字段空值用同组该字段非空值填充

    时间:2024-04-10 20:39:52

    select order_id,status_submit,status_auditfrom(selectorder_id,coalesce(status_submit, last_value(status_submit) over (partition by order_id order by s...

  • impala系列: 同步Hive元数据和收集统计信息

    时间:2024-04-10 12:22:13

    ---====================-- Impala 获取hive 的 metadata ---====================Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据...

  • 有关数据开发项目中使用HIVE由于无法update和delete的场景下,如何解决数据增量的思路

    时间:2024-04-08 17:41:10

    解决数据增量问题的思路在Hive中 在数据开发项目中,使用Hive进行数据处理时,由于Hive不支持update和delete语句,处理数据增量可能会变得有些棘手。然而,有几种策略和技术可以帮助我们解决这个问题,并确保数据增量的高效处理。 1. 分析数据更新模式 在处理数据增量之前,首先需要分析数据...

  • 从Navicat导出oracle建表语句,应用sqoop将oracle中的表数据导入到hive

    时间:2024-04-08 11:21:59

                                ORACLE库的操作首先选择navicat作为这个文件的工具,作为数据库表结构的导入和导出工具。  导出的时候 会连结构和数据都导出来,会形成一个sql文件  也可以只倒视图或者表都可以的。但是以导出的这个文件导入的时候 会有这样的问题。就是在...

  • hive 慢sql 查询

    时间:2024-04-07 21:17:25

    hive 慢sql 查询 查找 hive 执行日志存储路径(一般是 hive-audit.log ) 比如:/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log 解析日志 获取 执行时间 执行 OperationId 执行人 UserName...

  • Spark记录-源码编译spark2.2.0(结合Hive on Spark/Hive on MR2/Spark on Yarn)

    时间:2024-04-07 17:53:05

    #spark2.2.0源码编译#组件:mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...

  • Hue管理用户对于hive数据表的操作权限

    时间:2024-04-07 16:41:20

    Hue管理用户对于hive数据表的操作权限 1、        hue开通用户,只给该用户hive的访问权限http://blog.csdn.net/u012551524/article/details/79392439首先创建一个名pbdd的hue用户,给该用户hive的访问权限2、       ...

  • hue安装步骤+mysql元数据存储、hive、hadoop做集成

    时间:2024-04-07 16:40:30

    1. 使用yum工具来安装hue相关的依赖软件:sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel pytho...

  • hive表的使用——创建修改删除

    时间:2024-04-07 14:34:26

    hive表的使用——创建修改删除本文主要介绍hive中表的增加,修改和删除等。好,下面上货。创建表:1、新建数据库xytestdatabase2、编写建表脚本createtablecreate table if not exists xytestdatabase.employee(name stri...

  • oracle 数据类型 hive数据类型

    时间:2024-04-07 07:05:31

     下面介绍几种常用的数据类 (1)CHAR()该数据类型用于定义固定长度的字符串,其中用于指定字符串的最大长度,必须是正整数且不超过32767。使用CHAR类型定义变量时,如果没有指定则默认值为1。需要注意的是,在PL/SQL块中,使用该数据类型操纵CHAR表列时,其数值的长度不应超过2000字节。...

  • Hive支持的隐式类型转换

    时间:2024-04-06 19:40:28

    隐式转换图表图表小结:一、double decimal string varchar  这四个基本能相互转换     除了 decimal转double不行 因为decimal比double大相当于double与flout二、基本所有类型都能转为string 与varchar 三、多重转换(显示转换...

  • Mysql 上亿级数据导入Hive思路分享

    时间:2024-04-06 19:15:56

    前提条件:数据库容量上亿级别,索引只有id,没有创建时间索引达到目标:把阿里云RDS Mysql表数据同步到hive中,按照mysql表数据的创建时间日期格式分区,每天一个分区方便查询每天运行crontab定时的增量备份数据,还是依据自增的id遇到的问题:没法建立创建时间的索引,不能按时间范围去查询...

  • Sqoop导入Hive:ERROR tool.HiveImportTool:import failed:java.io.IoExeception:Hive exited with status 1

    时间:2024-04-06 15:46:52

    Sqoop导入Hive:ERROR tool.HiveImportTool:import failed:java.io.IoExeception:Hive exited with status 1解决方法:将hive或者hbase的安装目录下的lib/libthrift-0.9.3.jar拷贝到sq...

  • Hive的客户端界面工具–SQuirrel SQL Client--详细安装以及连接Hive过程

    时间:2024-04-06 15:41:08

     SQuirrel SQL Client是一款支持Hive的可视化工具,是市面上少数支持Hive中比较好用的,看下如何安装使用吧,下面是非常详细的安装过程。1.下载客户端SQuirrel SQL Client的官网及下载地址为:http://squirrel-sql.sourceforge.net/...

  • Hive启动报错(已解决!)

    时间:2024-04-06 11:50:49

    今天在测试的时候发现这样一个小错误,分享如下:错误原因:因为Hive中的真实数据是存储在Hdfs上的,所以在启动Hive前,需要先启动Hadoop集群,在启动Hadoop集群的时候,我同时启动了Hive,导致集群进入了安全模式。解决办法:第一种方法:稍等一点时间,重新启动Hive。(当然电脑配置越高...