• 大数据:通过Kettle把传统数据库数据导入到Hive中

    时间:2024-03-31 16:18:50

    自从使用了Kettle工具之后,越来越发现她的强大,上篇文章主要介绍通过Kettle工具在传统数据库之间迁移数据,但很多业务场景是需要放到大数据上去的,如何通过Kettle工具把传统数据库中数据导入到Hive中,这是本文要详细讲解的。一、准备系统版本本地操作系统Windows 10 proETL工具...

  • Kettle spoon中mysql数据导入hive从建表到导数据解决方案参考

    时间:2024-03-31 16:17:14

    最近在学习大数据的数据迁移,要从关系型数据库里导数据到hive数据库里,其中碰到了很多麻烦,曾试过使用sqoop方式导入数据不过功能不够全面比如表结构及数据筛选问题,现在使用kettle来进行数据迁移工作,其中碰到了很多问题不过都能给出相应的解决方案,如此写下这篇文档供各位工程师参考 那么如何将my...

  • 使用Flume将Kafka中的数据导入Hive

    时间:2024-03-31 16:16:49

    0x01 需求背景将Kafka中的JSON数据持久化存储到Hive表中,以供后期有查找的需求。(看了很多讲解的博文,出了各种bug!饶了很多弯路!总结出来的经验就是一定要仔细看Flume的官方文档!!!!!!)Kafka中的数据示例:>{"id":1,"name":"snowty","age"...

  • CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

    时间:2024-03-31 16:09:17

    1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd  /zeppeli...

  • 使用JDBC连接和操作hive(hiveserver2)

    时间:2024-03-31 16:08:53

    第一步:创建项目 并导入hive相关jar包第二步:编写代码如下:import java.sql.Statement;import java.sql.DriverManager;import org.apache.tools.ant.taskdefs.Echo;public class TestHi...

  • Hive-技术补充-ANTLR语法编写

    时间:2024-03-31 10:38:09

    一、导读 我们学习一门语言,或外语或编程语言,是不是都是要先学语法,想想这些语言有哪些相同点         1、中文、英语、日语......是不是都有 主谓宾 的规则         2、c、java、python、js......是不是都有 数据类型 、循环 等语法或数据结构 虽然人们在过去的几...

  • JDBC访问Hive失败 & beenline连接Hive 和导入文件 时提示anonymous用户权限不够

    时间:2024-03-30 16:04:26

    前言    最近项目中有跟hive交互的部分,在测试环境用JDBC方式和beenline方式访问hive server时访问失败,下面来记录下问题的解决过程;正文JDBC访问hive server2失败    程序中关于hive配置信息写在了application.yaml文件中    用postm...

  • spark.sql集成hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

    时间:2024-03-30 15:14:33

    SparkSQL集成hive错误:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient写sparksql,查询hive表报错Unable to instantiate org.apach...

  • hive获取当前时间(类似sql的now()函数)

    时间:2024-03-30 15:13:45

    在大多数的sql中获取当前时间都是用now()函数即可,hive获取当前时间的函数与sql 不一样在impala中执行now()函数时是可以通过的然而在hive中执行now()函数却报错:hive有一个获得当前时区的UNIX时间戳:unix_timestamp语法: unix_timestamp()...

  • Hive启动时,遇到java.net.URISyntaxException: Relative path in absolute URI

    时间:2024-03-30 14:07:51

    当启动hive的时候遇到如下错误:解决办法:1.创建一个工作目录mkdir /opt/hive2.在hive1.2 的配置文件hive-site.xml中修改如下配置,修改成绝对路径:  <property>    <name>hive.exec.scratchdir<...

  • Beeline远程连接Hive服务地址报错:jdbc:hive2://hadoop01:10000: java.net.ConnectException: Connection refused

    时间:2024-03-30 14:04:39

    克隆hadoop1输入:beeline> !connect jdbc:hive2://hadoop01:10000 Connecting to jdbc:hive2://hadoop01:10000Enter username for jdbc:hive2://hadoop01:10000: ...

  • Hive on tez 运行报错集锦

    时间:2024-03-30 14:01:44

    执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java...

  • hive的数据类型和文件格式

    时间:2024-03-30 14:01:20

    数据类型一、基本数据类型hive的基本数据类型无非还是数值型,字符型,时间戳。多了一个字节数组binary。这个binary数组是没有自字节数限制的,可以在记录中包含任意字节。1、数值型①整型tinyint:类似于Java中的byte,最多存储1字节的有符号数smalint:类似于Java中的sho...

  • Hive 数据类型

    时间:2024-03-30 13:51:21

    基本数据类型  Hive 的原子数据类型是可以进行隐式转换的,类似于 Java 的类型转换1. 隐式类型转换规则如下(1)任何整数类型都可以隐式地转换为一个范围更广的类型,如 TINYINT 可以转换成 INT, INT 可以转换成 BIGINT。(2)所有整数类型、 FLOAT 和 STRING ...

  • hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.h...

    时间:2024-03-30 10:59:28

     hive表在创建时候指定存储格式STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常Caused by: java.lang.ClassCastException: org.apache.hadoop.io....

  • HIVE中处理特殊字符

    时间:2024-03-30 09:02:19

    一、问题描述:根据公司研发提供的加密UDF函数,进行加密(电话号码属于敏感信息需加密)后存在换行现象!(hiveudfencode:加密UDF)二、问题定位及解决步骤:1)查看加密后的字段末尾是否含有换行符,根据16进制转换的函数进行查看,发现末尾带了0D0A,就是代表\r\n2)用hive的替换函...

  • cdh hive 中文注释乱码解决方法(简单几步)

    时间:2024-03-29 17:53:39

    一、问题描述环境 cdh5.12.1 + hive 1.1.0。 hive 元数据库用的是mysql创建hive表后,用desc查看表信息,中文注释出现乱码,如下 二、解决方法1、进入mysql执行:show create database hive;  发现默认是utf8类型    mysql&g...

  • Hive设置MySQL元数据中文乱码编码问题以及解决

    时间:2024-03-29 17:44:13

    Hive设置MySQL元数据编码问题表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(一些命令直接不能执行),详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成la...

  • 计算机毕业设计Hadoop+Spark+Hive租房推荐系统 贝壳租房数据分析 租房爬虫 租房可视化 租房大数据 大数据毕业设计 大数据毕设 机器学习-技术或业务逻辑特色

    时间:2024-03-29 16:03:08

    核心算法代码分享如下: from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom lxml import etreeimport timefrom selenium.webdriver.ch...

  • Hive SQL必刷练习题:留存率问题(*****)-代码:

    时间:2024-03-29 12:27:25

    select t3.first_login, t3.register, t3.remain_1/t3.register retentionfrom ( select t1.first_login, count(t1.user_id) register, coun...