Hive默认分割符

时间:2023-01-30 22:26:44

1、Hive默认的分隔符

Hive的表数据,不管导出到HDFS还是本地文件系统,如果用户在导出时没有指定分割符,那么Hive表的数据在写入文件时,会使用默认的分隔符作为列分隔符,该默认的分割是“CTR+A”,ASCII码排第二位的字符,是不可见字符,二进制表示:'\u0001'。

2、显示Hive默认的分隔符

有些文本编辑器无法显示不可见字符,会直接用一个小方框代替,乍一看很像是乱码,其实不是,比如下图,在Linux上使用cat查看Hive表导出后的数据,默认的分隔符是看不出来的:

Hive默认分割符

如果要显示分隔符,可以在导出的表数据的时候,指定可以显示的分隔符,比如‘,’,‘@’等。

导出Hive表数据时,如何指定分隔符,可以参考FusionInsight产品CPI文档,或者上Hive的官网查wiki。