SparkSQL编程需注意的细节

时间：2022-06-11 03:06:17

SparkSQL是把Hive转为字符串后，以参数形式传递到SparkSession.builder().enableHiveSupport().getOrcCreate().sql(Hive_String)中执行。
例子

SparkSession spark = SparkSession.builder().enableHiveSupport().getOrcCreate();
String sql = “ALTER TABLE DB_NAME.TABLE1 DROP IF EXISTS PARTITION(pt_dt=')"  partition_date  "')";

SparkSQL中，分区名、分区字段需小写。
如上面例子中的pt_dt 分区名为小写，若写成PT_DT,则会报错。
同时，SELECT 分区字段时也需小写。
例如

String sql = "SELECT ID, "
 "       NAME, "
 "       pt_dt "
 " FROM DB_NAME.TABLE1 "
 " WHERE pt_dt = '"   partition_date   "'"

对传入参数要做判空处理
例如

if(versionNum==null || versionNum.isEmpty() || "none".equals(versionNum)) {
    versionNum = "";
}

字符串拼接时，注意空格问题
若sql转为字符串没注意行首和行末的空格，可能出现sql解析时出现“粘连”现象。
例如

String sql = "SELECT ID,"
 "       NAME, "
 "       pt_dt"
 "FROM DB_NAME.TABLE1 "
 " WHERE pt_dt = '"   partition_date   "'"

其中，字段pt_dt后没有空格，FROM前也没有空格，sql解析出来会变成pt_dtFROM，造成语法错误。

相关文章

