Spark 处理中文字符乱码问题

时间:2024-03-22 11:39:38

今天使用Spark将处理文本数据并写入mysql中时出现了中文字符是乱码的问题。
刚开始,所有的中文字符都是**??**,查了很多的文档之后,将mysql的默认字符集修改为utf-8,但是中文仍然是乱码。
Spark 处理中文字符乱码问题
插入mysql时,连非中文字段也收到了影响:
Spark 处理中文字符乱码问题
最后的解决方法是:
在提交spark任务时,添加命令行参数:
–conf spark.executor.extraJavaOptions="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8"
但是这只能解决写入数据库时字符编码没问题,数据库显示正常,读取数据时还是繁体乱码:
Spark 处理中文字符乱码问题
查询显示乱码是因为IDEA的关系,IDEA里SSH 里用的都是GBK编码。太惨了!!!
Spark 处理中文字符乱码问题