处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题

时间：2023-12-06 12:08:20

错误信息：

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence

这是因为遇到了非法字符，例如：全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，
这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1，因此在转码的过程中出现了异常。
而之前在处理数据库中的数据时，遇到了非法空格问题导致无法正确解析数据。

解决办法：

#将获取的字符串str做decode时，指明ignore，会忽略非法字符,

#当然对于gbk等编码，处理同样问题的方法是类似的

strTest = str.decode('utf-8', 'ignore')

return strTest

补充：

默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?号取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

相关文章

