中文乱码

　　上篇《ZBar-windows下编译和使用》已经成功解析了条形码，但目标是二维码，经测试二维码中文会出现乱码。
下图二维码的内容是“http123测试456”，解析后的内容为“http123娴嬭瘯456”

二维码开源库ZBar-实现中文解码

搜索了一下关键词，解决方案如下http://blog.csdn.net/zizi7/article/details/51880129

修改文件 zbar/qrcode/qrdectxt.c：

 latin1_cd=iconv_open("GB18030","UTF-8");

 /*But this one is often used, as well.*/

 sjis_cd=iconv_open("GB2312","UTF-8");

 /*This is a trivial conversion just to check validity without extra code.*/

 utf8_cd=iconv_open("UTF-8","UTF-8");

 ...

 enc_list[]=sjis_cd;

 enc_list[]=latin1_cd;

 enc_list[]=utf8_cd;

重新编译运行后，正确输出“http123测试456”

二维码开源库ZBar-实现中文解码

自己实现中文解码

　　ZBar解析后的字符原始输出是UTF-8格式，然后使用了iconv将其转换为相应的字符编码，但最终目标是移植到STM32F4上，如果要直接输出中文编码，有几种方案：

1. 把iconv移植到STM32F4上
2. 自己实现UTF8-8转中文编码
3. 把编码工作交给上位机

字符集和编码格式

搜索了一下字符编码规则，觉得方案2比方案1，3更容易实现。这里先简单介绍下与本文相关的字符集和编码格式。
1. Unicode
Unicode是字符集，也叫万国码，顾名思义就是包含所有国家的文字。
2. GB18030
GB18030是中文字符集，可以认为是Unicode的一个子集，还有其他GBXXXXX的中文字符集，他们的关系简单来说就是包含的中文字符个数不一样。简单起见，这里只是使用2个字节的GB18030，一共20902个汉字，也基本覆盖常见的汉字了。书读得少，4个字节的汉字也没认识几个。
3. UTF-8
UTF-8是Unicode字符集的一种编码格式，还有其他UTF-16，UTF-32，ZBar使用了 UTF-8。
UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8的编码规则很简单，只有二条：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
（具体例子可以参考http://blog.csdn.net/xiaolei1021/article/details/52093706）

下表总结了编码规则，字母x表示可用编码的位。

二维码开源库ZBar-实现中文解码

4. GB18030，Unicode，UTF-8的关系

二维码开源库ZBar-实现中文解码

UTF-8转GB18030实现

了解相关字符集和编码格式，可以开始写转换代码了。

1．需要一个GB18030字符集，其实就是一个数组，实现代码如下（VS下编译）
调用UnicodeToGB18030Table函数生成一个GB18030字符集数组。

 char* UnicodeToGB18030String(const wchar_t* unicode_str)

 {

     UINT code_page =  ; //GB2312 :936   GB18030: 54936

     int len=WideCharToMultiByte(code_page,,unicode_str,-,NULL,,NULL,NULL);

     char* buf=new char[len+];

     WideCharToMultiByte(code_page,,unicode_str,-,buf,len,NULL,NULL);

     buf[len]=;

     return buf;

 }

 int UnicodeToGB18030Table(void)

 {

     FILE *table;

     wchar_t unicode[]={0x4E00,};

     char* gb18030;

     int cnt=;

     table = fopen("unicode_to_gb18030_table.c","w");

     if(table == NULL)

     {

         printf("can not open unicode_to_gb18030_table.c\n");

         system("pause");

         exit();

     }

     fprintf(table, "%s", "const char unicode_to_gb18030_table1[] = {\n");

     for(unicode[]=0x4E00; unicode[]<=0x9FA5; unicode[]++)

     {

         gb18030 = UnicodeToGB18030String(unicode);

         if(unicode[]==0x9FA5)

         {

             fprintf(table, "0x%X,0x%X ", (UINT8)gb18030[],(UINT8)gb18030[]);

         }

         else

         {

             fprintf(table, "0x%X,0x%X, ", (UINT8)gb18030[],(UINT8)gb18030[]);

         }

         cnt ++;

         if(cnt == )

         {

             cnt = ;

             fprintf(table, "\n");

         }

     }

     fprintf(table, "\n};");

     fclose(table);

 }

2．通过查表，将UTF-8转为GB18030

 int zbar_utf8_to_gb18030 (uint8_t* utf8_code, uint32_t utf8_len, uint8_t* gb18030)

 {

 uint8_t utf8_bytes[];//该数组最大为6个字节，但这里只考虑3个字节的中文编码

 uint32_t i = , j = ;

     uint16_t unicode_value;

     uint8_t* unicode = gb18030;

     for(i=; i< utf8_len; i+=) {

         utf8_bytes[] = utf8_code[i+] & 0x0F;

         utf8_bytes[] = utf8_code[i+] & 0x3F;

         utf8_bytes[] = utf8_code[i+] & 0x3F;

         unicode[j] = (utf8_bytes[] >> ) | ((utf8_bytes[]) << );

         unicode[j+] = utf8_bytes[] | ((utf8_bytes[] & 0x03) << );

         unicode_value = (unicode[j]<<) + unicode[j+];

         if(unicode_value>=0x4E00){

           gb18030[j] = unicode_to_gb18030_table1[(unicode_value-0x4E00)*];

           gb18030[j+] = unicode_to_gb18030_table1[(unicode_value-0x4E00)* + ];

         }

         j += ;

     }

     return ;

 }

中文字符集和编码转码函数有了，下一步就是替换ZBar源码的编码转换部分。
删掉zbar/qrcode/qrdectxt.c 中iconv相关的代码，将zbar_utf8_to_gb18030函数加入
qr_code_data_list_extract_text函数中：

 int qr_code_data_list_extract_text(const qr_code_data_list *_qrlist,

                                    zbar_image_scanner_t *iscn,

                                    zbar_image_t *img)

 {

 ....

           case QR_MODE_BYTE:{

             int gb18030_cnt = zbar_utf8_to_gb18030(entry->payload.data.buf, entry->payload.data.len, sa_text+sa_ntext);

             sa_ntext += gb18030_cnt;

           }

           break;

 ....

 }

重新编译运行后

正确输出“http123测试456”

二维码开源库ZBar-实现中文解码

坐等下班，回家过年...................

二维码开源库ZBar-实现中文解码

秒客网

二维码开源库ZBar-实现中文解码

中文乱码

自己实现中文解码

字符集和编码格式

UTF-8转GB18030实现

相关文章