.NET转JAVA之拼音组件

PS：做了4年，自我感觉.NET到瓶颈了，而且公司并没有深入运用.NET技术的项目，自我学习感觉也没太大动力（请骂我懒T_T）。再加上技术年限越往上走，了解到的.NET职业提升环境就越来越艰难（个人理解，喷子就不用喷了，喷了对我也没影响，哈哈哈）。于是于半月前开始学习JAVA技术。公司刚好成立了JAVA开发的小组，就申请调过去了。公司有很多组件都是.NET环境的，对于纯粹的JAVA攻城狮来说，对于.NET代码也比较头疼，因此，此类任务就扔了一个给我。

组件的功能：

由于公司的业务需求，对于中文姓名中的生僻字（针对常用的GB2312来说，不是GBK），需要进行识别并转换成拼音。对于多个中文姓名，整个姓名拼音字符串出现重复的姓名，需要提示。

首先说说算法：

GB2312有自己的编码表以及拼音的索引表（我这里是网上找的），然后可以根据自己设计的查找算法制作相应的资源数组。

GB2312的16~55区的一级汉字由根据拼音排序的。将一级汉字转为字节数组，根据算法定位到前面的资源数组，即可找到相应的拼音。

GB2312的56~87区的二级汉字因为不是使用拼音排序，可以特殊处理，也可以设计兼容的算法（因此资源数组需要自行设计）。

对于生僻字：

超过GB2312中汉字区位的生僻字（当然字节数组依然是两位），目前使用的是直接导入GBK中的生僻字信息，做成索引器，然后进行索引匹配。

不同点：

汉字字符串转字节数组：

.NET中，汉字字符串使用GB2312和GBK编码方式，对于生僻字，得到的字节都是GBK中的两位字节数组信息。

但是JAVA中，用GB2312得到的是一个“？”的ASCII码中的字节，只有使用GBK才能获取到相应的两位字节数组。（毕竟GBK对于GB2312是向下完全兼容的）

无符号整数：

由于使用的是索引资源，所以在进行相关的索引计算时，会用到无符号整数。

.NET中有自己定义的无符号整数，而JAVA中是不会存在有无符号整数的，所以需要进行升位的运算，以及存储（UInt16对应Int，UInt32对应Long）。

字节数组（两个字节）转无符号整形：

.NET中有直接的方法。需要注意的是，有些方法进行回转时，低位在前面，而高位在后面。

JAVA中需要自己写相应的方法。需要注意高低位的转换，以及Uint在JAVA中的表示形式。

文件读取：

由于需要读取生僻字，因此文件格式转成了UTF-8。在Windows系统中，MS会为非ASCII编码的文件的头部，加入一个BOM（Byte Order Mark），字节顺序标记。

JAVA在读取含有BOM的文件时，读取第一个字符会出现一个?，可能会影响到程序的后续处理。

解决方法也比较简单，用类似NOTEPAD++的软件转成无BOM的编码就可以了。

总结：

语法大体相同，但是JAVA确实没那么多的内置语法，很多底层都需要自己编写（公司不让引用第三方的类库）。

感觉.NET虽然很方便，但是如果不主动，是不用也不会明白很多计算机底层的东西。（其实还是我懒T_T）

JAVA则需要了解很多底层的知识，才能正确的编程，虽然比较痛苦，但是个人感觉需要了解的东西会很多。

感觉入门的话，.NET确实是一门很不错的语言，但是如果没什么主动性的话，JAVA对于程序员对程序相关知识的了解，还是很有帮助的。

秒客网

.NET转JAVA之拼音组件

组件的功能：

不同点：

总结：

相关文章