C/C++,Windows/MFC, char, wchar_t, TCHAR 字符全总结 & c++字符串操作经验集

时间:2021-10-31 20:19:47

字符类型、字符指针类型、字符串字面值

字符类型:

    char, wchar_t, CHAR, WCHAR, TCHAR, UCHAR, BYTE, TBYTE

    char          是C语言标准数据类型,字符型。通常由编译器决定一个char对象有多少个字节组成,一般是一字节。

    wchar_t    是char的Unicode版本。相当于 unsigned short。一般两个字节。

    CHAR       参照定义: typedef   char           CHAR;

    WCHAR    参照定义:typedef    wchar_t     WHAR;

    TCAHR     通用版字符类型:在ANSI编译方式下为 char , 在Unicode 编译方式下为 wchar_t。

    UCHAR    相当于unsigned char

    BYTE       相当于unsigned char。在取得字符编码(00 - FF)时,非常有用。

    TBYTE     通用版字符类型:在ANSI编译方式下为 char , 在Unicode 编译方式下为 wchar_t。

    参照 tchar.h头文件定义:

[cpp]  view plain copy
  1. // _UNICODE 版  
  2.   
  3. #ifndef __TCHAR_DEFINED  
  4. typedef wchar_t     _TCHAR;  
  5. typedef wchar_t     _TSCHAR;  
  6. typedef wchar_t     _TUCHAR;  
  7. typedef wchar_t     _TXCHAR;  
  8. #define  __TCHAR_DEFINED  
  9. #endif  
  10.   
  11. typedef wchar_t     TCHAR;  
  12.   
  13. //  非_UNICODE 版  
  14.   
  15. #ifndef __TCHAR_DEFINED  
  16. typedef char                 _TCHAR;  
  17. typedef signed char          _TSCHAR;  
  18. typedef unsigned char        _TUCHAR;  
  19. typedef char                 _TXCHAR;  
  20. #define __TCHAR_DEFINED  
  21. #endif  
  22.   
  23. typedef char        TCHAR;  

 

[cpp]  view plain copy
  1. // 字符定义总结如下:   
  2.   
  3. 自适应     非UNICODE                 UNICODE  
  4. _TCHAR      char                    wchar_t  
  5. _TSCHAR     signed char             wchar_t  
  6. _TUCHAR     unsigned char           wchar_t  
  7. _TXCHAR     char                    wchar_t  
  8. TCHAR       char                    wchar_t  

 


字符指针类型:

PSTR,PWSTR,通用版: PTSTR,PTCH          

LPSTR,LPWSTR,通用版:LPTSTR  , LPTCH

               typedef CHAR                 *PSTR,         *LPSTR;

               typedef WCHAR              *PWSTR,     *LPWSTR;

 

PCSTR,PCWSTR,通用版:PCTSTR    

 LPCSTR,LPCWSTR,通用版:LPCTSTR

               typedef CONST CHAR    *PCSTR,      *LPCSTR;

               typedef CONST WCHAR *PCWSTR,  *LPCWSTR;

[cpp]  view plain copy
  1. 解释                           通用版                  非UNICODE           UNICODE    
  2. 字符定义                       TCHAR                CHAR               WCHAR    
  3. 字符指针                       PTCHAR               CHAR *             WCHAR *    
  4. 字符串指针                     LPTCH & PTCH         LPSTR & PSTR       LPWSTR & PWSTR    
  5. 字符串指针                     LPTSTR & PTSTR       LPSTR & PSTR       LPWSTR & PWSTR    
  6. 静态字符串指针                 LPCTSTR & PCTSTR     LPCSTR & PCSTR     LPCWSTR & PCWSTR    

 

字符串字面值:

参照tchar.h头文件如下定义:

 

[cpp]  view plain copy
  1. // _UNICODE 版  
  2. #define __T(x)      L ## x  
  3. //  非_UNICODE 版  
  4. #define __T(x)      x  
  5.   
  6. // -----------------------------------------  
  7. #define  _T(x)            __T(x)  
  8. #define  _TEXT(x)         __T(x)  
  9.   
  10. // 总结如下:  
  11. // 字符串字面值表示:  
  12. // 非UNICODE:      " "  
  13. // UNICODE  :     L" "  
  14.   
  15. // 字符串字面值表示,总结如下:   
  16.   
  17. 通用        非UNICODE           UNICODE  
  18. __T(x)            x               L ## x  
  19. _T(x)             x               L ## x  
  20. _TEXT(x)          x               L ## x  


参照winnt.h头件如下定义:

[cpp]  view plain copy
  1. #ifdef     UNICODE                       // 以下是Unicode相关定义    
  2. #define    __TEXT(quote)    quote        // 定义字符串常量宏    
  3. #endif     /* UNICODE */  
  4.   
  5. #define    TEXT(quote)      __TEXT(quote)// 定义另一个字符串常量宏   
[cpp]  view plain copy
  1. 字符串表示                     __TEXT(quote)        quote              L ## quote  
  2. 字符串表示                     TEXT(quote)          quote              L ## quote  

 

c++字符串操作经验集


 字符串处理函数总结:

标准c中的strcpy,strchr,strcat等只能用于ANSI字符串,不能正确处理Unicode字符串,因此也提供了一组补充函数,功能等价,但用于Unicode码。

我们来看看string .h字符串头文件中是怎样处理char*和wchar_t*两个字符串版本的:

char        *strcat(char*,const char*);

wchar_t *wcschr(wchat_t*,const wchar_t *)

类似的还有strchr/wcschr,strcmp/wcscmp,strlen/wcslen...

ANSI        操作函数以str开头         strcpy

Unicode   操作函数以wcs开头       wcscpy

MBCS      操作函数以_mbs开头    _mbscpy

ANSI/Unicode 操作函数以_tcs开头 _tcscpy(C运行期库)

ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)

 

各种字符串处理函数库

1 C运行库对字符串的处理:

str*系列:    C运行库早期使用strlen strcpy等str*系列函数对char类型的字符串进行处理。
wcs*系列:   C编译器内置了wchar_t这个16位宽字节类型后,使用新的wcslen wcscpy等wcs*系列的函数对wchar_t类型的字符串进行处理。
_tcs*系列:  C运行库定义了宏_tcslen _tcscpy等_tcs*系列的宏定义,_tcs*系列函数在编译时根据是否预定义了宏_UNICODE而确定是采用wcs*系列函数,否则采用str*系列函数。

_tcs*_s系列:  C运行库的最新安全字符串函数,为了防止缓冲区溢出而定义的新函数。


2 windows对字符串的处理:

Windows开发团队在winnt.h中定义了新的数据类型CHAR(char), WCHAR(wchar_t), TCHAR,TCHAR最终在编译时根据是否预定义了UNICODE宏而确定是CHAR还是WCHAR。

lstr*a系列:  在windows操作系统的Kernel32.dll中定义,处理CHAR类型的字符串,其实是对lstr*w的一层包装。
lstr*w系列: 在windows操作系统的Kernel32.dll中定义,处理WCHAR类型的字符串。
lstr*系列:   lstr*系列函数也是在编译时才根据是否预定义了UNICODE宏来确定采用lstr*a系列函数,还是lstr*w系列函数。

个人推荐用lstr*系列,因为这个是windows api,这样写出来的程序不用把C运行库链接进来。


有个需要注意的是,C运行库的_UNICODE和Windows的UNICODE,两个宏,要么同时定义,要么同时不定义。C运行库前缀下划线是为了遵守那个该死的C++标准(对于不属于C++标准的宏加下划线),而Windows没有遵守那个标准

 

字符(串)之间的转换

1.使用ATL的字符串转换宏,可以实现不同类型的字符串转换。

      在宏名称里面,分别用A,W,T代表ANSI字符串,Unicode字符串,以及TCHAR字符串。

     并分别用CA,CW,CT来代表相应的const字符串。

     对ANSI字符串进行转换操作的宏有A2W,A2T,A2CW,A2CT。

     对Unicode字符串进行转换操作的宏有W2A,W2T,W2CA,W2CT。

     对TCHAR字符串进行转换操作的宏有T2W,T2A,T2CW,T2CA。

*需要注意的是: 在使用以上宏的时候,必须在程序中定义如下宏,

USES_CONVERSION;

2. 字符串与其他类型之间的转换

字符串和INT的相互转换

通过atoi,_wtoi,_ttoi可以分别把ANSI,Unicode和TCHAR字符串转换成INT。

通过_itoa,_itow,_itot可以分别把INT转换成ANSI,Unicode和TCHAR字符串。

字符串和LONG的相互转换

通过atol,_wtol,_ttol可以分别把ANSI,Unicode和TCHAR字符串转换成LONG

通过_ltoa,_ltow,_ltot可以分别把INT转换成ANSI,Unicode和TCHAR字符串。

字符串和DOUBLE的相互转换

通过atof,_wtof,_ttof可以分别把ANSI,Unicode和TCHAR字符串转换成DOUBLE

通过_fcvt 可以把DOUBLE数值转换为ANSI字符串。

ANSI 和 UNICODE 的函数对应表

ANSI          UNICODE     通用

(char.h)      (wchar.h)        (tchar.h)

char           wchar_t          TCHAR
char *        wchar_t *        PTCHAR (PTSTR,LPWSTR,PWSTR,WCHAR)

printf         wprintf              _tprintf
scanf         wscanf             _tscanf

atoi           _wtoi                _ttoi
atol           _wtol                _ttol
itoa           _itow                _itot
ltoa           _ltow                _ltot

atof           _wtof               _tstof

strlen         wcslen            _tcslen
strcat         wcscat            _tcscat
strcpy        wcscpy           _tcscpy
strcmp       wcscmp          _tcscmp


后增加:

sprintf  _swprintf         _stprintf

 
 

 

 附:C语言字符串函数详解 strcpy、strcmp、strcat、strlen、strstr

            http://write.blog.csdn.net/postedit/7300418

 

            atoi, itoa 字符串转换函数源代码

            http://blog.csdn.net/ltag0110rtag/article/details/7363919