正则表达式\w并不完全等于[A-Za-z0-9]

时间:2022-02-21 21:18:35
   一般大家在书本上还是网上资料正则表达式中\w都被介绍为匹配任何单词字符,包括字母和下划线,等效于[A-Za-z0-9]。
   今天偶然间发现会员注册中出现了一个恶作剧账号"аdmin",注意到那个а了没?那是一个俄文字母,在会员注册过滤中使用\w验证并不能防止。
   也就是说\w包括了英文字母以及俄文字母等,在会员注册这块我们肯定不希望类同的账号出现,要不然很容易造成会员间的误会。所以改为^[A-Za-z0-9\u4E00-\u9FA5-]{2,16}$验证,只允许数字、26个英文字母大小写、中文及其组合。
   通过网络检测发现,目前的大部分网站账号基本有此误检测的BUG,DZ的不论PHP还是net版均存在此问题。想象一下吧,一个网站已存存在一个英文会员账号“admin”,再出现一个俄文或俄文英文混合的账号,如“аdmin”,够混淆混乱吧?