第5章 字符串与正则表达式背记手册

时间:2023-01-29 18:50:11

必背必记

1.len()函数

  len()函数的基本用法如下:

len(string)

其中,string 用于指定要进行长度统计的字符串。

2、切片法截取字符串
切片法截取字符串的语法格式如下:

string[start : end : step]

参数说明:
  string:表示要截取的字符串。
  start:表示要截取的第一个字符的索引(包括该字符),如果不指定,则默认为0。
  end:表示要截取的最后一个字符的索引(不包括该字符),如果不指定则默认为字符串
的长度。
  step:表示切片的步长,如果省略,则默认为1,当省略该步长时,最后一个冒号也可
以省略。

3、分割字符串
  split()方法的语法格式如下:

str.split(sep, maxsplit)

参数说明:
  str:表示要进行分割的字符串。
  sep:用于指定分隔符,可以包含多个字符,默认为None,即所有空字符(包括空格、
换行“\n”、制表符“\t”等)。
  maxsplit:可选参数,用于指定分割的次数,如果不指定或者为-1,则分割次数没有限
制,否则返回结果列表的元素个数,个数最多为maxsplit+1。
返回值:分隔后的字符串列表。

st0= '   song    huan     gong    '
print(st0.split())

st1= 'iisongiiihuaniiiigongi'
print(st1.split('i'))

4、合并字符串

  join()方法的语法格式如下:

strnew = string.join(iterable)

参数说明:  

  strnew:表示合并后生成的新字符串。
  string:字符串类型,用于指定合并时的分隔符。
  iterable:可迭代对象,该迭代对象中的所有元素(字符串表示)将被合并为一个新的字
符串。string 作为边界点分割出来

例:

la = ['a', 'b', 'c', 'd', 'e']
s = ''
for x in la:
    s += x
print(s)



>>>lb = ['a', 'b', 'c', 'd', 'e']
>>>''.join(lb)
>>>print(la)

>>>l = ['a', 1, 2, 3, 'e']
>>>''.join(str(x) for x in l)
>>>print(l)

 

5、常用的格式化字符

格式化字符 说明
%s 字符串(采用str()显示)
%c 单个字符
%d 或者%i 十进制整数
%x 十六进制整数
%f 或者%F 浮点数
%r 字符串(采用repr()显示)
%o 八进制整数
%e 指数(基底写为e)
%E  指数(基底写为E)
%% 字符%

6、format()方法中常用的格式化字符

格式化字符 说明
s 对字符串类型格式化
d 十进制整数
c 十进制整数自动转换成对应的Unicode 字符
e或者E  转换为科学计数法表示再格式化
g 或者G  自动在e 和f 或者E 和F 中切换
b 将十进制整数自动转换成二进制表示再格式化
o 将十进制整数自动转换成八进制表示再格式化
x 或者X

将十进制整数自动转换成十六进制表示再格式化

f 或者F 转换为浮点数(默认小数点后保留6 位)再格式化
% 显示百分比(默认显示小数点后6 位)

例:

>>> print ('hello {first} and {second}'.format(first='df', second='another df'))
>>> print ('hello %(first)s and %(second)s' % {'first': 'df', 'second': 'another df'})
>>> print ('hello %s and %s' % ('df', 'another df'))

7、使用encode()方法编码

encode()方法的语法格式如下:

str.encode([encoding="utf-8"][,errors="strict"])

参数说明:
  str:表示要进行转换的字符串。
  encoding="utf-8":可选参数,用于指定进行转码时采用的字符编码,默认为UTF-8,如
果想使用简体中文,也可以设置为gb2312。当只有这一个参数时,也可以省略前面的“enc
  oding=”,直接写编码。
  errors="strict":可选参数,用于指定错误处理方式,其可选择值可以是strict(遇到非法
字符就抛出异常)、ignore(忽略非法字符)、replace(用“?”替换非法字符)或xmlcharref
  replace(使用XML 的字符引用)等,默认值为strict。

8、使用decode()方法解码
decode()方法的语法格式如下:

bytes.decode([encoding="utf-8"][,errors="strict"])

参数说明:
  bytes:表示要进行转换的二进制数据,通常是encode()方法转换的结果。
  encoding="utf-8":可选参数,用于指定进行解码时采用的字符编码,默认为UTF-8,如
果想使用简体中文,也可以设置为gb2312。当只有这一个参数时,也可以省略前面的
“encoding=”,直接写编码。

9、常用元字符

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

10、常用限定符

限定符  说明  举例
?  匹配前面的字符零次或一次 colou?r,该表达式可以匹配colour 和color
匹配前面的字符一次或多次 go+gle,该表达式可以匹配的范围从gogle 到goo…gle
*  匹配前面的字符零次或多次 go*gle,该表达式可以匹配的范围从ggle 到goo…gle
{n}  匹配前面的字符n 次 go{2}gle,该表达式只匹配google
{n,}  匹配前面的字符最少n 次 go{2,}gle,该表达式可以匹配的范围从google 到goo…gle
{n,m} 

匹配前面的字符最少n 次,最

多m 次

employe{0,2},该表达式可以匹配employ、employe 和

employee 3 种情况

英语词汇

背记有法,让英语不再成为编程学习的拦路虎!

string
含义:字符串

split
词义:分割

join
含义:连接

count
含义:计数

find
含义:查找

index
含义:索引

lower
含义:低级的

upper
含义:高级的

strip
含义:去除


lstrip
含义:只去掉左边的

rstrip
含义:只去掉右边的

format
含义:格式化

encode
含义:编码

decode
含义:解码

match
含义:匹配

search
含义:搜索

sub
含义:代替