读取pdf文件转为txt文件，使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本，读取pdf的文字到txt文本中。
txt文本中，包含pdf的页码信息，使用如下代码删除pdf的页码

下述是包含页码信息的一段文本，在其中给出了4中不同格式的页码信息。

text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

— 1 —  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""

import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n— \d+ —( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式，并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下，删除掉页码之后的文本如下：
在这里插入图片描述

秒客网

读取pdf文件转为txt文件，使用正则表达式删除页码

相关文章