本章开始导入语句

from __future__ import division

import nltk,re,pprint

3.1从网络和硬盘访问文本

电子书

from urllib import urlopen

url=”http://www.gutenberg.org/files/2554/2554.txt”

raw=urlopen(url).read()

#如果使用了Internet代理，需要手工指定代理

proxies={‘http’:’http://www.someproxy.com:3128’}

raw=urlopen(url,proxies=proxies).read()

#对得到的文本分词操作

tokens=nltk.word_tokenize(raw)

处理的HTML

url=”http://news.bbc.co.uk/2/hi/health/2284783.stm”

html=urlopen(url).read()

#清楚不必要的标签和内容

raw=nltk.clean_html(html)

#分词

tokens=nltk.word_tokenize(raw)

#转换类型

text.=nltk.Text(tokens)

#只有转换了类型，才可以使用一些有意义的函数

text.concordance(‘gene’)

处理搜索引擎的结果

网络：被看作未经标注的巨大的语料库

搜索引擎的主要优势：

1、规模，一个庞大的文件集，很容易找到感兴趣的语言模式

2、容易使用

缺点：

1、允许的搜索方式范围收到严格限制，一般只允许搜索单个词或者词串

2、搜索引擎给出的结果不一致

3、搜索结果中的标记会不可预料的改变

处理RSS订阅

可以使用第三方Python库Universal Feed Parser来访问博客

读取本地文件

f=open(‘document.txt’)

raw=f.read()

#检查当前目录

import os

os.llistdir(‘.’)

#分行读取一个文件

for line in f:

print line.strip()

从PDF、MS Word及其他二进制格式中提取文本

第三方函数库pypdf和pywin32

捕获用户输入

s=raw_input(“Enter some text:”)

NLP的流程

【语言处理与Python】3.1从网络和硬盘访问文本

秒客网