【前言】
自然语言:日常交流使用的语言
NLP:Natural Language Processing
【第1章 语言处理与Python】
1.1语言计算:文本和单词
基本入门
-想要获得我们期望的小数除法,要输入from __future__ import division
-下载NLTK数据包
import nltk
nltk.download()
-加载要用的文本
from nltk.book import *
搜索文本
-concordance词汇索引,会显示词汇所处的上下文
text1.concordance("monstrous")
-similar,查找还有哪些词会出现在相似的上下文中
text1.similar("monstrous")
-common_contexts,允许我们研究两个或者两个以上的词共同的上下文
text2.common_contexts(["monstrous","very"])
-dispersion_plot,判断词汇在文本中的位置,使用离散图来表示位置。
text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])
-不同风格生成文本
text3.generate()
计数词汇
-len(text3)出现的词和标点符号的个数
-sorted(set(text3))所有文章出现的词汇,并且进行排序(词类型,一个词在一个文本中独一无二出现的形式或者拼写)
-from __future__ import division
len(text3)/len(set(text3))
丰富度测量,每个字平均被使用的次数
-text3.count("smote")特定次出现的次数
-100*text4.count('a')/len(text4)特定的词在文本中占据的百分比
-定义函数,进行重复运算。
def lexical_diversity(text):
return len(text)/len(set(text))
def percentage(count,total):
return 100*count/total
相关文章
- RabbitMQ 优点和缺点- 消息可靠性:RabbitMQ 提供了持久化功能和消息确认机制,确保消息在各种情况下都能可靠地存储和处理。 灵活的路由:通过多种交换机类型和绑定规则,RabbitMQ 能够灵活地路由消息到指定的队列。 支持多种消息协议:实现了 AMQP 等(MQTT、STOMP)标准化、开放的消息队列协议,使其能够与多种语言编写的应用程序进行通信。 插件化扩展:RabbitMQ 提供了丰富的插件系统,可以通过插件扩展功能,如死信队列、压缩、追踪等。 高可用性:支持集群模式和镜像队列,确保服务的可用性 易用性和可管理性:提供了丰富的 API 和管理工具,以及多种客户端库和框架支持,易于集成和使用。 多语言支持:RabbitMQ 支持多种编程语言的客户端,包括 Java、Python、Ruby、C#、Node.js 等,方便开发人员集成到各种应用中。 高性能:在处理大量并发消息时表现出色。 广泛的社区支持:拥有庞大的开发者社区和丰富的文档资源。 劣势: 性能和吞吐量较低:相比于 Apache Kafka 等面向大数据流处理的消息队列系统,RabbitMQ 的吞吐量较低,不适合处理海量的实时数据流。RabbitMQ 的设计更注重消息的可靠性和灵活性,而非极高的吞吐性能。
- python 自然语言处理(二)____获得文本语料和词汇资源
- 【语言处理与Python】1.2将文本当作词链表
- 【语言处理与Python】1.1文本和单词
- 【语言处理与Python】8.5依存关系和依存文法\8.6文法开发
- 【语言处理与Python】1.1文本和单词
- Python自然语言处理学习笔记(3):1.1 语言计算:文本和单词
- python自然语言处理——1.1语言计算:文本和词汇
- Python自然语言处理学习笔记(4):1.2 进一步学习Python:将文本视作单词列表
- 【语言处理与Python】3.1从网络和硬盘访问文本