文本数据可视化中一些概念

时间:2024-04-13 18:50:29

文本数据可视化

词云

词云是一个自动化的文本可视化工具。
词云的特点:1、自动提取高频词;2、呈现高频词;3、字体大小体现单词出现的次数。
文本数据可视化中一些概念
文本可视化的重要意义:在于帮助用户快速地完成大量文本阅读和理解,并从中获取重要的信息。
文本数据:比如:小说、报纸、网页等
应用场景:电子商务、社交计算、商业智能、用户体验、预测分析、公共关系

文本可视化的基本任务

1、文本内容可视化:总结展现文本中的内容;展现文本所包含的情感;辅助大规模文本数据集的浏览。
2、文本关系可视化:展现文本文件之间的关系;展现文件内容的内在联系。

文本可视化的流程
文本数据可视化中一些概念

文本内容可视化

1、基于关键词的文本内容可视化
2、基于特征的文本内容可视化
3、时序文档的文本内容可视化

基于关键词的文本内容可视化

比如;标签云、文本云、词云、wordle
方式:检索关键词并以模式排列;用颜色和大小进行编码。

上下文一致的词云技术

语义相关或者相近的词总会出现在相近位置

文本弧

围的螺线:文档中的句子
内部的单词:文档中的单词
字体、颜色:词频
位置:词的出现

文本指纹

揭示特征的分布规律;将特征用一系列像素图来表示

文本特征透镜

用于可视化一个文档集合中文本特征在不同粒度下的分布情况。

ConceptVector技术

利用单词在向量表达上的相似性来构建词典,或者说概念,以此来帮助用户检索和分析相关的文档。

时序词云

1、对文档集合进行时间划分
2、对文档按时间段进行可视化
3、结合交换技术

主题河流ThemeRiver

横轴:时间轴
每个颜色的河流:提取出来的一个主题
河流的宽度:主题讨论的热烈程度

文本关系可视化

分类:

1、句子层面的文本关系可视化
(1)单词树从句法层面呈现文本词汇的前缀关系。
单词树利用树形结构来可视化文本中的句子。
(2)短语网络
用节点链接图来展示无结构文本中语义单元彼此间的关系。
节点:词或者短语
边:用户指定的关系
箭头:关系的有向性
边的宽度:关系的频率
(3)句子树SentenTree
文档层面的文本关系可视化

文本数据可视化中一些概念

星系视图

将每个文档看作一颗星星;将文档投影成点集;点与点之间距离与文档主题相似性成正比。

主题地貌

用等高线展现相似文档的分布;
山体高度:文档位置分布的疏密程度
等高线和颜色;文本分布的密度
文档越相似,则点分布越密集

基于范例的大文本集合投影
新闻地图
Jigsaw(多协同视图)