数据挖掘算法||给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦

时间:2024-01-26 18:05:01

1.给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程。

100 BCDE

200 ACE

300 ABCE

400 CDEF

500 ABCDEF


答:

扫描(出现次数):

Item

Frequency

A

3

B

3

C

5

D

3

E

5

F

2


设最小支持度:Supportmin=3;

F-List降序排序:

CEABD

重写:

TID

Itemset

1

C,E,B,D

2

C,E,A

3

C,E,A,B

4

C,E,D

5

C,E,A,B,D


数据挖掘算法||给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_数据集

2.结合下面的例子给出KNN算法的步骤

如图所示,有两类数据,分别是蓝色方块红色三角形,现在,我们在图正中间有了一个绿色圆圈,并且需要判断它属于这两类中的哪一类。k的取值不同结果就不一样。


数据挖掘算法||给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_数据集_02

答:

如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,红⾊三⾓形所占⽐例⾼为2/3,判定绿色的这个待分类点属于红色三角形类。

如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,蓝⾊⽅块所占⽐例⾼,为3/5,判定绿色的这个待分类点属于蓝色正方形类。


3.计算两两之间的海明距离:000000,110011,010101和011100.

答:

000000,110011的海明距离:4;

000000,010101的海明距离:3;

000000,011100的海明距离:3;

110011,010101的海明距离:3;

110011,011100的海明距离:5;

010101,011100的海明距离:2;


4.计算下列集合对之间的Jaccard距离:

1){1,2,3,4}和{2,,3,4,5};

2){1,2,3}和{4,5,6}.

答:

1){1,2,3,4}和{2,3,4,5}的交集:{2,3,4},元素个数为3;

{1,2,3,4}和{2,,3,4,5}的并集:{1,2,3,4,5},元素个数为5

Jaccard距离3/5;


2){1,2,3}和{4,5,6}无交集;

{1,2,3}和{4,5,6}的并集:{1,2,3,4,5,6},元素个数为6;

的Jaccard距离0;


5.计算下列向量的夹角余弦:

(0,1,1,0,1,1)和(0,0,1,0,0,0).

答:

数据挖掘算法||给定如下表 所示的一个事务数据库,画出FP-tree树的生成过程&KNN算法的步骤&海明距离&Jaccard距离&向量的夹角余弦_Data_03

6.名词解释

  • 数据集(Dataset):
  • 定义:一组相关数据的集合,通常用于分析和建模。
  • 示例:一个包含数万个产品销售记录的数据表。
  • 特征(Feature):
  • 定义:数据集中用来描述每个观测或对象的变量。
  • 示例:一个产品特征可能包括价格、重量、颜色等。
  • 数据清洗(Data Cleaning):
  • 定义:处理数据集中的错误、不一致性和缺失值的过程。
  • 示例:删除重复记录或填充缺失的数据。
  • 数据集成(Data Integration):
  • 定义:将来自不同来源的数据集合并为一个的过程。
  • 示例:将来自不同部门的数据整合到一个*数据仓库。
  • 数据规约(Data Reduction):
  • 定义:在不丧失有用信息的前提下简化数据集的技术。
  • 示例:使用主成分分析(PCA)减少数据的维度。
  • 数据变换(Data Transformation):
  • 定义:改变数据形式以适应特定分析过程的操作。
  • 示例:对数值特征进行标准化或归一化处理。
  • 数据挖掘算法(Data Mining Algorithms):
  • 定义:用于从数据集中发现有用模式的计算方法。
  • 示例:使用决策树算法来预测客户流失。
  • 分类(Classification):
  • 定义:预测对象所属类别的数据挖掘任务。
  • 示例:根据客户的交易历史预测其是否会违约。
  • 聚类(Clustering):
  • 定义:将数据对象分组,使得同一组内的对象相似度高,而不同组之间的相似度低。
  • 示例:将客户按照购买行为进行分组。
  • 关联规则学习(Association Rule Learning):
  • 定义:发现数据集中项目之间的关联性或模式。
  • 示例:购物篮分析,发现哪些商品经常一起购买。
  • 回归(Regression):
  • 定义:预测数值型变量的数据挖掘任务。
  • 示例:预测房价随着时间的变化趋势。
  • 异常检测(Anomaly Detection):
  • 定义:识别那些与预期行为显著不同的数据点或事件。
  • 示例:检测信用卡交易中的欺诈行为。
  • 推荐系统(Recommender System):
  • 定义:根据用户的历史行为和偏好,为其推荐产品或服务的系统。
  • 示例:电商网站根据用户的历史购买和浏览行为推荐商品。
  • 知识库(Knowledge Base):
  • 定义:存储在数据挖掘过程中发现的知识和模式的数据库。
  • 示例:存储了多种商品销售模式的仓库。
  • 元数据(Metadata):
  • 定义:描述数据的数据,包括数据来源、格式、内容等信息。
  • 示例:数据集中每个特征的描述和定义。
  • 数据仓库(Data Warehouse):
  • 定义:用于决策支持的大规模、多结构数据集合。
  • 示例:企业用来进行市场分析和业务智能的数据中心。
  • 特征选择(Feature Selection):
  • 定义:从原始特征集中选择最相关的特征以提高模型性能的过程。
  • 示例:在预测房价时,选择与房价最相关的特征,如地段和面积。
  • 特征提取(Feature Extraction):
  • 定义:从原始数据中创建新的特征,这些新特征可以更好地表示数据的模式或结构。
  • 示例:使用词嵌入技术将文本数据中的单词转换为密集向量。
  • 监督学习(Supervised Learning):
  • 定义:训练数据包含输入特征和对应的目标变量,模型通过学习这些对应关系来进行预测。
  • 示例:使用有标签的图像数据训练一个分类模型来识别新的图像内容。
  • 无监督学习(Unsupervised Learning):
  • 定义:训练数据不包含目标变量,模型需要自行发现数据中的结构和模式。
  • 示例:通过分析客户的消费行为数据来发现不同的客户群体。
  • 半监督学习(Semi-supervised Learning):
  • 定义:训练数据包含少量有标签数据和大量无标签数据,模型利用这些数据进行学习。
  • 示例:使用少量标记的图像和大量未标记的图像训练一个分类模型。
  • 强化学习(Reinforcement Learning):
  • 定义:通过与环境的交互获得奖励信号,学习采取最优动作以最大化累积奖励的过程。
  • 示例:训练一个游戏AI,通过游戏中的得分来学习最佳的游戏策略。
  • 深度学习(Deep Learning):
  • 定义:使用包含多个隐藏层的神经网络模型进行学习,能够自动提取高级特征。
  • 示例:使用深度卷积神经网络进行图像识别或自然语言处理。
  • 交叉验证(Cross Validation):
  • 定义:将数据集分为训练集和测试集,以评估模型在未知数据上的泛化能力。
  • 示例:采用k折交叉验证来评估模型的稳定性和准确性。
  • 数据预处理(Data Preprocessing):
  • 定义:在数据分析或建模之前对原始数据进行清理、规范化和转换的过程。
  • 示例:去除文本数据中的停用词,或者对数值数据进行标准化处理。
  • 数据分布(Data Distribution):
  • 定义:数据在各种特性上的表现形式,包括数据的集中趋势、离散程度等。
  • 示例:通过直方图或箱线图来可视化数据的分布情况。
  • 数据采样(Data Sampling):
  • 定义:从较大的数据集中随机选择一部分数据进行研究的过程。
  • 示例:采用随机抽样或分层抽样方法来减少数据集的大小,便于分析。
  • 数据可视化(Data Visualization):
  • 定义:使用图形和图表来呈现数据,帮助人们理解数据的特征和模式。
  • 示例:使用散点图、折线图或柱状图来展示数据分布和关系。
  • 领域知识(Domain Knowledge):
  • 定义:特定领域的专业信息,对于理解数据和构建有效模型至关重要。
  • 示例:在进行金融数据挖掘时,对金融市场和金融产品的了解。
  • 数据质量(Data Quality):
  • 定义:数据的准确性、完整性、及时性、一致性和可用性等特征。
  • 示例:通过数据清洗和验证来保证数据的质量,提高分析结果的可靠性。