Atlas元数据治理 Web页面操作详解(超详细)

时间:2024-03-26 22:07:20

1Atlas基本说明
1.1Atlas简介
Atlas 是一个可伸缩和可扩展的核心基础治理服务集合 ,使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。
Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据科学家,数据分析师和数据治理团队提供围绕这些数据资产的协作功能。
1.2Atlas特点
一、Atlas支持各种Hadoop和非Hadoop元数据类型
二、提供了丰富的REST API进行集成
三、对数据血缘的追溯达到了字段级别,这种技术还没有类似框架可以实现
四、对权限也有很好的控制
2Atlas的UI界面
2.1Atlas登录界面
网址:*************** 用户名:密码 *********************
Atlas元数据治理 Web页面操作详解(超详细)

2.2Search界面
在Search界面中提供了Basic(基础)和Advanced(高级)两种UI界面。可查询的数据类型包括但不限于hive_db、hive_table、hdfs_path…点击橘色方框中的箭头即可查看选择可供查找的数据类型
Atlas元数据治理 Web页面操作详解(超详细)

2.2.1Basic
在Basic界面中,查询条件有Type(查询的数据类型)、Classification(查询数据的所属分类)、Term(查询数据的术语)、Text(查询数据的name)。还可以保存常用的查询条件组合。
Atlas元数据治理 Web页面操作详解(超详细)

2.2.2Advanced
在Advanced界面中查询条件包括:Type(查询的数据类型)、Query(查询语句)。也可以保存常用的查询条件组合。
Atlas元数据治理 Web页面操作详解(超详细)

2.3Classification界面
你可以设置一个分类标签,并对导入atlas的数据增加分类标签,方便数据的管理与查找
Atlas元数据治理 Web页面操作详解(超详细)

2.3.1为数据添加分类
在Atlas中一个数据可以拥有多个分类标签,在数据的Classification列点击’+’就可以为该数据添加分类
Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)
2.3.2分类列表两种不同UI展示
Atlas元数据治理 Web页面操作详解(超详细)

2.4Glossary界面
Atlas的术语表(Glossary)提供了一些适当的“单词”,这些“单词”能彼此进行关连和分类,以便业务用户在使用的时候,即使在不同的上下文中也能很好的理解它们。此外,这些术语也是可以映射到数据资产中的,比如:数据库,表,列等。
术语表抽象出了和数据相关的专业术语,使得用户能以他们更熟悉的方式去查找和使用数据。

2.4.1术语表的相关操作
术语视图允许用户执行以下操作:
创建,更新和删除术语
添加,删除和更新与术语关联的分类
添加,删除和更新术语的分类
在术语之间创建各种关系
查看与术语关联的实体
Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)
新建一个术语关系 选择一个合适的术语关系在Related Terms列选择一个术语 建立联系

Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)

2.4.2Category表的相关操作
类别视图允许用户执行以下操作:
创建,更新和删除类别和子类别
将术语与类别相关联
Category的作用就是方便术语的管理与使用
Atlas元数据治理 Web页面操作详解(超详细)

3Atlas的Hive的使用
3.1Atlas中hive的数据类型
1.hive_column(hive的列)
Atlas元数据治理 Web页面操作详解(超详细)

2.hive_column_lineage(hive的列级血缘关系)
注:因为hive1.1不支持列级血缘关系展示,这里不做说明。
3.hive_db(hive的库)
Atlas元数据治理 Web页面操作详解(超详细)

4.hive_process(hive的进程)
Atlas元数据治理 Web页面操作详解(超详细)
5.hive_storagedesc(hive的储存描述)
Atlas元数据治理 Web页面操作详解(超详细)
6.hive_table(hive的表)
Atlas元数据治理 Web页面操作详解(超详细)

3.2Hive的血缘追溯
在Atlas 创建以前的表是没有办法导入血缘关系内容的
用一个小表做一个演示
创建了一个小表,导入几条数据
Atlas元数据治理 Web页面操作详解(超详细)

由student表 as 出stident1表
Atlas元数据治理 Web页面操作详解(超详细)

就能在这个表的lineage中看到这个表是怎么来的 自己->爸爸妈妈->爷爷奶奶->…
Atlas元数据治理 Web页面操作详解(超详细)

再根据 stident1 创建一个 stident2

Atlas元数据治理 Web页面操作详解(超详细)
Atlas元数据治理 Web页面操作详解(超详细)

血缘追溯功能是数据溯源的主要展示手段,主要通过数据流图的形式,展示出数据从哪里来,往哪去
如果数据出现了问题 就可以通过追溯数据的来源 来找到数据出现问题的原因,在哪个环节出现了问题