Hbase 多条件查询的解决思路

时间:2024-04-06 16:21:17

 

背景:

开发一个根据标签的的范围圈定符合条件的所有用户的服务,并将其提供给营销部门使用。在随后的开发过程中 我门发现已经有人做过这块,其文章中描述的服务与我们的需求及其相似。不过我们想要实现的是更为复杂的多条件查询。

摘抄:(以下为前辈的blog主要内容摘要,传送门

本文主要内容是通过合理hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowkey的利用率,加快查询速度。行键(rowkey)并不是简单的把所有要查询的列的值直接拼接起来,而是将各个列的数据转成整型(int)数据来存储。之后实现两个自定义的比较器(comparator):一个是相等比较器,用于实现类似于SQL的多条件精确查找功能。

select * from table where col1='a' and col2='b'

另一个是范围比较器,用于实现类似于SQL语句

select * from table where col3 > '10' and col4<'100'

这样的范围查找功能。

当两个比较器配合使用再结合hbase的过滤器,以实现类似于下面这条SQL语句这样多条件的查询

select * from table where col1='a' and col2='b' and col3 > '10' and col4<'100'

---------------------

需求:

TPS800,亿级数据体量实现秒级响应。

解决思路:

服务的TPS我们完全不需要为hbase担心,只需要在响应效率上下足功夫即可。

提高效率的第一要务就是给服务所需要的Hbase表设计一个更加合适的RowKey。

遵从以下原则:(Hbase的Rowkey设计

1.尽可能的将筛选条件放入RowKey中去。

2.尽可能将等值条件、固定条件、取值范围多样的条件靠前排。

3.尽可能压缩Rowkey长度。

将不能放入RowKey的字段放入列标识内,使用列过滤器进行筛选。

有以下几点需要注意:

1.一个字段的列过滤器逻辑关系「交集或并集」要清晰。

2.多个字段的过滤涉及到既有交集也有并集的情况,层级关系要明确。

3.涉及到数值比较的时候务必注意字段类型对于Hbase的差别。(Hbase原始数据类型

(如果对过滤器不了解可以点击查看Hbase过滤器的使用。)

设计思路:

我们首先根据固定参数通过设定RowKey的startKey和endKey来缩小范围,使用RowFilter来进一步缩小数据集范围,使用列过滤器对范围字段进行筛选,最终获取到精确的用户集合。

逻辑图如下:

Hbase 多条件查询的解决思路

Hbase 多条件查询的解决思路

开发过程:

《略略略》,开发中遇到的雷点会在文末提及。

测试结果:

我们置入筛选条件,可以查询得到相应的数据集合。通过与hive查询到的数据量进行比较,结果一致可信。

 

响应效率:

数据量:11G

查询出结果集:25W左右

响应时间:2.3S

 

优化步骤:

此处仅提供思路,并未实现。

1.hbase表预分区

2.hbase表减除冗余字段,减小数据容量

3.二级索引

 

开发雷点:

1.数值比较器要确定hbase每个字段的存储类型。

2.使用startRow和endRow是务必要注意是否需要RowFilter进行过滤

3.经常变化的字段不要放入rowKey避免造成数据量持续过快增长

4.自定义比较器的添加需要重启hbase才会生效