大数据量查询容易OOM？试试MySQL流式查询

一、前言

程序访问 MySQL 数据库时，当查询出来的数据量特别大时，数据库驱动把加载到的数据全部加载到内存里，就有可能会导致内存溢出（OOM）。

其实在 MySQL 数据库中提供了流式查询，允许把符合条件的数据分批一部分一部分地加载到内存中，可以有效避免OOM；本文主要介绍如何使用流式查询并对比普通查询进行性能测试。

二、JDBC实现流式查询

使用JDBC的 PreparedStatement/Statement 的 setFetchSize 方法设置为 Integer.MIN_VALUE 或者使用方法 Statement.enableStreamingResults() 可以实现流式查询，在执行 ResultSet.next() 方法时，会通过数据库连接一条一条的返回，这样也不会大量占用客户端的内存。

public int execute(String sql, boolean isStreamQuery) throws SQLException {

    Connection conn = null;

    PreparedStatement stmt = null;

    ResultSet rs = null;

    int count = 0;

    try {

        //获取数据库连接

        conn = getConnection();

        if (isStreamQuery) {

            //设置流式查询参数

            stmt = conn.prepareStatement(sql, ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);

            stmt.setFetchSize(Integer.MIN_VALUE);

        } else {

            //普通查询

            stmt = conn.prepareStatement(sql);

        }

        //执行查询获取结果

        rs = stmt.executeQuery();

        //遍历结果

        while(rs.next()){

            System.out.println(rs.getString(1));

            count++;

        }

    } catch (SQLException e) {

        e.printStackTrace();

    } finally {

        close(stmt, rs, conn);

    }

    return count;

}

PS：上面的例子中通过参数 isStreamQuery 来切换流式查询与普通查询，用于下面做测试对比。

三、性能测试

创建了一张测试表 my_test 进行测试，总数据量为 27w 条，分别使用以下4个测试用例进行测试：

大数据量普通查询(27w条)
大数据量流式查询(27w条)
小数据量普通查询(10条)
小数据量流式查询(10条)

3.1. 测试大数据量普通查询

@Test

public void testCommonBigData() throws SQLException {

    String sql = "select * from my_test";

    testExecute(sql, false);

}

3.1.1. 查询耗时

27w 数据量用时 38 秒

大数据量查询容易OOM？试试MySQL流式查询

3.1.2. 内存占用情况

使用将近 1G 内存

大数据量查询容易OOM？试试MySQL流式查询

3.2. 测试大数据量流式查询

@Test

public void testStreamBigData() throws SQLException {

    String sql = "select * from my_test";

    testExecute(sql, true);

}

3.2.1. 查询耗时

27w 数据量用时 37 秒

大数据量查询容易OOM？试试MySQL流式查询

3.2.2. 内存占用情况

由于是分批获取，所以内存在30-270m波动

大数据量查询容易OOM？试试MySQL流式查询

3.3. 测试小数据量普通查询

@Test

public void testCommonSmallData() throws SQLException {

    String sql = "select * from my_test limit 100000, 10";

    testExecute(sql, false);

}

3.3.1. 查询耗时

10 条数据量用时 1 秒

大数据量查询容易OOM？试试MySQL流式查询

3.4. 测试小数据量流式查询

@Test

public void testStreamSmallData() throws SQLException {

    String sql = "select * from my_test limit 100000, 10";

    testExecute(sql, true);

}

3.4.1. 查询耗时

10 条数据量用时 1 秒

大数据量查询容易OOM？试试MySQL流式查询

四、总结

MySQL 流式查询对于内存占用方面的优化还是比较明显的，但是对于查询速度的影响较小，主要用于解决大数据量查询时的内存占用多的场景。

DEMO地址：https://github.com/zlt2000/mysql-stream-query

扫码关注有惊喜！

大数据量查询容易OOM？试试MySQL流式查询

大数据量查询容易OOM？试试MySQL流式查询的更多相关文章

DB2大数据量优化查询解决方案
利用DB2表分区的功能对大数据量的表进行分区,可以优化查询. 表分区介绍: 表分区是一种数据组织方案,它根据一列或多列中的值把表数据划分为多个称为数据分区的存储对象. (我觉得表分区就类似于Wind ...
Mysql中使用JDBC流式查询避免数据量过大导致OOM
一.前言 java 中MySQL JDBC 封装了流式查询操作,通过设置几个参数,就可以避免一次返回数据过大导致 OOM. 二.如何使用 2.1 之前查询 public void selectData ...
mysql处理大数据量的查询速度究竟有多快和能优化到什么程度
mysql处理大数据量的查询速度究竟有多快和能优化到什么程度深圳-ftx(1433725026) 18:10:49 mysql有没有排名函数啊横瓜(601069289) 18:13:06 无 ...
MySQL大数据量分页查询
mysql大数据量使用limit分页,随着页码的增大,查询效率越低下. 测试实验 1. 直接用limit start, count分页语句, 也是我程序中用的方法: select * from p ...
【1】MySQL大数据量分页查询方法及其优化
---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适应场景: 适用于数据量较少的情况(元组百/千 ...
MySQL大数据量分页查询方法及其优化
MySQL大数据量分页查询方法及其优化 ---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适 ...
MySQL分页查询大数据量优化方法
方法1: 直接使用数据库提供的SQL语句语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N适应场景: 适用于数据量较少的情况(元组百/千级)原因/缺点: ...
mysql的大数据量的查询
mysql的大数据量查询分页应该用where 条件进行分页,limit 100000,100,mysql先查询100100数据量,查询完以后,将这些100000数据量屏蔽去掉,用100的量,但是如果 ...
提高MYSQL大数据量查询的速度
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

随机推荐

iOS真机调试引入第三方库(如友盟等)编译时候，出现错误提示
用Xcode 7 beta 3在真机(iOS 8.3)上运行一下工程,结果发现工程编译不过.看了下问题,报的是以下错误: MARK:解决方法:在building Setting 中设置bitCode ...
SharePoint Web Part Error – The Specified Solution Was Not Found
If you develop, release and add a SharePoint 2010 sandboxed solution web part to a page, then change ...
jquery插件之拖拽改变元素大小
该插件乃本博客作者所写,目的在于提升作者的js能力,也给一些js菜鸟在使用插件时提供一些便利,老鸟就悠然地飞过吧. 此插件旨在实现目前较为流行的拖拽改变元素大小的效果,您可以根据自己的实际需求来设置被 ...
serialization机制
首先说明一下序列化的知识: java中的序列化(serialization)机制能够将一个实例对象的状态信息写入到一个字节流中,使其可以通过socket进行传输.或者持久化存储到数据库或文件系统中:然 ...
SQL基础篇——如何搭建一个数据库
特别提醒:所有的新建数据库,表,行,列都可以通过对象资源管理器操作,下面所讲的为查询操作方法一.新建数据库使用CREATE DATABASE语句建立数据库: 新建查询-- CREATE DATAB ...
C&num;编程实现Excel文档中搜索文本
有了在Word文档中编程实现搜索文本的经验,在Excel中实现这个功能也并非难事. 打开Excel的VBA帮助,查看Excel的对象模型,很容易找到完成这个功能需要的几个集合和对象:Applicati ...
poj1743 Musical Theme（后缀数组|后缀自动机）
[题目链接] http://poj.org/problem?id=1743 [题意] 求不可重叠最长重复子串. 2015-11-27 [思路] 1) 据题意处理字符串 ...
ZYB&&num;39&semi;s Premutation(有逆序数输出原序列，线段树)
ZYB's Premutation Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Othe ...
git 使用系列（一）—— git stash 的使用
1. git 放弃本地修改 git checkout . #本地所有修改的.没有的提交的,都返回到原来的状态 git stash #把所有没有提交的修改暂存到stash里面.可用git stash p ...
scrapy实战之scrapyrt的使用
scrapyrt为scrapy提供了一个http接口,有了它,我们不用再执行命令,而是直接请求一个http接口来启动项目,如果项目是部署在远程的,会比较方便. 1.安装: pip install sc ...