告别内存爆炸：MyBatis Cursor流式查询处理百万级数据的实战避坑指南-程序员充电站

百万级数据处理的优雅解法：MyBatis Cursor流式查询深度实践

在当今数据爆炸的时代，后端开发者经常面临处理海量数据的挑战。想象一下这样的场景：你需要从数据库中导出百万条记录生成报表，或者将大量数据迁移到另一个系统。传统的分页查询方式不仅效率低下，还可能导致内存溢出（OOM）——当数据量超过JVM堆内存限制时，应用程序就会崩溃。这正是MyBatis Cursor流式查询大显身手的地方。

1. 为什么需要流式查询？

传统的数据查询方式就像一次性把整个图书馆的书都搬到你的办公室——既占空间又效率低下。而流式查询则像是请图书管理员每次只递给你一本书，读完再换下一本。

内存消耗对比实验（测试环境：MySQL 8.0，100万条测试数据）：

查询方式	内存峰值	执行时间	适用场景
传统List查询	1.2GB	8.5s	小数据集
分页查询(每页5000)	350MB	32s	中等数据集
Cursor流式查询	50MB	12s	大数据集

// 传统查询方式 - 危险！ List<HugeData> allData = hugeDataMapper.selectAll(); // 可能引发OOM // 流式查询 - 安全 try (Cursor<HugeData> cursor = hugeDataMapper.queryByCursor()) { cursor.forEach(data -> process(data)); }

流式查询的核心优势在于：

内存友好：不会一次性加载所有数据
性能稳定：避免了深度分页的性能衰减
代码简洁：无需手动管理分页逻辑

2. MyBatis Cursor的三种正确打开方式

2.1 事务注解方案（Spring环境推荐）

@Transactional public void exportLargeData(OutputStream output) throws IOException { try (Cursor<Order> cursor = orderMapper.streamAllOrders()) { CSVWriter writer = new CSVWriter(new OutputStreamWriter(output)); cursor.forEach(order -> { writer.writeNext(convertToCsvRow(order)); if (rowsProcessed++ % 1000 == 0) { writer.flush(); // 定期刷新缓冲区 } }); } }

注意事项：

确保方法有@Transactional注解
使用try-with-resources确保Cursor正确关闭
大事务可能导致数据库连接占用时间过长

2.2 SqlSessionFactory手动控制方案

public void processWithManualSession() { SqlSession session = sqlSessionFactory.openSession(ExecutorType.SIMPLE); try { OrderMapper mapper = session.getMapper(OrderMapper.class); try (Cursor<Order> cursor = mapper.streamAllOrders()) { cursor.forEach(this::processOrder); } } finally { session.close(); // 必须手动关闭 } }

这种方案适合：

需要精细控制连接生命周期的场景
非Spring环境的应用
需要自定义ExecutorType的情况

2.3 TransactionTemplate编程式事务方案

public void processInTemplate() { transactionTemplate.execute(status -> { try (Cursor<Product> cursor = productMapper.streamAllProducts()) { cursor.forEach(product -> { if (shouldFilter(product)) { status.setRollbackOnly(); // 可以触发回滚 throw new RuntimeException("Filter condition met"); } processProduct(product); }); } catch (IOException e) { throw new RuntimeException(e); } return null; }); }

优势：

可以在遍历过程中控制事务
比注解方式更灵活
适合需要条件回滚的场景

3. 生产环境避坑指南

3.1 连接池兼容性问题

不同连接池对Cursor的支持有差异：

连接池	版本	已知问题	解决方案
Druid	<1.2.10	关闭连接时打印ERROR日志	升级到1.2.10+或配置logFilter
HikariCP	所有	无	无需特殊处理
Tomcat	所有	长时间占用连接可能导致回收	适当增大超时时间

Druid配置示例：

<bean id="logFilter" class="com.alibaba.druid.filter.logging.Slf4jLogFilter"> <property name="statementExecutableSqlLogEnable" value="false"/> </bean>

3.2 资源管理最佳实践

总是使用try-with-resources：

// 正确做法 try (Cursor<Data> cursor = mapper.streamData()) { cursor.forEach(...); } // 危险做法 Cursor<Data> cursor = mapper.streamData(); cursor.forEach(...); // 可能忘记关闭

控制处理速度：

RateLimiter limiter = RateLimiter.create(1000); // 每秒1000条 try (Cursor<Data> cursor = mapper.streamData()) { cursor.forEach(data -> { limiter.acquire(); process(data); }); }

批量处理优化：

List<Data> batch = new ArrayList<>(BATCH_SIZE); try (Cursor<Data> cursor = mapper.streamData()) { cursor.forEach(data -> { batch.add(data); if (batch.size() >= BATCH_SIZE) { bulkProcess(batch); batch.clear(); } }); if (!batch.isEmpty()) { bulkProcess(batch); } }

3.3 性能调优技巧

MySQL服务器端配置：

-- 增加超时时间避免连接断开 SET GLOBAL wait_timeout = 28800; SET GLOBAL interactive_timeout = 28800; -- 优化网络包大小 SET GLOBAL max_allowed_packet = 256M;

MyBatis配置优化：

<settings> <setting name="defaultExecutorType" value="SIMPLE"/> <!-- 适合流式查询 --> <setting name="fetchSize" value="1000"/> <!-- 控制每次网络往返获取的行数 --> </settings>

JDBC URL参数：

jdbc:mysql://host/db?useCursorFetch=true&defaultFetchSize=1000

4. 实战：构建高效数据导出服务

让我们通过一个完整的案例，展示如何用Cursor实现安全高效的数据导出。

4.1 架构设计

客户端 → 导出请求 → Spring Controller → 导出服务(Cursor流式处理) → 分块写入 → HTTP响应流

4.2 核心实现代码

@RestController @RequiredArgsConstructor public class DataExportController { private final ExportService exportService; @GetMapping("/export/csv") public void exportCsv(HttpServletResponse response) throws IOException { response.setContentType("text/csv"); response.setHeader("Content-Disposition", "attachment; filename=export.csv"); exportService.exportToCsv(response.getOutputStream()); } } @Service @Transactional @RequiredArgsConstructor class ExportService { private final LargeDataMapper dataMapper; public void exportToCsv(OutputStream output) throws IOException { try (Cursor<BusinessData> cursor = dataMapper.streamAll(); CSVWriter writer = new CSVWriter(new OutputStreamWriter(output))) { writer.writeNext(header()); // 写表头 cursor.forEach(data -> { writer.writeNext(convertToRow(data)); if (rowsExported++ % 1000 == 0) { writer.flush(); // 定期刷新 } }); } } }

4.3 压力测试结果

使用JMeter模拟100并发导出：

数据量	传统方式	Cursor方式
10万条	失败(OOM)	成功(45s)
50万条	失败(OOM)	成功(3m12s)
100万条	失败(OOM)	成功(6m48s)

内存占用对比：

传统方式：随着数据量线性增长，最终OOM
Cursor方式：稳定在50-100MB

5. 高级应用场景

5.1 数据迁移管道模式

public void migrateData() { try (Cursor<SourceData> source = sourceMapper.streamAll(); TargetMapper target = targetSession.getMapper(TargetMapper.class)) { source.forEach(src -> { TargetData targetData = convert(src); target.insert(targetData); if (++count % 1000 == 0) { targetSession.commit(); // 分批提交 logger.info("Migrated {} records", count); } }); targetSession.commit(); // 提交剩余记录 } }

5.2 与Spring Batch集成

@Bean public ItemReader<Data> cursorItemReader() { return () -> { Cursor<Data> cursor = dataMapper.streamAll(); return new Iterator<Data>() { @Override public boolean hasNext() { return cursor.hasNext(); } @Override public Data next() { return cursor.next(); } }; }; } @Bean public Step dataExportStep(ItemReader<Data> reader) { return stepBuilderFactory.get("dataExport") .<Data, Data>chunk(1000) .reader(reader) .writer(chunk -> { // 处理逻辑 }) .build(); }

5.3 响应式编程结合

public Flux<Data> streamDataReactive() { return Flux.create(emitter -> { try (Cursor<Data> cursor = dataMapper.streamAll()) { cursor.forEach(emitter::next); emitter.complete(); } catch (Exception e) { emitter.error(e); } }, FluxSink.OverflowStrategy.BUFFER); }

在实际项目中，我们发现Cursor结合响应式编程特别适合实时数据看板场景，可以实现低延迟的数据推送。