FlinkCDC 1.16.2实战：手把手教你用SQL搞定MySQL多源表合并同步（附完整脚本）-程序员充电站

FlinkCDC 1.16.2实战：构建企业级MySQL多源表合并同步方案

当企业数据分散在多个MySQL实例中时，如何实现实时、高效的数据汇聚成为数据工程师面临的核心挑战。本文将深入探讨如何利用FlinkCDC 1.16.2的SQL能力，设计一个可扩展的多源表合并同步方案，特别针对同构表结构但分布在不同位置的业务场景（如分公司订单表、区域库存表等）。

1. 环境准备与架构设计

在开始编码前，我们需要明确技术选型和系统架构。FlinkCDC作为基于Flink的变更数据捕获框架，相比传统ETL工具具有明显的实时性优势。以下是基础环境配置清单：

软件版本：
- Flink 1.16.2（Scala 2.12）
- JDK 1.8+
- MySQL 5.7+/8.0（需开启binlog）

必备JAR包：

flink-sql-connector-mysql-cdc-2.3.0.jar flink-connector-jdbc-3.0.0-1.16.jar

多源同步架构的核心在于解决三个问题：数据一致性、来源标识和性能优化。我们采用UNION ALL合并数据流，通过sourceLine字段标记数据来源，配合检查点机制保证Exactly-Once语义。

提示：生产环境建议将JAR包放入Flink的lib目录，而非每次提交任务时上传

2. 表定义与连接器配置

2.1 多源表定义

假设我们需要合并三个分公司的订单表，首先定义CDC源表。注意每个源表需要独立的配置但相同的结构：

-- 北京分公司订单表 CREATE TABLE source_order_bj ( order_id VARCHAR(32) NOT NULL, user_id INT, amount DECIMAL(10,2), order_time TIMESTAMP(3), PRIMARY KEY (order_id) NOT ENFORCED ) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'bj-db.example.com', 'port' = '3306', 'username' = 'flinkuser', 'password' = 'SecurePass123', 'database-name' = 'order_db', 'table-name' = 't_order', 'server-time-zone' = 'Asia/Shanghai', 'scan.incremental.snapshot.enabled' = 'true' ); -- 上海分公司订单表（仅hostname不同） CREATE TABLE source_order_sh ( ... -- 相同字段结构 ) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'sh-db.example.com', ... -- 其他相同配置 );

2.2 目标表设计

目标表需要包含所有源表字段，并增加来源标识字段：

CREATE TABLE target_merged_order ( order_id VARCHAR(32) NOT NULL, user_id INT, amount DECIMAL(10,2), order_time TIMESTAMP(3), source_region VARCHAR(20), -- 更直观的来源标识 sync_time TIMESTAMP(3) METADATA FROM 'op_ts', -- 自动获取处理时间 PRIMARY KEY (order_id) NOT ENFORCED ) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://central-db:3306/data_warehouse', 'table-name' = 'dw_order', 'username' = 'dw_user', 'password' = 'DW@Pass456', 'sink.buffer-flush.interval' = '1s', 'sink.max-retries' = '3' );

关键配置对比：

参数	CDC源表	JDBC目标表	作用
scan.incremental.snapshot.enabled	true	-	启用增量快照减少锁表时间
server-time-zone	Asia/Shanghai	-	统一时区避免时间错乱
sink.buffer-flush.interval	-	1s	控制写入频率平衡性能与实时性

3. 数据合并与自动化部署

3.1 多源合并SQL

使用UNION ALL合并数据流并标记来源：

INSERT INTO target_merged_order SELECT order_id, user_id, amount, order_time, 'beijing' AS source_region FROM source_order_bj UNION ALL SELECT order_id, user_id, amount, order_time, 'shanghai' AS source_region FROM source_order_sh;

3.2 参数化部署方案

创建init.sql配置文件实现一键启动：

-- init.sql SET execution.runtime-mode = streaming; SET pipeline.name = order_sync_job; SET parallelism.default = 4; SET table.exec.source.idle-timeout = 60s;

将表定义和任务SQL保存到job.sql：

-- job.sql BEGIN STATEMENT SET; -- 表定义省略... -- 合并插入语句省略... END;

启动命令整合环境变量：

#!/bin/bash # start_sync.sh export FLINK_HOME=/opt/flink-1.16.2 $FLINK_HOME/bin/sql-client.sh \ -i $FLINK_HOME/conf/init.sql \ -f $FLINK_HOME/jobs/order_sync.sql

4. 高级优化与问题排查

4.1 性能调优策略

并行度优化：

SET table.exec.resource.default-parallelism = 8; -- 根据CPU核心数调整

检查点配置：

SET execution.checkpointing.interval = 30s; SET execution.checkpointing.timeout = 10min;

源表监控：

SELECT * FROM `source_order_bj` /*+ OPTIONS('scan.incremental.snapshot.chunk.size'='8096') */;

4.2 常见问题解决方案

问题1：数据延迟高

检查网络带宽
调整sink.buffer-flush参数
增加并行度

问题2：主键冲突

-- 目标表启用upsert模式 CREATE TABLE target_merged_order ( ... ) WITH ( ... 'sink.upsert-materialize' = 'NONE', 'sink.primary-key' = 'order_id' );

问题3：断点续传

确保检查点配置正确，并在重启时恢复：

./bin/flink run -s hdfs://checkpoints/... job.jar

5. 生产环境最佳实践

经过多个项目的验证，以下配置组合在千万级数据量下表现稳定：

-- 高性能配置模板 CREATE TABLE optimized_source ( ... ) WITH ( 'scan.incremental.snapshot.chunk.size' = '4096', 'chunk-key.even-distribution.factor.upper-bound' = '100', 'connect.timeout' = '30s', 'connection.pool.size' = '20' ); CREATE TABLE optimized_sink ( ... ) WITH ( 'sink.buffer-flush.max-rows' = '500', 'sink.parallelism' = '8', 'sink.max-retries' = '5' );

对于跨地域同步，建议在数据库前部署代理服务减少直连延迟。曾遇到一个案例：通过调整scan.incremental.snapshot.chunk.size从默认值1024提升到8196，使全量同步时间缩短了40%。