news 2026/4/18 7:25:38

生产事故-Caffeine缓存误用之临下班的救赎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
生产事故-Caffeine缓存误用之临下班的救赎

0x01 事故背景

2025年7月9日17时有余,笔者正准备结束疲惫的一天,关机走人之时,桌面右下角安静了一天的内部通讯软件图标突然亮起,内心顿感不妙……打开一看,原来是运维小哥找过来了,说是某接口服务连续多次调用超时或失败,触发告警阈值,具体原因不明,请求支援。(临下班出事似乎已成为一种规律)

0x02 事故分析

该服务是一个基于 SpringBoot + JDK 1.8 的 API 服务,提供了几个信息查询接口,没有复杂的业务逻辑,也不涉及第三方接口调用,仅依赖于数据库进行简单的 CURD 操作。

第一时间让运维拷贝和固定了事故系统日志及生产版本应用包。发现该服务在一周前升级部署过,不排除是版本升级引起的问题。于是先留一手,招呼运维小哥做好随时进行版本回退的准备,以免不能及时修复问题。

运维小哥已经排除了是网络和线路的问题,也尝试按照常见故障应对手册重启过应用,服务短暂恢复正常,但是随着请求压力上来以后,又会频繁失败触发告警。为了避免事故进一步扩大,运维小哥选择迅速摇人。

秉着先易后难的顺序,先快速扫描了一遍应用日志,常规日志未见明显ERROR、WARN以及Exception等信息,SQL日志未见慢查询和连接池异常。随后检查数据库压力,发现数据库活跃连接数不高,也未见死锁和异常会话。

jps找到服务进程对应的PID,使用top命令查看进程的资源占用情况,发现服务的 CPU 和内存资源占用不高。ss -antp|grep :9999| wc -l查看对应端口的连接情况,大约两百多个活跃连接,属于正常范围内。磁盘监控未见明显压力,看来基本可以确定是应用本身的问题。

于是使用jstack -l保存了第一次线程快照,然后让运维小哥重启接口服务,果然如小哥所说,接口调用短暂正常以后很快又出现异常。为了排除偶然因素干扰,这时做了第二次线程快照用于对照分析,同时使用jmap抓取了 dump 文件备用。完成以上步骤以后,果断让运维小哥将服务回退到历史版本,应急解决故障。

仔细分析两次抓取的线程快照,发现大量的线程处于BLOCKED状态,且拥有高度相似的调用栈:

"thread-3197" Id=4959 BLOCKED on java.util.concurrent.ConcurrentHashMap$ReservationNode@1b1f101f owned by "TaskExecutor-827" Id=936

at java.util.concurrent.ConcurrentHashMap.compute(ConcurrentHashMap.java:1868)

- blocked on java.util.concurrent.ConcurrentHashMap$ReservationNode@1b1f101f

at com.github.benmanes.caffeine.cache.BoundedLocalCache.doComputeIfAbsent(BoundedLocalCache.java:2404)

at com.github.benmanes.caffeine.cache.BoundedLocalCache.computeIfAbsent(BoundedLocalCache.java:2387)

at com.github.benmanes.caffeine.cache.LocalCache.computeIfAbsent(LocalCache.java:108)

at com.github.benmanes.caffeine.cache.LocalLoadingCache.get(LocalLoadingCache.java:56)

(这里省略部分信息)

看起来是高并发的时候 Caffeine 缓存的处理出现了竞态争抢,问题初步定位,需要进一步分析事故原因。

0x03 事故原因

简单 review 了一下变更的代码,发现同事A为某个关键系统参数的查询添加了秒级的短时缓存,减少高并发下的数据库查询调用,并且使用有界的LoadingCache来加载和刷新相关数据,关键的Bean定义如下:

@Bean

@ConditionalOnBean(ParameterRepository.class)

public LoadingCache<String, ParameterEntity> parameterCache(ParameterRepository parameterRepository,

Executor refreshExecutor) {

return Caffeine.newBuilder()

.maximumSize(256)

.refreshAfterWrite(Duration.ofSeconds(3))

.expireAfterAccess(Duration.ofSeconds(7))

.executor(refreshExecutor)

.build(bssSysparmRepository::getById);

}

乍看之下似乎很合理。但是为何会出问题呢?在高并发场景下,多个线程同时请求缓存中不存在的数据,导致多个线程都需要去加载数据,而LoadingCache的刷新策略是按需刷新,即只有当缓存中的数据过期时才会触发刷新。如果多个线程同时触发刷新,就会导致多个线程同时去加载数据,并使用相同的Key值调用ConcurrentHashMap.compute方法加载和刷新数据,从而导致竞态争抢。这种机理导致LoadingCache或者说ConcurrentHashMap(在JDK1.8里面)并不适合用在需要高并发频繁刷新的缓存场景。

有意思的是,这个锅其实跟JDK中ConcurrentHashMap的实现机制有关,存在同样问题的还有computeIfPresent方法,具体可见。

解决的方法不难,就是使用AsyncLoadingCache来代替LoadingCache,异步加载数据,避免竞态争抢。修改下代码:

@Bean

@ConditionalOnBean(ParameterRepository.class)

public AsyncLoadingCache<String, ParameterEntity> parameterCache(ParameterRepository parameterRepository,

Executor refreshExecutor) {

return Caffeine.newBuilder()

.maximumSize(256)

.refreshAfterWrite(Duration.ofSeconds(3))

.expireAfterAccess(Duration.ofSeconds(7))

.executor(refreshExecutor)

.buildAsync(parameterRepository::getById);

}

取用时,从LoadingCache.get()方法改为AsyncLoadingCache.synchronous().get()方法即可。优化版本上线后,各方人员情绪稳定。

0x04 事故复盘

比起追究责任,更重要的是带给我们的启发:

没有基准的性能优化都是耍流氓;

上线前需要先进行性能回归,确认优化后的性能是否符合预期。

0x05 事故影响

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:32:12

多智能体架构实战指南:从单兵作战到协同工作

文章详解了多智能体架构从单兵作战到协同协作的转变&#xff0c;阐述了其核心思想(分工、协作、进化)和常见架构模式。通过客户服务场景实战&#xff0c;展示了如何使用LangGraph框架构建可治理的多智能体系统&#xff0c;并探讨了挑战、最佳实践及未来演进方向。多智能体使AI从…

作者头像 李华
网站建设 2026/4/17 9:02:01

在 Visual Studio 中引入计划功能(公开预览版)

工作原理计划功能通过透明的工具调用&#xff0c;以结构化的方式管理复杂任务。当您要求 Copilot 处理多步骤任务时&#xff0c;它会自动判断是直接响应&#xff0c;还是切换到内置的计划模式。简单的提示词会得到快速回复&#xff0c;而多步骤的提示词则会触发一个协同计划。启…

作者头像 李华
网站建设 2026/4/15 7:32:20

手写防抖函数

&#xff1a;手写一个防抖函数 答&#xff1a; /** * 基础版防抖函数&#xff08;非立即执行&#xff09; * param {Function} func - 需要防抖的目标函数 * param {number} delay - 等待时间&#xff08;毫秒&#xff09; * returns {Function} - 防抖后的函数 */ function …

作者头像 李华
网站建设 2026/4/15 13:11:42

从0到1:我用LLM搭建医学知识库,附详细教程,建议永久收藏

作为一名医学生&#xff0c;作者分享了他使用阿里开源的qwen2.5:7b模型&#xff0c;在本地构建医学知识库的实践经历。他详细描述了从下载模型、处理教材到调试系统的全过程&#xff0c;并强调了AI技术已将创造门槛大幅降低。作者认为&#xff0c;在这个时代&#xff0c;通过动…

作者头像 李华
网站建设 2026/4/18 6:30:25

【年度消费观察】2025,年轻人没有抛弃白酒

文 | 螳螂观察作者 | 风车关于多渠道飞天茅台价格跌破1499元/瓶这事&#xff0c;外界大多将原因归于行业周期调整的大环境因素&#xff0c;或者是禁酒令&#xff0c;或者是消费降级。通俗地讲&#xff0c;当下的产业状态以及酒企集体下行的趋势&#xff0c;支撑不起原有的价格了…

作者头像 李华