news 2026/4/18 4:05:33

ceph平台-未及时移除故障osd导致根目录100%问题的故障记录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ceph平台-未及时移除故障osd导致根目录100%问题的故障记录

项目场景:

一个甲方的ceph集群,osd日志拉满导致根目录100%


问题描述

甲方联系说有点问题,远程处理。
首先登陆到控制节点发现根目录满了,检查定位到日志目录,所有osd日志大小几乎一致。
然后检查所有存储节点都有类似问题。
打开日志文件分析原因,下面放三个osd日志的截图



全部在16:57 指向到secret_id:44281


原因分析:

千问的回答

  1. auth: could not find secret_id=44281
    含义:Ceph Monitor(或 OSD)在验证某个客户端身份时,找不到 ID 为 44281 的密钥。
    ✅ 这个 secret_id 是 Ceph 内部生成的唯一标识,用于关联一个实体(如 osd.5)的认证密钥。
  2. cephx: verify_authorizer could not get service secret for service osd secret_id=44281
    含义:使用 cephx 协议验证时,无法获取对应 osd 服务的密钥。
    ❌ 表明:该 OSD 的 keyring 已被删除、损坏,或未正确同步到 MON 数据库。
  3. .accept: got bad authorizer
    含义:连接被拒绝,因为客户端提供的认证票据无效。
    ⚠️ 通常出现在:
    OSD 使用旧密钥尝试连接 MON
    OSD 被删除后仍在运行
    keyring 文件被手动修改或丢失

操作

感觉是坏掉的osd没有及时删除的问题。

第一步: 先处理根目录100%
所有ceph节点的所有osd日志追空

第二步:执行ceph osd命令
ceph命令没有返回,检查mon服务,全死。挨个mon节点重启mon服务

第三步:通过osd相关命令找到坏掉的osd,然后完全删除掉
执行删除命令后,集群进入恢复模式

第四步:观察集群恢复,同时不定期检查osd日志大小,看是否还有异常

forXin{1..14};dosshXX.XXX.X.$X'hostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ';done

第五步:等待集群恢复完毕后,重启所有osd服务

第六步:持续多天检查osd日志大小和集群状态


解决方案:

osd坏了及时换盘,没有的话要及时完全删除掉

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 18:21:52

【PMP】风险管理

一、风险基础核心概念 1. 风险本质与管理流程 定义:未来可能发生的、影响项目目标(范围/进度/成本/质量)的不确定事件(含威胁和机会)。核心流程(必记):识别风险 → 定性风险分析 → …

作者头像 李华
网站建设 2026/3/12 20:20:39

法尔斯新闻社1398年波斯语新闻数据集_29万条_多领域分类_完整文本内容_自然语言处理_文本挖掘_机器学习训练数据

法尔斯新闻社1398年波斯语新闻数据集 引言与背景 法尔斯新闻社1398年波斯语新闻数据集是一个大规模、高质量的波斯语新闻文本数据集,收录了法尔斯新闻社在1398年(即2019-2020年)期间发布的全部新闻文章。该数据集包含294,023条新闻记录&#…

作者头像 李华
网站建设 2026/4/10 20:09:11

咕噜分发——APP图标在线制作

咕噜分发(gulufenfa.com)的APP图标在线制作工具是该平台提供的一项实用功能,主要面向APP开发者、测试人员及企业用户,用于快速生成符合iOS/Android平台规范的APP图标资源包。以下是该功能的详细介绍: 一、功能定位与核…

作者头像 李华
网站建设 2026/4/17 16:50:41

小程序商城开发要点解析:从核心架构到关键功能模块

伴随着移动互联网朝着 方向发展,小程序商城已然变成零售、餐饮、本地生活等好些行业用以开展数字化转型的标准配备。和传统的独立 APP 或者 H5 页面相比较而言,小程序靠着它那“无需下载、即用即走”的轻量化特有属性,以及借助微信、支付宝等…

作者头像 李华
网站建设 2026/4/18 6:45:54

计算机PHP毕设实战-基于php+vue的动物救助网站的设计与实现基于php+vue.js流浪动物宠物领养公益网站【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华