告别手动转换！用Python脚本一键将Labelme标注的JSON文件转为COCO格式（支持目标检测与实例分割）-程序员充电站

高效转换Labelme标注至COCO格式：Python自动化实战指南

在计算机视觉项目的实际开发中，数据标注往往占据了大量时间。当你使用Labelme完成数百张图片的标注后，面对散落的JSON文件，如何快速将其转换为模型训练所需的COCO格式？手动处理不仅效率低下，还容易出错。本文将带你用Python脚本一键解决这个问题，支持目标检测和实例分割任务的无缝转换。

1. 环境准备与工具选型

1.1 核心依赖库安装

转换过程需要几个关键Python库的支持。建议使用conda创建独立环境以避免依赖冲突：

conda create -n labelme2coco python=3.8 conda activate labelme2coco pip install labelme pycocotools numpy pillow imgviz

常见问题排查：

若在Windows遇到pycocotools安装失败，可尝试pip install pycocotools-windows
出现libgl1相关错误时，Ubuntu系统需执行sudo apt-get install libgl1-mesa-glx

1.2 官方实现与第三方方案对比

特性	官方labelme实现	第三方labelme2coco
代码完整性	完整，维护良好	可能缺少持续更新
可视化支持	自带可视化功能	通常无可视化
多任务支持	同时支持检测和分割	需确认具体实现
自定义灵活性	较高，可直接修改源码	依赖作者设计架构
安装便捷性	需完整安装labelme	可能只需核心依赖

对于大多数用户，建议优先使用官方实现。当需要轻量级解决方案时，可考虑经过验证的第三方库。

2. 实战转换流程详解

2.1 准备标注数据

规范的目录结构能避免许多路径问题：

dataset/ ├── images/ # 原始图片 │ ├── img1.jpg │ └── img2.jpg ├── annotations/ # labelme生成的JSON文件 │ ├── img1.json │ └── img2.json └── labels.txt # 类别标签文件

labels.txt示例内容：

__ignore__ person car traffic_light

注意：Labelme生成的JSON文件名必须与图片文件名严格对应（仅扩展名不同）

2.2 执行转换命令

使用官方脚本进行转换的基本命令格式：

python labelme2coco.py \ --input_dir path/to/annotations \ --output_dir path/to/output \ --labels path/to/labels.txt \ --noviz # 可选，跳过可视化生成以加速处理

完整参数说明：

--input_dir：包含Labelme JSON文件的目录
--output_dir：输出COCO格式数据的目录（自动创建）
--labels：定义所有类别的文本文件
--noviz：禁用可视化输出（处理大量数据时建议启用）

2.3 验证输出结果

成功转换后将生成如下结构：

output/ ├── annotations.json # COCO格式标注文件 ├── JPEGImages/ # 图片副本（可选） └── Visualization/ # 标注可视化（若未用--noviz）

快速验证JSON文件完整性的代码片段：

import json with open('output/annotations.json') as f: coco_data = json.load(f) print(f"包含图片数量: {len(coco_data['images'])}") print(f"标注实例总数: {len(coco_data['annotations'])}") print(f"类别列表: {[cat['name'] for cat in coco_data['categories']]}")

3. 高级应用与问题排查

3.1 处理复杂标注场景

当遇到特殊标注情况时，需要了解脚本的内部处理逻辑：

多实例处理：Labelme中通过group_id区分同一类别的不同实例
矩形转多边形：脚本自动将矩形标注转换为4点多边形
无效标注过滤：标记为__ignore__的类别会被自动跳过

3.2 常见错误解决方案

错误1：KeyError: 'imageData'

原因：JSON文件中缺少图片数据
解决：确保Labelme保存时勾选"Save With Image Data"选项

错误2：AttributeError: module 'labelme' has no attribute 'LabelFile'

原因：Labelme版本不兼容
解决：指定版本安装pip install labelme==5.1.1

错误3：生成的COCO文件中bbox坐标异常

检查：确认Labelme标注时是否有点击顺序错误
验证：使用labelme_draw_json可视化原始标注

3.3 性能优化技巧

处理大规模数据集时，可采用以下优化策略：

并行处理：修改脚本使用multiprocessing加速

from multiprocessing import Pool def process_file(filename): # 包装原有的处理逻辑 ... if __name__ == '__main__': with Pool(processes=4) as pool: pool.map(process_file, label_files)

内存优化：逐文件处理避免全量加载
增量更新：通过检查机制跳过已处理文件

4. 集成到训练流程

4.1 与主流框架配合

转换后的COCO数据可直接用于：

MMDetection：

# config.py data = dict( train=dict( type='CocoDataset', ann_file='path/to/annotations.json', img_prefix='path/to/JPEGImages/', ... ) )

Detectron2：

from detectron2.data.datasets import register_coco_instances register_coco_instances( "my_dataset_train", {}, "path/to/annotations.json", "path/to/images" )

4.2 自动化流水线示例

将转换过程整合到CI/CD流程的shell脚本：

#!/bin/bash # 步骤1：转换标注格式 python labelme2coco.py \ --input_dir $LABELME_DIR \ --output_dir $COCO_DIR \ --labels $LABEL_FILE # 步骤2：验证数据完整性 python validate_coco.py --json $COCO_DIR/annotations.json # 步骤3：启动训练任务 python tools/train.py \ configs/my_config.py \ --work-dir $OUTPUT_DIR \ --cfg-options data.train.ann_file=$COCO_DIR/annotations.json