fft npainting lama Python调用示例：绕过WebUI直接集成-程序员充电站

fft npainting lama Python调用示例：绕过WebUI直接集成

1. 背景与需求分析

在图像修复领域，fft_npainting_lama是一种基于 FFT（快速傅里叶变换）与 LAMA（Large Inpainting Model Architecture）相结合的图像修复技术。该方案通过频域处理增强纹理重建能力，在去除水印、物体移除、瑕疵修复等场景中表现出色。

当前大多数用户依赖 WebUI 进行交互式操作，但实际工程落地时往往需要将模型能力嵌入到自动化流程或后端服务中。因此，如何绕过图形界面，通过 Python 直接调用核心推理逻辑，成为二次开发的关键环节。

本文聚焦于fft_npainting_lama的 Python 原生调用方式，帮助开发者实现：

非交互式批量图像修复
与现有系统无缝集成
自定义预/后处理逻辑
提升处理效率和可控性

2. 系统架构与模块解析

2.1 整体结构概览

fft_npainting_lama项目主要由以下模块构成：

cv_fft_inpainting_lama/ ├── models/ # 模型权重文件 ├── src/ # 核心算法源码 │ ├── fft_inpaint.py # FFT修复主逻辑 │ ├── lama_model.py # LAMA模型加载与推理 │ └── utils.py # 图像处理工具函数 ├── webui/ # Gradio前端界面 ├── outputs/ # 输出结果目录 ├── start_app.sh # 启动脚本 └── config.yaml # 配置参数

其中，src/目录下的代码是实现图像修复的核心，可独立于 WebUI 使用。

2.2 关键组件说明

FFT 频域修复模块

利用快速傅里叶变换将图像转换至频域
在频域对缺失区域进行高频信息补全
适用于纹理重复性强的背景修复

LAMA 生成式修复模型

基于 U-Net 结构的深度生成网络
接收原始图像 + mask（标注图）作为输入
输出完整填充后的图像
对复杂语义内容（如人脸、文字）有更好理解力

双阶段融合策略

第一阶段：使用 FFT 快速补全高频细节
第二阶段：LAMA 模型进行语义级优化
最终结果为两者的加权融合，兼顾速度与质量

3. Python 原生调用实现

3.1 环境准备

确保已安装必要依赖库：

pip install torch torchvision numpy opencv-python scikit-image PyYAML

并确认模型权重已下载至models/目录下，常见文件包括：

lama.pth
fft_filter_weights.pkl

3.2 核心调用接口封装

以下为封装后的 Python 调用类，支持直接传入图像路径或 NumPy 数组进行修复。

import cv2 import numpy as np import torch from src.lama_model import LamaModel from src.fft_inpaint import fft_inpainting from src.utils import load_image, save_image, dilate_mask class ImageInpaintingEngine: def __init__(self, config_path="config.yaml"): """ 初始化修复引擎 """ self.device = "cuda" if torch.cuda.is_available() else "cpu" self.lama_model = LamaModel(config_path).to(self.device) self.lama_model.load_state_dict(torch.load("models/lama.pth", map_location=self.device)) self.lama_model.eval() def _preprocess(self, image: np.ndarray, mask: np.ndarray): """ 预处理：归一化、通道转换、尺寸调整 """ # 确保为RGB格式 if len(image.shape) == 3 and image.shape[2] == 3: image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 扩展mask维度 if len(mask.shape) == 2: mask = mask[:, :, None] # 归一化 image = image.astype(np.float32) / 255.0 mask = (mask > 128).astype(np.float32) return image, mask def _postprocess(self, output: np.ndarray): """ 后处理：去归一化、类型转换 """ output = np.clip(output * 255, 0, 255).astype(np.uint8) return cv2.cvtColor(output, cv2.COLOR_RGB2BGR) @torch.no_grad() def inpaint(self, image: np.ndarray, mask: np.ndarray, use_fft=True, fft_weight=0.3): """ 执行图像修复 Args: image: 输入图像 (H, W, C), BGR or RGB mask: 修复区域掩码 (H, W)，白色为待修复区 use_fft: 是否启用FFT预修复 fft_weight: FFT结果融合权重 [0, 1] Returns: 修复后的图像 (H, W, C), BGR格式 """ orig_shape = image.shape[:2] # 预处理 img_np, mask_np = self._preprocess(image, mask) # 第一阶段：FFT频域修复（快速补全纹理） if use_fft: fft_result = fft_inpainting(img_np, mask_np) else: fft_result = img_np.copy() # 第二阶段：LAMA语义修复 input_tensor = torch.from_numpy(np.transpose(img_np, (2, 0, 1))[None]).to(self.device) mask_tensor = torch.from_numpy(np.transpose(mask_np, (2, 0, 1))[None]).to(self.device) output_tensor = self.lama_model(input_tensor, mask_tensor) lama_result = output_tensor[0].cpu().numpy() lama_result = np.transpose(lama_result, (1, 2, 0)) # 融合策略：LAMA为主，FFT补充高频 fused = (1 - fft_weight) * lama_result + fft_weight * fft_result fused = np.clip(fused, 0, 1) # 后处理并恢复原始尺寸 result = self._postprocess(fused) if result.shape[:2] != orig_shape: result = cv2.resize(result, (orig_shape[1], orig_shape[0])) return result

3.3 使用示例

# 示例：移除图像中的指定区域 if __name__ == "__main__": engine = ImageInpaintingEngine() # 加载图像和mask image = cv2.imread("input.jpg") mask = cv2.imread("mask.png", 0) # 单通道，白色为修复区 # 执行修复 result = engine.inpaint( image=image, mask=mask, use_fft=True, fft_weight=0.3 ) # 保存结果 cv2.imwrite("output_repaired.png", result) print("✅ 图像修复完成，已保存至 output_repaired.png")

4. 实践优化建议

4.1 性能优化技巧

优化项	建议
图像尺寸	建议缩放至 1024px 内，避免显存溢出
Batch 处理	若需批量处理，可合并多个图像为 tensor batch 提升 GPU 利用率
模型量化	将模型转为 FP16 或 INT8 可提升推理速度 2-3x
缓存机制	对相同背景多次修复时，缓存 FFT 中间结果

4.2 Mask 处理最佳实践

def create_optimal_mask(image, bbox_list=None, brush_mask=None): """ 构建高质量mask：膨胀+羽化 """ h, w = image.shape[:2] mask = np.zeros((h, w), dtype=np.uint8) # 添加矩形框（可选） if bbox_list: for (x1, y1, x2, y2) in bbox_list: cv2.rectangle(mask, (x1, y1), (x2, y2), 255, -1) # 叠加手绘mask if brush_mask is not None: mask |= brush_mask # 膨胀边缘，防止遗漏 kernel = np.ones((7,7), np.uint8) mask = cv2.dilate(mask, kernel, iterations=1) # 高斯羽化边缘 mask = cv2.GaussianBlur(mask.astype(float), (15,15), 0) return (mask > 128).astype(np.uint8) * 255

4.3 错误排查指南

问题现象	可能原因	解决方案
输出全黑或异常色块	输入未归一化或设备不匹配	检查数据范围是否为 [0,1]，模型是否在 CPU/GPU 一致
显存不足	图像过大或 batch size 过高	降低分辨率或设置`torch.cuda.empty_cache()`
边缘明显拼接痕迹	mask 边界太硬	使用高斯模糊羽化 mask 边缘
修复内容失真	mask 覆盖不全或模型权重错误	重新检查 mask 完整性，验证模型文件完整性