news 2026/4/17 15:51:44

HiWave:无需额外学习即可生成 4K 图像的小波扩散创新]

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
HiWave:无需额外学习即可生成 4K 图像的小波扩散创新]

摘要

本文提出的 HiWave 是一种使用预先训练的扩散模型生成超高分辨率(如 4096 x 4096)图像的方法,无需额外的训练或架构修改。

虽然现有的基于补丁的方法可以增强局部细节,但容易造成整体结构的破坏和重叠伪影。

HiWave 首先生成低分辨率的基础图像,然后将其放大到高分辨率,并对每个补丁应用 DDIM 反变换来估计初始噪声。此外,在频域中,低频分量用于保存结构,而高频分量则用于增加细节信息。

在人体评估实验中,发现所提出的方法比传统方法质量更高,因此是高分辨率图像合成的一种新方法。

建议的方法

HiWave 包括三个阶段:基础图像生成、片段式 DDIM 反转和基于小波的细节增强。

首先,使用预先训练好的扩散模型(如 Stable Diffusion XL)生成 1024 x 1024 的基础图像,然后通过插值将图像空间放大到 4096 x 4096。

然后将放大后的图像划分为多个补丁,并对每个补丁进行 DDIM 反变换,以获得反映原始图像结构的初始噪声。

最后,使用 DWT(离散小波变换)对低频成分进行约束以保留结构,并根据 CFG(无分类器引导)对高频成分进行修正以增强细节。

通过对每个频率应用不同的引导,成功实现了整体图像的一致性和高细节增强。

实验

为了验证 HiWave 的有效性,我们进行了与 Pixelsmith(基于补丁)和 HiDiffusion(基于直接推理)的对比实验。

为了进行评估,从 LAION2B-en-aesthetic 数据集中随机选取了 1,000 个提示,每种方法都生成了 4096 x 4096 分辨率的图像。
目测比较结果显示,HiDiffusion 产生的图像结构破碎、纹理模糊,而 Pixelsmith 则倾向于产生重复的对象。

相比之下,HiWave 在保持结构完整性的同时,还具有较高的细节精确度,并大大减少了伪影的产生。此外,用户还进行了 A/B 测试,在 81.2% 的情况下,HiWave 比其他方法更受欢迎。

这从定量和定性两方面证实了所提出方法的高质量和自然的高分辨率图像生成性能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 23:16:43

为什么没有统一协议,多智能体永远无法真正互操作?

最近,“多智能体协作”(Multi-Agent Systems, MAS)的概念被炒得火热。在 Demo 视频里,我们看到:销售 Agent 接单,自动指挥库存 Agent 查货,再调度物流 Agent 发货,最后由财务 Agent …

作者头像 李华
网站建设 2026/4/10 16:11:51

23、实例负载均衡流量管理指南

实例负载均衡流量管理指南 在负载均衡的管理过程中,我们需要掌握多种操作,包括对池、池成员、健康监视器和监听器的管理,以及如何构建一个完整的负载均衡器。下面将详细介绍相关的操作步骤和命令。 1. 池管理 1.1 列出所有池 在命令行界面(CLI)中,使用以下命令列出所…

作者头像 李华
网站建设 2026/4/18 7:04:20

8、使用 Linux 网桥构建虚拟网络基础设施

使用 Linux 网桥构建虚拟网络基础设施 在 OpenStack 云环境中构建网络资源之前,需要对网络插件进行定义和配置。ML2 插件提供了一个通用框架,允许多个驱动程序相互协作。下面将详细介绍如何在 controller01 和 compute01 主机上配置 Linux 网桥 ML2 驱动和代理。 1. 配置网…

作者头像 李华
网站建设 2026/4/18 1:20:07

16、网络安全与访问控制:从安全组到角色访问控制

网络安全与访问控制:从安全组到角色访问控制 1. 端口安全与允许地址对管理 端口安全是网络安全的重要组成部分。当端口安全扩展启用时,可以在创建或更新端口期间,通过相应设置 port_security_enabled 属性,来启用或禁用单个端口的端口安全。启用端口安全后,默认的反欺…

作者头像 李华
网站建设 2026/4/18 7:02:22

5步诊断法:彻底解决WSL环境中Open-Interpreter无法连接本地模型的难题

5步诊断法:彻底解决WSL环境中Open-Interpreter无法连接本地模型的难题 【免费下载链接】open-interpreter Open Interpreter 工具能够让大型语言模型在本地执行如Python、JavaScript、Shell等多种编程语言的代码。 项目地址: https://gitcode.com/GitHub_Trending…

作者头像 李华
网站建设 2026/4/18 7:03:00

NVIDIA DALI GPU数据预处理优化:7大实战策略提升深度学习训练效率

NVIDIA DALI GPU数据预处理优化:7大实战策略提升深度学习训练效率 【免费下载链接】DALI NVIDIA/DALI: DALI 是一个用于数据预处理和增强的 Python 库,可以用于图像,视频和音频数据的处理和增强,支持多种数据格式和平台&#xff0…

作者头像 李华