news 2026/4/18 9:48:30

Genie-TTS 最强中文文本生成语音(CPU推理整合包)window10 11

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Genie-TTS 最强中文文本生成语音(CPU推理整合包)window10 11

「Genie-TTS (window10 11 CPU推理整合包)」
链接:https://pan.quark.cn/s/4e668a4ffbe7

解压即用

使用方法

1、双击exe文件

2、找到模型路径,复制路径

3、把模型路径复制到这里

4、找到音频文件

5、选择音频文件

6、输入要转换的文字

7、点击开始转换

8、可以选择(保存、播放)转换好的文件

模型有现成的3个

V2.0.2 整合包 (解压即用)

小白友好的 GUI 程式, 解压即用, 无需 GPU, 无需安装任何环境
建议在 Windows 10/11 运行

支持三种语言: 中文/英文/日文
支持 GPT SoVITS V2 & V2 ProPlus 模型转换
支持批量合成语音

预装了以下角色模型(963MB):
(中文) 鸣潮-菲比
(日文) 碧蓝档案-圣园未花
(英文) 重返未来-37

V2.0.2 整合包 (解压即用)

小白友好的 GUI 程式, 解压即用, 无需 GPU, 无需安装任何环境
建议在 Windows 10/11 运行

支持三种语言: 中文/英文/日文
支持 GPT SoVITS V2 & V2 ProPlus 模型转换
支持批量合成语音

预装了以下角色模型(963MB):
(中文) 鸣潮-菲比
(日文) 碧蓝档案-圣园未花
(英文) 重返未来-37

V2.0.2 整合包 (解压即用)

小白友好的 GUI 程式, 解压即用, 无需 GPU, 无需安装任何环境
建议在 Windows 10/11 运行

支持三种语言: 中文/英文/日文
支持 GPT SoVITS V2 & V2 ProPlus 模型转换
支持批量合成语音

预装了以下角色模型(963MB):
(中文) 鸣潮-菲比
(日文) 碧蓝档案-圣园未花
(英文) 重返未来-37

GENIE: GPT-SoVITS Lightweight Inference Engine

Experience near-instantaneous speech synthesis on your CPU

简体中文 | English


GENIEis a lightweight inference engine built on the open-source TTS project GPT-SoVITS. It integrates TTS inference, ONNX model conversion, API server, and other core features, aiming to provide ultimate performance and convenience.

  • ✅ Supported Model Version:GPT-SoVITS V2, V2ProPlus
  • ✅ Supported Language:Japanese, English, Chinese
  • ✅ Supported Python Version:>= 3.9

🎬 Demo Video

  • ➡️ Watch the demo video (Chinese)

🚀 Performance Advantages

GENIE optimizes the original model for outstanding CPU performance.

Feature🔮 GENIEOfficial PyTorch ModelOfficial ONNX Model
First Inference Latency1.13s1.35s3.57s
Runtime Size~200MB~several GBSimilar to GENIE
Model Size~230MBSimilar to GENIE~750MB

📝Latency Test Info:All latency data is based on a test set of 100 Japanese sentences (~20 characters each), averaged. Tested on CPU i7-13620H.


🏁 QuickStart

⚠️ Important:It is recommended to run GENIE inAdministrator modeto avoid potential performance degradation.

📦 Installation

Install via pip:

pip install genie-tts

📥 Pretrained Models

When running GENIE for the first time, it requires downloading resource files (~391MB). You can follow the library's prompts to download them automatically.

Alternatively, you can manually download the files from HuggingFace and place them in a local folder. Then set theGENIE_DATA_DIRenvironment variablebeforeimporting the library:

import os # Set the path to your manually downloaded resource files # Note: Do this BEFORE importing genie_tts os.environ["GENIE_DATA_DIR"] = r"C:\path\to\your\GenieData" import genie_tts as genie # The library will now load resources from the specified directory

⚡️ Quick Tryout

No GPT-SoVITS model yet? No problem! GENIE includes several predefined speaker characters you can use immediately — for example:

  • Mika (聖園ミカ)Blue Archive(Japanese)
  • ThirtySeven (37)Reverse: 1999(English)
  • Feibi (菲比)Wuthering Waves(Chinese)

You can browse all available characters here:https://huggingface.co/High-Logic/Genie/tree/main/CharacterModels

Try it out with the example below:

import genie_tts as genie import time # Automatically downloads required files on first run genie.load_predefined_character('mika') genie.tts( character_name='mika', text='どうしようかな……やっぱりやりたいかも……!', play=True, # Play the generated audio directly ) genie.wait_for_playback_done() # Ensure audio playback completes

🎤 TTS Best Practices

A simple TTS inference example:

import genie_tts as genie # Step 1: Load character voice model genie.load_character( character_name='<CHARACTER_NAME>', # Replace with your character name onnx_model_dir=r"<PATH_TO_CHARACTER_ONNX_MODEL_DIR>", # Folder containing ONNX model language='<LANGUAGE_CODE>', # Replace with language code, e.g., 'en', 'zh', 'jp' ) # Step 2: Set reference audio (for emotion and intonation cloning) genie.set_reference_audio( character_name='<CHARACTER_NAME>', # Must match loaded character name audio_path=r"<PATH_TO_REFERENCE_AUDIO>", # Path to reference audio audio_text="<REFERENCE_AUDIO_TEXT>", # Corresponding text ) # Step 3: Run TTS inference and generate audio genie.tts( character_name='<CHARACTER_NAME>', # Must match loaded character text="<TEXT_TO_SYNTHESIZE>", # Text to synthesize play=True, # Play audio directly save_path="<OUTPUT_AUDIO_PATH>", # Output audio file path ) genie.wait_for_playback_done() # Ensure audio playback completes print("🎉 Audio generation complete!")

🔧 Model Conversion

To convert original GPT-SoVITS models for GENIE, ensuretorchis installed:

pip install torch

Use the built-in conversion tool:

Tip:convert_to_onnxcurrently supports V2 and V2ProPlus models.

import genie_tts as genie genie.convert_to_onnx( torch_pth_path=r"<YOUR .PTH MODEL FILE>", # Replace with your .pth file torch_ckpt_path=r"<YOUR .CKPT CHECKPOINT FILE>", # Replace with your .ckpt file output_dir=r"<ONNX MODEL OUTPUT DIRECTORY>" # Directory to save ONNX model )

🌐 Launch FastAPI Server

GENIE includes a lightweight FastAPI server:

import genie_tts as genie # Start server genie.start_server( host="0.0.0.0", # Host address port=8000, # Port workers=1 # Number of workers )

For request formats and API details, see our API Server Tutorial.


📝 Roadmap

  • 🌐 Language Expansion

    • Add support forChineseandEnglish.
  • 🚀 Model Compatibility

    • Support forV2Proplus.
    • Support forV3,V4, and more.
  • 📦 Easy Deployment

    • ReleaseOfficial Docker images.
    • Provide out-of-the-boxWindows bundles.

GENIE是一个基于开源 TTS 项目 GPT-SoVITS 构建的轻量级推理引擎。它集成了 TTS 推理、ONNX 模型转换、API 服务端以及其他核心功能,旨在提供极致的性能和便利性。

  • ✅ 支持的模型版本:GPT-SoVITS V2, V2ProPlus
  • ✅ 支持的语言:日语、英语、中文
  • ✅ 支持的 Python 版本:>= 3.9

🎬 演示视频

  • ➡️ 观看演示视频(中文)

🚀 性能优势

GENIE 针对原始模型进行了优化,以实现出色的 CPU 性能。

特性🔮 GENIE官方 PyTorch 模型官方 ONNX 模型
首次推理延迟1.13s1.35s3.57s
运行时大小~200MB~数 GB与 GENIE 相似
模型大小~230MB与 GENIE 相似~750MB

📝延迟测试说明:所有延迟数据均基于 100 个日语句子(每句约 20 个字符)的测试集取平均值。测试环境为 CPU i7-13620H。


🏁 快速开始

⚠️ 重要提示:建议在管理员模式下运行 GENIE,以避免潜在的性能下降。

📦 安装

通过 pip 安装:

pip install genie-tts

📥 预训练模型

首次运行 GENIE 时,需要下载资源文件(~391MB)。您可以按照库的提示自动下载。

或者,您可以从 HuggingFace 手动下载文件并将其放置在本地文件夹中。然后在导入库之前设置GENIE_DATA_DIR环境变量:

import os # 设置手动下载的资源文件路径 # 注意:请在导入 genie_tts 之前执行此操作 os.environ["GENIE_DATA_DIR"] = r"C:\path\to\your\GenieData" import genie_tts as genie # 库现在将从指定目录加载资源

⚡️ 快速试用

还没有 GPT-SoVITS 模型?没问题! GENIE 包含几个预定义的说话人角色,您可以立即使用 —— 例如:

  • Mika (聖園ミカ)蔚蓝档案 (Blue Archive)(日语)
  • ThirtySeven (37)重返未来:1999 (Reverse: 1999)(英语)
  • Feibi (菲比)鸣潮 (Wuthering Waves)(中文)

您可以在此处浏览所有可用角色:https://huggingface.co/High-Logic/Genie/tree/main/CharacterModels

使用以下示例进行尝试:

import genie_tts as genie import time # 首次运行时自动下载所需文件 genie.load_predefined_character('mika') genie.tts( character_name='mika', text='どうしようかな……やっぱりやりたいかも……!', play=True, # 直接播放生成的音频 ) genie.wait_for_playback_done() # 确保音频播放完成

🎤 TTS 最佳实践

一个简单的 TTS 推理示例:

import genie_tts as genie # 第一步:加载角色语音模型 genie.load_character( character_name='<CHARACTER_NAME>', # 替换为您的角色名称 onnx_model_dir=r"<PATH_TO_CHARACTER_ONNX_MODEL_DIR>", # 包含 ONNX 模型的文件夹 language='<LANGUAGE_CODE>', # 替换为语言代码,例如 'en', 'zh', 'jp' ) # 第二步:设置参考音频(用于情感和语调克隆) genie.set_reference_audio( character_name='<CHARACTER_NAME>', # 必须与加载的角色名称匹配 audio_path=r"<PATH_TO_REFERENCE_AUDIO>", # 参考音频的路径 audio_text="<REFERENCE_AUDIO_TEXT>", # 对应的文本 ) # 第三步:运行 TTS 推理并生成音频 genie.tts( character_name='<CHARACTER_NAME>', # 必须与加载的角色匹配 text="<TEXT_TO_SYNTHESIZE>", # 要合成的文本 play=True, # 直接播放音频 save_path="<OUTPUT_AUDIO_PATH>", # 输出音频文件路径 ) genie.wait_for_playback_done() # 确保音频播放完成 print("🎉 Audio generation complete!")

🔧 模型转换

要将原始 GPT-SoVITS 模型转换为 GENIE 格式,请确保已安装torch

pip install torch

使用内置的转换工具:

提示:convert_to_onnx目前支持 V2 和 V2ProPlus 模型。

import genie_tts as genie genie.convert_to_onnx( torch_pth_path=r"<YOUR .PTH MODEL FILE>", # 替换为您的 .pth 文件 torch_ckpt_path=r"<YOUR .CKPT CHECKPOINT FILE>", # 替换为您的 .ckpt 文件 output_dir=r"<ONNX MODEL OUTPUT DIRECTORY>" # 保存 ONNX 模型的目录 )

🌐 启动 FastAPI 服务

GENIE 包含一个轻量级的 FastAPI 服务器:

import genie_tts as genie # 启动服务 genie.start_server( host="0.0.0.0", # 主机地址 port=8000, # 端口 workers=1 # 工作进程数 )

关于请求格式和 API 详情,请参阅我们的 API 服务教程。


📝 路线图

  • 🌐 语言扩展

    • 添加对中文英文的支持。
  • 🚀 模型兼容性

    • 支持V2Proplus
    • 支持V3V4等更多版本。
  • 📦 简易部署

    • 发布官方 Docker 镜像
    • 提供开箱即用的Windows 整合包

https://www.bilibili.com/video/BV1JwkuBwE8n/?spm_id_from=333.337.search-card.all.click&vd_source=e6cf2cf5ae518e3d6499c74d21fd4913https://www.bilibili.com/video/BV1JwkuBwE8n/?spm_id_from=333.337.search-card.all.click&vd_source=e6cf2cf5ae518e3d6499c74d21fd4913流式TTS推理,等待进一步的开发~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 9:21:20

AI做复盘,比我更会甩锅(给数据)

你有没有遇到过这样的销售复盘会&#xff1a;销售一句“客户根本没说清需求”就把败单责任推得一干二净&#xff0c;经理凭经验拍板却拿不出实锤证据&#xff1f;如今大模型AI销售机器人的出现&#xff0c;让“甩锅给数据”成了正经事——不是推诿责任&#xff0c;而是用NLP技术…

作者头像 李华
网站建设 2026/4/18 9:44:06

一站式APP漏洞修复,你的版本答案!

在移动应用安全风险持续高发的背景下&#xff0c;App 原生漏洞、逆向篡改、签名证书泄露等安全隐患&#xff0c;直接危及应用品牌声誉与用户数据安全。咕噜分发平台依托自研专业安全能力&#xff0c;搭建漏洞检测、安全加固、可信分发全流程闭环服务&#xff0c;为开发者与企业…

作者头像 李华
网站建设 2026/4/18 8:09:29

好写作AI:你的“学术改稿搭子”,把导师批注变成秒懂的执行清单!

各位收到导师修改意见时“瞳孔地震”的科研人&#xff0c;是否经历过这种“至暗时刻”&#xff1a;文档一片飘红&#xff0c;批注写着“此处论述单薄”、“逻辑需加强”、“表述不专业”……每个字都认识&#xff0c;但合起来却像一道无解谜题——“老师&#xff0c;我到底该怎…

作者头像 李华
网站建设 2026/4/18 8:02:08

Linux常用命令速查手册

1️⃣ 文件与目录操作 ls&#xff1a;列出当前目录文件 ls -l&#xff1a;显示详细信息 ls -a&#xff1a;显示隐藏文件 cd /path/to/dir&#xff1a;切换目录 pwd&#xff1a;显示当前工作目录 mkdir dirname&#xff1a;创建目录 rm filename&#xff1a;删除文件 rm -r dirn…

作者头像 李华
网站建设 2026/4/15 9:33:53

BeanFactory 和 FactoryBean区别

简单来说&#xff0c;BeanFactory是Spring IoC 容器的根接口&#xff08;“容器本身”&#xff09;&#xff0c;而FactoryBean是自定义 Bean 创建逻辑的工厂接口&#xff08;“创建 Bean 的工厂”&#xff09;&#xff0c;两者的角色和职责天差地别。一、核心概念与区别&#x…

作者头像 李华
网站建设 2026/4/16 16:41:11

大模型微调实战:5个关键步骤,从零构建高效微调数据集!

想让大语言模型&#xff08;LLM&#xff09;变得更聪明、更贴合你的需求&#xff1f;那就得靠微调&#xff08;fine-tuning&#xff09;&#xff01;而微调的关键在于一个精心准备的数据集。 本文将带你一步步了解如何创建和准备一个适合LLM微调的数据集&#xff0c;特别聚焦于…

作者头像 李华