Qwen3-1.7B语音助手集成：ASR+TTS全流程部署教程-程序员充电站

Qwen3-1.7B语音助手集成：ASR+TTS全流程部署教程

1. 技术背景与目标

随着大语言模型在自然语言理解与生成能力上的持续突破，将LLM集成到语音交互系统中已成为智能助手、客服机器人等应用的核心方向。Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-1.7B作为轻量级密集模型，在保持高效推理性能的同时具备较强的语义理解和对话生成能力，非常适合部署在边缘设备或资源受限的服务器上构建实时语音助手。

本教程聚焦于如何基于Qwen3-1.7B搭建一个完整的语音助手系统，实现自动语音识别（ASR）→ 大模型对话理解 → 文本转语音（TTS）的全链路闭环。我们将使用 CSDN 提供的 GPU 镜像环境，结合 LangChain 调用本地部署的大模型 API，并集成主流 ASR 与 TTS 工具完成端到端语音交互系统的搭建。

读者学完本文后将掌握： - 如何启动并配置 Qwen3-1.7B 推理服务 - 使用 LangChain 调用本地大模型进行流式响应 - 集成 Whisper 实现高精度语音识别 - 使用 VITS 或 FasterSpeech2 构建自然语音合成模块 - 完整语音助手系统的调用流程与优化建议

2. 环境准备与模型调用

2.1 启动镜像并进入 Jupyter 环境

首先，在 CSDN星图镜像广场中搜索“Qwen3”相关 GPU 镜像，选择包含Qwen3-1.7B模型预加载的镜像版本进行一键部署。部署成功后，通过 Web IDE 访问 Jupyter Notebook 环境。

确保服务已启动以下两个关键组件： -Model Server：运行在8000端口，提供 OpenAI 兼容格式的/v1/chat/completions接口 -Jupyter Lab：运行在默认端口，用于编写和调试代码

可通过终端执行如下命令确认服务状态：

ps aux | grep llama-server netstat -tulnp | grep 8000

若未自动启动模型服务，请参考镜像文档手动拉起推理进程。

2.2 使用 LangChain 调用 Qwen3-1.7B 模型

LangChain 是当前最流行的 LLM 应用开发框架之一，支持统一接口调用多种后端模型。尽管 Qwen3 并非 OpenAI 官方模型，但其 API 接口兼容 OpenAI 格式，因此我们可以借助langchain_openai模块实现无缝接入。

以下是调用 Qwen3-1.7B 的完整示例代码：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 替换为实际 Jupyter 地址，注意端口为 8000 api_key="EMPTY", # 当前服务无需真实 API Key extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, # 开启流式输出，提升用户体验 ) # 发起同步请求 response = chat_model.invoke("你是谁？") print(response.content)

说明： -base_url必须指向你的实际服务地址，通常由平台自动生成。 -api_key="EMPTY"表示无需认证，适用于本地测试环境。 -extra_body支持扩展字段，如启用“思维链”（Thinking Process），返回模型内部推理过程。 -streaming=True可实现逐字输出效果，适合语音助手场景降低感知延迟。

该调用将返回类似以下内容：

我是通义千问3-1.7B模型，阿里巴巴研发的超大规模语言模型，能够回答问题、创作文字、表达观点等。

3. 语音识别（ASR）模块集成

3.1 选择合适的 ASR 引擎

为了将用户语音转换为文本输入给 Qwen3 模型，我们需要一个高性能的自动语音识别（ASR）模块。推荐使用OpenAI Whisper系列模型，原因如下： - 多语言支持良好（含中文） - 对噪声环境鲁棒性强 - 提供多种尺寸模型（tiny, base, small, medium, large），便于权衡速度与精度 - 社区生态成熟，易于集成

我们以whisper-base为例进行部署。

安装依赖：

pip install openai-whisper

若 CUDA 可用，建议同时安装 PyTorch GPU 版本以加速推理。

3.2 实现语音到文本的转换

假设用户上传一段.wav格式的语音文件，我们使用 Whisper 进行转录：

import whisper # 加载模型（首次运行会自动下载） model = whisper.load_model("base") # 执行语音识别 result = model.transcribe("user_audio.wav", language="zh") # 指定中文 text_input = result["text"].strip() print(f"识别结果: {text_input}")

你也可以封装为函数，支持实时麦克风输入（需配合pyaudio）：

import pyaudio import wave def record_audio(filename, duration=5, rate=16000): p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paInt16, channels=1, rate=rate, input=True, frames_per_buffer=1024) frames = [] print("正在录音...") for _ in range(0, int(rate / 1024 * duration)): data = stream.read(1024) frames.append(data) stream.stop_stream() stream.close() p.terminate() wf = wave.open(filename, 'wb') wf.setnchannels(1) wf.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wf.setframerate(rate) wf.writeframes(b''.join(frames)) wf.close() print("录音完成")

然后组合调用：

record_audio("temp.wav", duration=5) result = model.transcribe("temp.wav", language="zh") user_query = result["text"]

4. 文本生成与流式响应处理

4.1 构建带上下文的对话链

为了让语音助手具备多轮对话能力，需维护一个简单的消息历史记录。LangChain 提供了ConversationBufferMemory来简化这一过程。

from langchain.memory import ConversationBufferMemory from langchain.chains import LLMChain from langchain.prompts import PromptTemplate template = """你是一个友好且专业的语音助手，请根据以下对话历史回答问题： {history} Human: {input} Assistant:""" prompt = PromptTemplate(input_variables=["history", "input"], template=template) memory = ConversationBufferMemory(memory_key="history") conversation_chain = LLMChain( llm=chat_model, prompt=prompt, memory=memory ) # 示例调用 response = conversation_chain.invoke({"input": user_query}) ai_reply = response["text"] print(f"AI 回复: {ai_reply}")

4.2 流式输出与前端联动

由于设置了streaming=True，我们可以监听每个 token 的输出，实现“边说边出”的效果。这对于后续驱动 TTS 模块非常关键。

async def stream_response(user_input): async for chunk in chat_model.astream([("human", user_input)]): token = chunk.content if token: print(token, end="", flush=True) # 此处可发送 token 至 TTS 模块进行增量合成

提示：在生产环境中，建议使用 WebSocket 将流式文本推送到前端或嵌入式设备，避免阻塞主线程。

5. 语音合成（TTS）模块实现

5.1 选择 TTS 方案

目前主流开源 TTS 方案包括： -VITS：端到端语音合成，音质自然，支持中文 -FasterSpeech2 + HiFi-GAN：非自回归模型，速度快，适合低延迟场景 -Coqui TTS：Python 原生库，易用性高

本教程采用VITS实现高质量语音输出。

安装方式：

git clone https://github.com/jaywalnut310/vits.git cd vits pip install -r requirements.txt

下载预训练中文模型权重（如chinese_vits.pth）并放置于指定目录。

5.2 文本转语音实现

import torch from models import SynthesizerTrn import utils from text import text_to_sequence def get_text(text, hps): text_norm = text_to_sequence(text, hps.data.text_cleaners) return torch.LongTensor(text_norm) # 加载模型配置 hps = utils.get_hparams_from_file("./configs/base.json") net_g = SynthesizerTrn( len(symbols), hps.data.filter_length // 2 + 1, hps.train.segment_size // hps.data.hop_length, n_speakers=hps.data.n_speakers, **hps.model ).cuda() _ = net_g.eval() _ = utils.load_checkpoint("chinese_vits.pth", net_g, None) # 生成语音 text = "你好，我是你的语音助手。" stn_tst = get_text(text, hps) with torch.no_grad(): x_tst = stn_tst.cuda().unsqueeze(0) x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).cuda() audio = net_g.infer(x_tst, x_tst_lengths, noise_scale=0.667, length_scale=1.0, noise_scale_w=0.8)[0][0,0].data.cpu().float().numpy() # 保存音频 import soundfile as sf sf.write("reply.wav", audio, hps.data.sampling_rate)

最终生成的reply.wav即为 AI 助手的回答语音，可通过扬声器播放。

6. 系统整合与运行流程

6.1 完整语音助手工作流

整个系统的调用流程如下：

用户语音输入 → 录音保存为.wav文件
Whisper 执行 ASR → 输出文本查询
LangChain 调用 Qwen3-1.7B → 生成回复文本（支持流式）
VITS 将回复文本合成为语音
播放语音输出，完成一次交互

可封装为主函数：

def voice_assistant_main(): # Step 1: 录音 record_audio("input.wav", duration=5) # Step 2: ASR result = model.transcribe("input.wav", language="zh") user_text = result["text"] # Step 3: LLM 推理 response = conversation_chain.invoke({"input": user_text}) ai_text = response["text"] # Step 4: TTS generate_speech(ai_text, "output.wav") # Step 5: 播放 play_audio("output.wav")

6.2 性能优化建议

优化方向	建议
延迟控制	使用更小的 Whisper 模型（如 tiny）或量化版
内存占用	对 Qwen3-1.7B 使用 GGUF 量化格式部署
流式体验	在接收到第一个 token 时即启动 TTS 缓冲
降噪处理	前置添加语音降噪模块（如 RNNoise）
缓存机制	对常见问题缓存 ASR+LLM+TTS 结果

7. 总结

7.1 核心成果回顾

本文详细介绍了如何基于Qwen3-1.7B构建一个完整的语音助手系统，覆盖了从语音输入到语音输出的全流程技术栈：

成功在 CSDN GPU 镜像环境中部署并调用了 Qwen3-1.7B 模型
利用 LangChain 实现了对本地大模型的标准化访问，支持流式输出与思维链解析
集成了 Whisper 实现高准确率的中文语音识别
采用 VITS 框架完成自然流畅的文本转语音合成
设计了完整的 ASR → LLM → TTS 系统架构，并提供了可运行代码示例

该方案适用于智能家居控制、车载语音助手、教育陪练等多种低延迟、轻量级应用场景。

7.2 下一步学习建议

探索MoE 架构模型（如 Qwen3-MoE-A2.7B）以提升性能边界
尝试端侧部署：将 Qwen3-1.7B 转换为 ONNX 或 GGUF 格式，在树莓派等设备运行
引入意图识别与槽位填充模块，增强对话结构化能力
使用RAG（检索增强生成）提升知识准确性

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-1.7B语音助手集成：ASR+TTS全流程部署教程