Qwen3-0.6B实战教程：结合Hugging Face Spaces发布Demo-程序员充电站

Qwen3-0.6B实战教程：结合Hugging Face Spaces发布Demo

1. 引言

随着大语言模型的快速发展，轻量级模型在实际应用中展现出越来越重要的价值。Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-0.6B作为该系列中最小的密集模型，具备推理速度快、资源占用低、部署成本小等优势，非常适合用于边缘设备、移动端以及快速原型开发场景。

本教程将聚焦于如何基于 Hugging Face Spaces 平台，结合 LangChain 框架调用 Qwen3-0.6B 模型，并发布一个可交互的在线 Demo。通过本文，你将掌握： - 如何在 Jupyter 环境中加载并调用远程 Qwen3-0.6B 模型 - 使用 LangChain 集成模型进行对话生成 - 将本地实验快速部署为公开可访问的 Web 应用

无论你是 AI 初学者还是希望快速验证想法的开发者，本指南都能帮助你实现“从代码到服务”的完整闭环。

2. 环境准备与镜像启动

2.1 获取预置镜像环境

为了简化部署流程，推荐使用 CSDN 提供的 GPU 预置镜像环境，该镜像已集成 Jupyter Lab、Transformers、LangChain、Gradio 等常用工具库，支持一键启动。

操作步骤如下：

访问 CSDN星图镜像广场，搜索Qwen3相关镜像。
选择带有Jupyter + GPU支持的镜像版本，点击“启动实例”。
实例初始化完成后，进入 Web 终端或直接打开 Jupyter Lab 页面。

提示：确保实例开放了正确的端口（如 8000），以便后续 API 调用。

2.2 启动 Jupyter 并创建 Notebook

在 Jupyter Lab 中新建一个 Python 3 Notebook，命名为qwen3_demo.ipynb。接下来我们将在此环境中完成模型调用与界面构建。

确认以下依赖包已安装：

!pip install langchain-openai gradio --quiet

若使用自定义环境，请确保langchain_openai>=0.1.0，以支持 OpenAI 兼容接口的扩展字段。

3. 使用 LangChain 调用 Qwen3-0.6B 模型

3.1 配置 OpenAI 兼容接口

尽管 Qwen3-0.6B 并非 OpenAI 官方模型，但其后端服务提供了类 OpenAI 的 REST API 接口，因此我们可以借助langchain_openai.ChatOpenAI类来便捷地调用它。

关键配置说明：

base_url：指向运行 Qwen3 模型的服务地址（通常由平台分配）
api_key="EMPTY"：表示无需真实密钥（部分平台要求非空字符串）
extra_body：传递特定参数，如启用思维链（CoT）输出

示例代码：初始化 ChatModel

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", # 替换为当前 Jupyter 实例的实际地址 api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, )

注意：base_url必须包含协议（https://）和/v1路径，端口号应与服务监听一致（示例中为 8000）。

3.2 发起模型调用测试

执行以下代码，验证模型是否正常响应：

response = chat_model.invoke("你是谁？") print(response.content)

预期输出示例：

我是通义千问3（Qwen3），阿里巴巴集团研发的新一代超大规模语言模型。我能够回答问题、创作文字，比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等，还能表达观点，玩游戏等。

此外，由于设置了"enable_thinking": True和"return_reasoning": True，返回结果可能包含推理过程（具体取决于后端实现），可用于分析模型决策路径。

3.3 流式输出处理

设置streaming=True后，模型将以流式方式逐词返回结果，提升用户体验。我们可以通过回调函数捕获中间输出：

from langchain_core.callbacks import StreamingStdOutCallbackHandler chat_model_stream = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", api_key="EMPTY", callbacks=[StreamingStdOutCallbackHandler()], streaming=True, ) chat_model_stream.invoke("请解释什么是机器学习？")

运行上述代码后，你会看到文本逐步打印出来，模拟实时对话效果。

4. 构建 Web Demo 界面

4.1 使用 Gradio 创建交互界面

为了让非技术用户也能体验模型能力，我们将使用 Gradio 快速搭建一个简洁的聊天界面。

完整代码实现

import gradio as gr from langchain_openai import ChatOpenAI from langchain_core.messages import HumanMessage # 初始化模型（同上） llm = ChatOpenAI( model="Qwen-0.6B", temperature=0.7, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", api_key="EMPTY", streaming=True, ) def respond(message, history): human_message = HumanMessage(content=message) response = llm.invoke([human_message]) return response.content # 构建 Gradio 界面 demo = gr.ChatInterface( fn=respond, title="💬 Qwen3-0.6B 在线对话 Demo", description="基于 Hugging Face Spaces 部署的轻量级大模型聊天应用", examples=["你好呀", "Python中如何读取CSV文件？", "给我讲个笑话"], retry_btn=None, undo_btn="删除上一轮对话", clear_btn="清空历史记录" ) # 启动服务 demo.launch(share=True)

执行后，Gradio 将生成一个本地隧道 URL（如https://xxxx.gradio.live），可通过浏览器访问并与模型互动。

4.2 界面功能说明

自动滚动：支持长文本输出自动滚动
历史会话管理：保留上下文记忆（单次会话内）
示例提示：提供预设问题引导用户输入
share=True自动生成公网可访问链接，便于分享

建议：生产环境中应关闭share=True，改用内网部署 + 反向代理保障安全。

5. 部署至 Hugging Face Spaces

5.1 注册并登录 Hugging Face

前往 Hugging Face 官网注册账号并登录。Hugging Face Spaces 提供免费的容器化托管服务，支持 Docker、Streamlit、Gradio 等多种框架。

5.2 创建新 Space

进入个人主页 → “Spaces” → 点击 “New Space”
填写项目名称（如qwen3-0.6b-demo）
选择“Gradio”作为 SDK
设置私有性（Public 或 Private）
点击 Create Space

5.3 上传项目文件

在仓库根目录下创建以下文件：

`app.py`—— 主程序入口

from langchain_openai import ChatOpenAI from langchain_core.messages import HumanMessage import gradio as gr import os # 从环境变量读取 base_url BASE_URL = os.getenv("QWEN_BASE_URL", "https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1") llm = ChatOpenAI( model="Qwen-0.6B", temperature=0.7, base_url=BASE_URL, api_key="EMPTY", streaming=True, ) def respond(message, history): human_message = HumanMessage(content=message) response = llm.invoke([human_message]) return response.content demo = gr.ChatInterface( fn=respond, title="💬 Qwen3-0.6B 在线对话 Demo", description="基于 Hugging Face Spaces 部署的轻量级大模型聊天应用", examples=["你好呀", "Python中如何读取CSV文件？", "给我讲个笑话"], retry_btn=None, undo_btn="删除上一轮对话", clear_btn="清空历史记录" ) demo.launch()

`requirements.txt`—— 依赖声明

langchain-openai>=0.1.0 gradio>=4.0.0

`.gitignore`

__pycache__ *.pyc .env

5.4 设置环境变量（可选）

若需保护base_url不被暴露，可在 Hugging Face Space 的 Settings → Secrets 中添加：

Key:QWEN_BASE_URL
Value: 实际的服务地址

然后修改代码中读取方式为os.getenv("QWEN_BASE_URL")

5.5 推送代码并自动部署

使用 Git 命令推送代码：

git init git add . git commit -m "Initial commit: Qwen3-0.6B demo with Gradio" git remote add origin https://huggingface.co/spaces/your-username/qwen3-0.6b-demo git push origin main

Hugging Face 将自动检测requirements.txt并启动构建流程。几分钟后，你的应用即可通过https://huggingface.co/spaces/your-username/qwen3-0.6b-demo访问。

6. 总结

6.1 核心要点回顾

本文详细介绍了如何将 Qwen3-0.6B 模型集成到 Hugging Face Spaces 并发布为在线 Demo 的全过程。主要收获包括：

轻量高效：Qwen3-0.6B 是适合快速部署的小参数模型，兼顾性能与成本。
LangChain 集成：利用ChatOpenAI接口轻松对接兼容 OpenAI 协议的模型服务。
流式响应优化体验：通过streaming=True实现逐字输出，增强交互感。
Gradio 快速构建 UI：无需前端知识即可打造专业级对话界面。
Hugging Face 免运维部署：借助 Spaces 实现一键发布，降低上线门槛。

6.2 最佳实践建议

统一配置管理：将敏感信息（如 base_url）通过环境变量注入，避免硬编码。
错误处理机制：在生产环境中增加网络异常、超时重试等容错逻辑。
性能监控：记录平均响应时间、并发数等指标，评估系统稳定性。
模型缓存优化：对于高频请求，可引入 Redis 缓存常见问答对，减少重复计算。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-0.6B实战教程：结合Hugging Face Spaces发布Demo