通义千问3-14B实战：JSON格式处理与函数调用案例-程序员充电站

通义千问3-14B实战：JSON格式处理与函数调用案例

1. 引言：为何选择Qwen3-14B进行结构化输出与工具集成？

随着大模型在企业级应用中的深入，对结构化数据输出和外部工具协同能力的需求日益增长。传统的自由文本生成已无法满足自动化流程、API对接、智能代理（Agent）系统等场景的工程化要求。在此背景下，具备原生支持JSON Schema 输出和函数调用（Function Calling）能力的大模型成为关键基础设施。

通义千问 Qwen3-14B 正是当前开源生态中极具竞争力的选择。作为阿里云于2025年4月发布的148亿参数 Dense 架构模型，它不仅实现了“单卡可跑、双模式推理、128k长上下文、多语言互译”的核心特性，更通过官方qwen-agent库完整支持结构化响应与工具调用机制。其 Apache 2.0 商用许可也为产品化落地扫清了法律障碍。

本文将聚焦 Qwen3-14B 在JSON 格式生成与函数调用实践两个典型场景下的使用方法，结合 Ollama 本地部署环境与 Ollama WebUI 可视化交互界面，手把手实现一个天气查询 Agent 的构建过程，帮助开发者快速掌握该模型在实际项目中的集成技巧。

2. 环境搭建：Ollama + Ollama WebUI 快速启动 Qwen3-14B

2.1 使用 Ollama 部署 Qwen3-14B 模型

Ollama 是目前最流行的本地大模型运行框架之一，支持一键拉取、量化加载和 REST API 调用。Qwen3-14B 已被官方适配并发布至 Ollama 模型库，用户可通过以下命令快速部署：

# 下载 FP8 量化版本（约 14GB），适合 RTX 3090/4090 显卡 ollama pull qwen:14b-fp8 # 或下载 BF16 版本（约 28GB），保留更高精度 ollama pull qwen:14b

启动服务后，默认监听http://localhost:11434，可通过如下命令测试基础推理：

ollama run qwen:14b-fp8 "请用 JSON 格式输出中国的首都和人口"

预期输出示例：

{ "capital": "北京", "population": "14亿" }

提示：若显存不足，可选用qwen:14b-q4_K_M等更低精度量化版本，最低可在 12GB 显存设备上运行。

2.2 配置 Ollama WebUI 实现可视化调试

为了提升开发效率，推荐搭配Ollama WebUI进行交互式调试。安装步骤如下：

git clone https://github.com/ollama-webui/ollama-webui.git cd ollama-webui docker-compose up -d

访问http://localhost:3000即可进入图形化界面，在模型选择中切换为qwen:14b-fp8，即可开始对话测试。

该组合形成了“Ollama 后端 + WebUI 前端”的双重缓冲架构（Double Buffering Architecture），既保证了高性能推理，又提供了友好的调试体验，特别适合原型验证阶段。

3. 实战一：强制 JSON 格式输出 —— 结构化数据提取

3.1 场景说明

在许多业务系统中，如客服机器人、信息抽取、表单填充等，需要模型输出严格符合预定义结构的数据。传统做法依赖正则清洗或后处理解析，容错率低且维护成本高。Qwen3-14B 支持通过提示词指令或 API 参数强制返回 JSON 格式内容。

3.2 方法一：Prompt 指令控制

最简单的方式是在 prompt 中明确指定输出格式：

请根据以下简历内容，提取姓名、职位、工作年限，并以 JSON 格式返回： "张伟，资深算法工程师，拥有8年机器学习领域工作经验，曾就职于百度与腾讯。" 输出格式： { "name": "", "position": "", "experience_years": 0 }

在 Ollama CLI 中执行：

ollama run qwen:14b-fp8 << EOF 请根据以下简历内容，提取姓名、职位、工作年限，并以 JSON 格式返回： "张伟，资深算法工程师，拥有8年机器学习领域工作经验，曾就职于百度与腾讯。" 输出格式： { "name": "", "position": "", "experience_years": 0 } EOF

输出结果：

{ "name": "张伟", "position": "资深算法工程师", "experience_years": 8 }

3.3 方法二：使用 OpenAI 兼容 API 指定 response_format

Ollama 支持 OpenAI 格式的/chat/completions接口，可通过response_format字段强制约束输出类型。

发送 POST 请求：

curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen:14b-fp8", "messages": [ {"role": "user", "content": "中国四大名著有哪些？请列出书名和作者"} ], "response_format": {"type": "json_object"} }'

注意：必须在messages中引导模型理解需返回 JSON，例如添加类似“请以 JSON 对象形式返回结果”的描述。

响应示例：

{ "choices": [ { "message": { "content": "{\"books\": [{\"title\": \"红楼梦\", \"author\": \"曹雪芹\"}, {\"title\": \"西游记\", \"author\": \"吴承恩\"}, {\"title\": \"水浒传\", \"author\": \"施耐庵\"}, {\"title\": \"三国演义\", \"author\": \"罗贯中\"}]}" } } ] }

4. 实战二：函数调用（Function Calling）实现天气查询 Agent

4.1 函数调用原理简介

函数调用允许大模型在推理过程中识别用户意图，并决定是否调用预注册的外部工具。Qwen3-14B 借助qwen-agent框架实现了标准的 function calling 协议，其工作流程如下：

用户输入问题（如“上海今天天气如何？”）
模型判断是否需要调用函数
若需要，则输出包含函数名和参数的结构化请求
外部系统执行函数并返回结果
模型整合结果生成自然语言回答

4.2 定义天气查询函数 Schema

首先定义一个获取天气信息的函数接口：

import requests WEATHER_API = "https://api.openweathermap.org/data/2.5/weather" API_KEY = "your_api_key_here" # 替换为真实密钥 def get_weather(location: str): """调用 OpenWeatherMap API 获取指定城市的当前天气""" params = { 'q': location, 'appid': API_KEY, 'units': 'metric', 'lang': 'zh_cn' } try: resp = requests.get(WEATHER_API, params=params) data = resp.json() if resp.status_code == 200: return { "location": data['name'], "temperature": data['main']['temp'], "humidity": data['main']['humidity'], "description": data['weather'][0]['description'] } else: return {"error": data.get("message", "未知错误")} except Exception as e: return {"error": str(e)}

对应的 JSON Schema 描述如下：

{ "name": "get_weather", "description": "获取指定城市的实时天气情况", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "城市名称，如北京、上海、New York" } }, "required": ["location"] } }

4.3 使用 qwen-agent 实现函数调用逻辑

安装官方 agent 库：

pip install qwen-agent

编写主程序weather_agent.py：

from qwen_agent.agents import Assistant import json # 初始化助手 bot = Assistant( llm='qwen:14b-fp8', # 使用本地 Ollama 模型 function_list=[{ 'name': 'get_weather', 'description': '获取指定城市的实时天气情况', 'parameters': { 'type': 'object', 'properties': { 'location': {'type': 'string', 'description': '城市名称'} }, 'required': ['location'] } }] ) # 用户提问 messages = [{'role': 'user', 'content': '上海今天天气怎么样？'}] # 第一次调用：模型决定是否调用函数 response = bot.run(messages) func_call = response[0] if func_call.get('function_call'): func_name = func_call['function_call']['name'] args = json.loads(func_call['function_call']['arguments']) print(f"[Agent] 调用函数: {func_name}({args})") # 执行函数 result = get_weather(args['location']) # 将结果回传给模型 messages.append(func_call) messages.append({ 'role': 'function', 'name': func_name, 'content': json.dumps(result, ensure_ascii=False) }) # 第二次调用：生成最终回复 final_response = bot.run(messages) print("回答:", final_response[0]['content']) else: print("回答:", func_call['content'])

运行输出示例：

[Agent] 调用函数: get_weather({'location': '上海'}) 回答: 上海今天气温为 23°C，湿度 65%，天气状况为多云。适合外出活动。

5. 性能优化与工程建议

5.1 切换推理模式提升效率

Qwen3-14B 支持两种推理模式：

Thinking 模式：启用<think>标签显式展示思维链，适用于复杂任务（数学、代码、逻辑推理）
Non-thinking 模式：关闭中间步骤，响应速度提升近一倍，适合轻量级问答、翻译、摘要

可通过设置系统提示词控制模式：

# 开启 Thinking 模式 You are a helpful assistant. Let's think step by step. # 关闭 Thinking 模式 You are a helpful assistant. Respond directly.

5.2 降低延迟的实用技巧

优化项	建议
量化等级	优先使用 FP8 或 Q4_K_M 量化版本
上下文长度	非必要不启用 full 128k context
批处理	多请求合并为 batch 提升 GPU 利用率
缓存机制	对高频查询结果做 KV Cache 或外部缓存