SmallThinker-3B部署教程：支持Ollama远程API调用+HTTPS反向代理配置-程序员充电站

SmallThinker-3B部署教程：支持Ollama远程API调用+HTTPS反向代理配置

想在自己的服务器上快速部署一个轻量级、推理能力强的大语言模型吗？SmallThinker-3B-Preview可能就是你要找的答案。这个基于Qwen2.5-3b-Instruct微调而来的模型，不仅体积小巧，还专门针对长链思维推理进行了优化，非常适合在资源有限的边缘设备上运行。

今天，我就带你从零开始，一步步完成SmallThinker-3B的完整部署。我们不仅要让它跑起来，还要配置好远程API调用和HTTPS反向代理，让你能从任何地方安全地访问这个AI助手。

1. 环境准备与快速部署

1.1 系统要求与前置检查

在开始之前，确保你的服务器满足以下基本要求：

操作系统：Ubuntu 20.04/22.04 LTS 或 CentOS 8/9（推荐Ubuntu）
内存：至少8GB RAM（16GB更佳）
存储：20GB可用磁盘空间
网络：能正常访问互联网
权限：拥有sudo权限的用户账户

打开终端，先检查一下系统信息：

# 查看系统版本 lsb_release -a # 查看内存和磁盘 free -h df -h # 检查Python版本（需要3.8+） python3 --version

如果Python版本低于3.8，需要先升级：

# Ubuntu系统 sudo apt update sudo apt install python3.9 python3.9-venv python3.9-dev # CentOS系统 sudo yum install python39 python39-devel

1.2 安装Docker和Docker Compose

SmallThinker可以通过Docker快速部署，我们先安装必要的工具：

# 卸载旧版本（如果有） sudo apt remove docker docker-engine docker.io containerd runc # 安装依赖 sudo apt update sudo apt install apt-transport-https ca-certificates curl gnupg lsb-release # 添加Docker官方GPG密钥 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg # 添加Docker仓库 echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null # 安装Docker引擎 sudo apt update sudo apt install docker-ce docker-ce-cli containerd.io # 安装Docker Compose sudo curl -L "https://github.com/docker/compose/releases/download/v2.20.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose sudo chmod +x /usr/local/bin/docker-compose # 验证安装 docker --version docker-compose --version

1.3 拉取并运行SmallThinker镜像

现在我们来部署SmallThinker。这里有两种方式，你可以选择其中一种：

方式一：直接使用Docker命令

# 拉取SmallThinker镜像 docker pull ollama/ollama # 运行Ollama服务 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama # 拉取SmallThinker模型 docker exec -it ollama ollama pull smallthinker:3b # 验证模型是否加载成功 docker exec -it ollama ollama list

方式二：使用Docker Compose（推荐）

创建一个docker-compose.yml文件：

version: '3.8' services: ollama: image: ollama/ollama:latest container_name: ollama restart: unless-stopped volumes: - ollama_data:/root/.ollama ports: - "11434:11434" command: serve volumes: ollama_data:

然后启动服务：

# 启动服务 docker-compose up -d # 等待服务启动后，拉取模型 docker exec -it ollama ollama pull smallthinker:3b # 查看服务状态 docker-compose ps # 查看日志 docker-compose logs -f ollama

2. 基础概念快速入门

2.1 SmallThinker是什么？

你可能听说过ChatGPT、Claude这些大模型，但它们动辄几十GB甚至上百GB，普通服务器根本跑不动。SmallThinker-3B-Preview就是为了解决这个问题而生的。

简单来说，SmallThinker有三大特点：

体积小：只有3B参数，相比动辄70B的大模型，它能在普通电脑甚至树莓派上运行
推理强：专门针对思维链推理进行了优化，能处理复杂的逻辑问题
速度快：作为QwQ-32B的草稿模型，推理速度能提升70%

2.2 Ollama是什么？

Ollama就像是大模型的"应用商店"和"运行环境"。它帮你：

管理模型：一键下载、更新、删除各种开源模型
提供API：通过简单的HTTP接口就能调用模型
优化运行：自动处理GPU/CPU切换、内存优化等复杂问题

你可以把Ollama想象成手机的App Store，SmallThinker就是其中一个App，而Ollama负责安装和运行这个App。

2.3 为什么需要反向代理？

直接通过IP和端口访问服务有两个问题：

不安全：数据在传输过程中是明文的，容易被窃听
不方便：需要记住IP和端口，而且可能被防火墙阻挡

反向代理就像是一个"智能门卫"：

对外提供统一的域名（如ai.yourdomain.com）
自动把HTTP升级为HTTPS（加锁保护）
可以隐藏后端服务的真实地址
还能做负载均衡和缓存

3. 配置Ollama远程API调用

3.1 测试本地API调用

在配置远程访问之前，我们先确保本地能正常调用：

# 方法1：使用curl直接测试 curl http://localhost:11434/api/generate -d '{ "model": "smallthinker:3b", "prompt": "你好，请介绍一下你自己", "stream": false }' # 方法2：使用Python脚本测试

创建一个测试脚本test_local.py：

import requests import json def test_smallthinker(): url = "http://localhost:11434/api/generate" payload = { "model": "smallthinker:3b", "prompt": "用简单的语言解释什么是人工智能", "stream": False, "options": { "temperature": 0.7, "top_p": 0.9 } } try: response = requests.post(url, json=payload, timeout=30) response.raise_for_status() result = response.json() print(" 测试成功！") print(f"问题：{payload['prompt']}") print(f"回答：{result['response']}") print(f"用时：{result.get('total_duration', 0) / 1e9:.2f}秒") except requests.exceptions.RequestException as e: print(f" 请求失败：{e}") except json.JSONDecodeError as e: print(f" JSON解析失败：{e}") if __name__ == "__main__": test_smallthinker()

运行测试：

python3 test_local.py

如果看到类似下面的输出，说明本地API工作正常：

测试成功！ 问题：用简单的语言解释什么是人工智能 回答：人工智能就像是一个超级聪明的电脑大脑，它能学习、思考、解决问题，甚至创造新东西... 用时：1.23秒

3.2 配置Ollama允许远程访问

默认情况下，Ollama只允许本地访问。我们需要修改配置：

# 进入Ollama容器 docker exec -it ollama /bin/bash # 编辑Ollama配置文件 vi /etc/ollama/ollama.env

在配置文件中添加或修改以下内容：

# 允许所有IP访问（生产环境建议限制IP） OLLAMA_HOST=0.0.0.0:11434 # 设置模型存储路径 OLLAMA_MODELS=/root/.ollama/models # 启用GPU支持（如果有NVIDIA GPU） OLLAMA_GPU_LAYERS=20

保存退出后，重启Ollama服务：

# 退出容器 exit # 重启服务 docker-compose restart ollama # 或者如果使用docker run docker restart ollama

3.3 配置防火墙规则

如果你的服务器有防火墙，需要开放11434端口：

# Ubuntu使用ufw sudo ufw allow 11434/tcp sudo ufw reload # CentOS使用firewalld sudo firewall-cmd --permanent --add-port=11434/tcp sudo firewall-cmd --reload # 检查端口是否开放 sudo netstat -tulpn | grep 11434

3.4 测试远程API调用

从另一台机器测试远程访问：

# remote_test.py import requests import json def test_remote_api(server_ip): url = f"http://{server_ip}:11434/api/generate" payload = { "model": "smallthinker:3b", "prompt": "远程测试：请写一首关于春天的短诗", "stream": False, "options": { "temperature": 0.8, "max_tokens": 200 } } headers = { "Content-Type": "application/json" } try: print(f"正在连接 {url}...") response = requests.post(url, json=payload, headers=headers, timeout=60) if response.status_code == 200: result = response.json() print(" 远程API调用成功！") print(f"服务器：{server_ip}") print(f"回答：{result['response'][:100]}...") return True else: print(f" 请求失败，状态码：{response.status_code}") print(f"响应内容：{response.text}") return False except Exception as e: print(f" 连接失败：{e}") return False if __name__ == "__main__": # 替换为你的服务器IP server_ip = "你的服务器IP地址" test_remote_api(server_ip)

4. 配置HTTPS反向代理

4.1 安装Nginx

Nginx是我们用来做反向代理的软件：

# Ubuntu sudo apt install nginx # CentOS sudo yum install nginx # 启动Nginx sudo systemctl start nginx sudo systemctl enable nginx # 检查状态 sudo systemctl status nginx

4.2 申请SSL证书

我们需要为域名申请SSL证书，这里使用Let's Encrypt的免费证书：

# 安装Certbot sudo apt install certbot python3-certbot-nginx # 申请证书（将ai.yourdomain.com替换为你的域名） sudo certbot --nginx -d ai.yourdomain.com # 证书会自动配置，验证是否成功 sudo certbot certificates

如果没有域名，也可以使用自签名证书（仅测试用）：

# 创建证书目录 sudo mkdir -p /etc/nginx/ssl # 生成自签名证书 sudo openssl req -x509 -nodes -days 365 -newkey rsa:2048 \ -keyout /etc/nginx/ssl/ai.key \ -out /etc/nginx/ssl/ai.crt \ -subj "/C=CN/ST=Beijing/L=Beijing/O=YourCompany/CN=ai.yourdomain.com"

4.3 配置Nginx反向代理

创建Nginx配置文件：

sudo vi /etc/nginx/sites-available/ai-proxy

添加以下配置：

server { listen 80; server_name ai.yourdomain.com; # 重定向HTTP到HTTPS return 301 https://$server_name$request_uri; } server { listen 443 ssl http2; server_name ai.yourdomain.com; # SSL证书路径 ssl_certificate /etc/letsencrypt/live/ai.yourdomain.com/fullchain.pem; ssl_certificate_key /etc/letsencrypt/live/ai.yourdomain.com/privkey.pem; # 如果使用自签名证书 # ssl_certificate /etc/nginx/ssl/ai.crt; # ssl_certificate_key /etc/nginx/ssl/ai.key; # SSL优化配置 ssl_protocols TLSv1.2 TLSv1.3; ssl_ciphers ECDHE-RSA-AES256-GCM-SHA512:DHE-RSA-AES256-GCM-SHA512; ssl_prefer_server_ciphers off; ssl_session_cache shared:SSL:10m; ssl_session_timeout 10m; # 安全头部 add_header X-Frame-Options DENY; add_header X-Content-Type-Options nosniff; add_header X-XSS-Protection "1; mode=block"; # Ollama API反向代理 location /api/ { proxy_pass http://localhost:11434; # 超时设置 proxy_connect_timeout 300s; proxy_send_timeout 300s; proxy_read_timeout 300s; # 传递必要头部 proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; # WebSocket支持（如果需要） proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; } # 静态文件服务（可选，用于Web界面） location / { root /var/www/ai-web; index index.html; # 如果不需要Web界面，可以重定向到API文档 # return 301 /api; } # 访问日志 access_log /var/log/nginx/ai-access.log; error_log /var/log/nginx/ai-error.log; }

启用配置并测试：

# 创建符号链接 sudo ln -s /etc/nginx/sites-available/ai-proxy /etc/nginx/sites-enabled/ # 测试Nginx配置 sudo nginx -t # 重启Nginx sudo systemctl restart nginx # 检查Nginx状态 sudo systemctl status nginx

4.4 配置Ollama使用域名

修改Ollama配置，使其知道自己的公开地址：

# 进入容器 docker exec -it ollama /bin/bash # 创建或修改环境变量 echo 'OLLAMA_ORIGINS=https://ai.yourdomain.com' >> /etc/ollama/ollama.env echo 'OLLAMA_HOST=0.0.0.0:11434' >> /etc/ollama/ollama.env # 重启Ollama exit docker-compose restart ollama

5. 完整测试与使用示例

5.1 测试HTTPS API调用

现在我们可以通过安全的HTTPS连接来调用SmallThinker了：

# https_test.py import requests import json import time class SmallThinkerClient: def __init__(self, base_url="https://ai.yourdomain.com"): self.base_url = base_url self.api_url = f"{base_url}/api" def generate(self, prompt, model="smallthinker:3b", **kwargs): """调用模型生成文本""" payload = { "model": model, "prompt": prompt, "stream": False, "options": { "temperature": kwargs.get("temperature", 0.7), "top_p": kwargs.get("top_p", 0.9), "max_tokens": kwargs.get("max_tokens", 512) } } try: start_time = time.time() response = requests.post( f"{self.api_url}/generate", json=payload, timeout=kwargs.get("timeout", 120), verify=True # 验证SSL证书 ) if response.status_code == 200: result = response.json() elapsed = time.time() - start_time return { "success": True, "response": result.get("response", ""), "time": elapsed, "tokens": result.get("eval_count", 0) } else: return { "success": False, "error": f"HTTP {response.status_code}: {response.text}", "time": time.time() - start_time } except requests.exceptions.SSLError as e: return { "success": False, "error": f"SSL错误：{e}", "suggestion": "如果是自签名证书，可以添加 verify=False（仅测试环境）" } except Exception as e: return { "success": False, "error": str(e) } def chat(self, messages, **kwargs): """对话模式""" prompt = self._format_messages(messages) return self.generate(prompt, **kwargs) def _format_messages(self, messages): """格式化对话消息""" formatted = [] for msg in messages: role = msg.get("role", "user") content = msg.get("content", "") formatted.append(f"{role}: {content}") return "\n".join(formatted) # 使用示例 if __name__ == "__main__": # 初始化客户端 client = SmallThinkerClient() # 测试1：简单问答 print("测试1：简单问答") result = client.generate("什么是机器学习？") if result["success"]: print(f"回答：{result['response'][:150]}...") print(f"用时：{result['time']:.2f}秒，生成{result['tokens']}个token") else: print(f"失败：{result['error']}") print("\n" + "="*50 + "\n") # 测试2：多轮对话 print("测试2：多轮对话") messages = [ {"role": "user", "content": "我想学习Python编程，有什么建议吗？"}, {"role": "assistant", "content": "学习Python可以从基础语法开始..."}, {"role": "user", "content": "那数据分析方面呢？"} ] result = client.chat(messages, temperature=0.8) if result["success"]: print(f"回答：{result['response'][:200]}...") else: print(f"失败：{result['error']}")

5.2 创建简单的Web界面

如果你想提供一个更友好的界面，可以创建一个简单的HTML页面：

<!-- /var/www/ai-web/index.html --> <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>SmallThinker AI助手</title> <style> * { margin: 0; padding: 0; box-sizing: border-box; } body { font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif; line-height: 1.6; color: #333; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); min-height: 100vh; padding: 20px; } .container { max-width: 800px; margin: 0 auto; background: white; border-radius: 15px; box-shadow: 0 20px 60px rgba(0,0,0,0.3); overflow: hidden; } .header { background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 30px; text-align: center; } .header h1 { font-size: 2.5em; margin-bottom: 10px; } .header p { opacity: 0.9; font-size: 1.1em; } .chat-container { padding: 30px; } .messages { height: 400px; overflow-y: auto; border: 1px solid #e1e1e1; border-radius: 10px; padding: 20px; margin-bottom: 20px; background: #f9f9f9; } .message { margin-bottom: 15px; padding: 12px 16px; border-radius: 10px; max-width: 80%; } .user-message { background: #667eea; color: white; margin-left: auto; } .ai-message { background: #f1f1f1; color: #333; margin-right: auto; } .input-area { display: flex; gap: 10px; } #userInput { flex: 1; padding: 15px; border: 2px solid #e1e1e1; border-radius: 10px; font-size: 16px; resize: vertical; min-height: 60px; max-height: 150px; } #userInput:focus { outline: none; border-color: #667eea; } #sendBtn { padding: 0 30px; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; border: none; border-radius: 10px; font-size: 16px; font-weight: bold; cursor: pointer; transition: transform 0.2s; } #sendBtn:hover { transform: translateY(-2px); } #sendBtn:disabled { opacity: 0.6; cursor: not-allowed; transform: none; } .status { text-align: center; padding: 10px; color: #666; font-size: 14px; } .typing-indicator { display: inline-block; padding: 10px 20px; background: #f1f1f1; border-radius: 10px; color: #666; } .typing-dots { display: inline-block; } .typing-dots span { animation: typing 1.4s infinite; opacity: 0.6; } .typing-dots span:nth-child(2) { animation-delay: 0.2s; } .typing-dots span:nth-child(3) { animation-delay: 0.4s; } @keyframes typing { 0%, 60%, 100% { opacity: 0.6; } 30% { opacity: 1; } } @media (max-width: 600px) { .container { margin: 10px; border-radius: 10px; } .header { padding: 20px; } .header h1 { font-size: 2em; } .chat-container { padding: 20px; } .messages { height: 300px; } } </style> </head> <body> <div class="container"> <div class="header"> <h1>SmallThinker AI助手</h1> <p>基于SmallThinker-3B模型的智能对话系统</p> </div> <div class="chat-container"> <div class="messages" id="messages"> <div class="message ai-message"> 你好！我是SmallThinker，一个轻量级AI助手。我可以帮你回答问题、写作、编程等等。有什么可以帮你的吗？ </div> </div> <div class="input-area"> <textarea id="userInput" placeholder="输入你的问题...（Shift+Enter换行，Enter发送）" rows="3" ></textarea> <button id="sendBtn">发送</button> </div> <div class="status" id="status"> 就绪 </div> </div> </div> <script> const messagesEl = document.getElementById('messages'); const userInputEl = document.getElementById('userInput'); const sendBtn = document.getElementById('sendBtn'); const statusEl = document.getElementById('status'); // API基础URL - 修改为你的域名 const API_BASE_URL = 'https://ai.yourdomain.com'; // 添加消息到聊天框 function addMessage(content, isUser = false) { const messageDiv = document.createElement('div'); messageDiv.className = `message ${isUser ? 'user-message' : 'ai-message'}`; messageDiv.textContent = content; messagesEl.appendChild(messageDiv); messagesEl.scrollTop = messagesEl.scrollHeight; } // 显示打字指示器 function showTypingIndicator() { const typingDiv = document.createElement('div'); typingDiv.className = 'message ai-message typing-indicator'; typingDiv.id = 'typingIndicator'; typingDiv.innerHTML = '思考中<span class="typing-dots"><span>.</span><span>.</span><span>.</span></span>'; messagesEl.appendChild(typingDiv); messagesEl.scrollTop = messagesEl.scrollHeight; } // 隐藏打字指示器 function hideTypingIndicator() { const indicator = document.getElementById('typingIndicator'); if (indicator) { indicator.remove(); } } // 发送消息到AI async function sendMessage() { const userMessage = userInputEl.value.trim(); if (!userMessage) return; // 禁用输入和按钮 userInputEl.disabled = true; sendBtn.disabled = true; sendBtn.textContent = '发送中...'; statusEl.textContent = '正在思考...'; // 添加用户消息 addMessage(userMessage, true); // 清空输入框 userInputEl.value = ''; // 显示打字指示器 showTypingIndicator(); try { // 调用API const response = await fetch(`${API_BASE_URL}/api/generate`, { method: 'POST', headers: { 'Content-Type': 'application/json', }, body: JSON.stringify({ model: 'smallthinker:3b', prompt: userMessage, stream: false, options: { temperature: 0.7, max_tokens: 512 } }) }); if (!response.ok) { throw new Error(`HTTP ${response.status}`); } const data = await response.json(); // 隐藏打字指示器 hideTypingIndicator(); // 添加AI回复 if (data.response) { addMessage(data.response); statusEl.textContent = `回答完成，用时 ${(data.total_duration / 1e9).toFixed(2)} 秒`; } else { addMessage('抱歉，我没有理解你的问题。'); statusEl.textContent = '回答完成'; } } catch (error) { hideTypingIndicator(); addMessage(`抱歉，出错了：${error.message}`); statusEl.textContent = '请求失败'; console.error('API调用错误:', error); } finally { // 重新启用输入和按钮 userInputEl.disabled = false; sendBtn.disabled = false; sendBtn.textContent = '发送'; userInputEl.focus(); } } // 事件监听 sendBtn.addEventListener('click', sendMessage); userInputEl.addEventListener('keydown', (e) => { if (e.key === 'Enter' && !e.shiftKey) { e.preventDefault(); sendMessage(); } }); // 页面加载时聚焦输入框 window.addEventListener('load', () => { userInputEl.focus(); }); // 状态检查 async function checkAPIStatus() { try { statusEl.textContent = '检查API状态...'; const response = await fetch(`${API_BASE_URL}/api/tags`, { method: 'GET', timeout: 5000 }); if (response.ok) { statusEl.textContent = 'API连接正常'; } else { statusEl.textContent = 'API连接异常'; } } catch (error) { statusEl.textContent = '无法连接到API'; } } // 页面加载时检查状态 checkAPIStatus(); </script> </body> </html>

将文件保存后，设置正确的权限：

# 创建Web目录 sudo mkdir -p /var/www/ai-web # 复制HTML文件 sudo cp index.html /var/www/ai-web/ # 设置权限 sudo chown -R www-data:www-data /var/www/ai-web sudo chmod -R 755 /var/www/ai-web # 重启Nginx sudo systemctl restart nginx

现在访问https://ai.yourdomain.com就能看到Web界面了。

6. 常见问题与解决方案

6.1 模型加载失败

问题：执行ollama pull smallthinker:3b时失败

解决方案：

# 1. 检查网络连接 ping 8.8.8.8 # 2. 尝试使用镜像源 docker exec -it ollama ollama pull smallthinker:3b --insecure # 3. 手动下载模型文件 # 先查看模型信息 curl https://ollama.ai/library/smallthinker:3b # 4. 清理缓存后重试 docker exec -it ollama rm -rf /root/.ollama/models docker-compose restart ollama docker exec -it ollama ollama pull smallthinker:3b

6.2 API响应缓慢

问题：API调用需要很长时间才响应

解决方案：

# 1. 检查服务器资源使用情况 docker stats ollama # 2. 调整Ollama配置，限制资源使用 # 编辑docker-compose.yml，添加资源限制 services: ollama: # ... 其他配置 ... deploy: resources: limits: cpus: '2' memory: 4G reservations: cpus: '1' memory: 2G # 3. 调整模型参数，减少生成长度 # 在API调用时设置max_tokens参数 { "model": "smallthinker:3b", "prompt": "你的问题", "options": { "max_tokens": 256 # 减少生成长度 } } # 4. 启用GPU加速（如果有NVIDIA GPU） # 安装NVIDIA容器工具包 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker # 修改docker-compose.yml services: ollama: # ... 其他配置 ... runtime: nvidia environment: - NVIDIA_VISIBLE_DEVICES=all

6.3 SSL证书问题

问题：HTTPS连接时出现证书错误

解决方案：

# 1. 检查证书是否过期 sudo certbot certificates # 2. 续期证书 sudo certbot renew --dry-run sudo certbot renew # 3. 如果是自签名证书，在客户端代码中跳过验证（仅测试环境） # Python requests requests.get(url, verify=False) # 4. 检查Nginx配置 sudo nginx -t sudo tail -f /var/log/nginx/error.log

6.4 内存不足

问题：服务器内存不足，模型无法加载

解决方案：

# 1. 查看内存使用情况 free -h docker stats # 2. 增加交换空间 sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile # 添加到/etc/fstab echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab # 3. 调整Ollama使用CPU模式（减少内存使用） docker exec -it ollama ollama run smallthinker:3b --cpu # 4. 使用量化版本（如果可用） docker exec -it ollama ollama pull smallthinker:3b-q4_0

6.5 连接数限制

问题：多个用户同时使用时连接被拒绝

解决方案：

# 修改Nginx配置，增加连接数限制 events { worker_connections 4096; use epoll; multi_accept on; } http { # 增加缓冲区大小 proxy_buffers 16 32k; proxy_buffer_size 64k; # 增加超时时间 proxy_connect_timeout 600s; proxy_send_timeout 600s; proxy_read_timeout 600s; # 启用keepalive keepalive_timeout 65; keepalive_requests 100; }

7. 总结

通过这篇教程，我们完成了SmallThinker-3B模型的完整部署流程。让我们回顾一下关键步骤：

7.1 部署要点回顾

环境准备：确保服务器满足基本要求，安装Docker和必要工具
模型部署：使用Docker快速部署Ollama和SmallThinker模型
API配置：配置Ollama允许远程访问，测试API调用
安全加固：通过Nginx配置HTTPS反向代理，保障传输安全
界面优化：创建Web界面，提升用户体验
问题排查：掌握常见问题的解决方法

7.2 实际应用建议

根据我的使用经验，SmallThinker-3B在以下场景表现不错：

个人学习助手：回答技术问题、解释概念、帮助理解复杂主题
内容创作：写博客草稿、生成创意文案、辅助写作
编程帮助：代码解释、简单代码生成、调试建议
数据分析：数据解读、报告生成、趋势分析

对于企业应用，建议：

性能监控：定期检查API响应时间和资源使用情况
日志分析：分析用户查询，优化模型使用
安全审计：定期更新SSL证书，检查访问日志
备份策略：定期备份模型数据和配置文件

7.3 后续优化方向

如果你想让这个部署更加完善，可以考虑：

添加身份验证：使用API密钥或OAuth保护接口
实现负载均衡：部署多个实例，通过Nginx分发请求
添加缓存层：对常见问题答案进行缓存，提升响应速度
集成监控：使用Prometheus+Grafana监控系统状态
自动化部署：使用Ansible或Terraform实现一键部署

SmallThinker-3B作为一个轻量级模型，在资源有限的环境中表现出色。它的部署相对简单，运行成本低，特别适合个人开发者、小团队或教育机构使用。

记住，AI模型只是工具，真正的价值在于如何用它解决实际问题。希望这个部署教程能帮助你快速上手，在实际项目中发挥SmallThinker的价值。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SmallThinker-3B部署教程：支持Ollama远程API调用+HTTPS反向代理配置