OptiLLM：无需训练，通过推理优化代理将大模型准确率提升2-10倍-程序员充电站

1. 项目概述：推理优化的“魔法”代理

如果你正在用大模型（LLM）处理数学题、写代码或者做逻辑推理，大概率遇到过这种情况：同一个问题，模型这次答对了，下次换个问法或者温度参数，它又错了。更让人头疼的是，为了提升那么一点点准确率，你可能需要投入大量时间和算力去微调模型，效果还不一定稳定。

今天要聊的OptiLLM，就是来解决这个痛点的。它不是一个新模型，而是一个推理优化代理。你可以把它理解成一个“智能调度器”或者“思维增强器”。它的核心价值在于：不改变你原有的模型，也不需要进行任何训练，仅仅通过在推理时引入更聪明的“思考”策略，就能让现有模型的准确率提升2到10倍。

我最初接触它时，也是抱着怀疑态度。毕竟，在模型权重不变的情况下，仅靠“外部包装”就能有如此大的提升，听起来有点“玄学”。但实际用下来，尤其是在处理一些需要多步推理的复杂任务时，效果确实令人印象深刻。比如，让一个轻量级的gpt-4o-mini模型，通过 OptiLLM 的“混合智能体”（Mixture of Agents, MOA）策略，其输出质量可以匹敌甚至在某些任务上超越更强大的gpt-4o。这背后的逻辑，是把一次性的“生成答案”变成了一个可搜索、可验证、可迭代的推理过程。

简单来说，OptiLLM 是一个与 OpenAI API 完全兼容的代理服务器。你只需要把原本发给 OpenAI 或其他兼容 API 的请求，转发给 OptiLLM，它就会在背后运用超过20种前沿的推理优化技术（如思维链反思、蒙特卡洛树搜索、多智能体投票等）来处理你的请求，最后返回一个经过“深思熟虑”的、质量更高的答案。对你原有的代码来说，只是换了个base_url，几乎零成本接入。

2. 核心原理：为什么“外部包装”能大幅提升性能？

要理解 OptiLLM 为什么有效，我们需要先跳出“模型即一切”的思维定式。大模型生成答案，本质上是一个基于概率的采样过程。对于简单的事实性问题，这个采样过程相对稳定。但对于复杂的推理任务，一次采样就像“蒙答案”，很容易陷入局部最优或逻辑谬误。

OptiLLM 的核心思想是“将计算从训练时转移到推理时”。它不再寄希望于模型通过海量数据“记住”所有问题的完美答案，而是通过设计精巧的推理流程，引导模型在回答时“想得更清楚”。这主要依赖以下几类技术：

2.1 从单次采样到多次探索与验证

最基础的技术是Best-of-N (BoN)。传统用法是让模型生成 N 个答案，然后选一个“最好”的（比如通过一个打分器）。但 OptiLLM 将其深化了。它不仅仅是生成多个答案，而是会引导模型以不同的“思维方式”去生成这些答案。例如，通过调整temperature参数，让一些答案更“保守”（低温度），一些更“发散”（高温度），从而覆盖更广的解题空间。

更高级的是Self-Consistency（自洽性）和Mixture of Agents (MOA，混合智能体）。自洽性要求模型对同一个问题生成多个推理路径，然后看哪个答案出现的频率最高，这类似于“投票”机制。而 MOA 则更进一步，它模拟了一个专家评审团：先让一个“生成者”模型给出初步答案，然后让多个“批评者”模型从不同角度（逻辑、事实、代码风格等）进行评审和修正，最后综合出一个最优解。这个过程显著降低了因单次采样偏差导致的错误。

2.2 从直接生成答案到结构化“思考-行动”规划

对于复杂问题，人类也不会直接给出最终答案，而是先拆解步骤。Chain-of-Thought (CoT) with Reflection（带反思的思维链）就是模拟这个过程。它强制模型在输出最终答案前，先生成一个<thinking>内部推理过程，然后进行<reflection>自我检查，最后才输出<output>。OptiLLM 通过特定的提示词模板和输出解析，确保模型遵循这个结构，从而暴露并修正推理中的中间错误。

PlanSearch（计划搜索）和Monte Carlo Tree Search (MCTS，蒙特卡洛树搜索）则将问题解决形式化为一个搜索问题。PlanSearch 让模型生成多个可能的解决“计划”（即步骤序列），然后评估并选择最优计划去执行。MCTS 则更复杂，它把对话或推理的每一步都看作树的一个节点，通过模拟（Simulation）、扩展（Expansion）、评估（Evaluation）和回溯（Backup）来探索最有希望的推理路径，这在解决需要多轮交互的复杂逻辑问题时非常有效。

2.3 利用外部工具与知识进行增强

纯粹的文本生成有其局限性。OptiLLM 通过插件体系整合了外部工具。例如：

Z3 Solver：对于数学和逻辑约束问题，直接将问题描述转化为 Z3 可解的公式，用这个定理证明器来验证或寻找答案，准确率远超模型的“直觉”计算。
Code Execution（代码执行）：对于涉及计算的问题，让模型生成代码，然后在安全沙箱中执行，用运行结果作为答案。这解决了模型“数学计算能力弱”的痛点。
Web Search（网络搜索）与Deep Research（深度研究）：当问题需要最新或特定领域知识时，自动发起搜索，获取相关信息并整合到上下文中，让模型基于事实作答。

这些技术不是孤立使用的。OptiLLM 的强大之处在于它能将这些技术动态组合、流水线化。你可以通过bon|moa|mcts这样的语法，让一个请求并行尝试多种策略；也可以用re2&cot_reflection让请求先进行“重读”理解，再进行“思维链反思”。系统内置的Router（路由）插件，甚至能根据你的问题类型（通过一个轻量级分类模型判断），自动选择最合适的优化策略组合。

实操心得：不要盲目堆砌所有技术。对于简单的数学计算，z3插件可能一击即中；对于开放式的创意写作，mcts或许能带来惊喜；而对于需要严谨论证的问答，cot_reflection是基础。理解你手头任务的性质，是有效使用 OptiLLM 的第一步。

3. 环境部署与快速上手

理论说了这么多，我们来点实际的。部署和使用 OptiLLM 非常简单，它被设计成一个即插即用的服务。

3.1 安装与启动

最推荐的方式是使用pip安装，这是最干净、依赖最明确的方式。

# 1. 安装 OptiLLM pip install optillm # 2. 设置你的原始模型 API 密钥（例如 OpenAI） export OPENAI_API_KEY="sk-your-openai-key-here" # 3. 启动 OptiLLM 代理服务器 optillm

启动后，你会看到类似下面的日志，说明服务已经在http://localhost:8000上运行：

2024-10-22 07:45:05,612 - INFO - Loaded plugin: privacy 2024-10-22 07:45:06,293 - INFO - Loaded plugin: memory 2024-10-22 07:45:06,293 - INFO - Starting server with approach: auto * Serving Flask app 'optillm' * Debug mode: off * Running on http://127.0.0.1:8000

Docker 方式：如果你喜欢容器化部署，或者需要在无 Python 环境的生产服务器上运行，Docker 是更好的选择。

# 拉取并运行最新镜像（完整版，包含所有插件和本地推理能力） docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest docker run -p 8000:8000 -e OPENAI_API_KEY="sk-your-key" ghcr.io/algorithmicsuperintelligence/optillm:latest

OptiLLM 提供了三种镜像变体，以满足不同场景：

latest：完整镜像，包含所有依赖，支持本地 HuggingFace 模型推理和所有插件。
latest-proxy：轻量代理镜像，仅包含代理功能，不包含本地模型推理所需的庞大依赖（如 PyTorch），镜像体积小，适合纯云端模型调用。
latest-offline：离线镜像，预下载了必要的 NLP 模型（如 spaCy），适合完全离线的内网环境部署。

3.2 第一个请求：体验性能提升

服务启动后，你现有的 OpenAI SDK 代码只需要修改一行：将base_url指向 OptiLLM。

from openai import OpenAI # 关键变化：将 base_url 指向本地运行的 OptiLLM client = OpenAI( api_key="sk-your-openai-key", # 这里仍然是你的原始 API Key base_url="http://localhost:8000/v1" # 指向 OptiLLM ) # 使用方式：在模型名前加上优化策略的“slug”（短名称） response = client.chat.completions.create( model="moa-gpt-4o-mini", # 使用混合智能体（MOA）策略优化 gpt-4o-mini messages=[{"role": "user", "content": "一个篮子里有苹果和橘子共12个。苹果比橘子多4个。问苹果和橘子各有多少个？请分步推理。"}], temperature=0.7 ) print(response.choices[0].message.content)

运行这段代码，OptiLLM 会在后台做很多事情：它可能会先用gpt-4o-mini生成几个候选答案，然后调用其他“批评者”模型（可能是同一个模型的不同实例）进行评审和修正，最后综合出一个答案。你会在服务日志中看到多次对 OpenAI API 的调用记录。

效果对比：

不使用 OptiLLM：模型可能直接输出“苹果8个，橘子4个”（正确），但也可能因为采样随机性输出错误答案或缺少步骤。
使用 OptiLLM (MOA)：你几乎总是能得到一个包含完整分步推理（“设橘子x个，则苹果x+4个，总数为x+(x+4)=12，解得x=4...”）且答案正确的响应。可靠性和解释性都大大增强。

注意事项：使用 OptiLLM 后，因为一次请求背后可能对应多次对底层模型的调用，所以总耗时和 Token 消耗会增加，这是用计算成本换取准确率的典型权衡。对于延迟敏感但精度要求不高的场景（如闲聊），可能不需要开启复杂优化。

4. 核心功能与策略详解

OptiLLM 内置了二十多种优化策略（Approach）和插件（Plugin）。理解它们各自的适用场景，是发挥其威力的关键。下面我挑几个最常用、效果最显著的功能进行深度解析。

4.1 混合智能体 (Mixture of Agents, MOA)

MOA 是我个人最常用的策略之一，它特别适合需要高可靠性的复杂问答和代码生成。

工作原理：

生成阶段：使用基础模型（如gpt-4o-mini）生成一个初始答案。
批评阶段：并行使用多个“批评者”模型（可以是同一模型的不同实例，通过不同温度或提示词区分）对初始答案进行评审。每个批评者会指出潜在问题，如逻辑漏洞、事实错误、代码缺陷或风格问题，并提出修正建议。
整合阶段：将初始答案和所有批评建议一起喂给一个“整合者”模型（通常与生成者相同），让它综合所有信息，产出一个修正后的最终答案。

如何调用：在模型名前加上moa-前缀即可，如model="moa-gpt-4o-mini"。

适用场景：

代码审查与生成：生成的代码经过多轮“同行评审”，健壮性更高。
学术问答与论证：确保答案逻辑严谨，引用准确。
重要决策支持：减少模型“幻觉”和随机错误。

配置参数（通过extra_body传递）：

response = client.chat.completions.create( model="gpt-4o-mini", # 这里写基础模型名 messages=messages, extra_body={ "optillm_approach": "moa", "moa_num_critics": 3, # 批评者数量，默认2 "moa_critic_temperature": [0.1, 0.7, 1.0], # 不同批评者的温度，增加多样性 } )

4.2 思维链与反思 (CoT with Reflection)

这是提升模型推理透明度和准确性的基础技术。很多模型在收到“请逐步思考”的指令后，确实会生成推理过程，但这个过程可能本身就有错误。CoT with Reflection 增加了“检查这一步”的强制环节。

工作原理： OptiLLM 会在系统提示词中嵌入特殊指令，要求模型严格按照以下格式输出：

<thinking> ...模型内部的推理步骤... </thinking> <reflection> ...对上述思考过程的检查：有没有计算错误？假设是否合理？逻辑是否自洽？... </reflection> <output> ...最终的答案... </output>

OptiLLM 会解析这个结构化的输出，如果发现反思环节指出了思考中的错误，它甚至会引导模型重新进行思考。

如何调用：使用cot_reflection作为策略，例如model="cot_reflection-gpt-4"。

适用场景：

数学问题求解：强制模型展示计算过程并自我验算。
逻辑谜题：暴露推理链条，便于发现隐藏的假设错误。
教育辅导：输出完整的思考过程，而不仅仅是答案。

4.3 本地模型与高级解码技术

除了作为代理调用云端 API，OptiLLM 还内置了一个轻量级的本地推理服务器，可以直接加载 HuggingFace 上的模型，并支持一些云端 API 不提供的高级解码技术。

启动本地推理：

设置一个任意的OPTILLM_API_KEY（仅用于客户端认证，无实际费用）。
启动 OptiLLM 服务。
在请求的model字段直接指定 HuggingFace 模型 ID。

import os os.environ['OPTILLM_API_KEY'] = 'dummy-key' # 任意值 os.environ['HF_TOKEN'] = 'your-huggingface-token' # 如需下载私有模型 client = OpenAI( base_url="http://localhost:8000/v1", api_key="dummy-key" ) # 直接使用 HuggingFace 模型 response = client.chat.completions.create( model="meta-llama/Llama-3.2-1B-Instruct", # 直接写模型ID messages=messages, temperature=0.2 )

高级解码技术：

CoT Decoding (思维链解码）：不需要在提示词中要求模型“逐步思考”，而是在解码时通过技术手段（如对比解码）自动诱导出模型的内部推理过程。这通常能获得比提示词 CoT 更自然、更深入的推理。
Entropy Decoding (熵解码）：根据生成过程中 Token 的不确定性（熵）动态调整采样策略。在模型“犹豫不决”的地方进行更多探索，在“信心十足”的地方快速收敛。这能提升生成文本的多样性和创造性。

# 使用 CoT Decoding response = client.chat.completions.create( model="meta-llama/Llama-3.2-1B-Instruct", messages=messages, extra_body={ "decoding": "cot_decoding", "k": 10, # 对比解码的候选数 "aggregate_paths": True, # 聚合多条推理路径 } )

实操心得：本地推理非常适合对数据隐私要求高的场景，或者想低成本试验不同开源模型。cot_decoding和entropy_decoding是研究级特性，对于普通应用，moa或cot_reflection这类基于提示词的方法通常更稳定、更容易理解。

5. 生产级部署与配置指南

将 OptiLLM 用于生产环境，需要考虑稳定性、安全性和可维护性。以下是一些关键配置和经验。

5.1 安全配置

默认情况下，OptiLLM 服务只绑定在127.0.0.1（本地回环地址），这是安全的。如果你需要让其他机器访问（例如在 Docker 容器中或部署到服务器），需要显式指定监听地址。

# 允许任何网络接口访问（谨慎使用，确保有防火墙或其他认证） optillm --host 0.0.0.0 # 更推荐：设置 API 密钥进行基础认证 export OPTILLM_API_KEY="your-secure-proxy-key" optillm --host 0.0.0.0

设置OPTILLM_API_KEY后，客户端在请求时需要在Authorization头部携带Bearer your-secure-proxy-key，否则请求会被拒绝。

SSL/TLS 配置：如果后端 API（如公司内部的 OpenAI 兼容服务）使用自签名证书，你需要配置 OptiLLM 跳过或指定证书验证。

# 方式一：禁用验证（仅用于开发测试，不安全） optillm --no-ssl-verify # 方式二：指定自定义 CA 证书包（生产环境推荐） optillm --ssl-cert-path /path/to/your/ca-bundle.crt

5.2 多模型提供商与负载均衡

OptiLLM 通过集成 LiteLLM，支持超过100种模型和提供商。你只需要设置对应的环境变量即可。

# 使用 Anthropic Claude export ANTHROPIC_API_KEY="your-claude-key" # 请求时模型名写：moa-claude-3-5-sonnet-20241022 # 使用 Google Gemini export GEMINI_API_KEY="your-gemini-key" # 请求时模型名写：cot_reflection-gemini/gemini-1.5-flash # 使用 Azure OpenAI export AZURE_OPENAI_API_KEY="your-azure-key" export AZURE_API_BASE="https://your-resource.openai.azure.com/" export AZURE_API_VERSION="2024-02-15-preview" # 请求时模型名写：moa-gpt-4o

Proxy 插件实现负载均衡与故障转移：对于高可用场景，你可以配置多个相同或不同模型的终端，OptiLLM 的proxy插件可以帮你做负载均衡和健康检查。

创建配置文件~/.optillm/proxy_config.json：

{ "endpoints": [ { "name": "openai-primary", "base_url": "https://api.openai.com/v1", "api_key": "${OPENAI_API_KEY}", "models": ["gpt-4o", "gpt-4o-mini"] }, { "name": "openai-backup", "base_url": "https://api.openai.com/v1", "api_key": "${OPENAI_API_KEY_2}", "models": ["gpt-4o", "gpt-4o-mini"] }, { "name": "azure-gpt4", "base_url": "https://my-azure.openai.azure.com/openai/deployments/gpt-4", "api_key": "${AZURE_OPENAI_KEY}", "api_version": "2024-02-15-preview" } ], "strategy": "round_robin", // 或 "fallback", "weighted" "health_check_interval": 30 }

启动 OptiLLM 时加载 proxy 插件：optillm --plugins proxy
之后你的请求会自动在配置的终端间分配。如果某个终端失败，请求会被路由到健康的终端。

5.3 性能调优与监控

并发与超时：OptiLLM 的某些策略（如 MOA, BoN）会并行发起多个请求。确保你的 Python HTTP 客户端（如httpx）配置了合适的连接池和超时时间，避免阻塞。
日志记录：启动时可以通过--log-level INFO或DEBUG调整日志详细程度。生产环境建议设置为INFO，并将日志输出到文件。
```
optillm --log-level INFO > /var/log/optillm.log 2>&1 &
```
资源限制：对于mcts、plansearch这类搜索类策略，可以通过参数限制其计算开销，避免对简单问题也进行深度搜索，浪费资源。
```
extra_body={ "optillm_approach": "mcts", "mcts_simulations": 5, # 减少模拟次数 "mcts_depth": 3, # 限制搜索深度 }
```

6. 实战案例：构建一个智能数学辅导代理

让我们用一个完整的例子，将上述知识串联起来。假设我们要构建一个给中学生用的数学解题助手，要求是：必须展示完整步骤，且答案准确率要高，同时要能处理中文问题。

步骤一：架构设计我们不直接调用 GPT-4（成本高），而是用gpt-4o-mini作为基础模型，通过 OptiLLM 的cot_reflection（确保步骤） +moa（确保准确率）组合来提升其能力。同时，对于明确是方程求解的问题，启用z3插件进行验证。

步骤二：环境与代码准备

# math_tutor.py import os from openai import OpenAI from typing import Dict, Any os.environ['OPENAI_API_KEY'] = 'sk-your-key' class MathTutor: def __init__(self): self.client = OpenAI( base_url="http://localhost:8000/v1", # OptiLLM 代理 api_key=os.environ['OPENAI_API_KEY'] ) # 定义不同问题类型的优化策略映射 self.strategy_map = { "equation": "z3&cot_reflection", # 方程类：先用Z3解，再用思维链解释 "word_problem": "moa|cot_reflection", # 文字题：混合智能体或思维链并行尝试 "geometry": "cot_reflection", # 几何题：侧重步骤推导 "default": "moa" # 默认使用混合智能体 } def classify_problem(self, problem_text: str) -> str: """简单的问题分类器（实际应用可用更复杂的模型）""" problem_lower = problem_text.lower() if any(word in problem_lower for word in ["方程", "等于", "解出", "x=", "y="]): return "equation" elif any(word in problem_lower for word in ["面积", "体积", "三角形", "圆", "几何"]): return "geometry" elif any(word in problem_lower for word in ["多少", "几个", "剩下", "共有"]): return "word_problem" else: return "default" def solve(self, problem_text: str) -> Dict[str, Any]: """解题主函数""" problem_type = self.classify_problem(problem_text) strategy = self.strategy_map.get(problem_type, "moa") # 构建提示词，强调中文和步骤 system_prompt = """你是一个耐心的中学数学老师。请用中文，一步一步地解答用户的问题。 确保每一步都有解释，并且最终答案清晰明确。如果用到公式，请说明。""" try: response = self.client.chat.completions.create( model=f"{strategy}-gpt-4o-mini", # 动态组合策略 messages=[ {"role": "system", "content": system_prompt}, {"role": "user", "content": problem_text} ], temperature=0.3, # 较低的温度，输出更稳定 max_tokens=800, extra_body={ # 如果是方程，传递给Z3插件的额外参数 "z3_timeout": 10, # Z3求解超时时间（秒） } if problem_type == "equation" else None ) answer = response.choices[0].message.content # 可以从响应元数据中获取更多信息，如使用的策略、耗时等 # 实际中，OptiLLM 的响应头或自定义字段可能包含这些信息 return { "success": True, "answer": answer, "strategy_used": strategy, "problem_type": problem_type } except Exception as e: return { "success": False, "error": str(e), "strategy_used": strategy } if __name__ == "__main__": tutor = MathTutor() problems = [ "解方程：2(x+3) - 5 = 3(x-1) + 4", "一个长方形的长是宽的2倍，周长是36厘米。求长和宽各是多少厘米？", "计算圆的面积，已知其半径为5cm。" ] for p in problems: print(f"\n问题：{p}") result = tutor.solve(p) if result["success"]: print(f"策略：{result['strategy_used']}") print(f"解答：\n{result['answer']}") else: print(f"出错：{result['error']}")

步骤三：部署与测试

确保 OptiLLM 服务已启动。
运行python math_tutor.py。
观察控制台输出和 OptiLLM 服务日志，你会看到对于方程问题，日志中会出现 Z3 求解器的调用记录；对于文字题，你会看到多次模型调用（MOA 在工作）。

步骤四：效果评估与迭代

准确性：用一批测试题对比直接调用gpt-4o-mini和使用 OptiLLM 优化后的准确率。你会发现，尤其是对于需要多步推理的题目，优化后准确率提升明显。
成本：虽然单次请求的 Token 消耗和延迟增加了，但考虑到用gpt-4o-mini达到了接近gpt-4o的效果，总体成本仍然是下降的。
可解释性：cot_reflection输出的步骤化解答，非常适合教育场景，学生可以看到完整的思考过程。

踩坑记录：在这个案例中，最初我尝试对所有问题都用z3&moa这个强力组合。结果发现，对于非方程类问题（如几何证明），Z3 插件要么不工作，要么会返回无关信息干扰最终答案。这让我意识到策略选择需要精细化。后来才加入了简单的问题分类逻辑，实现了策略的动态路由。这也是 OptiLLM 设计哲学的一部分：没有银弹，最好的效果来自于根据任务特性选择合适的工具组合。

7. 常见问题排查与优化技巧

在实际使用中，你可能会遇到一些问题。这里我总结了一份常见问题速查表和一些独家优化技巧。

7.1 问题排查速查表

问题现象	可能原因	解决方案
请求返回`401 Unauthorized`	1. 未设置`OPENAI_API_KEY`等提供商密钥。 2. 使用了`OPTILLM_API_KEY`但客户端未在`Authorization`头部携带。	1. 检查并导出正确的环境变量。 2. 在客户端设置`api_key`参数，或确保请求头包含`Bearer your-proxy-key`。
请求超时或响应极慢	1. 使用的策略（如`mcts`,`moa`）导致背后发起多次模型调用，总耗时增加。 2. 网络问题或后端 API 限速。	1. 对于延迟敏感场景，换用轻量策略如`cot_reflection`或`re2`。 2. 检查网络，考虑使用`proxy`插件配置备用终端。
错误：`Model not found`	1. 模型名称拼写错误。 2. 对于 LiteLLM 支持的模型，未设置对应的环境变量（如`GEMINI_API_KEY`）。 3. 在模型名前加了策略前缀，但启动 OptiLLM 时未使用`--approach auto`。	1. 核对模型名。 2. 确保设置了目标模型提供商所需的 API Key。 3. 启动命令加入`--approach auto`，或在请求中通过`extra_body`指定策略。
策略未生效，响应像是原始模型直接输出的	1. 策略前缀格式错误，如多了空格`moa -gpt-4`。 2. 请求中传递的`temperature`过高，覆盖了策略内部的优化。	1. 确保前缀格式为`{slug}-model-name`，无空格。 2. 某些策略（如`bon`）内部会管理采样温度，建议在请求中设置较低的`temperature`（如0.2-0.5），或不在请求中指定，让策略全权控制。
使用本地模型时内存溢出 (OOM)	加载的 HuggingFace 模型过大，超出机器内存。	1. 换用更小的模型（如 Llama 3.2 1B）。 2. 使用量化模型（如`TheBloke/Llama-2-7B-Chat-GGUF`）。 3. 增加服务器交换空间 (swap)。
Z3 插件对非数学问题返回奇怪内容	Z3 插件试图将所有问题转化为逻辑约束求解，对文本问题不适用。	通过问题分类（如第6章的案例）或用户提示，仅在明确需要时启用 Z3 插件。

7.2 高级优化技巧

策略组合的艺术：使用|和&进行组合。
- A|B：并行运行策略 A 和 B，返回所有结果。适合当你想要多个不同角度的答案时。
- A&B：串行管道，将 A 的输出作为 B 的输入。适合分阶段处理，例如re2&cot_reflection（先重读加深理解，再逐步推理）。
- 技巧：对于关键任务，可以尝试moa|cot_reflection，让混合智能体和思维链反思并行竞争，最后人工或用一个简单的规则（如选择更长的、更结构化的回答）来选取最终答案。
利用 Router 插件实现自动化策略选择：手动映射问题类型和策略太麻烦。可以启用 Router 插件，它会自动分析用户提示，并路由到最合适的策略。
```
# 启动时加载 router 插件 optillm --plugins router
```
然后，你只需要使用router-前缀，例如model="router-gpt-4o-mini"。Router 内部使用一个轻量级文本分类模型来做出决策。
为特定任务定制提示词：OptiLLM 的策略会修改系统提示词。但你仍然可以在你的messages中提供强大的任务特定提示词。两者会结合。例如，对于代码生成，你的系统提示词可以非常详细地定义代码风格、错误处理规范，然后让moa策略来确保这些规范被多个“评审员”检查。
控制成本与延迟的平衡：
- 设置预算：对于bon、moa等策略，通过extra_body参数（如moa_num_critics）控制并行调用的数量。
- 使用超时：为整个 OptiLLM 请求或特定插件（如z3_timeout）设置超时，避免单个问题消耗过多时间。
- 分级策略：对于实时对话，第一轮回复使用快速策略（如re2）；如果用户追问或表示不满意，再触发更耗资源但更准确的策略（如mcts）。
深入日志分析：OptiLLM 的DEBUG级别日志会显示每个策略内部的具体步骤、每次模型调用的请求和响应。当某个策略效果不如预期时，查看这些日志是理解其决策过程、进行调试的最佳方式。例如，你可以看到 MCTS 搜索树是如何扩展的，或者 MOA 中每个批评者具体提出了什么修改意见。

OptiLLM 的本质，是提供了一套丰富的“推理工具包”。它没有取代你的大模型，而是赋予了大模型更强大的“思考方式”。就像给一位聪明的助手配备了一个包含放大镜、计算器、逻辑分析仪和白板的工具箱。如何组合使用这些工具，来解决你面临的具体问题，这才是最有挑战也最有趣的部分。从我自己的使用经验来看，开始时不妨多尝试几种策略，观察它们在不同任务上的表现，逐渐形成自己的一套“策略选用指南”。你会发现，在推理优化上投入的这点额外计算成本，换来的准确率和可靠性提升，在大多数严肃应用场景下都是非常值得的。