立知-lychee-rerank-mm快速上手：使用curl命令行调用重排序API-程序员充电站

立知-lychee-rerank-mm快速上手：使用curl命令行调用重排序API

1. 这不是另一个“打分工具”，而是一个真正懂图文的重排序小能手

你有没有遇到过这样的情况：搜索结果明明都“找得到”，但排在前面的却不是最相关的？比如用户搜“猫咪玩球”，返回的却是几张静态猫照，或者一段讲猫科动物进化的长文——内容没错，但就是不对味儿。

立知-lychee-rerank-mm 就是为解决这个问题而生的。它不是一个大而全的多模态模型，而是一个轻量、专注、即插即用的多模态重排序模型。名字里的 “mm” 就代表 multi-modal（多模态），核心能力就一句话：同时看懂文字和图片，并给它们和查询语句的匹配程度打一个靠谱的分数。

它不负责从海量数据里“找”内容（那是检索模型干的活），而是专精于“排”——在已有候选集里，把最贴切的那个揪出来。就像一位经验丰富的图书管理员，不帮你翻遍整个图书馆，但能一眼看出哪本书最对你的胃口。

更关键的是，它跑得快、吃得少。在普通CPU或入门级GPU上就能流畅运行，启动后响应延迟低至几百毫秒，非常适合嵌入到线上服务中，做实时重排序。如果你正在搭建图文检索系统、智能客服问答链路，或是想给推荐结果加一层“语义准度校验”，那它很可能就是你一直在找的那块拼图。

2. 不止网页能用：用curl命令行直接调用API，集成零门槛

虽然网页界面友好直观，但工程落地时，我们真正需要的是可编程、可集成、可自动化的接口。lychee-rerank-mm 提供了标准的 RESTful API，完全支持 curl 调用——不需要写一行 Python，不用装 SDK，打开终端就能开始测试和集成。

下面我们就跳过图形界面，直奔生产环境最常用的调用方式：用 curl 发送 HTTP 请求。整个过程只需三步：确认服务已启动、构造请求体、发送并解析响应。

2.1 确保服务已在本地运行

在你执行 curl 命令前，请先确认 lychee-rerank-mm 服务已经启动。如果你还没启动过，现在就打开终端，输入：

lychee load

等待约 10–30 秒，直到终端输出类似这样的提示：

Running on local URL: http://localhost:7860

这表示 Web UI 和底层 API 服务均已就绪。注意：API 默认监听http://localhost:7860，所有 curl 请求都将发往这个地址。

小贴士：如果你在服务器上运行，且希望远程访问，可改用lychee share启动，它会生成一个临时公网链接（含安全令牌），但 API 地址仍保持一致，只是域名变了。

2.2 单文档评分：判断“这一条”是否相关

这是最基础也最常用的场景：给一个查询（query）和一个文档（document）打分，输出一个 0–1 之间的浮点数，值越高，表示语义匹配度越强。

假设你想验证：“查询‘北京是中国的首都吗？’与文档‘是的，北京是中华人民共和国的首都。’是否高度相关？”——用 curl 只需一条命令：

curl -X POST "http://localhost:7860/api/rerank" \ -H "Content-Type: application/json" \ -d '{ "query": "北京是中国的首都吗？", "documents": ["是的，北京是中华人民共和国的首都。"] }'

你会立刻收到类似这样的 JSON 响应：

{ "scores": [0.948], "rankings": [ { "index": 0, "score": 0.948, "document": "是的，北京是中华人民共和国的首都。" } ] }

看到0.948这个数字了吗？它和网页界面上显示的0.95完全一致。这意味着：你已经成功绕过界面，用纯命令行完成了首次调用。

2.3 批量重排序：让一堆候选内容自动排队

实际业务中，我们往往面对的是多个候选文档（比如搜索引擎返回的 Top 10 结果）。这时，你只需把文档列表传进去，API 会自动计算每个文档的得分，并按从高到低排序返回。

比如，你想对以下四段文本，按“什么是人工智能？”这一问题进行重排序：

AI是人工智能的缩写...
今天天气不错...
机器学习是AI的一个分支...
我喜欢吃苹果...

对应的 curl 命令如下（注意documents是一个字符串数组）：

curl -X POST "http://localhost:7860/api/rerank" \ -H "Content-Type: application/json" \ -d '{ "query": "什么是人工智能？", "documents": [ "AI是人工智能的缩写...", "今天天气不错...", "机器学习是AI的一个分支...", "我喜欢吃苹果..." ] }'

响应将返回一个已排序的rankings列表：

{ "scores": [0.872, 0.315, 0.791, 0.102], "rankings": [ { "index": 0, "score": 0.872, "document": "AI是人工智能的缩写..." }, { "index": 2, "score": 0.791, "document": "机器学习是AI的一个分支..." }, { "index": 1, "score": 0.315, "document": "今天天气不错..." }, { "index": 3, "score": 0.102, "document": "我喜欢吃苹果..." } ] }

你会发现：第一、第三条文档被排到了最前面，而第二、第四条（明显无关）被压到了底部。整个过程无需你写排序逻辑，API 已帮你完成“打分 + 排序 + 返回结构化结果”三件套。

2.4 图文混合也能评：上传图片不再是难题

很多人误以为“多模态 API”调用起来一定很复杂——要 base64 编码、要 multipart/form-data、还要处理文件上传头……但 lychee-rerank-mm 的设计哲学是：让多模态像文本一样简单。

它的 API 支持三种输入形式，全部通过统一的 JSON 字段传递：

纯文本：直接填字符串（如上例）
纯图片：传入图片的本地路径（服务端自动读取）或公网可访问 URL
图文混合：在一个 document 字符串中，用<img src="...">标签嵌入图片路径或 URL

举个真实例子：你想评估一张猫图与描述“这是一只暹罗猫，眼睛呈蓝色，毛色浅褐”的匹配度。

正确做法（推荐）：把图片放在服务器上，比如/data/cats/siamese.jpg，然后这样调用：

curl -X POST "http://localhost:7860/api/rerank" \ -H "Content-Type: application/json" \ -d '{ "query": "上传一张猫的照片", "documents": ["<img src=\"/data/cats/siamese.jpg\"> 这是一只暹罗猫，眼睛呈蓝色，毛色浅褐"] }'

或者，用公开图片 URL（无需下载）：

curl -X POST "http://localhost:7860/api/rerank" \ -H "Content-Type: application/json" \ -d '{ "query": "上传一张猫的照片", "documents": ["<img src=\"https://example.com/cat.jpg\"> 这是一只暹罗猫，眼睛呈蓝色，毛色浅褐"] }'

服务端会自动识别<img>标签，下载/读取图片，并与文本描述一起送入多模态编码器。你拿到的仍是干净的score数值，完全屏蔽了图像预处理的复杂性。

3. 深一度：如何让打分更贴合你的业务？

默认情况下，lychee-rerank-mm 使用通用指令（instruction）：“Given a query, retrieve relevant documents.”
这句话决定了模型“思考问题的方式”。但不同场景，需要的判断逻辑其实不同——搜索引擎要“找片段”，客服系统要“判是否解决”，产品推荐则要“找相似”。

好在它支持动态指令覆盖。你只需在请求体中加入"instruction"字段，就能一键切换“角色”。

3.1 四种典型场景的指令写法（直接复制可用）

场景	推荐 instruction（直接填入 JSON）
搜索引擎	`"Given a web search query, retrieve relevant passages"`
问答系统	`"Judge whether the document answers the question"`
产品推荐	`"Given a product, find similar products"`
客服系统	`"Given a user issue, retrieve relevant solutions"`

例如，在客服场景下，你想判断回复“请检查网络连接并重启路由器”是否解决了用户问题“WiFi连不上怎么办？”，可以这样调用：

curl -X POST "http://localhost:7860/api/rerank" \ -H "Content-Type: application/json" \ -d '{ "query": "WiFi连不上怎么办？", "documents": ["请检查网络连接并重启路由器"], "instruction": "Judge whether the document answers the question" }'

你会发现，相比默认指令，这个请求的得分会更聚焦于“是否构成有效解决方案”，而非泛泛的语义相似。这就是指令微调（in-context tuning）的力量——不改模型，只换“提示词”，就能显著提升业务适配度。

3.2 自定义指令的两个实用技巧

指令越具体，效果越稳定：避免模糊表述如“判断相关性”，改用动作明确的动词，如“判断是否提供操作步骤”、“判断是否包含故障原因”。
中英文混用无压力：模型原生支持中文，instruction 用中文写完全没问题。例如："判断该回复是否给出了具体的解决步骤"，比英文指令有时更精准。

4. 生产就绪：错误处理、性能边界与调试建议

在真实项目中，光会调用还不够，你还得知道它“什么时候会出错”、“最多能扛多少”、“出错了怎么看日志”。这部分内容，网页教程很少提，但恰恰是工程落地的关键。

4.1 常见错误码与应对方式

HTTP 状态码	原因说明	应对建议
`400 Bad Request`	JSON 格式错误、缺少必填字段（如`query`或`documents`）	检查 JSON 是否合法，用在线校验工具格式化后再试
`413 Payload Too Large`	`documents`列表过长（单次超过 50 条）或单个 document 超 2000 字	拆分为多次请求；或启用流式分批处理（见下文）
`500 Internal Error`	模型加载失败、图片路径无效、内存不足	查看日志`tail -f /root/lychee-rerank-mm/logs/webui.log`，重点找`OSError`或`CUDA out of memory`

重要提醒：API 默认限制单次最多处理 20 个文档。若需批量处理上百条，建议采用分页策略，每次 10–15 条，间隔 100ms，既稳定又高效。

4.2 性能实测参考（基于 Intel i7-11800H + RTX 3060）

文档数量	平均响应时间	CPU 占用	GPU 显存占用
1	120 ms	< 15%	~1.2 GB
10	380 ms	< 30%	~1.4 GB
20	720 ms	< 45%	~1.6 GB

可见：它在 20 条以内能保持亚秒级响应，完全满足实时推荐、搜索增强等场景需求。如果追求极致速度，可关闭日志记录（启动时加--no-logs参数）或启用 FP16 推理（需 GPU 支持）。

4.3 一条命令搞定调试：查看实时日志

当 API 返回异常或结果不符合预期时，最直接的办法是看服务端日志。无需退出服务，新开一个终端窗口，执行：

tail -f /root/lychee-rerank-mm/logs/webui.log

你会实时看到每条请求的输入、模型推理耗时、得分输出，以及任何报错堆栈。比如：

[INFO] Received rerank request: query='猫咪玩球', doc_count=3, instruction='default' [DEBUG] Image loaded from /tmp/img_abc123.jpg (640x480) [INFO] Rerank completed in 412ms → scores=[0.892, 0.301, 0.765]

这种“所见即所得”的调试体验，远胜于黑盒猜测。