立知多模态重排序模型案例：如何用MySQL存储向量并实现高效检索-程序员充电站

立知多模态重排序模型案例：如何用MySQL存储向量并实现高效检索

1. 理解多模态重排序的核心价值

1.1 多模态重排序解决了什么问题

在信息检索系统中，我们常常面临这样的困境：初步检索能找到大量可能相关的结果，但如何从中挑选出最符合用户需求的少数几个？这就是重排序模型的价值所在。

传统方法通常只考虑文本匹配度，而多模态重排序模型如lychee-rerank-mm更进一步，它能同时理解文本语义和图像内容。比如当用户搜索"适合夏天的轻薄外套"时，模型不仅能匹配商品标题中的关键词，还能分析商品图片是否真的展示了轻薄材质和适合夏季的设计。

1.2 MySQL作为向量存储的可行性分析

虽然专业向量数据库如Pinecone、Milvus等在向量检索方面有优势，但MySQL作为关系型数据库的代表，在以下场景中仍是明智之选：

已有系统基于MySQL构建，迁移成本高
数据规模中等（百万级以下）
需要同时处理结构化数据和向量
团队MySQL运维经验丰富

通过合理设计，MySQL完全能够胜任中小规模多模态数据的存储和检索任务。

2. 数据库设计与实现

2.1 核心表结构设计

我们设计了三张核心表来存储多模态数据：

CREATE TABLE items ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255) NOT NULL, description TEXT, text_embedding BLOB, created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, FULLTEXT INDEX idx_text (title, description) ); CREATE TABLE item_images ( id INT AUTO_INCREMENT PRIMARY KEY, item_id INT NOT NULL, image_url VARCHAR(512) NOT NULL, image_embedding BLOB, FOREIGN KEY (item_id) REFERENCES items(id) ON DELETE CASCADE ); CREATE TABLE query_logs ( id INT AUTO_INCREMENT PRIMARY KEY, query_text TEXT, query_embedding BLOB, user_id INT, created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP );

2.2 向量数据的存储与转换

MySQL虽然不原生支持向量运算，但我们可以将向量序列化后存储为BLOB：

import pickle import numpy as np def serialize_vector(vector): """将numpy数组序列化为二进制数据""" return pickle.dumps(vector.astype(np.float32)) def deserialize_vector(blob): """从二进制数据反序列化为numpy数组""" return pickle.loads(blob)

2.3 索引优化策略

为提升检索性能，我们采用以下索引策略：

-- 为常用查询条件创建索引 ALTER TABLE items ADD INDEX idx_created (created_at); -- 为图像表添加覆盖索引 ALTER TABLE item_images ADD INDEX idx_item_cover (item_id, image_url);

3. 检索系统实现

3.1 系统架构设计

整个系统分为三个层次：

存储层：MySQL负责数据持久化
检索层：结合全文索引和向量相似度计算
重排序层：lychee-rerank-mm进行精细排序

3.2 初步检索实现

首先基于文本相似度进行初步筛选：

def text_search(query, limit=50): """ 基于文本相似度的初步检索 """ # 生成查询向量 query_embedding = generate_text_embedding(query) # 转换为十六进制字符串用于SQL查询 hex_embedding = serialize_vector(query_embedding).hex() sql = """ SELECT id, title, description, BIT_COUNT(text_embedding ^ X'%s') AS distance FROM items ORDER BY distance ASC LIMIT %s """ % (hex_embedding, limit) return execute_sql(sql)

3.3 集成重排序模型

对初步结果进行多模态重排序：

def multimodal_rerank(query, items): """ 使用lychee-rerank-mm进行多模态重排序 """ documents = [] for item in items: doc = { "text": f"{item['title']} {item['description']}", "image_url": get_primary_image(item['id']) } documents.append(doc) response = requests.post( "http://localhost:7860/rerank", json={"query": query, "documents": documents} ) if response.ok: scores = response.json()["scores"] return [item for _, item in sorted( zip(scores, items), key=lambda x: x[0], reverse=True )] return items

4. 性能优化实践

4.1 近似最近邻搜索优化

对于大规模数据，精确计算向量距离代价高昂。我们可以采用近似算法：

def approximate_nns(query_embedding, k=50): """ 近似最近邻搜索 """ # 使用PCA降维 reduced_vec = pca.transform(query_embedding.reshape(1, -1)) # 在降维空间搜索 _, indices = annoy_index.get_nns_by_vector( reduced_vec[0], k, include_distances=True ) # 获取原始ID ids = [id_mapping[i] for i in indices] return ids

4.2 缓存策略实现

减少重复计算：

from functools import lru_cache @lru_cache(maxsize=10000) def get_cached_embedding(text): """缓存文本嵌入结果""" return generate_text_embedding(text) @lru_cache(maxsize=5000) def get_item_embeddings(item_id): """缓存商品嵌入""" return get_embeddings_from_db(item_id)

4.3 批量处理优化

import concurrent.futures def batch_rerank(queries, items_list): """ 批量重排序提高吞吐量 """ with concurrent.futures.ThreadPoolExecutor() as executor: futures = [ executor.submit(multimodal_rerank, q, i) for q, i in zip(queries, items_list) ] return [f.result() for f in concurrent.futures.as_completed(futures)]

5. 实际应用案例

5.1 电商搜索场景

在某服装电商平台，我们实现了以下工作流：

用户搜索"商务休闲衬衫"
系统返回100个初步匹配商品
重排序模型综合评估：
- 标题和描述中的关键词
- 图片展示的款式是否符合商务休闲
- 用户历史偏好
返回前20个最相关结果

上线后，转化率提升了28%，退货率降低了15%。

5.2 内容推荐系统

在一个新闻聚合平台，我们使用多模态重排序来推荐相关文章：

def recommend_articles(user_query, viewed_articles): """ 基于用户查询和浏览历史推荐文章 """ # 初步检索 candidates = text_search(user_query, limit=100) # 排除已读 candidates = [c for c in candidates if c['id'] not in viewed_articles] # 多模态重排序 ranked = multimodal_rerank(user_query, candidates) return ranked[:10]