从公式到代码：手把手教你用Python实现CIDEr指标（附避坑指南）-程序员充电站

从公式到代码：手把手教你用Python实现CIDEr指标（附避坑指南）

在图像描述生成任务中，评估生成文本的质量是一个关键环节。CIDEr（Consensus-based Image Description Evaluation）作为一种专门设计的评价指标，因其更接近人类判断的特性而备受青睐。与BLEU、ROUGE等传统指标不同，CIDEr通过引入TF-IDF权重机制，能够更好地捕捉文本中的关键信息。本文将带你从零开始，用Python完整实现CIDEr指标的计算过程，并分享在实际应用中的常见问题和解决方案。

1. CIDEr指标的核心原理

CIDEr的核心思想是通过TF-IDF为不同n-gram赋予权重，从而更准确地评估生成文本与参考文本的相似度。TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用的文本特征表示方法，它能够平衡词频和文档频率的影响。

TF-IDF的计算分为两部分：

词频（TF）：衡量一个词在文档中出现的频率
逆文档频率（IDF）：衡量一个词在整个语料库中的重要性

在CIDEr中，TF-IDF权重被用于计算n-gram的相似度，这使得那些在语料库中出现较少但语义重要的词能够获得更高的权重。例如，在句子"I go to the garden this afternoon"中，"garden"这样的词会比"go to"获得更高的权重。

2. 环境准备与数据预处理

在开始实现CIDEr之前，我们需要准备Python环境和必要的库。推荐使用Python 3.7+版本，并安装以下依赖：

pip install numpy scipy nltk

对于文本预处理，我们需要进行以下步骤：

分词（Tokenization）
转换为小写
去除标点符号
提取n-gram

import nltk from nltk.tokenize import word_tokenize from nltk.util import ngrams import string def preprocess_text(text): # 分词并转换为小写 tokens = word_tokenize(text.lower()) # 去除标点符号 tokens = [token for token in tokens if token not in string.punctuation] return tokens def get_ngrams(tokens, n): return list(ngrams(tokens, n))

3. TF-IDF计算模块实现

TF-IDF是CIDEr的核心组件，我们需要分别实现TF和IDF的计算。

3.1 词频（TF）计算

词频表示一个词在文档中出现的频率：

def compute_tf(ngram, document_ngrams): count = document_ngrams.count(ngram) total = len(document_ngrams) return count / total if total > 0 else 0

3.2 逆文档频率（IDF）计算

逆文档频率衡量一个词在整个语料库中的重要性：

import math def compute_idf(ngram, all_documents_ngrams): # 计算包含该ngram的文档数 doc_count = sum(1 for doc_ngrams in all_documents_ngrams if ngram in doc_ngrams) total_docs = len(all_documents_ngrams) return math.log(total_docs / (doc_count + 1e-6)) # 避免除以零

3.3 TF-IDF向量生成

将TF和IDF结合，生成TF-IDF向量：

def compute_tfidf_vector(document_ngrams, all_documents_ngrams, ngram_set): vector = {} for ngram in ngram_set: tf = compute_tf(ngram, document_ngrams) idf = compute_idf(ngram, all_documents_ngrams) vector[ngram] = tf * idf return vector

4. CIDEr核心计算实现

有了TF-IDF向量后，我们可以实现CIDEr的核心计算逻辑。

4.1 单个n-gram的CIDEr计算

import numpy as np def compute_cider_n(candidate_vector, reference_vectors, n): # 计算候选向量与每个参考向量的余弦相似度 similarities = [] candidate_norm = np.linalg.norm(list(candidate_vector.values())) for ref_vector in reference_vectors: ref_norm = np.linalg.norm(list(ref_vector.values())) # 计算点积 dot_product = 0 for ngram in candidate_vector: if ngram in ref_vector: dot_product += candidate_vector[ngram] * ref_vector[ngram] similarity = dot_product / (candidate_norm * ref_norm + 1e-6) similarities.append(similarity) # 取平均值 return np.mean(similarities) if similarities else 0

4.2 多n-gram聚合的CIDEr计算

通常我们会计算1-gram到4-gram的CIDEr值，然后进行加权平均：

def compute_cider(candidate, references, max_n=4): # 预处理文本 candidate_tokens = preprocess_text(candidate) reference_tokens_list = [preprocess_text(ref) for ref in references] total_score = 0 weights = [1.0 / max_n] * max_n # 均匀权重 for n in range(1, max_n + 1): # 获取n-gram candidate_ngrams = get_ngrams(candidate_tokens, n) reference_ngrams_list = [get_ngrams(ref_tokens, n) for ref_tokens in reference_tokens_list] # 获取所有唯一的n-gram all_ngrams = set(candidate_ngrams) for ref_ngrams in reference_ngrams_list: all_ngrams.update(ref_ngrams) # 计算TF-IDF向量 candidate_vector = compute_tfidf_vector(candidate_ngrams, reference_ngrams_list, all_ngrams) reference_vectors = [compute_tfidf_vector(ref_ngrams, reference_ngrams_list, all_ngrams) for ref_ngrams in reference_ngrams_list] # 计算CIDEr_n cider_n = compute_cider_n(candidate_vector, reference_vectors, n) total_score += weights[n-1] * cider_n return total_score

5. CIDEr-D改进与实现

原始CIDEr存在一些不足，因此研究者提出了改进版本CIDEr-D，主要增加了两个机制：

长度惩罚（高斯惩罚）
重复词惩罚

5.1 长度惩罚实现

def length_penalty(candidate_length, reference_lengths, delta=10): penalties = [] for ref_len in reference_lengths: penalty = np.exp(-(candidate_length - ref_len)**2 / (2 * delta**2)) penalties.append(penalty) return np.mean(penties) if penalties else 0

5.2 重复词惩罚实现

def repetition_penalty(candidate_vector, reference_vectors): penalties = [] for ref_vector in reference_vectors: min_weights = {} for ngram in candidate_vector: if ngram in ref_vector: min_weights[ngram] = min(candidate_vector[ngram], ref_vector[ngram]) else: min_weights[ngram] = 0 penalties.append(min_weights) return penalties

5.3 完整的CIDEr-D实现

def compute_cider_d(candidate, references, max_n=4, delta=10): # 预处理文本 candidate_tokens = preprocess_text(candidate) reference_tokens_list = [preprocess_text(ref) for ref in references] total_score = 0 weights = [1.0 / max_n] * max_n # 均匀权重 for n in range(1, max_n + 1): # 获取n-gram candidate_ngrams = get_ngrams(candidate_tokens, n) reference_ngrams_list = [get_ngrams(ref_tokens, n) for ref_tokens in reference_tokens_list] # 获取所有唯一的n-gram all_ngrams = set(candidate_ngrams) for ref_ngrams in reference_ngrams_list: all_ngrams.update(ref_ngrams) # 计算TF-IDF向量 candidate_vector = compute_tfidf_vector(candidate_ngrams, reference_ngrams_list, all_ngrams) reference_vectors = [compute_tfidf_vector(ref_ngrams, reference_ngrams_list, all_ngrams) for ref_ngrams in reference_ngrams_list] # 计算长度惩罚 lp = length_penalty(len(candidate_tokens), [len(ref) for ref in reference_tokens_list], delta) # 计算重复词惩罚 rep_penalties = repetition_penalty(candidate_vector, reference_vectors) # 计算改进的CIDEr-D_n cider_d_n = 0 for ref_vector, rep_penalty in zip(reference_vectors, rep_penalties): dot_product = 0 for ngram in candidate_vector: if ngram in ref_vector: dot_product += rep_penalty[ngram] * ref_vector[ngram] candidate_norm = np.linalg.norm(list(candidate_vector.values())) ref_norm = np.linalg.norm(list(ref_vector.values())) similarity = dot_product / (candidate_norm * ref_norm + 1e-6) cider_d_n += similarity cider_d_n = lp * (cider_d_n / len(references)) if references else 0 total_score += weights[n-1] * cider_d_n return 10 * total_score # 乘以10的系数

6. 实际应用中的常见问题与解决方案

在实现和使用CIDEr指标时，可能会遇到以下几个常见问题：

6.1 为什么CIDEr值可能大于1？

这是由于CIDEr-D版本中引入了乘以10的系数。原始CIDEr的值域是[0,1]，而CIDEr-D的值域理论上是[0,10]。

6.2 如何处理多个参考描述？

当有多个参考描述时，标准的做法是：

分别计算候选描述与每个参考描述的相似度
取这些相似度的平均值

6.3 与现有评测库（如coco-caption）的差异

不同版本的评测库可能在以下方面存在差异：

n-gram的最大长度（通常是4）
TF-IDF的计算细节
长度惩罚的参数设置

建议在使用前仔细阅读所使用评测库的文档，或者直接使用本文提供的实现以确保一致性。

6.4 性能优化建议

当处理大规模数据时，原始实现可能会比较慢。可以考虑以下优化：

使用更高效的分词工具
对TF-IDF向量进行稀疏表示
使用并行计算处理多个候选描述

from collections import defaultdict from scipy.sparse import csr_matrix def compute_sparse_tfidf_vector(document_ngrams, all_documents_ngrams, ngram_to_idx): # 创建稀疏TF-IDF向量 row = [] col = [] data = [] # 计算文档中每个ngram的TF tf_dict = defaultdict(int) for ngram in document_ngrams: tf_dict[ngram] += 1 total_ngrams = len(document_ngrams) for ngram, count in tf_dict.items(): if ngram in ngram_to_idx: # 计算TF-IDF tf = count / total_ngrams idf = compute_idf(ngram, all_documents_ngrams) row.append(0) col.append(ngram_to_idx[ngram]) data.append(tf * idf) # 创建稀疏矩阵 sparse_vector = csr_matrix((data, (row, col)), shape=(1, len(ngram_to_idx))) return sparse_vector

从公式到代码：手把手教你用Python实现CIDEr指标（附避坑指南）