Scikit-Learn高级技巧：概率校准与特征工程实战-程序员充电站

1. Scikit-Learn概率校准：让模型输出更可信

在分类任务中，很多模型会输出每个类别的概率估计值。但令人头疼的是，这些概率值往往并不准确反映真实可能性。比如模型可能对某个样本给出"欺诈"类别的95%概率，但实际上只有70%的准确率。这就是概率校准要解决的问题。

Scikit-Learn提供了CalibratedClassifierCV类来实现概率校准，主要支持两种方法：

Sigmoid校准（Platt缩放）：适用于大多数情况，特别是样本量较少时
等张回归（Isotonic Regression）：更适合大数据集，可以处理更复杂的概率分布

from sklearn.calibration import CalibratedClassifierCV from sklearn.svm import SVC # 原始SVM模型（注意要设置probability=False） base_svc = SVC(probability=False) # 使用sigmoid方法进行校准 calibrated_svc = CalibratedClassifierCV( base_estimator=base_svc, method='sigmoid', # 也可选'isotonic' cv=5 # 使用5折交叉验证 ) calibrated_svc.fit(X_train, y_train) calibrated_probs = calibrated_svc.predict_proba(X_test)

重要提示：如果基础模型本身已经能输出概率（如逻辑回归、随机森林），建议先评估原始概率质量再决定是否需要校准。不必要的校准有时反而会降低性能。

校准效果可以通过可靠性曲线(Reliability Curve)来验证。理想情况下，预测概率应该与真实频率完全一致（即曲线与对角线重合）。

from sklearn.calibration import calibration_curve prob_true, prob_pred = calibration_curve(y_test, calibrated_probs[:,1], n_bins=10) plt.plot(prob_pred, prob_true, marker='o') plt.plot([0,1], [0,1], linestyle='--') # 理想对角线

实际经验分享：

对于输出概率本身就不太可靠的模型（如SVM、朴素贝叶斯），校准效果通常很明显
在小数据集上优先选择sigmoid方法，大数据集可以考虑等张回归
校准过程会引入额外计算开销，生产环境中需要权衡精度和效率

2. 特征联合(FeatureUnion)：构建高效特征工程流水线

当我们需要对同一数据集应用多种特征变换时，FeatureUnion可以优雅地将多个转换器组合成一个整体。与Pipeline的串行处理不同，FeatureUnion是并行处理 - 每个转换器独立处理原始数据，最终结果沿特征维度拼接。

典型应用场景包括：

同时使用PCA和单变量特征选择
组合文本特征的不同提取方式（TF-IDF + 词嵌入）
数值特征与类别特征的不同处理方式

from sklearn.pipeline import FeatureUnion, Pipeline from sklearn.decomposition import PCA from sklearn.feature_selection import SelectKBest from sklearn.preprocessing import PolynomialFeatures # 定义特征联合 feature_union = FeatureUnion([ ("pca", PCA(n_components=5)), # 降维 ("kbest", SelectKBest(k=3)), # 特征选择 ("poly", PolynomialFeatures(degree=2, include_bias=False)) # 特征交叉 ]) # 构建完整流水线 pipeline = Pipeline([ ('features', feature_union), ('classifier', RandomForestClassifier()) ])

高级技巧：可以嵌套使用多个FeatureUnion实现更复杂的特征工程架构。例如第一层处理原始特征，第二层处理中间特征：

first_union = FeatureUnion([ ("text", TfidfVectorizer()), ("numeric", StandardScaler()) ]) second_union = FeatureUnion([ ("pca", PCA()), ("interactions", PolynomialFeatures()) ]) full_pipeline = Pipeline([ ('initial', first_union), ('secondary', second_union), ('model', SVC()) ])

避坑指南：当特征维度很高时，注意内存消耗问题。可以设置n_jobs参数并行处理，但要注意线程竞争问题。

3. 特征聚合(FeatureAgglomeration)：基于聚类的特征降维

当特征之间存在高度相关性时，特征聚合提供了一种基于层次聚类的降维方法。它通过合并相似特征来减少特征数量，特别适用于：

高维数据集（如基因表达数据）
特征间有明确相似性度量（如图像像素、时间序列数据）
需要保持特征可解释性的场景

from sklearn.cluster import FeatureAgglomeration # 使用余弦相似度作为距离度量 agglo = FeatureAgglomeration( n_clusters=50, # 目标特征数 metric='cosine', # 相似度度量 linkage='average', # 聚类连接方式 pooling_func=np.median # 聚合函数 ) X_reduced = agglo.fit_transform(X)

关键参数解析：

metric：可选'euclidean'、'l1'、'l2'、'manhattan'、'cosine'等
linkage：决定如何计算类间距离，可选'ward'、'complete'、'average'、'single'
pooling_func：指定如何聚合簇内特征，常用np.mean, np.median, np.max

实用建议：

先对特征进行标准化（如StandardScaler），避免量纲影响聚类效果
通过树状图(dendrogram)帮助确定合适的n_clusters
对于非数值特征，需要先进行适当编码

# 绘制树状图示例 from scipy.cluster.hierarchy import dendrogram children = agglo.children_ distance = np.arange(children.shape[0]) plt.figure(figsize=(10,5)) dendrogram(agglo.children_, labels=feature_names) plt.show()

4. 预定义分割(PredefinedSplit)：定制你的交叉验证策略

当标准K折交叉验证不能满足需求时，PredefinedSplit允许完全自定义数据划分方式。这在以下场景特别有用：

需要保持特定的数据分布（如时间序列中的时间顺序）
已有预定义的训练/验证集划分
需要实现特殊的分层策略

from sklearn.model_selection import PredefinedSplit, GridSearchCV # 自定义划分：前80%训练，后20%测试 test_fold = [-1 if i < len(X)*0.8 else 0 for i in range(len(X))] ps = PredefinedSplit(test_fold) # 在网格搜索中使用自定义分割 param_grid = {'C': [0.1, 1, 10]} grid_search = GridSearchCV(SVC(), param_grid, cv=ps) grid_search.fit(X, y)

高级应用：实现分组交叉验证，确保同一组数据不会同时出现在训练和测试集：

groups = df['group_id'].values test_fold = [] for i, group in enumerate(np.unique(groups)): test_fold.extend([i if x == group else -1 for x in groups]) ps = PredefinedSplit(test_fold)

注意事项：确保划分后的训练集和测试集保持相似的分布，避免数据泄露。可以通过统计检验验证关键特征的分布一致性。

5. 热启动(Warm Start)：增量训练大模型

当面对大数据集或需要在线学习时，warm_start=True参数允许模型在已有基础上继续训练，而不用从头开始。支持该特性的模型包括：

GradientBoosting
RandomForest
SGDClassifier
MLPClassifier

from sklearn.ensemble import RandomForestClassifier # 初始训练100棵树 model = RandomForestClassifier( n_estimators=100, warm_start=True, random_state=42 ) model.fit(X_train, y_train) # 继续训练50棵树（总150棵） model.set_params(n_estimators=150) model.fit(X_train, y_train) # 从第101棵树开始训练

实际应用技巧：

对于GBDT，可以配合init参数使用已有模型作为初始预测
在线学习场景下，可以定期保存模型状态
注意监控模型性能，避免因增量训练导致的性能下降

# 在线学习示例 for batch in data_stream: X_batch, y_batch = load_batch(batch) model.fit(X_batch, y_batch) save_model(model) # 定期保存

6. 增量学习(Partial Fit)：处理流式大数据

对于无法一次性加载到内存的超大数据集，可以使用partial_fit方法实现增量学习。支持此方法的模型包括：

SGDClassifier/SGDRegressor
PassiveAggressiveClassifier
MiniBatchKMeans
MultinomialNB

from sklearn.linear_model import SGDClassifier import numpy as np # 必须先获取所有类别（分类任务） classes = np.unique(y_all) model = SGDClassifier() for X_batch, y_batch in data_generator: model.partial_fit(X_batch, y_batch, classes=classes)

完整增量学习流水线示例：

from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline scaler = StandardScaler() model = SGDClassifier() for X_batch, y_batch in data_generator: # 增量标准化 scaler.partial_fit(X_batch) X_scaled = scaler.transform(X_batch) # 增量训练 model.partial_fit(X_scaled, y_batch, classes=classes) # 评估当前模型 current_score = model.score(X_val, y_val)

重要提示：增量学习对数据顺序非常敏感。建议：
随机打乱每个批次的数据
使用学习率调度（如learning_rate='adaptive'）
定期在验证集上评估

7. 实验性功能：提前体验新特性

Scikit-Learn的某些新功能会先放在sklearn.experimental中，需要显式启用后才能使用。当前值得关注的实验性功能包括：

迭代式插补(IterativeImputer)比简单均值/中值插补更强大，通过建立回归模型预测缺失值：

from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer imputer = IterativeImputer( estimator=BayesianRidge(), # 默认使用BayesianRidge max_iter=10, random_state=0 ) X_imputed = imputer.fit_transform(X_missing)

减半搜索(HalvingSearchCV)比传统网格搜索更高效的超参数优化方法：

from sklearn.experimental import enable_halving_search_cv from sklearn.model_selection import HalvingGridSearchCV param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']} search = HalvingGridSearchCV( SVC(), param_grid, resource='n_samples', # 也可以调整其他资源 factor=3, # 每轮保留1/3的候选参数 aggressive_elimination=True ) search.fit(X, y)

使用建议：