面试题：逻辑回归是什么？为什么用 Sigmoid、对数损失、最大似然、Softmax、多分类、类别不平衡一文讲透-程序员充电站

逻辑回归面试高频题｜分类模型｜Sigmoid 函数｜交叉熵 / Log Loss｜最大似然估计 MLE｜Softmax 多分类｜类别不平衡处理

很多人第一次学到“逻辑回归”都会有一个疑问：它名字里明明带着“回归”，为什么面试官却总把它当成分类模型来问？真正的原因在于，它先用线性模型打分，再把分数映射成概率，最后再用阈值做分类决策。也正因为它既有线性模型的可解释性，又有概率输出的实用性，所以在工业界和面试里都常年高频。

这篇文章不走高深推导路线，而是把你在面试里最容易被追问的 8 个点，一次讲透：什么是逻辑回归、它和线性回归的关系、为什么要用 Sigmoid、为什么更常用对数损失、最大似然估计在做什么、它能不能处理非线性分类、多分类怎么做、类别不平衡又该怎么调。

1. 什么是逻辑回归？它到底是做分类还是做回归？

1.1 先说结论：逻辑回归主要用于分类。

逻辑回归最经典的使用场景，就是二分类问题，比如“是否欺诈”“是否流失”“是否点击”“是否患病”“是不是垃圾邮件”。它并不是去预测一个连续数值，而是去预测某个样本属于正类的概率。这个概率通常在 0 到 1 之间，然后再配一个阈值，把概率变成最终类别。

1.2 为什么名字里有“回归”？

因为它内部仍然在做一件很“回归味”的事：用一组特征做线性加权，得到一个连续分数。只不过这个分数不会直接拿来当最终答案，而是先经过一个概率映射函数。换句话说，逻辑回归不是直接回归类别，而是在“回归一个线性分数”之后，把分数翻译成概率。

1.3 面试一句话怎么答？

逻辑回归本质上是一个输出概率的线性分类模型。它先对特征做线性打分，再用 Sigmoid 把分数映射到 0 到 1，最后按阈值做分类。

2. 逻辑回归和线性回归有什么关系？

2.1 相同点：骨架都很像。

这两个模型都属于线性模型家族，输入都是特征，内部都要学习一组权重。你可以把它们理解成“同一个底盘，装了不同的输出头”。线性回归直接输出一个连续值，而逻辑回归在连续分数外面又套了一层概率映射。

2.2 不同点：目标不一样。

线性回归更适合预测房价、销量、温度这类连续数值；逻辑回归更适合预测类别概率。前者通常用平方误差衡量预测好坏；后者更常用对数损失。前者的输出可以大于 1 也可以小于 0，后者的输出被限制在 0 到 1，更适合作为概率来解释。

2.3 这也是为什么逻辑回归常被当成最强基线之一。

因为它结构简单、训练快、可解释、对特征系数容易分析，而且能直接输出概率。在很多业务里，它不一定是最花哨的模型，但往往是最先上场、最先做对照实验的那个模型。

3. 为什么逻辑回归要用 Sigmoid 函数？

3.1 逻辑回归先得到的是一个“分数”，不是概率。

模型会先把特征做线性加权，得到一个连续分数 z。这个 z 可能特别大，也可能特别小，还可能是负数。可问题在于，概率必须落在 0 到 1 之间，所以我们需要一个函数，把任意实数稳定地压到 0 到 1。

3.2 Sigmoid 的作用，就是做这个映射。

它的形式可以简记为：p = 1 / (1 + e^-z)。z 很大时，p 接近 1；z 很小时，p 接近 0；z 等于 0 时，p 正好是 0.5。

3.3 为什么这个函数特别适合分类？

因为它不仅把分数变成了概率，还保留了“分数越大，越像正类；分数越小，越像负类”的单调关系。这样一来，模型既能输出可解释的概率，也能通过阈值变成明确的类别。

3.4 阈值为什么重要？

逻辑回归天生输出的是概率，不是最终标签。阈值只是把概率变成“是/否”的一道门槛。默认 0.5 很常见，但不是金科玉律。业务上如果更怕漏判，阈值可以降低；如果更怕误判，阈值可以提高。

4. 为什么逻辑回归更常用对数损失，而不是平方误差？

4.1 最直观的原因：分类更关心“概率对不对”。

假设真实标签是 1，如果模型给出 0.9 的概率，那说明模型很有把握地判成正类；如果模型只给 0.1，那就是明显错了，而且还是“错得很自信”。分类场景里，这种高置信度的错误，通常比普通错误更危险。

4.2 对数损失的特点，就是会把这种错误放大。

对数损失最重要的直觉，不是公式，而是惩罚逻辑：预测对了而且很自信，损失会快速变小；预测错了还很自信，损失会迅速变大。这样训练出来的模型，往往更重视概率校准，也更符合分类决策的真实需求。

4.3 从建模角度看，它也更自然。

逻辑回归本质上是在做伯努利分布下的概率建模。把整批样本的真实标签出现概率写出来，再取对数，最后把“最大化对数似然”改写成“最小化负对数似然”，得到的正好就是我们常说的 Log Loss，也就是交叉熵。

4.4 面试里可以怎么说？

因为逻辑回归输出的是概率，所以更适合直接围绕概率设计损失函数；对数损失会对高置信度的错误施加更大惩罚，和最大似然估计也是一套逻辑。

5. 最大似然估计（MLE）的思想是什么？

5.1 先不要把它想复杂。

最大似然估计并不是在说“让模型分数看起来更漂亮”，而是在说：我现在有一批已经知道真实标签的数据，我要找一组参数，让这些真实标签在模型看来“最有可能发生”。

5.2 举个最直观的例子。

如果一个样本真实标签是 1，那模型就应该给它较高的正类概率；如果真实标签是 0，那模型就应该给它较低的正类概率。MLE 的目标，就是让这批样本在当前参数下的整体概率尽量大。

5.3 为什么最后又变成了最小化损失？

因为直接把很多概率连乘，数值会很小，也不方便优化，所以通常会先取对数，把连乘变连加；再为了让问题更像标准优化形式，会在前面加一个负号，于是就从“最大化对数似然”变成了“最小化负对数似然”。这就是逻辑回归里最经典的训练目标。

5.4 为什么逻辑回归没有像普通最小二乘那样的漂亮闭式解？

因为这里的目标函数不是一个简单的二次形式，通常不能一步直接解出来，所以需要用梯度下降、牛顿法、拟牛顿法、IRLS 等数值方法迭代求解。

6. 逻辑回归能不能解决非线性分类问题？

6.1 先讲清楚一个容易说错的点：逻辑回归本身不是天然的非线性分类器。

如果你直接把原始特征喂给逻辑回归，它在当前特征空间中的决策边界，本质上还是一条直线、一个平面，或者更高维空间里的超平面。所以如果原始数据天然是弯弯绕绕的边界，它未必能直接分好。

6.2 但它可以借助特征工程解决非线性问题。

比如你给它加入平方项、交叉项、多项式特征、分桶特征、样条特征，甚至把原始输入先做一层特征变换，那么模型虽然在“新特征空间”里仍然是线性的，可映射回原始空间后，就可能表现成弯曲边界。

6.3 所以面试里最稳妥的说法是：

逻辑回归在原始特征空间中学的是线性边界；要处理非线性分类，常靠特征工程把问题改写后再学。

7. 逻辑回归如何做多分类？

7.1 第一条路：OvR，也叫一对多。

如果类别有 A、B、C 三类，那就训练三个二分类器：A 对其余、B 对其余、C 对其余。预测时看谁的分数最高，就把样本归到哪一类。这种方法直观、简单、好实现。

7.2 第二条路：Softmax / Multinomial。

另一种做法，是把所有类别放在一起训练，直接输出每个类别的概率分布。这种方式在多分类问题里更自然，因为类别之间会相互竞争，所有类别概率加起来等于 1。

7.3 两者怎么对比？

OvR 的好处是实现简单，特别适合把二分类器快速扩展到多分类；Softmax 的好处是把多类问题作为一个整体来优化，更能体现类别之间的关系。在很多现代库里，多分类逻辑回归的默认实现都会优先支持 multinomial 形式。

8. 类别不平衡时，逻辑回归怎么处理？

8.1 问题先看清。

如果正负样本比例特别悬殊，比如欺诈样本只占 1%，那模型就很容易“躺平”：只要几乎都预测成负类，准确率也可能很好看。但这种模型在业务上往往几乎没用。

8.2 处理类别不平衡，常见有四招。

第一，调类权重。给少数类更高权重，让模型在训练时更重视它；第二，做重采样，比如上采样少数类、下采样多数类；第三，改阈值，而不是死守 0.5；第四，换评估指标，别只盯着 Accuracy，而要看 Precision、Recall、F1、PR AUC，或者直接对齐业务代价。

8.3 还有一个经常被忽略的点：数据划分。

做训练集、验证集、测试集切分时，通常要尽量分层抽样，让每一份数据里类别比例都尽可能接近原始数据；如果要做重采样，也应该只在训练集里做，避免数据泄漏。

8.4 面试里怎么答更像实战派？

不要只说“加 class_weight 就完了”，而要补一句：我会先看类别分布和业务代价，再决定是调类权重、做采样、改阈值，还是换评估指标，最终目标不是把准确率做高，而是把关键错误压下去。

9. 逻辑回归有哪些优点和局限？

9.1 优点。

• 结构简单、训练速度快，是非常强的分类基线模型。

• 输出是概率，可解释性好，系数方向和强弱都容易分析。

• 配合正则化后稳定性不错，线上部署成本低。

• 在特征质量较高、关系较清晰的业务里，效果并不差。

9.2 局限。

• 如果原始特征和标签的关系非常复杂，纯逻辑回归可能不如树模型、核方法或神经网络。

• 对异常值、共线性、特征尺度差异等问题比较敏感，通常需要做预处理。

• 如果训练数据线性可分得太漂亮，参数可能一味变大，所以正则化很重要。

10. 面试高分回答模板

如果面试官问：什么是逻辑回归？你可以这样答：

逻辑回归本质上是一个用于分类的线性概率模型。它先对输入特征做线性加权，得到一个连续分数，再通过 Sigmoid 函数把分数映射到 0 到 1 之间，表示样本属于正类的概率。训练时通常不使用平方误差，而是使用对数损失，因为它更符合概率建模和最大似然估计的思路，对高置信度错误惩罚更大。在原始特征空间里，逻辑回归学到的是线性决策边界；如果想处理更复杂的非线性分类，通常会配合多项式特征、交叉特征等特征工程。多分类时可以做 OvR，也可以直接做 Softmax / multinomial。如果数据类别不平衡，还会结合类权重、采样、阈值调整和更合适的评价指标一起处理。

11. 总结

逻辑回归之所以是面试高频题，不是因为它最炫，而是因为它把机器学习里很多关键思想都串了起来：线性模型、概率输出、阈值决策、损失函数、最大似然、数值优化、多分类扩展、类别不平衡治理。

把这篇文章真正吃透之后，你至少要能顺口讲明白 4 件事：第一，它名字带回归，但主要用于分类；第二，它靠 Sigmoid 输出概率；第三，它更常配合对数损失和最大似然；第四，它虽然本身是线性边界，但可以通过特征工程和训练策略扩展到更复杂的分类任务。

你在面试里只要把这四条讲顺，再结合阈值、多分类和不平衡数据处理补充实战细节，逻辑回归这一题通常就不会失分。