AI大模型面试题：KNN 算法原理、优缺点、K 值怎么选、距离度量、样本不平衡处理，一文讲透-程序员充电站

很多人回答 KNN，只会说一句“找最近的 K 个点投票”。这句话不算错，但如果面试官继续追问：为什么要做标准化？K 取大取小分别会怎样？样本不平衡为什么会把结果带偏？高维为什么会让 KNN 变差？不少人就容易卡住。本文就按面试官最常追问的思路，把 KNN 一次讲透。

1. 先用一句人话讲清楚：什么是 KNN？

1.1 什么是 KNN？

KNN 的全称是 K-Nearest Neighbors，中文通常叫“K 近邻算法”。它的核心思想非常朴素：当一个新样本来了，不急着套一堆复杂公式，而是先去训练数据里找离它最近的 K 个样本，看看这些“邻居”大多数属于哪一类，或者这些邻居的目标值平均下来是多少，然后再给这个新样本做判断。

1.2 KNN 属于哪一类算法？

从机器学习的视角看，KNN 属于监督学习算法，也是一种典型的基于实例的学习方法。它和线性回归、逻辑回归这类“先学出参数再预测”的模型不同，KNN 更像是把历史案例先放在手边，等新问题出现时，再现场比距离、现场决策。

也正因为如此，KNN 常被称作“懒惰学习”或者“非参数方法”。所谓“懒惰”，不是说它不工作，而是说它在训练阶段几乎不做复杂建模，真正的计算压力主要发生在预测阶段。

1.3 KNN 做分类和做回归，有什么不同？

KNN 做分类时，通常看最近的 K 个邻居里，哪一类人数更多，就把新样本判到哪一类；如果做回归，就不再投票，而是把最近 K 个邻居的目标值做平均，或者做距离加权平均，得到一个连续数值。

2. KNN 的原理到底是怎么跑起来的？

2.1 训练阶段，KNN 实际上在做什么？

很多人一听“训练”就会下意识想到参数更新、梯度下降、反向传播，但 KNN 的训练阶段没有这么复杂。多数情况下，它做的事情就是把训练样本和标签保存下来，必要时建立索引结构，比如 KDTree 或 BallTree，方便后面加速搜索。

2.2 预测阶段，KNN 会依次做哪几步？

第一步，拿到一个待预测样本。第二步，计算它和训练集中所有样本，或者候选样本之间的距离。第三步，按距离从近到远排序，找出最近的 K 个邻居。第四步，如果是分类问题，就看这 K 个邻居的类别分布；如果是回归问题，就看这些邻居的目标值。第五步，输出最终结果。

你会发现，KNN 的思想非常符合人的直觉：一个新客户更像哪一批老客户，就更可能属于哪种类型；一个新房子的价格更接近哪一批相似房源，就大概率落在那个区间。

2.3 为什么说 KNN 简单，但并不“低级”？

KNN 虽然原理简单，但并不代表它没价值。恰恰相反，在一些边界很弯曲、规律不容易被线性模型刻画的问题里，KNN 往往能给出不错的结果。它尤其适合做基线模型：先快速跑一个 KNN，你就能对数据是否“有邻近结构”形成第一印象。

3. 面试官常问：KNN 有哪些优点和缺点？

3.1 KNN 的优点

第一，原理直观，特别容易解释。你几乎不用复杂数学符号，就能把它的决策逻辑讲清楚。第二，训练成本低，因为训练阶段通常只是存储样本。第三，它天然可以做多分类，不需要额外改造。第四，它既能做分类，也能做回归，思路统一。

3.2 KNN 的缺点

第一，预测成本高。因为每来一个新样本，KNN 都要重新算距离，数据量一大就会慢。第二，它对特征尺度非常敏感。一个维度量纲特别大，就会主导距离，导致“近邻”被误判。第三，它对噪声和异常点比较敏感，尤其是在 K 取值偏小时。第四，它在高维空间里常会遇到维度灾难，导致距离区分能力下降。

4. K 值一般如何取？这是 KNN 最容易被追问的点

4.1 K 太小时，会发生什么？

当 K 很小，比如 K=1 时，模型会非常“听最近那个点的话”。这种情况下，只要附近恰好有一个噪声点或者异常点，预测结果就很容易被带偏。换句话说，K 太小，模型边界会变得很碎，很灵活，但也更容易过拟合。

4.2 K 太大时，会发生什么？

当 K 很大时，模型会听更多邻居的意见，结果会更平滑、更稳定，抗噪能力也会更强。但副作用是：局部的细节结构会被平均掉，原本应该区分开的区域可能被“抹平”，于是模型又容易欠拟合。

4.3 那 K 到底该怎么选？

经验上，很多人会先从 3、5、7、9 这样的奇数开始试，目的是在二分类里减少平票概率。但这只能算经验起点，绝不是标准答案。真正靠谱的做法，是先把数据做好标准化，再通过交叉验证去比较不同 K 的表现，最终选择验证集或交叉验证得分最好的 K。

4.4 为什么不能死记“取奇数就行”？

因为 K 的最优值和数据分布、噪声水平、样本量、类别重叠程度都有关。某些数据集上 K=3 很好，换一份数据可能 K=11 更稳。面试时你可以明确表达：奇数只是为了减少平票，不是为了保证效果；最终还是要靠验证结果说话。

5. KNN 中有哪些距离度量方法？

5.1 欧氏距离：最常见，也是默认直觉最强的方式

欧氏距离可以理解成两点之间的直线距离。平时我们最容易想到的“谁离谁更近”，大多默认就是欧氏距离。它适合连续数值特征，而且在很多低维数值任务里表现稳定。

5.2 曼哈顿距离：更像走城市街区

曼哈顿距离不是走直线，而是横着走、竖着走，把每个维度的差值累加起来。它适合某些更强调逐维差异的场景，比如网格化、离散化程度较强的问题。

5.3 还有哪些常见距离？

Minkowski 距离可以看成一个更通用的框架：当参数 p=1 时，退化成曼哈顿距离；当 p=2 时，退化成欧氏距离。除此之外，还有切比雪夫距离、余弦相似度等选择。面试时不用一口气背很全，但至少要说清：不同距离定义，会改变“谁是最近邻”。

5.4 距离怎么选，不是靠背答案，而是看业务

如果特征都是连续数值，先标准化，再从欧氏距离入手，通常是最稳的。若特征更像网格路径、分段累计型数据，可以试曼哈顿距离。若更关心方向而不是长度，比如文本向量、嵌入向量，余弦相似度也常见。

6. 为什么很多人做 KNN 会先做标准化？

6.1 KNN 对尺度敏感，本质上是因为它靠距离吃饭

KNN 的判断核心就是距离。如果一个特征范围是 0 到 1，另一个特征范围是 0 到 100000，那么后者会在距离计算里占据压倒性地位。结果就是：模型表面上在综合多个特征，实际上却几乎只看了量纲最大的那个。

6.2 标准化和归一化，目的都是让距离更公平

常见做法有两类：一种是标准化，比如把特征变成均值为 0、标准差为 1；另一种是归一化，比如把特征压到 0 到 1 区间。你不一定非得死背哪一种最好，但要知道核心目的：别让某个量纲特别大的特征“霸占话语权”。

6.3 只做标准化就一定够了吗？

不一定。如果原始特征里本来就包含大量噪声、异常值，或者不同维度的业务意义完全不对等，单纯标准化只能解决量纲问题，解决不了信息质量问题。这时候还需要配合特征选择、异常值处理，甚至换模型。

7. 不平衡样本会给 KNN 带来哪些问题？有没办法处理？

7.1 为什么多数类更容易“赢票”？

当数据天然不平衡时，多数类样本往往更密、更广。这样一来，待预测点附近即使有少数类样本，只要多数类的点数量更多，就可能在投票里把结果拉走。于是模型会更容易偏向多数类。

7.2 这种偏差会带来什么后果？

最典型的后果是：整体准确率看上去不低，但对少数类几乎识别不出来。比如风控里的坏用户、医疗里的阳性样本、客服里的异常工单，本来就少，如果还被多数类“淹没”，模型在最关键的地方就会失灵。

7.3 常见解决办法有哪些？

第一，可以使用距离加权。也就是说，不是让每个邻居一票同权，而是让离查询点更近的邻居拥有更大的影响力。第二，可以对训练集做重采样，比如欠采样多数类，或者过采样少数类。第三，可以重新调 K，不要默认用一个过大的 K。第四，评估时不要只看准确率，而要多看召回率、F1、AUC-PR 这类更适合不平衡场景的指标。

7.4 面试时怎么把这个点讲得更高级？

你可以补一句：KNN 本身没有像某些模型那样的 class_weight 参数去天然平衡类别，所以处理不平衡时，更依赖数据层面的重采样、距离加权、评估指标重设，以及必要时改用更适合不平衡任务的算法。

8. 为什么高维场景下，KNN 往往会变差？

8.1 什么叫“维度灾难”？

当特征维度越来越高时，样本会在空间里变得越来越稀疏。原本在二维里，谁近谁远非常好分；可一旦维度高起来，最近点和最远点的距离差距会越来越不明显。这样一来，KNN 最依赖的“距离排序”就没有低维时那么可靠了。

8.2 这不只是效果问题，也是速度问题

除了效果，高维还会影响搜索效率。KNN 在工程实现里，常常会借助 brute force、KDTree、BallTree 等方式做近邻搜索。一般来说，树结构在低维时更有优势，但维度一高，树的剪枝收益会变差，效率优势会被削弱。

8.3 遇到高维数据，应该怎么办？

常见思路有三种：第一，做特征选择，把无用维度砍掉；第二，做降维，比如 PCA；第三，如果数据本身非常高维且稀疏，就别盲目迷信 KNN，可以考虑线性模型、树模型，或者更适合向量检索的近似近邻方法。

9. 面试时，怎么把 KNN 这道题回答得更完整？

9.1 30 秒回答版

KNN 是一种监督学习里的基于实例的方法。它在预测时会找到离待预测样本最近的 K 个邻居，分类时做多数投票，回归时做平均或距离加权平均。它的优点是简单直观、训练成本低，缺点是预测慢、对特征尺度敏感、对高维和样本不平衡不够友好。K 一般不能靠拍脑袋定，通常要先做标准化，再用交叉验证选。

9.2 90 秒加分回答版

如果面试官继续追问，我会补充三点。第一，K 太小容易过拟合，K 太大容易欠拟合，所以通常用交叉验证选 K。第二，KNN 的核心是距离，所以欧氏距离最常见，但不同任务也会考虑曼哈顿距离、Minkowski 距离等，同时一定要关注标准化，否则大尺度特征会主导距离。第三，KNN 在样本不平衡和高维场景下容易出问题，不平衡时可用距离加权、重采样和更合理的评估指标；高维时要做特征选择、降维，必要时换模型。

你会发现，真正高分的回答，不是只会背概念，而是能把“原理—风险—改进—落地做法”串起来。面试官最喜欢的，也是这种既懂算法，又懂实战边界的表述方式。

10. 总结：把 KNN 记成一句真正能打的面试话术

KNN 本质上就是“近邻表决”——谁离我近，谁就更有发言权。它简单、直观、容易落地，是非常好的入门算法和基线模型。但它的短板同样明显：预测阶段慢、对距离敏感、怕特征尺度不一致、怕高维、也容易被样本不平衡影响。

所以，真正会用 KNN，不是停留在“找最近的 K 个点”这句话上，而是要继续往下想：K 怎么选？距离怎么算？要不要标准化？数据平不平衡？维度是不是太高？当你能把这些点都讲清楚，这道 KNN 面试题基本就稳了。

AI大模型面试题：KNN 算法原理、优缺点、K 值怎么选、距离度量、样本不平衡处理，一文讲透

靶向肺的腺相关病毒（AAV）血清型及启动子选择

低查重AI教材生成秘籍，AI写教材工具带你轻松搞定教材编写！

三极管放大倍数不稳定？可能是你忽略了Vce这个‘隐形变量’——以8050为例的深度分析

终极解决FanControl风扇控制软件启动失败的完整指南

用OpenMV+STM32做个智能小车‘眼睛’：从颜色追踪到测距避障的实战开发笔记

中国AI产业的突围之路：从“中国词元“看自主生态的崛起