8、网络技术：VXLAN BGP EVPN中的关键特性解析-程序员充电站

网络技术：VXLAN BGP EVPN中的关键特性解析

在网络技术的发展中，VXLAN BGP EVPN 架构凭借其高效、灵活的特点，成为了大型数据中心网络的重要解决方案。本文将深入探讨该架构中的几个关键特性，包括 IGMP 窥探、分布式 IP 任播网关、集成路由和桥接（IRB）以及端点移动性，帮助大家更好地理解和应用这些技术。

1. IGMP 窥探

IGMP 窥探是一种软件特性，它不依赖于底层硬件。不过，根据平台软件的支持情况，对于启用 VXLAN 的 VLAN，可能不支持 IGMP 窥探。虽然这里只是简要概述，但详细的 IP 组播流在 VXLAN BGP EVPN 网络中的情况，会有专门的资料进行详细介绍。

2. 分布式 IP 任播网关

传统上，数据中心中不同 IP 子网的端点通信依赖于集中在聚合层的默认网关。这种集中式网关通常采用冗余配置，端点要访问它，需先穿越二层网络，如以太网、vPC、FabricPath 或 VXLAN F&L 等。同一 IP 子网内的通信一般通过桥接完成，无需与集中式默认网关交互；而不同 IP 网络/子网间的路由通信，则可通过相同的二层网络路径访问集中式默认网关。

为了保证网络的冗余性和高可用性，集中式网关采用了第一跳冗余协议（FHRP），如 HSRP、VRRP 和 GLBP。这些协议中，HSRP 和 VRRP 通常由单个节点负责响应 ARP 请求并将流量路由到其他 IP 网络/子网。当主节点故障时，FHRP 会将备份节点的操作状态切换为主节点，但这一故障切换过程需要一定时间。

当 FHRP 与虚拟端口通道（vPC）结合时，其功能更加多样化。vPC 允许两个节点都转发路由流量，但仅主节点响应 ARP 请求。这种结合显著增强了网络的弹性和故障收敛时间。在 vPC 环境中启用 FHRP 的 ARP 同步功能，可实现 vPC 主节点和从节点之间的 ARP 同步。FabricPath 与任播 HSRP 结合，可将活动网关数量从两个增加到四个，但 FHRP 协议交换和操作状态变化仍然存在。

随着二层和三层操作在大型数据中心网络中的重要性日益增加，传统 FHRP 协议的弹性已无法满足需求。分布式 IP 任播网关应运而生，它将二层 - 三层网络边界移至网络边缘的叶交换机或接入层，从而缩小了故障域。这种分布式架构采用“向外扩展”的方法，显著减少了网络和协议状态。每个叶交换机都实现了分布式 IP 任播网关，端点无需穿越大型二层域即可访问默认网关。

分布式 IP 任播网关应用了任播网络概念“一对一最近关联”。任播是一种网络寻址和路由方法，端点的数据流量会根据拓扑结构路由到一组具有相同目标 IP 地址的网关中最近的节点。在分布式 IP 任播网关架构中，默认网关更靠近端点，具体位于每个端点物理连接的叶交换机上。任播网关在网络结构中的每个边缘设备/VTEP 上都处于活动状态，无需在网络结构中使用传统的 hello 协议/数据包。因此，同一子网的网关可以根据需要同时存在于多个叶交换机上，而无需任何类似 FHRP 的协议。

冗余的 ToR 交换机通过多机箱链路聚合（MC - LAG）技术（如 vPC）连接。端口通道哈希算法会从两个可用的默认网关中选择一个，遵循“一对一最近关联”规则。VXLAN BGP EVPN 网络提供二层和三层服务，本地边缘设备与端点之间存在默认网关关联。当端点尝试解析默认网关时，只有本地连接的边缘设备会捕获并解析该 ARP 请求。这样，每个边缘设备都负责为其直接连接的端点执行默认网关功能，并通过定期执行 ARP 刷新来跟踪本地连接的已发现端点的活性。

分布式任播网关的向外扩展实现方式为每个端点提供了最近的默认网关。默认网关的 IP 地址在所有边缘设备之间共享，每个边缘设备负责各自的 IP 子网。除了默认网关的 IP 地址外，关联的 MAC 地址同样重要，因为每个端点的本地 ARP 缓存中都包含默认网关的特定 IP - MAC 绑定。

在主机移动性场景中，如果主机移动到不同机架的不同 ToR 交换机下的服务器，即使默认网关保持不变，若网关 MAC 地址发生变化，可能会导致流量“黑洞”现象。为防止这种情况，VXLAN EVPN 结构中所有边缘设备上的分布式任播网关共享相同的网关服务 MAC 地址，即任播网关 MAC 地址（AGM）。该地址在所有边缘设备上配置相同，并且在所有不同的 IP 子网中共享，每个子网都有自己唯一的默认网关 IP。任播网关不仅提供了最有效的出口路由，还能直接路由到端点连接的 VTEP，从而消除了流量的迂回。

当端点处于静默状态或未被发现时，BGP EVPN 控制平面中没有该端点的主机路由信息。为避免发往该端点的数据包被丢弃，应使用路由表中的次优路由。每个分布式 IP 任播网关从本地实例化该子网的每个 VTEP 发布子网路由，使路由表中存在“次优”路由。未在本地实例化该子网的远程 VTEP 会发现该子网前缀可通过 ECMP 多路径到达。当远程 VTEP 收到发往该子网中未知/静默端点的流量时，会根据计算的 ECMP 哈希值将流量转发到为目标子网服务的 VTEP 之一。流量到达该 VTEP 后，会匹配子网前缀路由，进而指向一个收集邻接关系。这会触发 VTEP 根据目标子网信息向本地连接的二层网络发送 ARP 请求，该 ARP 请求还会封装在与目标子网关联的二层 VXLAN VNI 中发送到三层核心。最终，ARP 请求会到达特定子网中的静默端点，端点响应 ARP 请求，该响应会在直接连接到该端点的 VTEP 处被处理。由于所有 VTEP 共享相同的任播网关 MAC 地址，端点被发现，其信息会由该 VTEP 分发到 BGP EVPN 控制平面。

另一种方法是允许默认路由（0.0.0.0/0）实现类似结果，但这种方法会使发现过程集中化。相比之下，基于子网前缀路由的分布式方法在发现静默端点方面具有更好的扩展性。

以下是分布式 IP 任播网关的优势总结表格：
|优势|描述|
|----|----|
|减少故障域|将三层网关移至叶交换机，缩小故障影响范围|
|简化配置|无需复杂的 FHRP 协议配置|
|优化路由|提供最有效的出口路由，消除流量迂回|
|透明的端点/工作负载移动性|AGM 确保端点移动时无需更改 ARP 缓存|

下面是分布式 IP 任播网关的工作流程 mermaid 流程图：

graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px A([端点发起通信]):::startend --> B{判断是否跨子网}:::decision B -->|是| C(向本地边缘设备发送 ARP 请求解析默认网关):::process C --> D(本地边缘设备解析 ARP 请求并路由流量):::process D --> E{是否为未知/静默端点}:::decision E -->|是| F(使用次优路由转发流量到相关 VTEP):::process F --> G(VTEP 发送 ARP 请求发现端点):::process G --> H(端点响应 ARP 请求，信息分发到控制平面):::process B -->|否| I(通过桥接在同一子网内通信):::process

3. 集成路由和桥接（IRB）

VXLAN BGP EVPN 遵循两种不同的 IRB 语义，这些内容在 IETF 的相关草案中有详细记录。

3.1 非对称 IRB

非对称 IRB 是一种首跳路由操作模式，它在本地边缘设备或 VTEP 内遵循桥接 - 路由 - 桥接模式。当使用非对称 IRB 进行路由时，发往远程 VTEP 的流量和从远程 VTEP 返回的流量使用不同的 VNI。

例如，连接到 VTEP V1 的主机 A 要与连接到 VTEP V2 的主机 X 通信。由于它们属于不同子网，采用非对称 IRB 路由过程。主机 A 在解析默认网关的 ARP 请求后，将数据流量发送到 VLAN 10 中的默认网关。然后从 VLAN 10 进行路由操作到 VLAN 20，VLAN 20 映射到 VXLAN VNI 30002，数据流量被封装到 VNI 30002 的 VXLAN 中。当封装后的流量到达 VTEP V2 时，进行解封装并桥接到 VLAN 20。对于返回流量，主机 X 将数据流量发送到本地子网（对应 VLAN 20）的默认网关，经过从 VLAN 20 到 VLAN 10 的路由操作后，流量被封装到 VXLAN VNI 30001 并桥接到 VTEP V1。到达 VTEP V1 后，数据流量解封装并桥接到 VLAN 10。因此，主机 A 到主机 X 的端到端流量使用 VNI 30002，而主机 X 到主机 A 的返回流量使用 VNI 30001。

非对称 IRB 要求在所有 VXLAN VTEP 上保持一致的 VNI 配置，以防止流量黑洞。特别是桥接 - 路由 - 桥接序列中的第二次桥接操作，若缺少与目标网络对应的桥接域/VNI 配置，该序列将失败。

3.2 对称 IRB

对称 IRB 遵循桥接 - 路由 - 路由 - 桥接模式，提供了非对称 IRB 无法实现的额外用例。当在具有 VRF Lite 或 MPLS L3VPN 的 IP 子网之间进行路由时，对称 IRB 使用相同的转发语义。所有从 VTEP 流出和返回的流量都使用相同的 VNI，具体是与 VRF 关联的同一三层 VNI（L3VNI）。BGP EVPN 控制平面通过 VXLAN 报头的 24 位 VNI 字段来区分 L2VNI 和 L3VNI。

例如，连接到 VTEP V1 的主机 A 要与连接到 VTEP V2 的主机 Y 通信。主机 A 将数据流量发送到本地子网（VLAN 10）的默认网关，根据目标 IP 查找进行路由。查找结果表明需要将流量封装到 VXLAN 并发送到主机 Y 所在的 VTEP V2。封装后的 VXLAN 流量以 VNI 50001（与主机 A 和主机 Y 所在 VRF 关联的三层 VNI）从 VTEP V1 发送到 VTEP V2。到达 VTEP V2 后，流量解封装并在 VRF 内路由到主机 Y 所在的 VLAN 20。对于主机 Y 到主机 A 的返回流量，同样使用 VNI 50001，遵循相同的桥接 - 路由 - 路由 - 桥接序列。实际上，同一 VRF 内不同网络的主机之间的所有路由流量都使用相同的 VRF VNI 50001。

对称 IRB 不要求在所有边缘设备上为所有 VXLAN 网络保持一致的配置，即可以实现范围配置。但对于给定的 VRF，所有 VTEP 上需要配置相同的三层 VNI，因为 VRF 启用了桥接 - 路由 - 路由 - 桥接操作序列。对于不同 VRF 之间的通信，需要进行路由泄漏，这通常需要外部路由器或防火墙来实现 VRF 到 VRF 的通信。支持 VRF 路由泄漏需要软件支持，以规范控制协议信息和数据平面封装。

以下是两种 IRB 模式的对比表格：
|对比项|非对称 IRB|对称 IRB|
|----|----|----|
|操作模式|桥接 - 路由 - 桥接|桥接 - 路由 - 路由 - 桥接|
|VNI 使用|进出流量使用不同 VNI|进出流量使用相同 VNI|
|配置要求|所有 VTEP 上 VNI 配置需一致|同一 VRF 内三层 VNI 配置一致，支持范围配置|
|适用场景|一般网络场景|大型多租户部署|

下面是对称 IRB 的工作流程 mermaid 流程图：

graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px A([主机 A 发起通信]):::startend --> B(发送流量到本地默认网关):::process B --> C(根据目标 IP 路由并封装到 VXLAN VNI 50001):::process C --> D(将封装流量发送到 VTEP V2):::process D --> E(在 VTEP V2 解封装并在 VRF 内路由到主机 Y):::process E --> F([主机 Y 接收流量]):::startend F --> G(主机 Y 发送返回流量到本地默认网关):::process G --> H(根据目标 IP 路由并封装到 VXLAN VNI 50001):::process H --> I(将封装流量发送到 VTEP V1):::process I --> J(在 VTEP V1 解封装并路由到主机 A):::process J --> K([主机 A 接收返回流量]):::startend

4. 端点移动性

BGP EVPN 提供了一种机制，可实现网络结构内的端点移动性。当端点移动时，相关的主机路由前缀会通过更新的序列号在控制平面中进行通告。这个序列号避免了在端点移动过程中撤回和重新学习给定前缀的需求，而是在控制平面中更新其新位置。由于网络结构中的转发始终由 BGP EVPN 控制平面中的信息决定，流量会迅速重定向到移动端点的新位置，从而实现平滑的流量收敛。

当端点移动时，BGP EVPN 控制平面中会出现同一端点的两个主机路由前缀。初始前缀由原始 VTEP 位置标识，移动后则由新的 VTEP 位置标识。为了在这两个前缀中确定最终使用的前缀，会使用一个名为 MAC 移动性序列号的 BGP 扩展社区。该序列号会随着每次端点移动而更新，当达到最大值时会循环并重新开始计数。MAC 移动性序列号在 RFC 7432 中有详细记录，该文档专门针对 BGP EVPN。

在端点移动之前，其 MAC 地址作为路由类型 2 通告被学习，并且 BGP 扩展社区 MAC 移动性序列号设置为 0。值为 0 表示该 MAC 地址尚未发生移动事件，端点仍位于原始位置。如果检测到 MAC 移动事件，“新”的 VTEP（端点移动到的位置）会向 BGP EVPN 控制平面添加一个新的路由类型 2（MAC/IP 通告），并将 MAC 移动性序列号设置为 1。此时，BGP EVPN 控制平面中会存在两个相同的 MAC/IP 通告，但只有新的通告将 MAC 移动性序列号设置为 1。所有 VTEP 都会遵循这个新通告，将流量发送到端点的新位置。

端点在其生命周期内可能会多次移动。每次移动时，检测到其新位置的 VTEP 会将序列号加 1，并将该端点的主机前缀通告到 BGP EVPN 控制平面。由于 BGP EVPN 信息在所有 VTEP 之间同步，每个 VTEP 都能根据之前的端点可达性信息判断端点是首次出现还是发生了移动事件。

端点可能由于各种原因（如断电）变得不可达。如果端点从 ARP、MAC 和 BGP 表中老化，扩展社区 MAC 移动性序列号也会为 0。当同一端点再次出现时，BGP EVPN 控制平面会将其视为新的学习事件。也就是说，BGP EVPN 控制平面只关注当前活动端点及其位置，不会存储端点的历史信息。

无论是端点实际移动（热移动）还是端点失效后另一个端点采用其身份（冷移动），从 BGP EVPN 控制平面的角度来看，采取的操作是相似的，因为端点在控制平面中的身份是由其 MAC 和/或 IP 地址决定的。

端点移动事件会导致反向 ARP（RARP）或免费 ARP（GARP）信号的产生，这些信号可以由端点本身或代表端点发送。在 RARP 情况下，虚拟机管理程序或虚拟交换机通常会发送一个 RARP，其中源 MAC 地址设置为端点 MAC 地址，目的 MAC 地址设置为广播 MAC（FFFF.FFFF.FFFF）。在 GARP 情况下，端点的 IP 和 MAC 地址会在新位置被通告，从而更新 BGP EVPN 控制平面中的 IP/MAC 可达性信息。

以下是端点移动性相关操作的总结列表：
1. 端点移动时，通过更新序列号在控制平面通告新位置。
2. 使用 MAC 移动性序列号确定最终使用的主机路由前缀。
3. 端点移动后，新 VTEP 发送新的 MAC/IP 通告，更新序列号。
4. 端点不可达再出现视为新学习事件。
5. 移动事件触发 RARP 或 GARP 信号更新可达性信息。

下面是端点移动性的工作流程 mermaid 流程图：

graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px A([端点移动]):::startend --> B(新 VTEP 检测到移动):::process B --> C(更新 MAC 移动性序列号):::process C --> D(向控制平面发送新的 MAC/IP 通告):::process D --> E{控制平面中是否有旧前缀}:::decision E -->|是| F(比较序列号，选择新前缀):::process E -->|否| G(直接使用新前缀):::process F --> H(所有 VTEP 同步新位置信息):::process G --> H H --> I(流量重定向到新位置):::process

总结

综上所述，VXLAN BGP EVPN 架构中的这些关键特性为现代网络提供了强大的支持。分布式 IP 任播网关通过将默认网关靠近端点，减少了故障域，简化了配置，优化了路由，并实现了透明的端点/工作负载移动性。集成路由和桥接（IRB）的非对称和对称模式为不同的网络场景提供了灵活的解决方案，其中对称 IRB 模式更适合大型多租户部署。而端点移动性机制则确保了在端点移动时能够实现平滑的流量收敛，提高了网络的可靠性和灵活性。

在实际应用中，网络管理员可以根据具体的网络需求和场景，选择合适的特性和配置方式。例如，对于需要频繁进行主机移动的场景，可以充分利用分布式 IP 任播网关和端点移动性机制；对于大型多租户网络，则可以优先考虑对称 IRB 模式。通过合理运用这些特性，能够构建出高效、稳定且灵活的现代网络架构。

以下是对这些关键特性优势的综合表格：
|特性|优势|
|----|----|
|分布式 IP 任播网关|减少故障域、简化配置、优化路由、支持端点移动性|
|非对称 IRB|适用于一般网络场景，实现跨子网通信|
|对称 IRB|支持大型多租户部署，配置灵活，流量对称|
|端点移动性|实现平滑流量收敛，不依赖端点移动类型|

通过深入理解和应用这些特性，网络技术人员能够更好地应对现代网络环境中的各种挑战，提升网络的性能和可靠性。