2025年IEEE TASE SCI2区，基于学习型狼群算法的空地无人集群协同区域搜索策略，深度解析+性能实测-程序员充电站

1.摘要

空地无人集群协同搜索在情报获取与灾害救援等任务中具有重要应用价值，而高效的搜索路径规划是提升整体搜索性能的关键。针对现有研究中空地无人平台协同不足、易导致搜索效率低下的问题，本文提出了一种基于学习型狼群算法（LWPA）的空地无人集群协同搜索路径规划方法，该方法构建了综合考虑区域覆盖率、目标探测概率及搜索不确定性的优化模型，并将分布式模型预测控制（DMPC）与分布式约束优化问题（DCOP）相结合，实现了面向实时协同搜索的分布式路径规划。为克服传统 DCOP 求解方法易陷入局部最优的缺陷，LWPA 引入 Q-learning 机制进行分层学习，并通过动态参数调节，在局部优化与全局探索之间取得平衡。

2.协作区域搜索建模

针对复杂城市环境中目标分布未知、搜索范围广的问题，本文设计了一种基于区域覆盖搜索的空地无人集群协同系统架构，该架构融合无人机高机动性与大视野优势以及无人车的地面机动与载荷能力，实现空地异构平台的高效协同搜索。通过基于实时地图信息的自主在线决策，在有限任务时间内最大化区域覆盖率与目标发现率，从而提升整体搜索效率与信息获取完整性。

本文针对复杂城市场景下的未知区域搜索问题，构建了融合建筑高度与环境约束的城市环境模型，并将任务区域划分为规则网格，以精确描述搜索空间。

本文构建了空地无人平台的统一运动学模型，在网格化环境中以位置与运动方向描述平台状态，并采用离散时间更新其运动轨迹。平台运动受最大速度和续航时间等约束，同时支持多方向机动。无人平台的运动状态：
{ x i ( t + 1 ) = x i ( t ) + ν ⋅ Δ t ⋅ s i g n ( sin ⁡ θ ) y i ( t + 1 ) = y i ( t ) + ν ⋅ Δ t ⋅ s i g n ( cos ⁡ θ ) z i ( t + 1 ) = z i ( t ) + Δ h \begin{cases}x_i(t+1)=x_i(t)+\nu\cdot\Delta t\cdot s ign\left(\sin\theta\right)\\y_i(t+1)=y_i(t)+\nu\cdot\Delta t\cdot s ign\left(\cos\theta\right)\\z_i(t+1)=z_i(t)+\Delta h&\end{cases}⎩⎨⎧xi(t+1)=xi(t)+ν⋅Δt⋅sign(sinθ)yi(t+1)=yi(t)+ν⋅Δt⋅sign(cosθ)zi(t+1)=zi(t)+Δh

本文构建了涵盖感知、通信与信息更新的空地无人集群模型，并在此基础上提出了一种融合 DMPC 与 DCOP 的分布式协同搜索框架。通过引入传感器检测概率与虚警概率，并采用贝叶斯更新机制构建目标存在概率图，实现对环境信息与搜索不确定性的动态建模。在路径优化层面，以区域覆盖率、目标检测率和区域不确定性为联合优化目标，将集中式搜索问题分解为可并行求解的局部优化问题，在保证全局协同约束的同时显著降低计算复杂度。

3.基于学习型狼群算法

狼群算法（WPA）源于自然界狼群分工明确、协同高效的捕猎行为，通过模拟头狼指挥、探狼搜索和猛狼围捕等角色分工，实现群体协作优化，该算法抽象出游走、召唤和围捕三种智能行为，以及头狼选择与狼群进化两种基本机制，用于引导群体搜索过程。

{ x i d k + 1 = μ 1 ⋅ W a k + μ 2 ⋅ A g k + μ 3 ⋅ S i k , W a k = max ⁡ − 1 f ( x i d k + s t e p a d ⋅ sin ⁡ ( 2 π ⋅ p h ) ) , A g k = x i d k + s t e p b d ⋅ ( g d k − x i d k ) ∣ g d k − x i d k ∣ , S i k = x i d k + λ × s t e p c d ⋅ ∣ g d k − x i d k ∣ , μ = ( μ 1 , μ 2 , μ 3 ) , μ 1 , μ 2 , μ 3 ∈ { 0 , 1 } , s t e p a d = 1 2 ⋅ s t e p b d = 2 ⋅ s t e p c d = ∣ max ⁡ d − min ⁡ d ∣ S \begin{cases}x_{id}^{k+1}=\mu_{1}\cdot Wa^{k}+\mu_{2}\cdot Ag^{k}+\mu_{3}\cdot Si^{k},\\Wa^{k}=\max^{-1}f\left(x_{id}^{k}+step_{a}^{d}\cdot\sin\left(2\pi\cdot\frac{p}{h}\right)\right),\\Ag^{k}=x_{id}^{k}+step_{b}^{d}\cdot\frac{\left(g_{d}^{k}-x_{id}^{k}\right)}{\left|g_{d}^{k}-x_{id}^{k}\right|},\\Si^{k}=x_{id}^{k}+\lambda\times step_{c}^{d}\cdot\left|g_{d}^{k}-x_{id}^{k}\right|,\\\mu=\left(\mu_{1},\mu_{2},\mu_{3}\right),\mu_{1},\mu_{2},\mu_{3}\in\left\{0,1\right\},\\step_{a}^{d}=\frac{1}{2}\cdot s tep_{b}^{d}=2\cdot s tep_{c}^{d}=\frac{\left|\max_{d}-\min_{d}\right|}{S}&\end{cases}⎩⎨⎧xidk+1=μ1⋅Wak+μ2⋅Agk+μ3⋅Sik,Wak=max−1f(xidk+stepad⋅sin(2π⋅hp)),Agk=xidk+stepbd⋅∣gdk−xidk∣(gdk−xidk),Sik=xidk+λ×stepcd⋅gdk−xidk,μ=(μ1,μ2,μ3),μ1,μ2,μ3∈{0,1},stepad=21⋅stepbd=2⋅stepcd=S∣maxd−mind∣

人工狼的位置更新主要由游走方向h hh和步长因子S SS决定，不同搜索阶段通过调节S SS在全局探索与局部精细搜索之间切换，而阶段转换由最大游走步数T m a x T_\mathrm{max}Tmax和围捕判定因子w ww控制，从而在搜索效率与搜索精度之间实现平衡。

本文将 Q-learning 引入狼群算法，形成学习型狼群算法（LWPA），通过强化学习实现搜索行为与参数的自适应调节。算法采用分层决策机制，在行为选择与参数调整两个层面动态平衡全局探索与局部优化。通过以种群进化速度、多样性和集中度等指标构建状态空间，并设计合理的奖励函数，LWPA 能在离线训练与在线优化相结合的框架下持续更新 Q 值，从而有效避免陷入局部最优。

5.结果展示

4.参考文献

[1] Peng Q, Wu H, Zhan R, et al. An Air-Ground Unmanned Swarm Collaborative Area Search Strategy Based on the Learning Wolf Pack Algorithm[J]. IEEE Transactions on Automation Science and Engineering, 2025.