2026年IEEE TSMC SCI1区TOP，融合 Q 学习机制三阶段协同优化算法+考虑工人因素的多目标分布式柔性作业车间调度，深度解析+性能实测-程序员充电站

1.摘要

针对考虑工人熟练度及学习–遗忘效应的多目标分布式柔性作业车间调度问题，本文提出了一种融合 Q 学习机制的三阶段协同优化算法（TSCOA），以同时最小化完工期和总资源负载。本文构建了MILP 模型并设计了基于知识的初始化方法、双种群协同与动态自适应搜索策略，以及多扰动算子机制，通过 Q 学习动态选择算子以提升搜索效率。基准测试结果表明，该算法在性能上优于多种现有先进方法。

2.问题描述

本文将铝型材生产过程建模为考虑工人因素的多目标分布式柔性作业车间调度问题(MODFJSPWF)，以最小化最大完工时间C m a x C_\mathrm{max}Cmax和总资源负载 (TRL) 为优化目标。问题同时决策作业-工厂分配、工序排序、机器选择与工人指派，并显式考虑工人熟练度、学习与遗忘效应对实际加工时间的影响。为刻画工人能力动态变化，提出改进的学习-遗忘效应模型。工人w ww在机器m mm上的经验累积为：
E m , w = ∑ i , j ∑ i ′ , j ′ θ j , j ′ Z i , j , m , w Z i ′ , j ′ , m , w , ( i , j ) ≠ ( i ′ , j ′ ) E_{m,w}=\sum_{i,j}\sum_{i^{\prime},j^{\prime}}\theta_{j,j^{\prime}}Z_{i,j,m,w}Z_{i^{\prime},j^{\prime},m,w},\quad(i,j)\neq(i^{\prime},j^{\prime})Em,w=i,j∑i′,j′∑θj,j′Zi,j,m,wZi′,j′,m,w,(i,j)=(i′,j′)

其中，θ j , j ′ ∈ [ 0 , 1 ] \theta_{j,j'} \in [0,1]θj,j′∈[0,1]表示工序相似度。基于经验的学习提升模型为：
P r o m , w = min ⁡ ( P r o m , w ∗ [ δ + ( 1 − δ ) ( E m , w α w ) ] , φ ) \mathrm{Pro}_{m,w}=\min\left(\mathrm{Pro}_{m,w}^*\left[\delta+(1-\delta)\left(\frac{E_{m,w}}{\alpha_w}\right)\right],\varphi\right)Prom,w=min(Prom,w∗[δ+(1−δ)(αwEm,w)],φ)

遗忘效应:
γ = 1 − e − β w ( 1 − θ j , j ′ ) r m , w \gamma=1-e^{-\beta_w(1-\theta_{j,j^{\prime}})r_{m,w}}γ=1−e−βw(1−θj,j′)rm,w

其对应的熟练度衰减表达为:
P r o m , w = max ⁡ ( γ + ( 1 − γ ) ( E m , w α w ) , ω ) \mathrm{Pro}_{m,w}=\max\left(\gamma+(1-\gamma)\left(\frac{E_{m,w}}{\alpha_w}\right),\omega\right)Prom,w=max(γ+(1−γ)(αwEm,w),ω)

3.三阶段协同算法

三阶段协同优化算法（TSCOA）通过知识驱动初始化生成优质初始解；第一阶段进行全局探索，第二阶段采用双种群协同与动态自适应搜索以增强多样性并避免早熟收敛，第三阶段结合 Q-learning 自适应选择局部搜索算子强化精英解开发，从而高效同时优化完工期和总资源负载。

编解码方案

论文设计了四层染色体编码–解码机制，包括工序顺序层（OS）、工厂分配层（FA）、机器选择层（MS）和工人分配层（WA），分别表示工序执行顺序、作业–工厂分配、机器指派和工人指派。解码时，依次根据 FA 确定作业所属工厂，利用 OS 生成各工厂内工序顺序，并结合 MS 与 WA 完成机器和工人分配，最终计算各工序完成时间，从而得到完工期和总资源负载等评价指标。

进化算子

交叉算子包括随机工序交叉（ROX）和均匀交叉（UX）：ROX 作用于工序顺序（OS）层，通过随机生成二进制向量确定交叉位置，在父代间重组工序序列；UX 作用于机器选择（MS）和工人分配（WA）层，在随机选定位置交换父代基因，并通过可行性检查确保机器与工人指派合法。变异算子在 OS、MS 和 WA 层进行局部扰动，通过交换工序位置或随机更换机器与工人。

局部搜索

TSCOA 设计了 8 种问题特定的局部搜索算子（LS1–LS8），分别针对总资源负载与完工期进行强化优化。LS1–LS4 以降低 TRL 为主，通过在关键/非关键工厂间调整工人配置、替换高负载工人、重新分配关键路径上的机器或作业，平衡资源负载并减少浪费。LS5–LS8 以缩短 makespan 为目标，围绕关键路径与关键块，对工序顺序、机器选择和工厂分配进行调整，以压缩关键路径长度。

在算法结构上，第二阶段中 LS1–LS4 作用于子种群1，LS5–LS8 作用于子种群2，以实现差异化协同搜索；第三阶段中，所有局部搜索算子共同作用于精英解集，在 Q-learning 机制引导下进一步强化局部开发能力。

双群体协作策略

在 TSCOA 的第二阶段，采用 k-means 聚类根据完工期将种群划分为两个子种群实现差异化搜索，其引入动态自适应搜索策略（DASS），分别引导子种群1优化总资源负载、子种群2优化完工期。DASS 通过概率矩阵、使用次数矩阵和影响矩阵动态调整邻域算子的选择概率，在历史经验与当前反馈之间自适应平衡，从而提高多目标协同搜索效率并增强算法稳定性。

基于Q学习的局部算子选择机制

Q-learning 的局部算子选择机制将精英解集视为学习智能体，将 8 个局部搜索算子视为可选动作，通过持续更新 Q 表学习不同状态下各算子的期望收益，从而形成自适应最优选择策略。

4.结果展示

5.参考文献

[1] Zhao F, Gao J, Wang L, et al. A Tri-Stage Cooperative Optimization Algorithm With Q-Learning Mechanism for the Multiobjective Distributed Flexible Job Shop Scheduling With Worker Factors[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2026.