深入解析基于乘积项的PLD架构：从逻辑单元到芯片选型-程序员充电站

1. 项目概述：从“黑盒”到“白盒”的芯片认知之旅

作为一名在数字电路设计领域摸爬滚打了十几年的工程师，我深知一个道理：想要用好一件工具，绝不能只停留在“知道怎么用”的层面，必须深入到“理解它为什么这么用”。对于PLD（可编程逻辑器件）和FPGA（现场可编程门阵列）这类芯片来说，尤其如此。市面上琳琅满目的型号，Xilinx和Altera（现在叫Intel PSG）两大巨头给出的数据手册里，各种参数、术语让人眼花缭乱——LE、ALM、Slice、LUT、寄存器、布线资源……如果你只是根据宣传册上最显眼的那个“逻辑单元”数量来选型，那踩坑几乎是必然的。我见过太多项目，前期评估时觉得资源绰绰有余，结果做到一半发现布线拥塞、时序无法收敛，不得不推倒重来或者升级芯片，成本和时间都打了水漂。

所以，这个系列文章，我想和你一起做的，就是一次“拆解”工作。我们不满足于把FPGA/CPLD当作一个实现功能的黑盒子，而是要打开它，看看里面的结构究竟是如何搭建的，不同的结构又如何决定了芯片的性能、资源和适用场景。今天这第一篇，我们就从最经典、也最基础的一种结构开始：基于乘积项（Product-Term）的PLD。这种结构是早期CPLD的基石，理解它，不仅能帮你读懂像Altera MAX7000、Xilinx XC9500这些经典家族的数据手册，更能为你后续理解更复杂的FPGA架构打下坚实的思维基础。无论你是正在选型的学生、初入行的硬件工程师，还是想巩固底层知识的资深开发者，搞清这些基本结构，都是你做出明智技术决策、写出高效可靠代码的第一步。

2. 基于乘积项的PLD：一个精密的“与或”逻辑工厂

要理解基于乘积项的PLD，我们可以把它想象成一个高度可定制化的“逻辑电路印刷厂”。它的核心任务，是把我们通过硬件描述语言（如VHDL、Verilog）或者原理图表达的逻辑功能，“印刷”到硅片上的固定硬件结构中。这种结构的魅力在于，它用一套相对固定但高度灵活的底层单元，通过编程来实现几乎任意组合逻辑和时序逻辑。

2.1 总体架构：宏单元、连线与I/O的三重奏

这种PLD的芯片内部，可以清晰地划分为三个功能区域：宏单元（Macrocell）、可编程互连阵列（PIA， Programmable Interconnect Array）和I/O控制块（I/O Control Block）。这三者协同工作，构成了PLD实现逻辑功能的舞台。

宏单元是舞台上真正的“演员”，是执行基本逻辑操作（如与、或、非、寄存器存储）的最小单元。一个芯片内部包含成百上千个这样的宏单元，它们就像工厂里的一个个标准工位。可编程互连阵列则是连接所有工位的“传送带”和“交通网络”。它负责将输入信号、以及一个宏单元的输出信号，准确地传递到其他需要该信号的宏单元的输入端。这个网络的连接关系不是固定的，而是可以通过编程（如烧断或连接熔丝，或改变Flash/EEPROM存储单元的电荷状态）来改变，从而实现不同的电路连接。I/O控制块是芯片与外部世界的“接口管理员”。它决定了每个引脚是作为输入、输出还是双向口，并控制输出的驱动能力（摆率）、输出类型（如推挽、开漏）和三态使能等电气特性。

这里有一个至关重要的设计：全局信号网络。在图示中，你会看到像INPUT/GCLK1，INPUT/GCLRn这样的引脚。它们不是普通的I/O，而是拥有专用布线资源的全局时钟、全局清零和全局输出使能信号。这些信号通过低延时、高扇出的专用线路直接连接到几乎每一个宏单元。这样做的好处是什么？一是时序可预测且最优，全局时钟到每个寄存器的时间差（时钟偏斜）非常小，这对于需要同步工作的时序电路至关重要；二是节省内部逻辑资源，如果你用普通的组合逻辑产生一个时钟去驱动大量寄存器，不仅延迟大、容易产生毛刺，还会占用宝贵的乘积项资源。因此，在设计中合理利用这些全局资源，是优化性能的关键技巧之一。

注意：在基于乘积项的CPLD设计中，务必优先使用芯片提供的全局时钟和全局复位引脚来驱动设计中的主要时钟域和复位网络。如果不得已要用内部逻辑产生的信号作为时钟（即门控时钟），一定要非常小心，因为它会带来难以控制的时序问题和毛刺风险，严重时会导致系统功能错误。

2.2 宏单元深度解析：组合逻辑与寄存器的完美融合

宏单元是PLD的灵魂，我们把它拆开来看。一个典型的基于乘积项的宏单元主要由两部分构成：乘积项阵列（Product-Term Array）和可配置寄存器（Configurable Register）。

乘积项阵列本质上是一个“与-或”阵列。它分为两级：第一级是“与”阵列，第二级是“或”阵列。

“与”阵列：输入是来自PIA的原始信号及其反相信号（例如A和/A， B和/B）。这个阵列的每一个交叉点都有一个可编程的连接点（早期是物理熔丝，后来是EEPROM或Flash存储单元控制的一个开关）。如果这个点被编程为“连接”，那么该输入信号就参与了这个“与”项的运算。一个“与”项的输出就是所有连接到它的输入信号的逻辑“与”结果。例如，一个“与”项连接了A、/B、C，那么它的输出就是A & (~B) & C。
“或”阵列：它的输入是前面多个“与”项的输出。同样通过可编程连接，将这些“与”项的输出进行逻辑“或”操作。最终，“或”阵列的输出就实现了一个组合逻辑函数，其形式为“积之和”（Sum of Products， SOP），也就是多个“与”项再“或”起来。

用一个简单的公式表示就是：F = PT1 + PT2 + ... + PTn，其中每一个PTx都是一个“与”项，例如PT1 = A * /B * C。

可配置寄存器通常是一个D触发器。它的精妙之处在于其高度的灵活性：

时钟源可选：触发器的时钟可以来自专用的全局时钟网络（低延时、高质量），也可以来自乘积项阵列产生的内部逻辑信号。后者虽然灵活，但需谨慎使用。
复位/置位源可选：同样，清零（Reset）或置位（Set）信号可以选择全局复位，也可以来自内部逻辑。
旁路路径：如果当前逻辑只需要组合电路，不需要寄存器，那么可以配置一个多路选择器，将乘积项“或”阵列的输出直接绕过D触发器，送到宏单元的输出端，从而将触发器资源节省下来。

这种结构使得每个宏单元既能实现一定复杂度的组合逻辑，又能提供一个存储单元，非常适合实现经典的“寄存器传输级（RTL）”描述。

2.3 逻辑实现原理：从电路图到熔丝图

理论可能有些抽象，我们用一个实实在在的例子来演示这个过程。假设我们需要实现这样一个简单的电路：一个输出为f的组合逻辑部分，后面跟着一个由时钟CLK驱动的D触发器。其中，f = (A+B) * C * (!D)。

根据布尔代数，我们可以将其化简为标准的“积之和”形式：f = A*C*!D + B*C*!D。看，这里有两个“与”项（A*C*!D和B*C*!D），然后它们进行“或”运算。

在PLD内部，实现过程如下：

输入信号A， B， C， D从芯片引脚进入，经过I/O控制块，被送入可编程互连阵列（PIA）。
PIA会将这些信号及其反相信号（共8个：A， /A， B， /B， C， /C， D， /D）分发到需要它们的宏单元。
在我们的目标宏单元中，乘积项阵列的“与”部分被编程。对于第一个“与”项（A*C*!D），我们在对应的交叉点上连接A、C和/D（即D的反相），断开其他输入。这样，这个“与”项的输出f1就等于A & C & (~D)。同理，第二个“与”项被编程为连接B、C和/D，输出f2 = B & C & (~D)。
在“或”阵列中，编程连接使得宏单元的最终组合输出F_combo = f1 + f2。至此，组合逻辑f已实现。
对于D触发器，我们将其时钟输入端编程为连接到专用的全局时钟网络，该网络直接来自芯片的CLK引脚。将F_combo连接到D触发器的数据输入D端。
触发器的输出Q被连接到I/O控制块，最终驱动芯片的输出引脚。

整个过程，从我们输入原理图或HDL代码，到软件（如Quartus II， ISE）为我们生成最终的“熔丝图”或编程文件（.pof， .jed），都是自动完成的。但了解背后的原理，能让我们在编写代码时，心里有一张清晰的硬件地图。例如，你会意识到，一个过于复杂的组合逻辑表达式（包含很多个“与”项），可能会超出单个宏单元中“或”阵列能够容纳的乘积项数量，这时就需要用到“扩展项”。

2.4 扩展项机制：突破单个宏单元的局限

单个宏单元的乘积项数量是有限的（例如MAX7000的宏单元通常有5个乘积项）。当我们实现的逻辑函数过于复杂，需要的“与”项超过这个数量时，怎么办呢？基于乘积项的PLD提供了两种聪明的资源共享机制：共享扩展项（Shareable Expander）和并联扩展项（Parallel Expander）。

共享扩展项：可以理解为一块公共的、额外的乘积项池。它从每个宏单元“借用”一个未使用的乘积项，汇总起来形成一个所有宏单元都可以访问的“共享资源库”。当某个宏单元自身的乘积项不够用时，它就可以去这个公共池里“借用”额外的乘积项。这种扩展项的好处是资源利用率高，但缺点是信号需要经过额外的布线，可能会引入一定的延迟。
并联扩展项：则是更直接地从相邻的宏单元“借用”其未使用的乘积项。它不经过公共池，而是直接在相邻宏单元之间建立连接。这种方式通常比共享扩展项更快，延迟更小，但资源是局部的，只能从邻近的宏单元获取。

软件的综合工具会自动判断并使用这些扩展项。但作为工程师，了解这一点意味着：当你看到编译报告里提示“使用了扩展项”时，你就应该意识到，这部分逻辑的路径延迟可能会增加。在时序紧张的设计中，你可能需要回过头去优化这部分逻辑代码，尝试将其化简，或者用流水线拆开，使其能够被容纳在单个宏单元内，以获得最佳性能。

3. 工艺与配置特性：为何一上电就能工作？

我们注意到，采用这种乘积项结构的PLD，如Altera MAX7000（EEPROM工艺）、Xilinx XC9500（Flash工艺），都有一个共同特点：它们属于“非易失性”可编程器件。

工艺决定了特性：

EEPROM/Flash工艺：在这些工艺中，编程信息（即每个熔丝/开关的通断状态）是通过电荷存储在浮栅晶体管中来实现的。即使断电，电荷也能保留数年甚至数十年。因此，芯片一上电，配置信息就已经就位，系统可以立即开始工作。这非常类似于我们电脑中的BIOS芯片。
对比SRAM工艺的FPGA：大多数高性能FPGA采用SRAM工艺存储配置信息。SRAM是易失性的，断电即丢失。所以FPGA需要一个外部的非易失性存储器（如Flash芯片）来存放配置文件，每次上电时，FPGA需要先从外部存储器“加载”配置，这个过程需要时间（几十毫秒到几百毫秒），之后才能正常工作。

这个区别带来了显著的应用差异：

乘积项PLD（CPLD）的优势：上电即运行，非常适合用于需要极快启动、控制密集型和胶合逻辑的应用。例如，系统的上电时序控制、地址译码、总线接口转换、状态机等。它的逻辑粒度相对较粗（以宏单元为单位），布线资源相对固定，延迟可预测性较好。
SRAM FPGA的优势：逻辑容量大（以成千上万个LUT和寄存器为单位），资源丰富，可通过重配置实现极其复杂的功能，甚至动态重构部分电路。适用于数据密集型、计算密集型和需要频繁升级的应用，如图像处理、高速通信、原型验证等。

所以，当你为一个需要瞬间启动、执行简单控制逻辑的系统（比如管理电源时序、监控按钮、驱动数码管显示）选型时，一个基于乘积项、Flash/EEPROM工艺的CPLD往往是比FPGA更合适、更经济的选择。它省去了外部配置芯片，简化了板级设计，并提供了确定性的上电行为。

4. 从结构看懂数据手册：如何计算真实逻辑能力？

各大厂商的数据手册参数不统一，常常让人困惑。一个叫“逻辑单元”，另一个叫“宏单元”；一个标称“等效门数”，另一个强调“LUT数量”。对于基于乘积项的CPLD，我们该如何拨开迷雾？

关键点：不要只看宏单元数量，要关注乘积项资源。一个拥有256个宏单元的CPLD，其逻辑能力并不简单地等于另一个品牌256个“逻辑单元”的FPGA。对于乘积项结构，你需要关注：

每个宏单元的乘积项数量：这决定了单个宏单元能实现多复杂的组合逻辑。例如，MAX7000S系列每个宏单元有5个乘积项。如果一个逻辑函数需要7个乘积项，它就必须占用至少2个宏单元（并使用扩展项），这会增加逻辑级数和延迟。
共享扩展项和并联扩展项的总数：这决定了芯片处理复杂逻辑的弹性。资源手册里通常会给出。
I/O数量与宏单元数量的比例：这反映了芯片的引脚驱动能力。如果你需要大量输入输出，但宏单元用得不多，就要选择I/O比例高的型号，避免“逻辑够用，引脚不够”的尴尬。
全局时钟/复位网络的数量：对于时序设计至关重要。

一个简单的评估方法：

分解逻辑：将你的设计（特别是关键路径上的复杂组合逻辑）用布尔表达式表示，并化简为SOP形式。
统计乘积项：看看每个表达式包含多少个“与”项。
对照宏单元能力：检查这些“与”项数量是否能在目标芯片的单个宏单元内实现，或者需要多少扩展项。
评估布线资源：对于涉及多个宏单元的逻辑，考虑信号需要穿越的互连阵列数量。简单的设计在CPLD上布线通常畅通无阻，但大型、高速设计可能会遇到布线拥塞，导致时序不达标。这时可能需要选择更大规模或更高级系列的器件。

实操心得：在项目初期选型时，我通常会用一个“安全系数”。例如，初步评估需要100个宏单元，我会选择有130-150个宏单元的型号。这多出来的30%-50%资源，不仅用于应对设计后期的逻辑变更和增加，更重要的是，它为布线工具提供了优化空间，能有效降低布线拥塞风险，提高时序收敛的成功率。对于基于乘积项的CPLD，由于布线资源相对固定，预留足够的资源余量比在FPGA设计中更为重要。

5. 常见问题与排查技巧实录

即便理解了原理，在实际使用基于乘积项的PLD/CPLD时，还是会遇到一些典型问题。下面是我从多年项目中总结的一些“坑”和应对方法。

5.1 时序问题：毛刺与时钟偏移

问题现象：电路功能仿真正确，但烧录到芯片后行为不稳定，偶尔出错，特别是当输入信号变化时。

可能原因1：组合逻辑毛刺。这是乘积项结构中最常见的问题之一。当输入信号通过“与-或”阵列时，如果路径延迟不同，可能会产生短暂的错误输出（毛刺），如果这个毛刺恰好被后续的触发器采样，就会导致错误。
- 排查与解决：
  - 在开发软件中仔细查看时序仿真报告，关注关键路径的延迟和毛刺。
  - 对于可能产生毛刺且会被时钟采样的组合逻辑输出，考虑插入寄存器，即采用同步设计，用时钟边沿来采样稳定的逻辑结果，从而过滤掉毛刺。
  - 检查代码，避免使用门控时钟（用组合逻辑输出作为时钟）。如果必须使用，确保其满足建立/保持时间要求，并做好时钟约束。
可能原因2：内部生成的时钟/复位信号质量差。如果你用乘积项逻辑产生了时钟或异步复位信号，并驱动了很多触发器，其扇出大、延迟长且不可控，极易导致时序违例。
- 排查与解决：
  - 首要原则：尽可能使用芯片提供的全局时钟网络和全局复位网络。它们是为高扇出、低偏斜设计的。
  - 如果逻辑上必须内部产生，尝试将其本地化，减少其驱动的触发器数量。
  - 在约束文件中，对该信号设置恰当的时钟定义或最大延迟约束，帮助时序分析工具进行验证。

5.2 资源耗尽与性能下降

问题现象：编译报告显示“资源利用率>90%”甚至溢出，或者时序报告显示关键路径延迟急剧增加。

可能原因1：过度使用扩展项。当综合工具频繁使用共享或并联扩展项时，意味着逻辑被分散到了多个宏单元，信号需要经过更长的互连路径和更多的开关，延迟自然会增加。
- 排查与解决：
  - 查看综合/映射后的报告，找到使用了扩展项的逻辑模块。
  - 重构代码：尝试用不同的描述方式重写该部分逻辑。有时，一个等价的布尔表达式可能有更简洁的SOP形式。例如，尝试提取公因式，或者使用卡诺图进行手工优化。
  - 流水线化：对于复杂的组合逻辑块，考虑将其拆分为多个时钟周期完成，中间插入寄存器。这虽然增加了延迟周期数（latency），但大大缩短了每个周期的组合路径长度，提高了系统所能运行的最高时钟频率。
可能原因2：异步逻辑设计。过多的异步置位/复位、复杂的异步状态机，会占用大量乘积项资源，且时序难以分析。
- 排查与解决：
  - 坚持同步设计原则：尽量将所有寄存器的复位设计成同步复位，并且由全局复位信号驱动。状态机使用统一的时钟进行同步。
  - 如果必须使用异步信号，确保对其进行正确的同步处理（例如，使用两级触发器进行同步化），并做好时序约束。

5.3 功耗异常

问题现象：芯片在静态或低频工作时，发热量或电流消耗明显高于数据手册的典型值。

可能原因：输入引脚悬空或中间信号频繁翻转。
- 排查与解决：
  - 禁止引脚悬空：所有未使用的输入引脚，必须在顶层设计中设置为固定的高电平或低电平（上拉或下拉），绝不能悬空。悬空的引脚会处于不确定的电平状态，导致其内部的缓冲器和后续逻辑不断翻转，产生巨大的静态和动态功耗。
  - 优化代码减少翻转率：对于内部信号，如果某些节点在非必要时频繁变化，可以考虑使用时钟使能或门控逻辑（需谨慎，避免产生毛刺）来降低其活动频率。
  - 检查I/O配置：将不使用的I/O引脚设置为高阻态输出，并关闭其输入缓冲器（如果支持）。

5.4 配置与下载故障

问题现象：编程器无法识别芯片，或编程验证失败。

可能原因1：编程接口电路错误。对于JTAG、ISP等编程接口，线序、上拉电阻、信号完整性都很关键。
- 排查与解决：
  - 对照数据手册的编程章节，仔细检查电路图。确认TDI， TDO， TMS， TCK以及电源、地连接正确。
  - 检查JTAG链中是否只有目标芯片，链的顺序是否正确。
  - 使用示波器测量TCK、TMS等信号，确保波形干净，没有过冲或振铃。
可能原因2：芯片损坏或电源问题。
- 排查与解决：
  - 测量芯片所有电源引脚电压是否稳定且在容差范围内。CPLD对电源纹波比较敏感。
  - 检查是否有引脚短路或焊接不良。
  - 尝试更换一颗新的芯片进行测试。

理解基于乘积项的PLD结构，就像是获得了一张芯片内部的“地图”。它让你在编写代码时，能预见到你的逻辑描述将会被如何“翻译”和“安置”到硬件资源上。这种预见性，是进行高效、可靠数字系统设计的基石。当你下次再打开Altera MAX II或Xilinx CoolRunner系列的数据手册时，那些关于宏单元、乘积项、扩展项的图表和参数，将不再是抽象的天书，而是一张张清晰的蓝图，指引你做出最合适的技术选型和设计决策。在接下来的篇章里，我们将走进另一片更广阔、也更复杂的天地——基于查找表（LUT）的FPGA结构，看看它是如何用不同的哲学，来实现海量逻辑的。