lectrue18 微内核-程序员充电站

注：基于这位大佬的中文翻译笔记学习，有大段对翻译笔记的直接引用，以及一部分询问AI和结合自己理解的一些内容。写这份笔记只是为了方便自己复习和理解。

https://github.com/huihongxiao/MIT6.S081

以下内容基本全由AI总结生成，因为我没有细读过论文，大概就当科普一下吧。。。

宏内核：宏内核是一种传统的操作系统架构，将所有的核心功能（如文件系统、虚拟内存管理、调度器、设备驱动等）集成在一个巨大的、单一的可执行程序中。整个内核代码都运行在硬件的最高权限模式（Supervisor Mode / Kernel Mode）下，拥有对硬件的绝对控制权。比如Linux,Unix,xv6都是宏内核。

宏内核之所以成为主流，主要在于其开发和使用的便利性：

强大的抽象能力：
- 可移植性：通过文件系统等抽象接口，应用程序无需关心底层硬件（如 SSD、HDD 或网络存储）的差异。
- 隐藏复杂性：内核处理复杂的磁盘操作和内存分配，开发者只需通过简单的系统调用（如read/write）即可完成任务。
高效的内部通信：
- 由于所有子系统都在同一个地址空间内，它们可以直接访问彼此的数据结构。
- 跨组件操作简单：例如exec调用可以无缝调用文件系统读取文件，同时调用虚拟内存系统设置进程空间，无需复杂的进程间通信（IPC）。
管理与安全性：由内核统一管理硬件资源，防止应用程序之间因争抢资源（如磁盘块、物理内存）而产生冲突。

宏内核的局限性和挑战：随着计算机系统的发展，宏内核的“庞大”逐渐显露弊端：

安全性与稳定性风险（Bug 连锁反应）：
- 代码量极大（Linux 达数百万行），复杂度高。
- 由于所有代码都在最高权限运行，任何一个模块的 Bug 都有可能导致整个系统崩溃，或者成为系统的安全漏洞。
性能权衡与“通用性”陷阱：
- 大而全导致冗余：为了支持从手机到服务器的所有设备，内核包含了大量不必要的驱动和功能。
- 难以针对性优化：对于特定的简单操作（如 Pipe 传输数据），宏内核内部复杂的锁、缓存和调度机制可能导致路径过长，产生性能开销。
策略僵化（缺乏灵活性）：
- 内核预设了许多设计决策（如 Unix 只能 wait 子进程、文件系统不感知 B 树结构等），应用程序无法根据自身需求深度定制底层逻辑。
可扩展性差（Extensibility）：
- 在传统宏内核中，应用程序很难在运行时动态更改内核的行为或下载新代码来优化特定的硬件交互。

引出微内核：正是由于宏内核在安全性，代码整洁度，以及灵活性上的不足，促使研究者提出了微内核架构。核心思路是将内核缩减到最小，只保留最基本的功能（如 IPC、基础调度），而将文件系统、驱动等移出内核空间，运行在用户态。

微内核不是指某一个具体的操作系统产品，而是一种通用的设计方法论或概念。其核心在于极小内核。内核只保留最基本的进程/线程抽象和IPC（进程间通信）机制。文件系统、设备驱动、网络协议栈、虚拟内存管理策略等传统内核功能，全部被移出内核。

微内核架构中，计算机系统被清晰地划为两层：

内核空间（Kernel Space）：
- 只负责任务调度和消息传递（IPC）。
- 代码量极少，易于优化（主要优化目标就是 IPC 性能）。
用户空间（User Space）：
- 普通应用：如 VI 编辑器、编译器（CC）、桌面环境。
- 系统服务（Server Processes）：传统内核中的组件现在变成了用户进程。
  - 文件系统服务：管理文件和目录。
  - 磁盘驱动服务：直接与磁盘硬件交互。
  - 网络协议栈：处理 TCP/IP。
  - 虚拟内存服务：处理内存映射等。

例子——VI读取文件：在宏内核中读取文件只是一个系统调用，而在微内核中，这变成了一系列复杂的进程间通信。

VI 发起请求：VI 编辑器通过 IPC 向文件系统进程发送消息：“我要读这个文件”。
文件系统处理：文件系统进程解析请求，通过 IPC 向磁盘驱动进程发送消息：“读取这个磁盘块”。
硬件交互：磁盘驱动与硬件交互，获取数据。
数据回传：磁盘驱动 -> IPC -> 文件系统 -> IPC -> VI 编辑器。

所有这些组件（VI、文件系统、磁盘驱动）都是独立的进程，它们互不信任，完全依靠内核提供的 IPC 管道来协作。

现状：尽管宏内核在通用计算领域占据主导，微内核依然在特定领域蓬勃发展，比如嵌入式和一些特定场景。微内核通过将内核功能“剥离”到用户空间，换取了内核的极度精简和模块化。虽然这增加了通信开销（IPC），但在安全性、嵌入式系统和特定硬件控制上具有独特优势。

为什么是微内核？

审美与优雅（Aesthetic）：
- 宏内核（如 Linux）常被视为杂乱功能的集合体，缺乏美感。
- 微内核追求“小而美”，设计更加专注、整洁，符合极简主义的软件审美。
安全性与形式化验证（Security & Verification）：
- 攻击面小：代码越少，Bug 越少，被攻击的概率就越低。
- 可证明的安全性：由于内核极小，人们可以使用数学方法证明其正确性（Formal Verification）。
- 案例：seL4 是 L4 微内核的衍生版本，是现实中被证明数学上安全的系统。而在几百万行代码的宏内核上做这种验证是不可能的。
性能潜力：
- 不为未使用的功能付费：宏内核包含大量你可能永远不用的功能，而微内核只提供基础，没有冗余负担。
- 易于优化：小规模的代码库比庞大的代码库更容易进行深度优化。
解除设计限制：
- 微内核本身预设的机制很少，这给了上层应用程序极大的灵活性，可以根据需求自定义策略，而不是被内核的既定设计（如调度策略、文件系统逻辑）所束缚。

架构优势：将传统内核功能（如文件系统、驱动）移入用户空间作为服务运行，带来了显著好处：

健壮性（Robustness）与容错：
- 故障隔离：在宏内核中，一个驱动程序的空指针解引用会导致整个系统 Panic（死机）。
- 微内核优势：如果用户空间的某个服务（如网卡驱动）崩溃，内核依然完好。系统只需重启该服务即可恢复，无需重启整机。这对于驱动程序（通常是 Bug 最密集的地方）尤为重要。
模块化与可定制性：
- 用户空间的代码比内核代码更容易修改、替换和调试。开发者可以轻松替换文件系统服务或网络协议栈，实现高度定制。
多操作系统支持：
- 微内核可以在其之上同时运行多个操作系统实例（例如运行一个 Linux Server 和一个 Unix Server），甚至作为虚拟机监控器（Hypervisor）使用。

面临挑战：设计一个实用的微内核并非易事，难点在于极简和功能之间的权衡。

系统API：一方面，系统调用API必须尽可能少和简单，另一方面，它也需要足够强大，能支撑上层构建复杂的抽象。内核本身并不知道文件是什么，却要提供机制让上层能实现exec（加载文件执行），这对API的正交性和表达能力要求极高。

IPC性能压力：微内核架构严重依赖进程间通信（IPC）。如果 IPC 速度不够快，整个系统的性能就会崩溃。因此，IPC 优化是微内核的生死线。

跨子系统优化的缺失：宏内核中，文件系统和虚拟内存都在一个大程序里，可以直接互相访问数据结构进行优化（例如 Page Cache）。而微内核中，由于模块被拆分为独立的服务，内存隔离导致它们无法轻易共享数据或进行协同优化，这可能带来性能损耗。

L4微内核：L4微内核并非最早的微内核，但自 1980 年代以来一直活跃且可工作，拥有 15-20 个变种（如 seL4）。它是展示微内核工作原理的最佳范例。它的系统调用仅约7个，代码规模约13000行。

核心抽象：L4内核只保留了三个最基础的概念。

Task (任务/地址空间)：
- 对应 Unix 中的“进程”概念。
- 拥有独立的地址空间（从 0 开始）和内存。
Thread (线程)：
- 多线程支持：区别于 XV6（一进程一线程），L4 一个 Task 内可以包含多个线程。
- 调度单元：线程是内核调度的基本单位，可利用多核 CPU 并行执行。
IPC (进程间通信)：
- 线程通过 ID 互相识别，并传递消息。

L4系统调用机制：其系统调用非常少，功能高度浓缩。

Threadcreate：创建新线程。如果指定的 Task ID 不存在，则同时创建一个新的 Task（地址空间）。
Send/Recv：标准的 IPC 接口，用于发送和接收消息。
Mapping(内存映射)：
- 这是 L4 管理内存的核心。内核不负责分配策略，而是允许有权限的 Task 将自己的一页内存映射到另一个 Task 的地址空间中。
- 启动新程序流程：
  1. 创建新 Task。
  2. 父 Task 通过 Mapping 将包含代码和数据的内存映射给新 Task。
  3. 父 Task 发送特殊的 Start IPC，指定 PC（程序计数器）和 SP（栈指针），新 Task 开始运行。

独特的硬件和异常处理机制：这是L4 最具颠覆性的设计，它将传统的内核职责全部转化为了 IPC 消息。

A. 设备驱动（Device Drivers）

用户态驱动：L4 内核不知道磁盘或网卡的存在。
访问硬件：特权 Task 可以将硬件控制寄存器映射到自己的地址空间，直接读写硬件。
中断处理：L4 将硬件中断（Interrupt）转换为一条 IPC 消息。驱动程序 Task 等待接收该消息，收到后即代表中断发生，随即处理设备逻辑。

B. 缺页异常（Page Faults）与 Pager

Pager 机制：每个 Task 都有一个关联的 Pager Task（管理者）。
处理流程：
1. 程序运行触发 Page Fault。
2. L4 内核捕获异常（Trap）。
3. L4 将异常转换为 IPC 消息发送给该 Task 的 Pager。
4. Pager 在用户空间运行逻辑（如分配物理内存、从磁盘读取数据）。
5. Pager 完成后，通过 Mapping 设置好内存，回复 IPC 给 L4。
6. L4 恢复原程序的运行。

这些意味着Copy-on-Write、Lazy Allocation、Memory Mapped Files 等复杂功能完全可以在用户空间实现和定制，无需修改内核代码。

调度：线程切换具体流程为保存当前线程寄存器 -> 切换页表 -> 恢复新线程寄存器 -> 跳转回用户空间。通过定时器中断或线程主动yield（等待IPC）来触发调度。

L4的设计哲学是，一切皆IPC，系统调用简化为IPC，硬件中断转化为IPC，Page Fault转化为IPC。这种设计带来了极大的灵活性，但也使系统的运行极其依赖IPC的速度。每一次读写文件、处理中断、甚至内存分配，都伴随着反复的 IPC 消息传递。

IPC（进程间通信）优化技术

传统的慢速IPC：P1调用send，内核将消息从P1用户空间拷贝到内核缓冲区中。随后P1不等待P2接受，直接返回用户空间。P2调用recv，内核再将消息从内核缓冲区拷贝到P2用户空间。

这样的方式拷贝开销大，需要从用户到内核，又从内核到用户。且上下文切换频繁，一次完整的请求-应答循环需要4个系统调用（2次send，2次recv）和8次用户态/内核态切换。

L4的设计：

同步（Synchronous）：
- send操作会阻塞，直到接收方调用了recv。
- 通信双方必须在内核中“会面”才能传递消息。
无缓冲（Unbuffered）：
- 直接拷贝：因为双方都已进入内核，内核已知两端的内存地址，可以直接将数据从 P1 用户空间拷贝到 P2 用户空间，省去了内核中间缓冲区的拷贝。
直接控制流转移（Direct Process Switch）：
- 如果 P2 已经在等待接收，P1 调用send后，内核不进行完整的线程调度。
- 内核直接“借用” P1 的时间片，切换到 P2 的上下文，让 P2 就像从recv系统调用中返回一样继续执行。
- 优势：避免了将 P1 放入运行队列、选择新进程等调度器的复杂逻辑。

其他优化技巧：

寄存器传参（Zero Copy for Short Messages）：
- 对于几十字节的小消息，直接利用 CPU 寄存器传递数据。
- 当内核从 P1 切换到 P2 时，只需恢复 P2 的寄存器（此时寄存器中已装入 P1 传来的数据），完全不需要内存访问。
内存映射（Page Remapping for Large Messages）：
- 对于大文件传输，不进行数据拷贝，而是修改页表，将 P1 的物理内存页映射到 P2 的地址空间。
- 注：为什么只针对大文件这样做？因为修改页表的固定成本其实极高，我们需要刷新TLB，遍历多级页表甚至分配新的页表项内存，修改MMU的数据结构通常需要获取内核锁，这又引入同步开销。同时，如果你只想传100字节的话，必须映射整整1页，这回暴露额外的数据，在安全性上是不可接受的。
合并系统调用（Combined System Calls）：
- 针对 RPC 场景（发送请求+等待回复），设计了专用的系统调用：
  - call：原子操作，等于send（请求） +recv（等待回复）。
  - sendrecv：服务端常用，等于send（回复上一个） +recv（等待下一个）。
- 效果：将 4 次系统调用减少为 2 次，减少了一半的模式切换开销。

通过上述优化，L4将IPC性能提升到传统设计的10-20倍。

为了解决微内核生态贫乏的问题，研究者们采取了一种务实的方法，在L4微内核之上运行一格完整的Linux操作系统。

微内核的局限：L4 只有约 1.3 万行代码，仅仅提供了地址空间、线程和 IPC 等最基础的机制，仅仅相当于一个完整操作系统的几百分之一。虽然嵌入式设备（如汽车点火控制器）只需要这些基础功能，但在通用计算领域（工作站、服务器），用户需要文件系统、网络协议栈、Shell、编译器（GCC）、编辑器（Emacs）等丰富的功能。为了微内核重新开发所有这些用户态服务的工作量极其巨大，且难以兼容现有的应用程序。所以，研究者们选择将现有的宏内核（Linux）作为一个用户态服务运行在L4之上。这样既利用了微内核的底层机制，又直接继承了Linux庞大的应用生态和驱动支持。

在这种架构中，Linux被降级为一个普通的用户态任务。Linux内核本身作为一个单独的L4 Task运行。需要对 Linux 源码的底层硬件交互部分进行修改。例如，Linux 不能直接读写 CPU 寄存器或修改页表，而是必须发送 IPC 请求给 L4，由 L4 代为操作。Linux 的上层逻辑（文件系统、网络栈、驱动逻辑）几乎不需要修改，直接复用。

用户在 Linux 中启动的每一个进程（如 Shell、VI），都会对应创建一个独立的 L4 Task，这些进程在逻辑上属于 Linux 管理，但在物理调度上是 L4 的任务。

系统调用机制：应用程序并不知道自己运行在 L4 之上，它仍然以为自己在运行 Linux 系统调用。为了实现兼容：

劫持与转发：每个 Linux 用户进程都链接了一个经过修改的小型库（Trampoline/Stub）。
IPC 转换：当程序发起系统调用（如read/write）时，这个库会将系统调用转换为一条 IPC 消息。
发送请求：IPC 消息被发送给运行在另一个地址空间的 Linux Kernel Task。
内核处理：Linux Kernel Task 处于一个循环中，通过recv接收 IPC，处理系统调用逻辑。
结果返回：Linux Kernel Task 处理完毕后，通过 IPC 回复结果，库函数接收回复并返回给用户程序。

线程模型和并发设计的特殊性：这是一个非常独特的设计点，L4Linux 打破了传统 Linux 的线程对应关系。

单 L4 线程运行内核：
- 整个 Linux Kernel Task 在 L4 层面只有一个执行线程。
- 原因：
  1. 当时的实验环境是单核 CPU，多线程并行没有物理基础。
  2. 当时的 Linux 版本不支持 SMP（对称多处理），内核中缺乏自旋锁（Spinlock）等并发保护机制。如果强行用多个 L4 线程运行 Linux 内核，会导致数据竞争。
内核内部的“软线程”：
- 虽然 Linux Kernel Task 只有一个物理线程，但它在内部维护了自己的逻辑上下文切换。
- 它可以在处理 VI 的请求等待磁盘 I/O 时，切换上下文去处理 Shell 的请求。但这完全是 Linux 内部的代码逻辑，L4 对此一无所知。
调度权的转移：
- L4 掌控调度：哪个 Task（Linux Kernel 还是 VI 还是 Shell）能获得 CPU，完全由底层的 L4 调度器决定。
- 由此带来的缺陷：原版 Linux 拥有复杂的调度策略（优先级、公平调度等），但在这种架构下，Linux 失去了对 CPU 调度的控制权。它无法保证高优先级的 Linux 进程一定能被 L4 调度运行。

这展示了一种过渡性的，务实的工程方案：利用 L4 极快的 IPC 性能，使得“将 Linux 内核作为服务运行”在性能上成为可能。通过这种方式，微内核系统瞬间获得了完整的 POSIX 兼容性和软件生态。虽然牺牲了 Linux 的调度控制能力，且受限于当时的单核环境，但它成功证明了微内核架构在通用计算领域的潜力。

L4的出现打破了微内核性能差的偏见，它证明了，只要在IPC优化上投入足够精力，微内核可以和宏内核有相近的性能，下面是具体的比较：

A. 微观测试：`getpid`系统调用（Table 2）

原生 Linux：耗时 1.7 µs。
L4 Linux：耗时约 4 µs（原生 Linux 的 2 倍多）。
原因分析：
- 在 L4 Linux 中，一个系统调用涉及两次完整的 IPC（请求 + 回复）和两次上下文切换（应用 -> Linux Server -> 应用）。
- 结论：L4 将开销压缩到了物理极限。虽然慢了一倍，但考虑到它做了两倍的工作，这个性能已经非常惊人了。