Gentoo 之 Preemption Model

dummy@example.com (batsom) — Sat, 23 Mar 2024 07:47:18 +0000

今天要分享的是抢占相关的基础知识。本文以内核抢占为引子，概述一下 Linux 抢占的图景。我尽量避开细节问题和源码分析。

什么是内核抢占？

别急，咱们慢慢来。

先理解抢占（preemption）这个概念：

involuntarily suspending a running process is called preemption

夺取一个进程的 cpu 使用权的行为就叫做抢占。

根据是否可以支持抢占，多任务操作系统（multitasking operating system）分为 2 类：

1、cooperative multitasking os

这种 os，进程会一直运行直到它自愿停下来。这种自愿停止运行自己的行为称为 yielding。协作式多任务系统，一听就知道这是一个乌托邦式的系统，只有当所有进程都很 nice 并乐意经常 yielding 时，系统才能正常工作。如果某个进程太傻或者太坏，系统很快就完蛋了。

2、preemptive multitasking os

这种 os，会有一个调度器（scheduler，其实就是一段用于调度进程的程序），scheduler 决定进程何时停止运行以及新进程何时开始运行。当一个进程的 cpu 使用权被 scheduler 分配给另一个进程时，就称前一个进程被抢占了。

你可以把 sheduler 想象成非常智能的交警，交警按照一定的交通规则、当前的交通状况以及车辆的优先级（救护车之类的），决定了哪些车可以行驶、哪些车要停下来等待。

很明显，现阶段，preemptive os 优于 cooperative os。所以 Linux 被设计成 preemptive。

抢占的核心操作包括 2 个步骤：

1、从用户态陷入到内核态（trap kernel），3 个路径：

a. 系统调用，本质是 soft interrupt，通常就是一条硬件指令（x86 的 int 0x80）。

b. 硬件中断，最典型的就是会周期性发生的 timer 中断，或者其他各种外设中断。

c. exception，例如 page fault、div 0。

2、陷入到内核态后，在合适的时机下，调用 sheduler 选出一个最重要的进程，如果被选中的不是当前正在运行的进程的话，就会执行 context switch 切换到新的进程。

根据抢占时机点的不同，抢占分为 2 种类型：

1、user preemption

这里的 user 并不是指在 user-space 里进行抢占，而是指在返回 user-space 前进行抢占，具体的：

When returning to user-space from a system call

When returning to user-space from an interrupt handler

即从 system call 和 interrupt handler 返回到 user-space 前进行抢占，这时仍然是在 kernel-space 里，抢占是需要非常高的权限的事情，user-space 没权利也不应该干这事。

2、kernel preemption

Linux 2.6 之前是不支持内核抢占的。这意味着当处于用户空间的进程请求内核服务时，在该进程阻塞（进入睡眠）等待某事（通常是 I/O）或系统调用完成之前，不能调度其他进程。支持内核抢占意味着当一个进程在内核里运行时，另一个进程可以抢占第一个进程并被允许运行，即使第一个进程尚未完成其在内核里的工作。

支持内核抢占 vs 不支持内核抢占

在上图中，进程 A 已经通过系统调用进入内核，也许是对设备或文件的 write（）调用。内核代表进程 A 执行时，具有更高优先级的进程 B 被中断唤醒。内核抢占进程 A 并将 CPU 分配给进程 B，即使进程 A 既没有阻塞也没有完成其在内核里的工作。

内核抢占的时机：

When an interrupt handler exits， before returning to kernel-space

When kernel code becomes preemptible again

If a task in the kernel explicitly calls schedule（）

If a task in the kernel blocks （which results in a call to schedule（））

为什么要引入内核抢占？

根本原因：

trade-offs between latency and throughput

在系统延迟和吞吐量之间进行权衡。

并不是说内核抢占就是绝对的好，使用什么抢占机制最优是跟你的应用场景挂钩的。如果不是为了满足用户，内核其实是完全不想进行进程切换的，因为每一次 context switch，都会有 overhead，这些 overhead 就是对 cpu 的浪费，意味着吞吐量的下降。

但是，如果你想要系统的响应性好一点，就得尽量多的允许抢占的发生，这是 Linux 作为一个通用操作系统所必须支持的。当你的系统做到随时都可以发生抢占时，系统的响应性就会非常好。

为了让用户根据自己的需求进行配置，Linux 提供了 3 种 Preemption Model。

CONFIG_PREEMPT_NONE=y：不允许内核抢占，吞吐量最大的 Model，一般用于 Server 系统。

CONFIG_PREEMPT_VOLUNTARY=y：在一些耗时较长的内核代码中主动调用cond_resched（）让出CPU，对吞吐量有轻微影响，但是系统响应会稍微快一些。

CONFIG_PREEMPT=y：除了处于持有 spinlock 时的 critical section，其他时候都允许内核抢占，响应速度进一步提升，吞吐量进一步下降，一般用于 Desktop / Embedded 系统。

另外，还有一个没有合并进主线内核的 Model： CONFIG_PREEMPT_RT，这个模式几乎将所有的 spinlock 都换成了 preemptable mutex，只剩下一些极其核心的地方仍然用禁止抢占的 spinlock，所以基本可以认为是随时可被抢占。

抢占前的检查

这里的检查是同时针对所有的 preemption 的。如果你理解了前面的 4 种 preempiton model 的话，应该能感觉到其实是不用太严格区分 user / kernel preemption，所有抢占的作用和性质都一样：降低 lantency，完全可以将它们一视同仁。

抢占的发生要同时满足两个条件：

需要抢占;

能抢占;

1、是否需要抢占？

判断是否需要抢占的依据是：thread_info 的成员 flags 是否设置了 TIF_NEED_RESCHED 标志位。

Gentoo中文社区 / Gentoo 之 Preemption Model

Gentoo 之 Preemption Model