最近在做一些和 NIF 有关的事情，看到 OTP 团队发布的 17 rc1 引入了一个新的特性“脏调度器”，为的是解决 NIF 运行时间过长耗死调度器的问题。本文首先简单介绍脏调度器机制的用法，然后简要分析虚拟机中的实现原理，最后讨论了一下脏调度器的局限性。

脏调度器机制的用法

了解 NIF 的同学都知道，在 Erlang 虚拟机的层面，NIF 调用是不会被抢占的，在执行 NIF 的时候调度器线程的控制权完全被 NIF 调用接管，因此除非 NIF 调用的代码主动交出控制权，否则调度器线程会一直执行 NIF 调用的代码。这实际上变成了协程式的调度，因此运行时间过长的 NIF 会影响其所在的调度器上的所有其他进程的调度。

之前对于这种长时运行 NIF 的一种解决方法是可以使用官方提供的 enif_consume_timeslice 调用，这种方法还是要让 NIF 代码自己在恰当的地方调用这个 api，然后根据 enif_consume_timeslice 返回的结果判断是否需要放弃控制权，因此实际上还是协程的模式。协程式调度和抢占式调度混合在一起本来就是坏味道，如果通过判断发现已经用完时间片，程序员必须自己手工保存断点以及下一次恢复断点；而且这里还要自己估计时间片，把 timeslice 和虚拟机中本来就很模糊的规约（reduction）混在一起，味道也不好闻。

那么 R17 通过引入“脏调度器”从一定程度上解决了这个问题。脏调度器本质上和普通调度器是一样的，也是运行在虚拟机中的调度器线程，但是这种调度器专门运行长时运行的 NIF，R17 允许将长时运行的 NIF 直接丢到脏调度器上去跑。通过调用 enif_schedule_dirty_nif 将需要长时运行的 NIF 函数丢到脏调度器上。长时运行的函数返回的时候要调用 enif_schedule_dirty_nif_finalizer 函数，表示从脏调度器返回到了普通调度器。

下面看一个简单的例子，比如下面这个简单霸道的 NIF：

 static ERL_NIF_TERM

 io_work(ErlNifEnv* env, int argc, const ERL_NIF_TERM argv[])

 {

     int i;

     int Number;

     enif_get_int(env, argv[], &Number);

     for (i = ; i < ; ++i) {

         sleep();

         printf("nif process number %d\n", Number);

     }

     return enif_make_atom(env, "ok");

 }

io_work 函数显然会运行很长时间（远长于官方文档建议的 1ms）。

利用 R17 新引入的脏调度器，这个 NIF 可以这么写：

 #include "erl_nif.h"

 #include <unistd.h>

 #include <stdio.h>

 static int

 load(ErlNifEnv* env, void** priv, ERL_NIF_TERM load_info)

 {

     return ;

 }

 static ERL_NIF_TERM

 dirty_io_work(ErlNifEnv* env, int argc, const ERL_NIF_TERM argv[])

 {

     int i;

     int Number;

     enif_get_int(env, argv[], &Number);

     for (i = ; i < ; ++i) {

         sleep();

         printf("nif process number %d\n", Number);

     }

     return enif_schedule_dirty_nif_finalizer(env,

         enif_make_atom(env, "ok"),

         enif_dirty_nif_finalizer);

 }

 static ERL_NIF_TERM call_dirty_io_work(

     ErlNifEnv* env,

     int argc,

     const ERL_NIF_TERM argv[])

 {

     return enif_schedule_dirty_nif(env,

         ERL_NIF_DIRTY_JOB_IO_BOUND,

         dirty_io_work, argc, argv);

 }

 static ErlNifFunc io_nif_funcs[] =

 {

     {"call_dirty_io_work", , call_dirty_io_work}

 };

 ERL_NIF_INIT(io_nif, io_nif_funcs, load, NULL, NULL, NULL)

这段代码将长时运行的工作放在 dirty_io_work 函数中，Erlang 模块调用 call_dirty_io_work 函数，这个函数转而调用 enif_schedule_dirty_nif 函数，将 dirty_io_work 函数传入，call_dirty_io_work 立即返回，dirty_io_work 函数进入脏调度器等待调度执行。dirty_io_work 函数在返回的时候调用 enif_schedule_dirty_nif_finalizer 将实际的结果返回给原调用者。

enif_schedule_dirty_nif() 函数还接受一个参数 type，表示要调度的 NIF 的类型：CPU 密集型或 IO 密集型。后面可以看出，根据不同的类型，NIF 会被不同类型的脏调度器调用。

下面简单分析一下脏调度器机制的工作原理。

工作原理浅析

OTP 团队实现的脏调度器机制实际上很简单，脏调度器是普通调度器之外的调度器线程。从位于 erts/emulator/beam/erl_nif.c 的 enif_schedule_dirty_nif 函数开始：