在老东家写了一段时间Python后,我被告知Python里面有个很经典的被称之为生成器的特性,而这个特性至今让我难以忘怀。后来我接触了Ruby,我就纳闷了Ruby怎么就没看到这个特性?直到最近在读《松本行弘的程序员世界》的时候我才意识到我错了,这个特性早在Ruby1.9就已经具备,只不过是我资历尚浅,察觉不到它的存在罢了。

松本行弘

1. Python的yield语句可用于构造生成器

下面是一个简单的Python生成器例子,它的功能是遍历0-max范围内的所有数字

def range(max):
    n = 0
    while n < max:
        yield n
        n += 1

if __name__ == '__main__':
    for i in range(100):
        print(i)

PS: 结果就是打印0~99这里就不贴出来了。

有没有感觉这个函数很有梯度感?(这是我放弃Python的理由之一 )T_T。如果我们直接在REPL环境里面运行range函数,会得到下面的结果

In [8]: range(100)
Out[8]: <generator object range at 0x102f41460>

从字面上可以看出它是一个generator,也就是我们所说的生成器。

当然,我们也可以直接构造一个数组,通过遍历数组来完成以上的打印过程。但生成器的好处就是它是惰性的,也就是说当你访问某个元素的时候对应元素才会被生成,而不是先生成一个完整的数组,然后我们再去遍历它。

2. Ruby中的yield

现在我们看看Ruby的yield语句是用来做什么的,举个简单的例子就能够看出来

def handler(a)
  yield(a)
end

result = handler(100) { |i| i * 20 }

puts result

程序的运行结果是

> 2000

简单来说,Ruby里面的yield可以用来接收方法块,调用它就相当于调用方法块。上面的例子里我们的方法块是{ |i| i * 20 },它接收一个参数i并返回i * 20的值,结果就是 100 * 20 = 2000

3. Ruby中的生成器

那问题来了,yield这个语句已经被用作方法块的代理了,那我们在Ruby里面要怎么实现如Python般可以返回生成器的函数?还是说Ruby中压根没有生成器这种机制?

怎么可能呢?其实生成器就在我们身边,只不过我们很多时候都察觉不到它的存在,具体我们可以参考一下这篇文章。在Ruby1.9之后就实现了Enumerator这个类,它的机制跟Python里面的生成器类似,可以用作惰性求值。使用方式如下

> a = (1..100000000000000000).each
=> #<Enumerator: 1..100000000000000000:each>
> a.next
=> 1
> a.next
=> 2
> a.next
=> 3
> a.next
=> 4
> a.next
=> 5

有点编程经验的朋友都知道,我们不怎么可能活着看到我们的计算机生成长度为100000000000000000的数组,所以这里面一定有什么黑魔法T_T。

本质上它是通过Range#each方法返回了Enumerator的对象,我们可以通过依次调用Enumerator#next方法来获取下一个元素,而这个Enumerator的对象就相当于一个生成器。

4. 用Ruby实现可以返回生成器的函数

 Ruby1.9之后Ruby提供了名为Fiber的类,可以用于构建轻量级的协程,它让我们可以手动地去控制我们的线程是否被唤醒。那么这个玩意到底有什么用呢?毕竟,我们现在来谈协程这些多线程的东西似乎有点早。

下面是一个简单的例子

fiber = Fiber.new do
  Fiber.yield 1
  2
end

puts fiber.resume
puts fiber.resume
puts fiber.resume

可见Fiber::yield的作用跟Python中的yield语法有点类似。这里我们通过Fiber#new语句来创建Fiber实例,并传递一个代码块。我们可以把Fiber::yield想象成类似于byebug或者binding.pry等调试语句,程序运行到这里就会暂停,然后把控制权让出去。

当我们第一次运行Fiber#resume方法的时候就会返回Fiber::yield语句后面的数值,而第二次执行Fiber#resume就会继续运行代码块余下的代码并返回2,第三次运行Fiber#resume的时候由于我们块已经执行完毕所以会报错

> fiber.resume
=> 1
> fiber.resume
=> 2
> fiber.resume
FiberError: dead fiber called
    from (irb):7:in `resume'
    from (irb):7

感觉这个Fiber类就是我们要找的生成器的类。下面是我YY出来的用Ruby的生成器特性来实现的函数,它的功能类似文章开头用Python实现的函数。

def range(n)
  Fiber.new do
    i = 0
    while i < n
      Fiber.yield i
      i += 1
    end
  end
end

fiber = range(10)

p fiber.resume
p fiber.resume
p fiber.resume
p fiber.resume

上面脚本的输出是

0
1
2
3

在Python里面含有yield语句的方法被调用之后会返回一个生成器对象,然后我们可以利用这个生成器来进行惰性求值(个人感觉这种语法不够清爽,没有一个显式的返回语句,把生成器对象返回)。另外,Python的版本里使用了for语句来迭代生成器,我这里只是简单地手动去迭代。

Ruby的range方法返回了一个Fiber的对象,它就相当于一个生成器(或者也可以说是一个外部的迭代器),通过反复调用Fiber#resume方法就可以获取下一个值,如果反复调用超出限制就会报错。我Fiber#resume10次之后就会得到下面的结果。

dead fiber called (FiberError)

5. 总结

瞎扯了一下Ruby的生成器特性。作为一个特性,它并不像Python那么明显,但是它确实存在着。得益于Fiber这种类库的出现,已经更多Ruby多线程相关的库被开发出来了。据说Fiber性能方面的表现比Ruby原来内置的Thread要好一些,具体的比较我想放在后面的文章再详细讨论,很感谢你能够看到这里。