Go 流水线设计模式
该文章为微信公众号 微服务实践 中的一篇文章,作者主要对 java 的流式处理进行了 Go 语言的实现及解释,流式处理可以说是模仿了工厂的流水线,数据抽象成原料,将不同的数据处理抽象成了流水线上的每一个操作。Rob Pike 在讲解 Go 语言为什么要引入语言级别的并发控制时说唯有引入并发才能描述现实世界上的种种行为。当时我就大受启发,发现代码确实是现实生活一种抽象。这篇文章可以说是对流水线行为的代码实现了。作者对于 Go 语言的数据流处理,功能架构等的理解都非常透彻,我把这篇文章收录进来希望对大家有帮助。
什么是流处理 如果有 java 使用经验的同学一定会对 java8 的 Stream 赞不绝口,极大的提高了们对于集合类型数据的处理能力。
1 2 3 4 int sum = widgets.stream() .filter(w -> w.getColor() == RED) .mapToInt(w -> w.getWeight()) .sum();
Stream 能让我们支持链式调用和函数编程的风格来实现数据的处理,看起来数据像是在流水线一样不断的实时流转加工,最终被汇总。Stream 的实现思想就是将数据处理流程抽象成了一个数据流,每次加工后返回一个新的流供使用。
Stream 功能定义 动手写代码之前,先想清楚,把需求理清楚是最重要的一步,我们尝试代入作者的视角来思考整个组件的实现流程。首先把底层实现的逻辑放一下 ,先尝试从零开始进行功能定义 stream 功能。
Stream 的工作流程其实也属于生产消费者模型,整个流程跟工厂中的生产流程非常相似,尝试先定义一下 Stream 的生命周期:
创建阶段/数据获取(原料)
加工阶段/中间处理(流水线加工)
汇总阶段/终结操作(最终产品)
下面围绕 stream 的三个生命周期开始定义 API:
创建阶段 为了创建出数据流 stream 这一抽象对象,可以理解为构造器。
我们支持三种方式构造 stream,分别是:切片转换,channel 转换,函数式转换。
注意这个阶段的方法都是普通的公开方法,并不绑定 Stream 对象。
1 2 3 4 5 6 7 8 9 10 11 func Just (items ...interface {}) Stream func Range (source <-chan interface {}) Stream func From (generate GenerateFunc) Stream func Concat (s Stream, others ...Stream) Stream
加工阶段 加工阶段需要进行的操作往往对应了我们的业务逻辑,比如:转换,过滤,去重,排序等等。
这个阶段的 API 属于 method 需要绑定到 Stream 对象上。
结合常用的业务场景进行如下定义:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Distinct(keyFunc KeyFunc) Stream Filter(filterFunc FilterFunc, opts ...Option) Stream Group(fn KeyFunc) Stream Head(n int64 ) Stream Tail(n int64 ) Stream Map(fn MapFunc, opts ...Option) Stream Merge() Stream Reverse() Stream Sort(fn LessFunc) Stream Walk(fn WalkFunc, opts ...Option) Stream Concat(streams ...Stream) Stream
加工阶段的处理逻辑都会返回一个新的 Stream 对象,这里有个基本的实现范式
汇总阶段 汇总阶段其实就是我们想要的处理结果,比如:是否匹配,统计数量,遍历等等。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 AllMatch(fn PredicateFunc) bool AnyMatch(fn PredicateFunc) bool NoneMatch(fn PredicateFunc) bool Count() int Done() ForAll(fn ForAllFunc) ForEach(fn ForEachFunc)
梳理完组件的需求边界后,我们对于即将要实现的 Stream 有了更清晰的认识。在我的认知里面真正的架构师对于需求的把握以及后续演化能达到及其精准的地步,做到这一点离不开对需求的深入思考以及洞穿需求背后的本质。通过代入作者的视角来模拟复盘整个项目的构建流程,学习作者的思维方法论这正是我们学习开源项目最大的价值所在。
好了,我们尝试定义出完整的 Stream 接口全貌以及函数。
接口的作用不仅仅是模版作用,还在于利用其抽象能力搭建项目整体的框架而不至于一开始就陷入细节,能快速的将我们的思考过程通过接口简洁的表达出来,学会养成自顶向下的思维方法从宏观的角度来观察整个系统,一开始就陷入细节则很容易拔剑四顾心茫然。。。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 rxOptions struct { unlimitedWorkers bool workers int } Option func (opts *rxOptions) KeyFunc func (item interface {}) interface {} FilterFunc func (item interface {}) bool MapFunc func (intem interface {}) interface {} LessFunc func (a, b interface {}) bool WalkFunc func (item interface {}, pip chan <- interface {}) PredicateFunc func (item interface {}) bool ForAllFunc func (pip <-chan interface {}) ForEachFunc func (item interface {}) ParallelFunc func (item interface {}) ReduceFunc func (pip <-chan interface {}) (interface {}, error) GenerateFunc func (source <-chan interface {}) Stream interface { Distinct(keyFunc KeyFunc) Stream Filter(filterFunc FilterFunc, opts ...Option) Stream Group(fn KeyFunc) Stream Head(n int64 ) Stream Tail(n int64 ) Stream First() interface {} Last() interface {} Map(fn MapFunc, opts ...Option) Stream Merge() Stream Reverse() Stream Sort(fn LessFunc) Stream Walk(fn WalkFunc, opts ...Option) Stream Concat(streams ...Stream) Stream AllMatch(fn PredicateFunc) bool AnyMatch(fn PredicateFunc) bool NoneMatch(fn PredicateFunc) bool Count() int Done() ForAll(fn ForAllFunc) ForEach(fn ForEachFunc) }
channel() 方法用于获取 Stream 管道属性,因为在具体实现时我们面向的是接口对象所以暴露一个私有方法 read 出来。
1 2 channel() chan interface {}
实现思路 功能定义梳理清楚了,接下来考虑几个工程实现的问题。
如何实现链式调用 链式调用,创建对象用到的 builder 模式可以达到链式调用效果。实际上 Stream 实现类似链式的效果原理也是一样的,每次调用完后都创建一个新的 Stream 返回给用户。
1 2 3 4 Distinct(keyFunc KeyFunc) Stream Filter(filterFunc FilterFunc, opts ...Option) Stream
如何实现流水线的处理效果 所谓的流水线可以理解为数据在 Stream 中的存储容器,在 go 中我们可以使用 channel 作为数据的管道,达到 Stream 链式调用执行多个操作时异步非阻塞 效果。
如何支持并行处理 数据加工本质上是在处理 channel 中的数据,那么要实现并行处理无非是并行消费 channel 而已,利用 goroutine 协程、WaitGroup 机制可以非常方便的实现并行处理。
go-zero 实现
go-zero 中关于 Stream 的实现并没有定义接口,不过没关系底层实现时逻辑是一样的。
为了实现 Stream 接口我们定义一个内部的实现类,其中 source 为 channel 类型,模拟流水线功能。
1 2 3 Stream struct { source <-chan interface {} }
创建 API channel 创建 Range 通过 channel 创建 stream
1 2 3 4 5 func Range (source <-chan interface {}) Stream { return Stream{ source: source, } }
可变参数模式创建 Just 通过可变参数模式创建 stream,channel 写完后及时 close 是个好习惯。
1 2 3 4 5 6 7 8 func Just (items ...interface {}) Stream { source := make (chan interface {}, len (items)) for _, item := range items { source <- item } close (source) return Range(source) }
函数创建 From 通过函数创建 Stream
1 2 3 4 5 6 7 8 func From (generate GenerateFunc) Stream { source := make (chan interface {}) threading.GoSafe(func () { defer close (source) generate(source) }) return Range(source) }
因为涉及外部传入的函数参数调用,执行过程并不可用因此需要捕捉运行时异常防止 panic 错误传导到上层导致应用崩溃。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 func Recover (cleanups ...func () ) { for _, cleanup := range cleanups { cleanup() } if r := recover (); r != nil { logx.ErrorStack(r) } } func RunSafe (fn func () ) { defer rescue.Recover() fn() } func GoSafe (fn func () ) { go RunSafe(fn) }
拼接 Concat 拼接其他 Stream 创建一个新的 Stream,调用内部 Concat method 方法,后文将会分析 Concat 的源码实现。
1 2 3 func Concat (s Stream, others ...Stream) Stream { return s.Concat(others...) }
加工 API 去重 Distinct 因为传入的是函数参数KeyFunc func(item interface{}) interface{}
意味着也同时支持按照业务场景自定义去重,本质上是利用 KeyFunc 返回的结果基于 map 实现去重。
函数参数非常强大,能极大的提升灵活性。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 func (s Stream) Distinct (keyFunc KeyFunc) Stream { source := make (chan interface {}) threading.GoSafe(func () { defer close (source) keys := make (map [interface {}]lang.PlaceholderType) for item := range s.source { key := keyFunc(item) if _, ok := keys[key]; !ok { source <- item keys[key] = lang.Placeholder } } }) return Range(source) }
使用案例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Just(1 , 2 , 3 , 3 , 4 , 5 , 5 ).Distinct(func (item interface {}) interface {} { return item }).ForEach(func (item interface {}) { t.Log(item) }) Just(1 , 2 , 3 , 3 , 4 , 5 , 5 ).Distinct(func (item interface {}) interface {} { uid := item.(int ) if uid > 3 { return 4 } return item }).ForEach(func (item interface {}) { t.Log(item) })
过滤 Filter 通过将过滤逻辑抽象成 FilterFunc,然后分别作用在 item 上根据 FilterFunc 返回的布尔值决定是否写回新的 channel 中实现过滤功能,实际的过滤逻辑委托给了 Walk method。
Option 参数包含两个选项:
unlimitedWorkers 不限制协程数量
workers 限制协程数量
1 2 3 4 5 6 7 8 9 FilterFunc func (item interface {}) bool func (s Stream) Filter (filterFunc FilterFunc, opts ...Option) Stream { return s.Walk(func (item interface {}, pip chan <- interface {}) { if filterFunc(item) { pip <- item } }, opts...) }
使用示例:
1 2 3 4 5 6 7 8 9 func TestInternalStream_Filter (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 ).Filter(func (item interface {}) bool { return item.(int )%2 == 0 }).channel() for item := range channel { t.Log(item) } }
遍历执行 Walk walk 英文意思是步行,这里的意思是对每个 item 都执行一次 WalkFunc 操作并将结果写入到新的 Stream 中。
这里注意一下因为内部采用了协程机制异步执行读取和写入数据所以新的 Stream 中 channel 里面的数据顺序是随机的。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 WalkFunc func (item interface {}, pipe chan <- interface {}) func (s Stream) Walk (fn WalkFunc, opts ...Option) Stream { option := buildOptions(opts...) if option.unlimitedWorkers { return s.walkUnLimited(fn, option) } return s.walkLimited(fn, option) } func (s Stream) walkUnLimited (fn WalkFunc, option *rxOptions) Stream { pipe := make (chan interface {}, defaultWorkers) go func () { var wg sync.WaitGroup for item := range s.source { val := item wg.Add(1 ) threading.GoSafe(func () { defer wg.Done() fn(item, pipe) }) } wg.Wait() close (pipe) }() return Range(pipe) } func (s Stream) walkLimited (fn WalkFunc, option *rxOptions) Stream { pipe := make (chan interface {}, option.workers) go func () { var wg sync.WaitGroup pool := make (chan lang.PlaceholderType, option.workers) for item := range s.source { val := item pool <- lang.Placeholder wg.Add(1 ) threading.GoSafe(func () { defer func () { wg.Done() <-pool }() fn(item, pipe) }) } wg.Wait() close (pipe) }() return Range(pipe) }
使用案例:
返回的顺序是随机的。
1 2 3 4 5 6 7 8 func Test_Stream_Walk (t *testing.T) { Just(1 , 2 , 3 ).Walk(func (item interface {}, pip chan <- interface {}) { pip <- item.(int ) * 100 }, WithWorkers(3 )).ForEach(func (item interface {}) { t.Log(item) }) }
分组 Group 通过对 item 匹配放入 map 中。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 KeyFunc func (item interface {}) interface {} func (s Stream) Group (fn KeyFunc) Stream { groups := make (map [interface {}][]interface {}) for item := range s.source { key := fn(item) groups[key] = append (groups[key], item) } source := make (chan interface {}) go func () { for _, group := range groups { source <- group } close (source) }() return Range(source) }
获取前 n 个元素 Head n 大于实际数据集长度的话将会返回全部元素
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 func (s Stream) Head (n int64 ) Stream { if n < 1 { panic ("n must be greather than 1" ) } source := make (chan interface {}) go func () { for item := range s.source { n-- if n >= 0 { source <- item } if n == 0 { close (source) break } } if n > 0 { close (source) } }() return Range(source) }
使用示例:
1 2 3 4 5 6 7 func TestInternalStream_Head (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 ).Head(2 ).channel() for item := range channel { t.Log(item) } }
获取后 n 个元素 Tail 这里很有意思,为了确保拿到最后 n 个元素使用环形切片 Ring 这个数据结构,先了解一下 Ring 的实现。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 type Ring struct { elements []interface {} index int lock sync.Mutex } func NewRing (n int ) *Ring { if n < 1 { panic ("n should be greather than 0" ) } return &Ring{ elements: make ([]interface {}, n), } } func (r *Ring) Add (v interface {}) { r.lock.Lock() defer r.lock.Unlock() r.elements[r.index%len (r.elements)] = v r.index++ } func (r *Ring) Take () []interface {} { r.lock.Lock() defer r.lock.Unlock() var size int var start int if r.index > len (r.elements) { size = len (r.elements) start = r.index % len (r.elements) } else { size = r.index } elements := make ([]interface {}, size) for i := 0 ; i < size; i++ { elements[i] = r.elements[(start+i)%len (r.elements)] } return elements }
总结一下环形切片的优点:
环形切片能实现固定容量满的情况下旧数据不断被新数据覆盖,由于这个特性可以用于读取 channel 后 n 个元素。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 func (s Stream) Tail (n int64 ) Stream { if n < 1 { panic ("n must be greather than 1" ) } source := make (chan interface {}) go func () { ring := collection.NewRing(int (n)) for item := range s.source { ring.Add(item) } for _, item := range ring.Take() { source <- item } close (source) }() return Range(source) }
那么为什么不直接使用 len(source) 长度的切片呢?
答案是节省内存。凡是涉及到环形类型的数据结构时都具备一个优点那就省内存,能做到按需分配资源。
使用示例:
1 2 3 4 5 6 7 8 9 10 11 12 func TestInternalStream_Tail (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 ).Tail(2 ).channel() for item := range channel { t.Log(item) } channel2 := Just(1 , 2 , 3 , 4 , 5 ).Tail(6 ).channel() for item := range channel2 { t.Log(item) } }
元素转换Map 元素转换,内部由协程完成转换操作,注意输出channel并不保证按原序输出。
1 2 3 4 5 6 MapFunc func (intem interface {}) interface {} func (s Stream) Map (fn MapFunc, opts ...Option) Stream { return s.Walk(func (item interface {}, pip chan <- interface {}) { pip <- fn(item) }, opts...) }
使用示例:
1 2 3 4 5 6 7 8 func TestInternalStream_Map (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 , 2 , 2 , 2 , 2 , 2 , 2 ).Map(func (item interface {}) interface {} { return item.(int ) * 10 }).channel() for item := range channel { t.Log(item) } }
合并 Merge 实现比较简单,我考虑了很久没想到有什么场景适合这个方法。
1 2 3 4 5 6 7 8 9 func (s Stream) Merge () Stream { var items []interface {} for item := range s.source { items = append (items, item) } source := make (chan interface {}, 1 ) source <- items return Range(source) }
反转 Reverse 反转 channel 中的元素。反转算法流程是:
注意一下为什么获取 s.source 时用切片来接收呢? 切片会自动扩容,用数组不是更好吗?
其实这里是不能用数组的,因为不知道 Stream 写入 source 的操作往往是在协程异步写入的,每个 Stream 中的 channel 都可能在动态变化,用流水线来比喻 Stream 工作流程的确非常形象。
1 2 3 4 5 6 7 8 9 10 11 func (s Stream) Reverse () Stream { var items []interface {} for item := range s.source { items = append (items, item) } for i := len (items)/2 - 1 ; i >= 0 ; i-- { opp := len (items) - 1 - i items[i], items[opp] = items[opp], items[i] } return Just(items...) }
使用示例:
1 2 3 4 5 6 func TestInternalStream_Reverse (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 ).Reverse().channel() for item := range channel { t.Log(item) } }
排序 Sort 内网调用 slice 官方包的排序方案,传入比较函数实现比较逻辑即可。
1 2 3 4 5 6 7 8 9 10 11 func (s Stream) Sort (fn LessFunc) Stream { var items []interface {} for item := range s.source { items = append (items, item) } sort.Slice(items, func (i, j int ) bool { return fn(i, j) }) return Just(items...) }
使用示例:
1 2 3 4 5 6 7 8 9 func TestInternalStream_Sort (t *testing.T) { channel := Just(1 , 2 , 3 , 4 , 5 ).Sort(func (a, b interface {}) bool { return a.(int ) > b.(int ) }).channel() for item := range channel { t.Log(item) } }
拼接 Concat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 func (s Stream) Concat (steams ...Stream) Stream { source := make (chan interface {}) go func () { group := threading.NewRoutineGroup() group.Run(func () { for item := range s.source { source <- item } }) for _, stream := range steams { group.Run(func () { for item := range stream.channel() { source <- item } }) } group.Wait() close (source) }() return Range(source) }
汇总 API 全部匹配 AllMatch 1 2 3 4 5 6 7 8 9 10 11 func (s Stream) AllMatch (fn PredicateFunc) bool { for item := range s.source { if !fn(item) { go drain(s.source) return false } } return true }
任意匹配 AnyMatch 1 2 3 4 5 6 7 8 9 10 11 func (s Stream) AnyMatch (fn PredicateFunc) bool { for item := range s.source { if fn(item) { go drain(s.source) return true } } return false }
一个也不匹配 NoneMatch 1 2 3 4 5 6 7 8 9 10 11 func (s Stream) NoneMatch (fn func (item interface {}) bool ) bool { for item := range s.source { if fn(item) { go drain(s.source) return false } } return true }
数量统计 Count 1 2 3 4 5 6 7 func (s Stream) Count () int { var count int for range s.source { count++ } return count }
清空 Done 1 2 3 4 func (s Stream) Done () { drain(s.source) }
迭代全部元素 ForAll 1 2 3 func (s Stream) ForAll (fn ForAllFunc) { fn(s.source) }
迭代每个元素 ForEach 1 2 3 func (s Stream) ForAll (fn ForAllFunc) { fn(s.source) }
小结 至此 Stream 组件就全部实现完了,核心逻辑是利用 channel 当做管道,数据当做水流,不断的用协程接收/写入数据到 channel 中达到异步非阻塞的效果。
回到开篇提到的问题,未动手前想要实现一个 stream 难度似乎非常大,很难想象在 go 中 300 多行的代码就能实现如此强大的组件。
实现高效的基础来源三个语言特性:
-