负载均衡与黑名单

浏览：2840 ℃

字体：大中小

发布时间：2013-12-09 23:23:05

来源：

黑名单

访问一个Server经常出错就可以断定：该Server“有问题”，下次访问还是极可能出错。为了减少试错成本，可以把它放到黑名单中，下次请求Server的时候避开这个有问题的Server。实现黑名单，需要注意以下方面：

1. 错误分类：一个Server出错可能有很多种原因，一个Tablet出问题，整个Server出问题，网络出问题，一个大查询超时等等。这些问题需要予以适当分类，不同情况要用不同黑法。

2. 黑名单洗白：在一定条件下黑名单需要被洗白。例如：黑名单超时；Server列表更新；没有可服务的Server了，强制洗白。

负载均衡

在分布式系统中为了让平均响应时间最低、系统吞吐量最大，需要把外部请求均衡的发送到各个服务器。最简单的均衡算法是Round-Robin（轮转算法），该算法的特点简单来说就是：谁都别急，都有份，一个个来。该算法虽然简单，但十分实用。绝大多数情况都可以采用Round-Robin算法，实现简单，性能还稳定。但该算法有一个缺点：它假设了每个请求消耗的资源是相等的，而实际应用中不同请求对资源的需求是不同的。例如：同样是范围扫描（Scan）请求，有些请求只需要扫描几条数据，有些请求需要扫描上万条数据。OceanBase中的Scan请求就符合这样的特征，因此不能简单的使用Round-Robin，需要一种对load-aware的算法。

如果事先知道每个Scan要扫描多少条数据，显然可以采用一种带权值的Round-Robin算法。但在OceanBase中Scan多少条数据是不能预先知道的，所以采用了一种更直接的方式：记录下每一个Server处理请求消耗的时间。 Scan的记录条数多，消耗时间也多，记录数少，消耗的时间就少。每次选择目标Server的时候就看谁过去消耗的时间最少。该算法可以保证每个Server的负载基本相同。该算法也有一个缺陷：它依赖于历史数据。假设这期间有一个Server下线或者被加入了黑名单，那么它会欠下很多时间债，下次上线的时候请求都会涌入到该Server，直到时间债务清偿。一种解决方案是：每次Server上线时都把自己的流量设置成系统的平均值。但在工程实现上可能会遇到不少麻烦：（1）如何定义Server上线动作？比如，Server被加入到了一个分布式的黑名单中（2）如果流量记录是分布式的呢？比如，为了性能考虑，各个线程都各自维护了自己的历史记录。以上都是OceanBase遇到的现实问题。

【附】Ramdon随机算法：从统计的角度看，该算法本质也是Round-Robin算法。

以上是OceanBase中目前遇到的一个小困境，考虑下，看看有没有一个折中方案解决CS上线后流量涌入的问题。