负载均衡与黑名单
黑名单
访问一个Server经常出错就可以断定:该Server“有问题”,下次访问还是极可能出错。为了减少试错成本,可以把它放到黑名单中,下次请求Server的时候避开这个有问题的Server。实现黑名单,需要注意以下方面:
1. 错误分类:一个Server出错可能有很多种原因,一个Tablet出问题,整个Server出问题,网络出问题,一个大查询超时等等。这些问题需要予以适当分类,不同情况要用不同黑法。
2. 黑名单洗白:在一定条件下黑名单需要被洗白。例如:黑名单超时;Server列表更新;没有可服务的Server了,强制洗白。
负载均衡
在分布式系统中为了让平均响应时间最低、系统吞吐量最大,需要把外部请求均衡的发送到各个服务器。最简单的均衡算法是Round-Robin(轮转算法),该算法的特点简单来说就是:谁都别急,都有份,一个个来。该算法虽然简单,但十分实用。绝大多数情况都可以采用Round-Robin算法,实现简单,性能还稳定。但该算法有一个缺点:它假设了每个请求消耗的资源是相等的,而实际应用中不同请求对资源的需求是不同的。例如:同样是范围扫描(Scan)请求,有些请求只需要扫描几条数据,有些请求需要扫描上万条数据。OceanBase中的Scan请求就符合这样的特征,因此不能简单的使用Round-Robin,需要一种对load-aware的算法。
如果事先知道每个Scan要扫描多少条数据,显然可以采用一种带权值的Round-Robin算法。但在OceanBase中Scan多少条数据是不能预先知道的,所以采用了一种更直接的方式:记录下每一个Server处理请求消耗的时间。 Scan的记录条数多,消耗时间也多,记录数少,消耗的时间就少。每次选择目标Server的时候就看谁过去消耗的时间最少。该算法可以保证每个Server的负载基本相同。该算法也有一个缺陷:它依赖于历史数据。假设这期间有一个Server下线或者被加入了黑名单,那么它会欠下很多时间债,下次上线的时候请求都会涌入到该Server,直到时间债务清偿。一种解决方案是:每次Server上线时都把自己的流量设置成系统的平均值。但在工程实现上可能会遇到不少麻烦:(1)如何定义Server上线动作?比如,Server被加入到了一个分布式的黑名单中 (2) 如果流量记录是分布式的呢?比如,为了性能考虑,各个线程都各自维护了自己的历史记录。 以上都是OceanBase遇到的现实问题。
【附】Ramdon随机算法:从统计的角度看,该算法本质也是Round-Robin算法。
以上是OceanBase中目前遇到的一个小困境,考虑下,看看有没有一个折中方案解决CS上线后流量涌入的问题。
- 06-16卡巴斯基郑启良:支持信创发展是卡巴斯基的重要使命
- 06-16访问管理是确保现代工作场所安全的的五个关键原因
- 06-16零信任安全的演变:彻底改变网络安全策略
- 06-16GitHub上值得关注的20个网络安全项目
- 06-16英国曼彻斯特大学遭遇网络攻击,机密数据或遭窃!
- 06-16调查表明广告软件推送恶意软件感染了六万多个安卓应用程序
- 06-16微软向美国政府提供GPT的大模型,安全性如何保证?
- 06-16如何保护OT环境免受安全威胁?
- 01-11全球最受赞誉公司揭晓:苹果连续九年第一
- 12-09罗伯特·莫里斯:让黑客真正变黑
- 12-09谁闯入了中国网络?揭秘美国绝密黑客小组TA
- 12-09警示:iOS6 惊现“闪退”BUG
- 12-05亚马逊推出新一代基础模型 任意模态生成大模
- 12-05OpenAI拓展欧洲业务 将在苏黎世设立办公室
- 12-05微软质疑美国联邦贸易委员会泄露信息 督促其
- 12-05联交所取消宝宝树上市地位 宝宝树:不会对公
- 12-04企业微信致歉:文档打开异常已完成修复