事情的原因,是发生在某个晚上的9点30左右,SAE的报警系统突然报出了异常,所有的Web服务器的负载突然变得很高,流量也变得异常的大。 这个是很有问题的,在SAE最前面的反向代理上,是部署了SAE自己开发的‘CC防火墙’的,如果出现了异常的被攻击的情况,这些异常的流量是不会到达 Web服务器的,现在这些流量都到达了Web服务器,说明要么是攻击没有被正常判断,要没就是这不是一次攻击。

事实上确实这也不是一次攻击。

随后的分析,我们发现了一堆比较‘奇怪’的应用,为什么说‘奇怪’呢,因为这些应用的访问趋势是这样子的:

strange-pv

这是其中一个应用的数据,然而在这个应用的帐号下面,大约有十个类似的应用,都是这样的趋势,所以对于我们的Web服务器来说,在特定的时刻要接受 接近10倍左右的流量,对于当前的规模就有点‘顶不住’了。

所以讨论过后,大家的想法还是要对Web服务器进行扩容,来满足这样突发的流量增长。但与此同时,Web服务器也有些不一样的异常,在报警的时候,系统负载 比较高,CPU也没有什么空闲了,但是有个比较特殊的现象,就是system占用的CPU比user占用的CPU要高,这是明显不合理的,一般情况下,system占用CPU较高 意味着系统可能存在瓶颈,比如大量的锁争用等情况。

所以,在着手准备扩容Web服务器的同时,也尝试对现有系统进行一些性能分析,看是否能找到瓶颈,便于做一些优化,提升单Web服务器的容量。

分析的第一步,就是要收集系统运行时的信息,因此我们使用了 perf 这个工具,在系统中对httpd进程进行了抓取,并使用 FlameGraph生成相应的火焰图。

$ perf record -g -a # 等待收集一段时间后Ctrl-c 退出
$ perf script | stackcollapse-perf.pl | flamegraph.pl > flame.svg

最终生成的火焰图如下:

flame-before

看到这个图,一切都明白了,系统在此阶段调用了太多的connect,尝试建立TCP连接,造成了大量的系统开销,从而影响了整体的性能。 那么为什么会导致这个问题?

用户的代码逻辑非常简单,只是从memcache中取出一个值,然后做一个简单的转换,然后输出。那么,问题就出在了memcache上。

这其实是一个历史遗留问题,SAE的Web服务器是一个纯共享的环境,用户与用户之间,可以做到请求与请求之间的隔离,因此,服务器上的 每个httpd进程都可以为所有的应用服务,实现动态调度,这样的设计,保证了资源的高利用性,能够实现资源利用的最大化。

在当初实现资源隔离的时候,对于memcache,用户初始化memcache时总会帮他建立一个独立的连接,当使用完成,再把连接断掉。 问题就出在了这里,当应用访问量很大,每个请求占用的时间又很短,就出现了频繁和memcache建立连接-断开,又建立连接-断开的死循环。 造成的系统开销非常巨大。

找到了原因,那对应的解决办法就简单了,只需要修改memcache的扩展,把短链接修改为长连接就好,除此之外,如果遇到连接断掉的情况,则 尝试重新连接,保证一个用户的使用不会影响到下个用户。 就这样,最突出的问题就基本解决了。

当然,对于用户来说,其实完全不用关心用的是长连接或者是短连接,不需要调整代码,初始化的Memcache自动地就变成了长连接,完全没有感知。

再看一看调整之后的火焰图:

flame-after

好了不少,没有像之前的火焰图那样非常夸张,相对的消耗都比较平均。

最后在一台即将上线的机器上使用ab测试了一下。

修改前:

Concurrency Level:      100
Time taken for tests:   77.282 seconds
Complete requests:      100000
Failed requests:        3863
   (Connect: 0, Receive: 0, Length: 3863, Exceptions: 0)
Write errors:           0
Non-2xx responses:      3863
Total transferred:      29684301 bytes
HTML transferred:       9357111 bytes
Requests per second:    1293.96 [#/sec] (mean)
Time per request:       77.282 [ms] (mean)
Time per request:       0.773 [ms] (mean, across all concurrent requests)
Transfer rate:          375.10 [Kbytes/sec] received

修改后:

Concurrency Level:      100
Time taken for tests:   16.554 seconds
Complete requests:      100000
Failed requests:        6080
   (Connect: 0, Receive: 0, Length: 6080, Exceptions: 0)
Write errors:           0
Non-2xx responses:      6086
Total transferred:      29450237 bytes
HTML transferred:       9218982 bytes
Requests per second:    6040.76 [#/sec] (mean)
Time per request:       16.554 [ms] (mean)
Time per request:       0.166 [ms] (mean, across all concurrent requests)
Transfer rate:          1737.32 [Kbytes/sec] received

QPS 从1293.96 [#/sec] 提升到了6040.76 [#/sec],效果还是比较明显的。

修改了memcache的逻辑,又加上扩容了几台服务器,之后,就没有再出现报警的情况,问题算是得到比较好的解决。

当然,使用了长连接之后,服务器维护的连接数会有很大的提升,基本上从原来了200个连接上升到接近2000个连接,不过对于我们的服务器来说, 这些连接其实不算什么,所以其实也不会有太大的影响,和长连接带来的性能提升相比,还是相当值得的。