0. 背景
临近双11,公司对所有的接口都使用阿里云的全链路压测工具做压测,比如首页的 TPS 是3000,支付的 TPS 是 60,根据不同的接口做不同的策略。其中数值是根据平时的5倍计算得出的。
这篇博文就是使用阿里云的 arms 监控(APM的一种,类似 skywalking,可以查看请求的每个链路)以及 PTS(做压测的一种工具)对两次压测的优化总结。
待拆解项目机器集群A:48台,配置为4核8G
本项目机器集群B:6台,配置为4核8G
由于压测时正在在拆解服务中,因此大部分接口在A集群中。
A 集群20%的接口通过 RPC 请求到 B,80%的接口通过发送消息跟 B 交互。
数据库配置:1写5读,配置较高,只在主库操作。在压测过程中主库 CPU 基本属于较为稳定。
ONS:发送、接收消息总 TPS 为 5000,在压测过程中基本还未达到该阈值。总 TPS 稳定在 40(即发、接消息各20)。
Redis:4G两节点,不是瓶颈。
第三方请求接口主要有:支付的请求下单、通知回调、银行卡四要素验证等。
1. MySQL
使用 MySQL 的主要用途用于存储支付参数、支付结果等信息,主要是短查询和长写入,整个支付下单事务较长。
另外由于正在拆解服务,还没有将支付相关的数据库独立出来,因此项目的数据库性能会受到其它项目对数据库的影响,从而影响本项目的性能,这是没法避免的。
优化第一点是配置最大连接数:
查看最大连接数:
根据数据库能支撑的最大连接数,以及连接该数据库一共有几个项目,来设置平均每个项目的连接数,我这边设置从之前的 20 变更为 50。
那什么时候才知道是连接数的问题呢?其实当你在发现某个接口,它请求访问数据库的操作一共需要5s,但是你查看数据库的相关语句的时候,发现语句最慢也才耗时 1s,那这时你就需要怀疑是否是因为等待获取连接而耗费很大量的时间。
第二点是去掉多余的事务:
你仔细看了整个项目,从业务和技术角度上考虑过项目上是否有多余的事务注解吗?因为我就犯了这个错。
原来的某个服务 A 本来是个有更新操作的,优化后,将更新操作放到别处了,因此服务 A 里面只有一个查询,但是我忘记去掉该服务的 Transaction 注解,导致在压测的时候,该服务的响应时间是1分钟,查看链路发现是一个 select 语句就1分钟!当去掉 Transaction 后变成了10ms!
2. ONS
ons 是 rocketmq 的商业版,使用基本和 rocketmq 一致。但是我个人觉得没有 rocketmq 好用,我之前公司使用自己搭建的 rocketmq,有问题基本debug,就能大概定位问题。但是 ons 是闭源的,只能提工单到他们的工作人员,等待反馈。不过 ons 适合刚初创企业,没有多余能力去使用 rocketmq。不可否认的是,当业务发展量到了一定程度,使用 rocketmq 是必然的结果!
优化第一点:消息能否延迟?
我在控制台观察消息的生产消费量,支付相关的消息平时相对来说不是很多,然后再看压测时候的消息大致是多少,当时在压测的时候消息使用的是普通消息,导致某个时间消息堆积消费很高,CPU飙升,没有达到削峰的功能!后来在分析该业务后,发现该业务可以接受大概30s的延迟,因此使用了随机延迟消息,平摊到 30s 内做处理,达到了削峰填谷的功能,将 CPU 稳定在了 15%,提升很大。
但是这里有个疑问,我之前了解 rocketmq 知道它使用延迟消息是使用延迟级别的队列实现,即:你有几个延迟级别,就需要多少个额外的队列,但是在 ons,我使用的随机延迟消息,理论上ons那就支持了无限的延迟队列,但是这是不可能的,因此它肯定有自己更好的延迟队列实现!
另外也可以参考消息的最佳实践:
一个微服务用一个 GroupId,项目内部一级业务类型,使用 Topic 区分。二级业务使用 TAG 区分。例如我这边的支付相关消息使用 Pay_Topic,下面一些比如退款或转账的具体业务使用 TAG 区分,具体的最佳实践参考文档:https://help.aliyun.com/document_detail/95837.html?spm=a2c4g.11174283.6.624.3a945793jfF9XT
其中一个插曲,是关于消息负载的问题,由于阿里他们消息负载有问题(他们也承认了,正在优化),因此有经常某台机器负载堆积消息尤其严重,而有的机器又很空闲。他们答应尽快解决,我这边暂时使用 sentinel 做消息的限流。这也侧面验证其实自建消息队列是很有必要的,至少在消息的负载上,我们可以透明化,一是消息到队列的负载,二是队列到消费者的负载,都可以根据业务情况精准控制。
3. Redis
关于 Redis 我这边并没有使用很多,因为支付基本都是走的主库,需要实时性,当然有部分的支付相关边缘业务,查询较多,才会考虑使用 Redis 缓存,引入 Redis 还是有一定的技术成本,使用不当会弄巧成拙。
我在项目中唯一使用 Redis 的地方是用来保证消息消费的幂等性。
由于消息发送方是使用的 ons-client 老的版本,有一些BUG,但是 one-client 新的版本和老的版本部门协议又有不同,没法兼容。而发送方项目由于很多项目都做了依赖,改动 one-client 版本成本太大。因此要解决这个 BUG,需要从我自己项目入手。
该 BUG 表现为 exactly-once 的状态变更 bug。ons 的 exactly-once 原理如下:消费端建一张消息消费表,并在代码注入使用它的 MQDataSouce,该 datasource 会在消息消费前后做切面,加入了消费状态的变更和判定,例如:消费状态未消费、消费中、消费完成、消费异常等,而状态的变更写入数据库是和业务的数据库属于同一个事务,从而保证了消息的幂等————通过额外一个消费表记录来实现。但是由于有 BUG,这个状态判定有个小问题,因此我在消费业务代码最外层加入了 Redis,它实现了类似的功能,对同一个 MessageKey 记录消费状态,来实现消息的去重。那我为什么不使用数据库表来实现呢?因为方便。唯一的问题是 Redis 挂掉的问题,或者说是不一致问题。但是说实话,Redis 挂掉的几率基本和 MySQL 挂掉几率基本一样,因为我们都是使用的阿里云集群机器。
4. 内部项目接口
我们内部项目间互相调用使用 dubbo 调用,优化基本集中在 dubbo 配置上。
第一个是将 threadpool 将 cached 改为 fixed,数量默认为 200,这是参考了 arms 监控中的线程池变化设定的,而且机器性能也好,不过还需要下次压测查看结果,毕竟线程上下文切换也不知道损耗多少。
第二个是超时时间,我这边设置为 3000 ms(默认 1000 ms),另外使用了 Redisson 做重复请求的锁,锁 3000 ms,避免多次点击,由于业务正在优化,某些业务还不支持幂等,重复请求会有点问题,基本在 3 秒内支付相关流程事务执行完,状态写入成功,就没什么大问题了。
第三个是 loadbalance 策略,修改为 leastactive
另外,因为我们用的 nacos 有个权重配置,不过这个我还没用,如果以后机器性能不均匀可以有个参考优化点。
5. 第三方接口
第三方接口慢,没法避免,而且有的付费接口是基于 TPS 购买的,因此必须要使用限流,不然返回都是错误,用 sentinel 的 callback 就很方便。其它类似的限流工具也差不多,根据漏桶算法,做 TPS 判定,也可以选择使用 RT 做限流,我根据情况来选择 TPS 还是 RT 限流。
6. JVM 优化
jvm 优化主要是参考的 https://opts.console.perfma.com/ ,原来的参数是:1
-server -Xms4096m -Xmx4096m -XX:NewSize=1024m -XX:MaxNewSize=1024m -XX:PermSize=512M -XX:MaxPermSize=512m
机器 4核8G,现在的参数调整为:1
-server -Xms5440M -Xmx5440M -Xmn1984M -XX:+PrintGCDateStamps -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -XX:MetaspaceSize=512m -XX:MaxMetaspaceSize=512m
其中主要参考了压测时的堆栈内存变化,其中可以看出 10-22 的变化:
7. 后台任务分离
这个主要是将后台的定时任务全部迁入到一个专门的执行器项目,使用 xxl-job 来控制后台任务的执行,避免定时任务执行时的性能抖动,影响核心接口
8. 总结
- MySQL
慢SQL:但是我这边基本没有
连接数:这个根据阿里云 RDS 的性能和项目数做调整
是否有不必要的事务:检查去掉不必要的事务
死锁:其实死锁还是有,很难根本解决,只能说减少概率,这个之前也写死锁总结博文,但是因为这个暂时不是性能瓶颈,因为在之后会花时间再解决。
- 消息队列
消息是否可以接受延迟?如果可以,那么就随机延迟或者几个延迟级别随机选择。
机器消费消息是否负载均衡?如果不均衡,那么看是发消息到队列不均衡,还是队列到消费者不均衡。
- Redis
能不用缓存就不用缓存,如果性能问题,必须上缓存,那么要考虑缓存一致的问题,其实我在公司经常听到测试说,为什么这边修改但是用户那边还没改动,根本原因是,缓存在设计的时候不合理,乱用,而不考虑手动缓存失效,只能等待一定时间失效,这是不合理的。
Redis 不可用我暂时还没碰到,可能是使用量不大,不过性能抖动倒是碰到过,上家用的腾讯云,半夜会超时什么的,这个没办法,是提供商的问题。
- 内部接口
我们都是用 dubbo 做项目之间的请求
别人依赖你:别人依赖你的接口服务,那么尽量保证能异步就异步,日志通过 filter 拦截进出口的日志,方便调试。还有一个是关于 apm 的使用,我们使用了 skywalking,因此我加入了全局链路 token,方便跟踪某个请求,这个对定位问题很方便。自己提供的接口服务能加上限流控制就加上,关键时候设置限流有奇效。
你依赖别人:考虑当别人项目不可用时,你会发生什么,做异常的解决或者 callback 快速失败策略。还有请求超时时间以及负载策略的针对配置。
- JVM 优化
推荐参考 https://opts.console.perfma.com/ 输入自己的机器参数,自动给你生成相关参数,最后在实际中,观察项目的 JVM 堆栈实际情况,来做调整。
- 服务分离
前后台服务分离:后台定时任务分离独立为一个项目,提供给别人的接口服务独立为一个项目
核心业务分离:这个我没有实战,但是如果以后业务量膨胀,我会使用该方法,核心业务不能挂~