# spring-cloud-rest-tcc **Repository Path**: wangzhen001/spring-cloud-rest-tcc ## Basic Information - **Project Name**: spring-cloud-rest-tcc - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-03-18 - **Last Updated**: 2021-03-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Preface 随业务发展、组织架构变动,加上对现有系统进行析构拆分,所带来的一个显著问题是进程间一致性需求增加,是一个协作问题。Atomikos曾[撰文](https://www.atomikos.com/Blog/TCCForTransactionManagementAcrossMicroservices)介绍使用TCC作为microservice的分布式事务解决方案,[这里](https://www.jianshu.com/p/d687b620f73d)有一篇简单的译文可作为入门资料。 经文章叙述,Atomikos所设计的TCC交互完全构建在HTTP协议之上,并充分地复用了HTTP语义特性,是一个与应用层协议紧耦合的解决方案。而究其本质,TCC是作为2PC的补充,更是一种设计思想。 本文使用Spring Cloud Netflix作为服务治理基础,通篇穿插C4 Model,侧重以最简练的方式,向大家展示如何使用TCC解决分布式事务。 ## Variants 在microservice兴起的时候,由于对集团内部已有的中间件生态考量与性能的实质需求,更多是以RPC协议进行构建,如gRPC、Dubbo和Thrift等框架。面对TCC设计思想,同样应该以更温和的方式落地,而不应受限于应用层协议,我们将以不同的角度阐述这种TCC的"变体"。 在模型上,将原有的HTTP语义下沉到请求体当中,上下游各自定义status code,用于识别不同状态。 在流程上,从Try-Confirm-Cancel演进为Try-Confirm-Diagnose,Try和Confirm保持抽象为API接口。而且在原则上不建议持有长周期的大事务,而小事务可确保预留资源快速回滚,所以不再视Cancel与Try-Confirm平级,建议从API接口转为功能特性融合至Try和Confirm方法当中,并且在非必要场景下不建议提供Cancel接口,避免因拜占庭问题增加轮转至conflict状态的几率。 即便是无可避免地出现conflict状态,也可以通过Diagnose接口作出诊断,追踪坏账以便人工介入处理。 出于对知识的敬重与措辞的严谨性,下文统一使用TCD指代上述理念的TCC变体。 ## Scenario 假设有以下场景,我们想购入一台PS4,在付款后需要历经生单、扣减余额和扣减库存这三个过程,分别对应服务Order、Account和Product,但每一个过程中都可能会因为网络故障、宕机、网络分区或拜占庭问题,从而暴露出各种矛盾。 ###### System Context Diagram ![](assets/image/context.png) ### Coordinator Atomikos在文章[\<\\>](https://www.atomikos.com/Blog/TCCForTransactionManagementAcrossMicroservices)中提出将TCC Coordinato服务化,Transaction Coordinator delivered as a service,成为一个可重用组件,负责各式各样的异常处理。 但系统的复杂度往往是随着系统内的服务数增加呈正向关系,而且数据包每多跳转一个节点就会有更多的时间耗费在网络I/O上。 在实现形式上,TCC Coordinator基于RESTful所设计的API天生具备易访问的特性,可以较为方便地对单一事务内的打包资源发起协同操作,而RPC的劣势在于序列化协议之间的天然屏障,无法做到如micrometer和service mesh理念中的*vendor-neutral*,所以TCD Coordinator示例中更倾向于将其概念依附于业务系统中,以白盒的方式管理事务。 纵观整个链路,Customer向Order发起结算请求,Order往往需要通过请求中GUID提供幂等性支持,避免网络故障与应用宕机时,因上游重试从而导致多次生单和重复预留资源的情况,同时重试策略也直接解决了failure recover后的事务恢复问题。 #### Responsibility 1. 组织并负责发起TCD事务 2. 提供诊断conflict事务的Diagnose门面接口 4. 仅对下游发起Try与Confirm操作,避免出现既Confirm又Cancel的拜占庭问题 5. 针对下游发起Try操作时,负责计算预留资源时间,并适当考虑下游因GC情况而所需增加的补偿时间 ###### Container Diagram ![](assets/image/container.png) ### Lazy Participant Lazy Participant无需启用调度器自发地将过期的TRYING状态资源轮转至CANCELLED状态,而是将这个功能隐藏在Confirm和Query Transaction接口当中,由TCD Coordinator负责驱动,以减少事务参与者的开发成本,专注于正确的状态轮转和业务逻辑即可。 在本示例当中,Account与Product充当Lazy Participant角色,分别负责余额扣减与库存扣减。 #### Responsibility 1. 提供Try操作的预留资源API接口 2. 提供Confirm操作的确认预留资源API接口,并在内部负责对过期资源的状态轮转 3. 提供事务状态查询的API接口,并在内部负责对过期资源的状态轮转,并为上游Diagnose操作提供支持 4. 对Try和Confirm两个接口实现幂等性调用 ###### Component Diagram ![](assets/image/component.png) ## Final State Machine ### Coordinator ![](assets/image/order_fsm.png) ### Participant ![](assets/image/account_fsm.png) *\* Account Transaction与Product Transaction状态机类似,故不赘述* ## Getting Started ### Technology stack - Java 8 - Spring Boot 2.x - Spring Cloud Netflix - Hoxton - MySQL 8.0 ### Prerequisites 在开始部署之前,先要确保MySQL有按照预期进行工作,我们有两种方法初始化DDL,根据情况选择其中一种即可。 #### Docker 在目录`assets/docker`中存放着所有与Docker相关的内容,我们可以直接找到compose文件夹,通过以下命令启动MySQL镜像。聪明的Docker会根据配置,自动将位于`mysql/db/init_mysql_user.sql`内的DDL进行初始化。 ```shell docker-compose -f database.yml up ``` #### Manual 我们亦可根据实际情况,将DDL直接导入至已有的数据源中,相关SQL位于`assets/docker/mysql/db`目录下的`init_mysql_user.sql`文件中,但需注意如果当前执行用户缺失GRANT权限,会导致执行失败,按需删减对应SQL即可。 如果一切顺利,我们会有3个账户和3个商品,分别是 | Account | Product | | --------- | ------- | | chris | **gba** | | **scott** | ps4 | | ryan | fc | ### Demonstration 将工程导入IDE后,在目录rest-tcc-projects中按下表顺序依次启动,表中同时也列出了项目的相关URL信息 | Name | URL | | -------------------------- | ------------------------------------- | | rest-tcc-service-discovery | http://localhost:8255/ | | rest-tcc-account | http://localhost:8285/swagger-ui.html | | rest-tcc-product | http://localhost:8265/swagger-ui.html | | rest-tcc-order | http://localhost:8295/swagger-ui.html | 我们在整个流程中扮演Customer角色,通过Order服务提供的Swagger面板作为操作入口 ![](assets/image/order_swagger.png) #### checkout 在一般情况下,我们发起下单请求,Order服务会根据请求中GUID作幂等性处理,假设检测到GUID已经存在,则会恢复该事务并继续处理后续流程。并通过与上游磋商重试策略,以解决由于network failure或crash后的事务恢复问题。 ```json // request body { "guid": 1, "price": 47, "productName": "ps4", "quantity": 1, "username": "chris" } // response body { "successful": true, "code": 20000, "message": "请求成功" } ``` Order服务基于TCD Coordinator的理念所设计,在Try阶段需根据Participant响应时间设计资源预留时长,并还需考虑Participant因GC或网络I/O所带来的耗时,适当加上补偿时间。另外为了避免服务间的Clock时钟不一致问题,报文中一律使用相对时间。 ```java reserving_secs_in_participant = reserving_secs_in_coordinator + compensation_secs ``` 但墨菲定律提醒我们partial confirm的情况总是会不经意地产生,在本示例中亦人为地模拟了这一情况。假设我们选择使用账户scott去下单,总会使得confirm阶段操作发生超时而无法正确扣减账户余额;而对于产品,我们选择购买gba的时候,也总是会在confirm阶段因超时而无法扣减产品库存。 ```json /// request body { "guid": 2, //谨记需要使用不同的guid,否则会根据幂等性操作返回其他订单的状态 "price": 47, "productName": "ps4", "quantity": 1, "username": "scott" } // response body { "successful": false, "code": 42003, "message": "资源确认存在冲突" } ``` 我们可以到MySQL account库中的t_account表确认scott账号并没任何余额扣减,但在product库中的t_product表,却发现ps4库存被错误扣减(不要忘了上面chris也买了一台ps4)。此时该订单处于conflict终态,针对坏账diagnose接口可以在有限时间内,在下游Participant未清理事务流水的前提下定位问题。 #### diagnose guid 1,chris成功买了一台ps4,除了确认Participant内部的具体扣减情况,我们还可以通过diagnose进行二次确认。 ```json // request body { "guid": 1 } // response body { "successful": true, "code": 20000, "message": "请求成功", "stateMap": { "account": "CONFIRMED", "product": "CONFIRMED" } } ``` guid 2,根据我们的设计,可怜的scott会因为超时买不到任何产品。 ```json // request body { "guid": 2 } // response body { "successful": true, "code": 20000, "message": "请求成功", "stateMap": { "account": "CANCELLED", //资源预留被取消,所以未能成功扣减账户余额 "product": "CONFIRMED" } } ``` 至于其他组合情况,就留待大家继续探寻。 ## End 如果对本人编码风格或设计思路等有更好的想法或建议,欢迎通过GitHub Issue留言,感谢各位耐心阅读!