资深研发进阶

一个菜鸟后端开发工程师进阶到资深开发的评判标准之一就是是否拥有工程化思维，因此这篇博文总结一下工作时的常见技术问题，以及资深研发应该如何考虑一个需求

# 常见技术问题

做一个系统，在实现功能后常常会遇到以下情况，这种时候需要考虑这些情况是否需要处理，对业务影响是什么：

原子性保证：业务中某个操作是否需要完整执行或完全回滚
分布式一致性：多节点间数据同步的一致性模型选择（强一致、最终一致等），
中间态数据不一致：需要考虑业务场景中，中间态时数据不一致是否对业务有影响
双写一致性：系统迁移或灰度时双写场景的数据同步问题，需要考虑数据丢失的风险，是否需要采用事务型双写或异步双写，数据迁移时如何保证平滑切换
事务管理：跨服务、跨数据库的分布式事务处理，是否引入 seate 框架，选用何种模式（AT、TCC、SAGA 等），事务执行过程中数据对其他事务是否可见
顺序保证：消息顺序性、操作顺序性

单点故障：识别并消除系统中的单点，所谓单点是指这个组件如果失败，会导致整个系统失败，因此需要引入冗余组件，不只是一个机器可能会挂机，可能一个机房也会挂机
故障转移：主从切换、故障检测与自动恢复机制，可以参考心跳检测、gossip、一致性协议（选主）、故障转移策略这个流程来处理
RPC 高可用设计：熔断、限流、降级、超时、负载均衡、失败策略（重试、快速失败、访问集群中其他机器等等）

遇到线上问题时，如果不是你负责的项目，可能无法很快定位问题，因此一个资深研发会遵循以下 SOP，来快速处理问题

1，如何发现问题

2，如何定位问题

理论上我们应该先定位后止损，但是也存在长时间问题定位不到的情况，这时候需要根据具体情况来判断是否需要紧急处理。一般问题都是根据日志、监控、报警来定位的，这就需要考虑一个系统的可观测性做的是否完善。一个系统的可观测性是根据日志、追踪、度量来评估的

3，如何止损

4，如何修复

改代码重新上线，根据监控系统确认问题是否解决

5，扩展分析

需要横向比较一下，所负责的系统中是否存在其他类似问题。比如线上出现问题是，锁粒度太大了，你就需要考虑整个系统中是否有其他地方所使用的事务锁粒度大，是否可以优化一下锁的粒度

最后更新: 2/25/2026, 8:20:00 AM