disgare 的博客
首页
博客
分类
标签
首页
博客
分类
标签
  • 网络

    • 计算机网络学习笔记
    • 网络安全相关
    • 域名和子网掩码
    • CORS 跨域资源共享
    • DNS、HTTP 与 HTTPS
    • Server-Sent Events (SSE)
    • WebSocket 长连接
  • 计算机基础

    • 操作系统 IO 相关知识
    • 操作系统学习笔记
    • 程序的机器级表示
    • 音频文件基础
    • 正则表达式相关概念
    • ffmpeg 的安装以及实现音频切分功能
    • Hex 和 Base64 编码
    • XML 的使用
  • 数据结构与算法

    • 动态规划算法学习笔记
    • 基于比较的排序算法的最坏情况下的最优下界为什么是O(nlogn)
    • 集合与数据结构学习笔记
    • 面试常见算法总结
    • 算法导论第二部分排序学习笔记
    • 算法导论第一部分学习笔记
  • Java

    • 对象之间的映射与转换
    • 反射学习笔记
    • 泛型相关概念
    • 关于 boolean 类型的坑
    • 如何使用 lambda 表达式实现排序
    • CompletableFuture 相关用法
    • CompletableFuture 源码浅要阅读
    • FutureTask 源码阅读
    • Guava 常用 API
    • Guava 源码阅读:Multimap 相关
    • Jackson 的各种使用
    • Java 的 Excel 相关操作
    • java 的常见性能问题分析以及出现场景
    • java 基础知识
    • JAVA 枚举的基础和原理
    • Java 图片文件上传下载处理
    • Java 序列化
    • Java 异常
    • Java 语法糖
    • Java 中关于字符串处理的常用方法
    • Java 中强、软、弱、虚引用
    • JAVA 注解小结
    • Java Http 访问框架
    • Java Stream 的使用
    • Java8 新特性
    • netty 学习笔记
    • Scanner 的各种用法
    • Servlet 学习笔记
    • String、StringBuffer、StringBuilder 学习笔记
  • JVM

    • 虚拟机执行子系统
    • JVM 自动内存管理
    • Linux 中 JVM 常用工具以及常见问题解决思路
  • Linux

    • crontab 表达式
    • Linux 常见命令
    • Linux 文件系统
  • 中间件

    • 关于定时任务原理
    • 详解 kafka
    • ES 搜索引擎
    • flink 提交流程
    • Grape-RAG
    • Hadoop 基础原理
  • 多线程

    • 多线程基础学习笔记
    • 简单了解并发集合
    • 如何手写单例
    • 深入理解 java 多线程安全
    • 生产者消费者问题
    • 线程池作用、用法以及原理
    • AQS 组件
    • ThreadLocal 原理以及使用
  • 非关系型数据库

    • Redis 集群
    • Redis 数据结构、对象与数据库
    • Redis 学习笔记
  • 关系型数据库

    • B+ 树的插入、删除和数据页分裂机制
    • MySQL 的 binglog、redolog、undolog
    • MySQL 的记录存储结构、存储引擎与 Buffer Pool
    • MySQL 基本的特性
    • MySQL 开发规范
    • MySQL 事务与锁与 MVCC
    • MySQL 数据类型、字符集相关内容
    • MySQL 索引与索引优化
    • PostgreSQL 更新数据时 HOT优化
    • PostgreSQL 相关用法
  • Python

    • Python 基础语法
    • Python 学习
  • Spring 项目

    • Lombok 的常用注解
    • maven 小结
    • MyBatis 框架的使用
    • MyBatis 重要知识点总结
    • MybatisPlus 的使用
    • Spring 框架基础使用
    • Spring 事务相关
    • Spring IOC 的原理及源码
    • Spring AOP 的使用和原理
    • SpringBoot 的原理
    • SpringBoot 基础使用
    • SpringWeb 重要知识点
  • 分布式

    • 初步了解 docker
    • 从 ACID 到 BASE 事务处理的实现
    • 访问远程服务
    • 分布式 id
    • 分布式缓存相关问题
    • 分布式集群理论和分布式事务协议
    • 分布式架构的观测
    • 分布式一致性算法
    • 负载均衡 Load Balancing
    • 关于分布式系统 RPC 中高可用功能的实现
    • 集群间数据同步的目的
    • 三高问题下的系统优化
    • 数据库分库分表
      • Mysql 大表优化
      • 分表
        • MyCat
        • sharing-sphere
      • 分库
      • 分库分表常见问题
        • 非 partition key 的查询问题
        • 扩容问题
    • 详解 Spring Cloud
    • Dubbo 基础概念
    • Gossip 协议
    • nginx 学习笔记
    • Protobuf 通信协议
    • Zookeeper 基础学习
  • 架构设计

    • 参数校验与异常处理
    • 抽象方法与设计模式
    • 代码整洁之道
    • 权限系统设计
    • 用低内存处理大量数据
    • 设计模式——策略模式
    • 设计模式——过滤器模式在 Spring 中的实践
    • 状态模式
    • 统一结果返回
    • 为什么要打日志?怎么打日志?打什么日志?
    • 运维监控常见指标含义
    • 资深研发进阶
    • DDD 架构学习笔记
    • Java 常用的规则引擎
    • MVC 架构学习笔记
  • AI

    • 如何编写 Prompt
    • Agent 工程架构
    • LLM 相关内容
    • NLP 相关知识
    • vibe coding 最佳实践
    • windows 下 ollama 迁移到 D 盘
  • 开发工具

    • 如何画时序图、流程图、状态流转图
    • excel 关于 =vlookup 的用法
    • git 的学习以及使用
    • IDEA 插件推荐
    • IDEA 常用快捷键以及调试
    • Shell 脚本
    • swagger 的使用
  • 前端

    • 简单了解前端页面开发
    • 伪静态是什么
    • GitHub Pages 部署教程
    • Vercel 部署教程
    • vue-admin-template 简单使用
    • VuePress 博客搭建指南
  • 项目

    • 面试刷题网——技术方案
    • 影视资源聚合站——技术方案
  • 问题记录

    • 定时任务单线程消费 redis 中数据导致消费能力不足
    • 提供可传递的易受攻击的依赖项
    • Liteflow 在 SpringBoot 启动时无法注入组件问题 couldn‘t find chain with the id[THEN(NodeComponent)]
  • 金融

    • 股票分析——关于电力
    • 股票技术面——量价关系
    • 股票技术面——盘口
    • 股票技术面——基础
    • 基础的金融知识
    • 基金与股票
    • 韭菜的自我总结
    • 聊聊价值投资
  • 其他

    • 程序员职场工作需要注意什么
    • 创业全链路SOP:从灵光一现到系统化增长的实战指南
    • 观罗翔讲刑法随笔
    • 价格和价值
    • 立直麻将牌效益理论
    • 梅花易数学习笔记
    • 压力管理
2024-03-24
架构设计
目录

数据库分库分表

# Mysql 大表优化

如果存储的数据过多,查询效率会大大降低,如何去解决这个问题?

1,限定数据的范围:禁止不带任何限制数据范围条件的查询语句,这样就不用查询整个数据库

2,范式优化(垂直拆表):优化为 BC 范式,删除重复数据,或者单纯的拆字段

3,水平拆表:保持数据表结构不变,通过某种策略将存储的数据分片。这样每一片数据分散到不同的表或者库中

4,读写分离:主读副写,配置一下来实现 mysql 的主从复制

今天介绍的重点就是垂直拆表(拆字段)和水平拆表(拆数据)

# 分表

垂直分表:表中的字段较多,一般将不常用的、数据较大、长度较长的拆分到扩展表。一般情况加表的字段可能有几百列,此时是按照字段进行数竖直切。注意垂直分是列多的情况

垂直分表的拆分原则是将热点数据(可能会冗余经常一起查询的数据)放在一起作为主表,非热点数据放在一起作为扩展表。这样更多的热点数据就能被缓存下来,进而减少了随机读 IO。拆了之后,要想获得全部数据就需要关联两个表来取数据。但记住,千万别用 join,因为 join 不仅会增加 CPU 负担并且会讲两个表耦合在一起

水平分表:单表的数据量太大。按照某种规则(RANGE、HASH 取模等),切分到多张表里面去。 但是这些表还是在同一个库中,所以库级别的数据库操作还是有 IO 瓶颈。这种情况是不建议使用的,因为数据量是逐渐增加的,当数据量增加到一定的程度还需要再进行切分。比较麻烦

阿里巴巴的《Java开发手册》提出:

单表行数超过500万行或者单表容量超过2GB,才推荐进行分库分表。
1

当然每个业务方向有不同的分表机制,QPS、数据量、业务场景等不同,需要根据实际情况来选择分表机制。同时由于每个公司数据库硬件配置不同,分表的阈值也不同。请在分库分表前预估数据量级以及 QPS,根据这两个指标咨询 DBA 同学,并且观察历史业务得出一个合理的分表阈值以及分表的数量

同时注意,分库分表不要自己手写代码,这样容易和业务代码耦合,维护起来很困难。我在线上就见过以 product_id 的某位分成10个表的业务代码,我们可以借助一些框架处理这个问题,比如 MyCAT、Cobar 之类的

# MyCat

Mycat 是数据库中间件,所谓中间件数据库中间件是连接 Java 应用程序和数据库中间的软件

  • 一个彻底开源的,面向企业应用开发的大数据库集群
  • 支持事务、ACID、可以替代 MySQL 的加强版数据库
  • 一个可以视为 MySQL 集群的企业级数据库,用来替代昂贵的 Oracle 集群
  • 一个融合内存缓存技术、NoSQL 技术、HDFS 大数据的新型 SQL Server
  • 结合传统数据库和新型分布式数据仓库的新一代企业级数据库产品 一个新颖的数据库中间件产品

Mycat 作用为:能满足数据库数据大量存储;提高了查询性能 在这里插入图片描述

# sharing-sphere

Apache ShardingSphere 是一款分布式的数据库生态系统, 可以将任意数据库转换为分布式数据库,并通过数据分片、弹性伸缩、加密等能力对原有数据库进行增强

sharing-sphere 可以用来实现进行多库分表,只需要一些简单的配置即可

<dependency>
    <groupId>org.apache.shardingsphere</groupId>
    <artifactId>sharding-jdbc-spring-boot-starter</artifactId>
    <version>4.1.1</version>
</dependency>
 <dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
</dependency>
<dependency>
    <groupId>com.baomidou</groupId>
    <artifactId>mybatis-plus-boot-starter</artifactId>
</dependency>
1
2
3
4
5
6
7
8
9
10
11
12
13

相关配置:

spring:
  shardingsphere:
    props:
      sql:
        ## 打印sql
        show: true
    datasource:
      // 使用两个库 ds0 和 ds1
      names: ds0
      ds0:
        jdbc-url: jdbc:mysql://127.0.0.1:3306/your_database?useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=Asia/Shanghai
        username: root
        password: 123456
        type: com.zaxxer.hikari.HikariDataSource
        driver-class-name: com.mysql.cj.jdbc.Driver
      ds1:
      .......
    sharding:
      ## 数据分片规则配置
      tables:
        ## 逻辑表名称
        document_trans:
          ## 由数据源名 + 表名组成(参考 Inline 语法规则)
          ## actual-data-nodes: ds0.document_trans_? (?代表任意个表),如果是 ds0.document_trans_$->{0, 31} 就表示0到31个表
          actual-data-nodes: ds0.document_trans_?
          ## 分表策略
          table-strategy:
            ## 用于单分片键的标准分片场景
            standard:
              ## 自定义分片算法实现类
              precise-algorithm-class-name: com.xxx.algorithm.table.MyTableStandardPreciseAlgorithm
              ## 除了分片算法实现类,我们还可以使用 sharding-algorithm-name 来指定一些比较简单的分片算法
              sharding-algorithm-name: my-table-algorithm
              ## 分片列名称
              sharding-column: enterprise_id

          ## 分片算法配置
          sharding-algorithms:
            ## 上面定义的分表算法
            my-table-algorithm:
              ## 该分表算法的类型
              type: INLINE
              props:
              	## 具体的分表算法,我们采用 enterprise_id 除以32的余数来算
                algorithm-expression: document_trans_$->{enterprise_id % 32}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45

配置完毕后自动进行分表,但是有一个缺点,就是后续查数据可能比较麻烦了

官网:sharing-sphere (opens new window)

shardingsphere 高版本(5.1.x以上)导入的时候可能会遇到一个问题

Caused by: org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type 'org.apache.shardingsphere.infra.config.mode.ModeConfiguration' available: expected at least 1 bean which qualifies as autowire candidate. Dependency annotations: {}
1

ModeConfiguration 找不到,这时候需要在 application.yml 中配置,或者在代码中创建 ModeConfiguration,推荐用以下配置

  shardingsphere:
    props:
      sql-show: true
    mode:
      type: Standalone
      repository:
        type: File
        props:
          path: classpath:config/shardingsphere
1
2
3
4
5
6
7
8
9

# 分库

业务分库:一个数据库的表太多。此时就会按照一定业务逻辑进行垂直切分,比如用户相关的表放在一个数据库里,订单相关的表放在一个数据库里。注意此时不同的数据库应该存放在不同的服务器上,此时磁盘空间、内存、TPS 等等都会得到解决。这个一般在业务线上都有涉及

使用业务分库基本上就可以服务化了。例如,随着业务的发展一些公用的配置表、字典表等越来越多,这时可以将这些表拆到单独的库中,甚至可以服务化

数据分库:水平分库理论上切分起来是比较麻烦的,它是指将单张表的数据根据某种依据(hash、range 等)切分到多个服务器上去,每个服务器具有相应的库与表,只是表中数据集合不同。 水平分库分表能够有效的缓解单机和单库的性能瓶颈和压力,突破 IO、连接数、硬件资源等的瓶颈

分库后可能遇到事务问题、分布式 ID 问题等,在我的其他博客中都有详细介绍

# 分库分表常见问题

# 非 partition key 的查询问题

partition key 表示数据分库的依据,比如我们按照主键的奇偶性,去将数据分到两个库中。此时主键就是 partition key。如果用户使用了其他字段做查询,就比较麻烦了

此时我们可以先将这其他字段转换为主键,然后再查询,如果希望每次查询时不这么麻烦,可以将数据整合放入中间件中,比如将数据放进 es 中,从 es 中查出主键,然后去数据库中查询完整的数据

某些特殊情况下,还可以用基因法,比如非分表键可以解析出分表键出来,比如常见的,订单号生成时,可以包含客户号进去,通过订单号查询,就可以解析出客户号

其实该问题还有问题变种,就是跨节点 Join 关联问题,需要在查询时,将多个节点的数据合并起来。解法可以是提前将数据写进 es,或者在建表的时候,就提前把需要关联的字段放入主表中,避免关联操作;或者分开多次查询,调用不同模块服务,获取到数据后,代码层进行字段计算拼装

# 扩容问题

数据太多了,我们先再增加几个库存放这张表的数据。此时我们可以借鉴 java 中 hashmap 扩容的做法。扩容是成倍的,就像下图一样,大致思路先新增两个机器,然后双写数据,然后迁移数据,完成后删除旧机器中的数据

标准双写迁移法

#数据库
最后更新: 2/28/2026, 11:31:29 AM
三高问题下的系统优化
详解 Spring Cloud

← 三高问题下的系统优化 详解 Spring Cloud→

最近更新
01
vibe coding 最佳实践
02-24
02
立直麻将牌效益理论
02-23
03
伪静态是什么
02-08
更多文章>
Theme by Vdoing
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式