MySQL-优化方案

JAY.LIN 收录于数据库

2025-03-12 约 3407 字预计阅读 7 分钟

https://bing.ee123.net/img/rand?artid=146210642

MySQL 优化方案

一、MySQL 查询过程

MySQL 查询过程是指从客户端发送 SQL 语句到 MySQL 服务器，再到服务器返回结果集的整个过程。这个过程涉及多个组件的协作，包括连接管理、查询解析、优化、执行和结果返回等。

1.1 查询过程的关键组件

连接管理器：管理客户端连接。
解析器：解析 SQL 语句。
优化器：生成执行计划。
执行引擎：执行查询。
存储引擎：存储和检索数据。

1.2 查询过程的详细步骤

客户端发送查询请求
- 客户端（如应用程序、命令行工具）通过 MySQL 协议（如 TCP/IP）向 MySQL 服务器发送 SQL 查询请求。
- 请求内容可以是 SELECT、INSERT、UPDATE、DELETE 等 SQL 语句。
连接管理
- MySQL 服务器接收到请求后，首先由连接管理器处理。
- 连接管理器负责：
  - 验证客户端的用户名和密码。
  - 检查客户端的权限（是否有权限执行该查询）。
  - 分配一个线程来处理该请求（MySQL 是多线程架构，每个连接由一个线程处理）。
查询缓存（MySQL 8.0 之前）
- 在 MySQL 8.0 之前，服务器会检查查询缓存（Query Cache）。
  - 如果查询缓存中已经存在该查询的结果，则直接返回缓存结果。
  - 如果查询缓存未命中，则继续后续步骤。
- 在MySQL 8.0 移除了查询缓存功能，因为在高并发场景下，查询缓存可能成为性能瓶颈。
查询解析
- 解析器（Parser）对 SQL 语句进行词法分析和语法分析。
  - 词法分析：将 SQL 语句拆分为关键字、表名、列名、操作符等 token。
  - 语法分析：检查 SQL 语句是否符合 MySQL 的语法规则。
- 如果 SQL 语句有语法错误，解析器会返回错误信息。
查询优化
- 查询优化器（Optimizer）对 SQL 语句进行优化，生成一个高效的执行计划。
  - 优化器会考虑以下因素：
    - 使用哪些索引。
    - 表的连接顺序（JOIN 的顺序）。
    - 是否可以使用覆盖索引。
    - 是否可以使用索引合并（Index Merge）。
  - 优化器会生成多个可能的执行计划，并选择成本最低的一个。
- 可以通过 EXPLAIN 命令查看优化器生成的执行计划。
查询执行
- 执行引擎（Execution Engine）根据优化器生成的执行计划，调用存储引擎的接口执行查询。
  - 执行引擎负责：
    - 打开表。
    - 读取数据（通过索引或全表扫描）。
    - 执行排序、分组、聚合等操作。
    - 处理 JOIN 操作。
  - 执行引擎与存储引擎（如 InnoDB、MyISAM）交互，获取数据。
存储引擎处理
- 存储引擎（Storage Engine）负责数据的存储和检索。
  - 存储引擎根据执行引擎的请求，从磁盘或内存中读取数据。
  - 存储引擎会将数据返回给执行引擎。
结果返回
- 执行引擎将处理后的数据返回给客户端。
  - 如果查询涉及排序、分组或聚合，执行引擎会在返回结果前完成这些操作。
  - 结果集通过 MySQL 协议发送给客户端。
- 客户端接收到结果后，可以继续处理数据（如显示、存储或进一步计算）。
日志记录
- MySQL 会根据配置记录相关日志：
  - 二进制日志（Binlog）：记录所有修改数据的操作（如 INSERT、UPDATE、DELETE），用于主从复制和数据恢复。
  - 慢查询日志（Slow Query Log）：记录执行时间超过阈值的查询，用于性能分析。
  - 通用日志（General Log）：记录所有查询请求，用于调试。
连接关闭
- 查询完成后，客户端可以选择关闭连接或继续发送新的查询请求。
- 如果连接空闲时间超过 wait_timeout，MySQL 会自动关闭连接以释放资源。

二、SQL 优化方案

2.1 索引优化

索引是提高查询性能的核心手段，但需要合理使用。

创建合适的索引
- 单列索引：对经常用于 WHERE、JOIN、ORDER BY 和 GROUP BY 的列创建索引。
```
CREATE INDEX idx_name ON table_name(column_name);
```
- 复合索引：对多个列的组合查询创建复合索引。
```
CREATE INDEX idx_name ON table_name(column1, column2);
```
- 前缀索引：对文本列的前缀创建索引，减少索引大小。
```
CREATE INDEX idx_name ON table_name(column_name(10));
```
避免过度索引
- 索引会增加写操作（INSERT、UPDATE、DELETE）的开销，因此不要为不常用的列创建索引。
- 删除未使用或重复的索引。
```
DROP INDEX idx_name ON table_name;
```
使用覆盖索引
- 如果查询只需要从索引中获取数据，而不需要回表查询数据行，可以显著提升性能。
```
SELECT column1, column2 FROM table_name WHERE column1 = 'value';
-- 确保 (column1, column2) 上有索引
```
避免索引失效
1. 避免在索引列上使用函数或表达式
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE YEAR(created_at) = 2023;
  - 原因：MySQL 无法对 YEAR(created_at) 使用索引，因为它需要对每一行的 created_at 进行计算。
  - 优化方法：
    -- 优化后 SELECT * FROM users WHERE created_at >= '2023-01-01' AND created_at < '2024-01-01';
2. 避免在索引列上使用 NOT、!= 或 <>
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE status != 'active';
  - 原因：NOT、!= 或 <> 需要扫描所有不等于条件的值，无法有效利用索引。
  - 优化方法：尽量避免使用 !=，尝试改写查询逻辑。
3. 避免在索引列上使用 OR 条件
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE age = 25 OR name = 'John';
  - 原因：如果 name 列没有索引，MySQL 无法使用 age 列的索引。
  - 优化方法：
    -- 优化后 SELECT * FROM users WHERE age = 25 UNION SELECT * FROM users WHERE name = 'John';
4. 避免在索引列上使用 LIKE 以通配符开头
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE name LIKE '%John%';
  - 原因：当通配符%出现在查询字符串的开头时，MySQL无法利用索引的前缀部分来加速查询。
  - 优化方法：
    - 尽量避免以 % 开头的模糊查询。
    - 如果必须使用，考虑全文索引（FULLTEXT）或其他搜索引擎（如 Elasticsearch）。
5. 避免数据类型不匹配
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE phone = 123456789;
  - 原因：如果 phone 列是字符串类型，而查询条件是数字类型，MySQL 会对索引字段进行隐式类型转换，导致索引失效。
  - 优化方法：
    -- 优化后 SELECT * FROM users WHERE phone = '123456789';
6. 避免复合索引未遵循最左前缀原则
  - 示例：
    -- 创建复合索引 CREATE INDEX idx_name_age ON users(name, age); -- 索引失效 SELECT * FROM users WHERE age = 25;
  - 原因：没有遵循最左前缀原则，MySQL 无法利用复合索引的有序性，从而导致索引失效。
  - 优化方法：确保查询条件包含复合索引的最左列。
    -- 优化后 SELECT * FROM users WHERE name = 'John' AND age = 25;
7. 避免在低区分度的字段上建索引
  - 示例：
    -- 索引失效 SELECT * FROM users WHERE sex = '男';
  - 原因：在低区分度的字段上，索引树中每个键值对应的数据行数非常多。查询时，MySQL 需要扫描大量数据行，索引的效果几乎等同于全表扫描。
  - 优化方法：尽量避免对低选择性的列创建索引。

2.2 查询重构

优化查询语句本身可以显著提升性能。

避免 SELECT *

只选择需要的列，减少数据传输和内存占用。

-- 不推荐
SELECT * FROM table_name;
-- 推荐
SELECT column1, column2 FROM table_name;

使用 LIMIT 时避免高偏移量

当 OFFSET 值很大时，MySQL 需要扫描大量数据才能找到起始位置，导致性能下降。

-- 不推荐
SELECT * FROM table_name LIMIT 10 OFFSET 100000;
-- 推荐
SELECT * FROM table_name WHERE id > 100000 ORDER BY id LIMIT 10;

避免子查询
- 子查询的内部执行计划是先执行子查询再执行外层查询，由于每次执行子查询都需要创建并删除临时表，会消耗大量资源，从而影响数据库性能。
```
-- 不推荐
SELECT * FROM table_name WHERE column1 IN (SELECT column1 FROM table2);
-- 推荐
SELECT t1.* FROM table_name t1 JOIN table2 t2 ON t1.column1 = t2.column1;
```
JOIN 查询优化
- 确保 JOIN 列上有索引：JOIN 条件中的列（通常是外键列）必须有索引。
- 小表驱动大表：MySQL 通常会选择较小的表作为驱动表，以减少扫描的行数。
- 过滤数据：在 JOIN 之前，使用 WHERE 条件减少参与 JOIN 的数据量。
```
SELECT * FROM table1 t1
JOIN table2 t2 ON t1.id = t2.id
WHERE t1.column = 'value';
```
合理使用 IN 和 EXISTS
- IN
  - 用法：用于判断某个值是否在子查询返回的结果集中。
  - 适用场景：当子查询返回的结果集较小时，IN 的性能较好。
  - 执行过程：
    1. 执行子查询，获取结果集。
    2. 将结果集加载到内存中。
    3. 对外部查询的每一行，检查是否在结果集中。
- EXISTS
  - 用法：用于判断子查询是否返回任何行。如果子查询返回至少一行，EXISTS 返回 TRUE，否则返回 FALSE。
  - 适用场景：当子查询返回的结果集较大时，EXISTS 的性能较好。
  - 执行过程：
    - 对外部查询的每一行，执行子查询。
    - 如果子查询返回至少一行，则返回 TRUE。
使用 EXPLAIN 分析查询
- 使用 EXPLAIN 查看查询执行计划，找出性能瓶颈。
- 关注 type（访问类型）、key（使用的索引）、rows（扫描的行数）等字段。
```
EXPLAIN SELECT * FROM table_name WHERE column1 = 'value';
```

2.3 表结构优化

选择合适的数据类型
- 使用最小的数据类型存储数据，例如：
  - 使用 INT 而不是 BIGINT。
  - 使用 VARCHAR 而不是 TEXT。
- 避免使用 NULL，尽量使用默认值。
规范化与反规范化
- 规范化：减少数据冗余，提高数据一致性。
- 反规范化：在查询频繁的场景下，适当冗余数据以减少 JOIN 操作。

分区表

对大表进行分区，提升查询性能。

CREATE TABLE table_name (
	id INT,
	created_at DATE
) PARTITION BY RANGE (YEAR(created_at)) (
	PARTITION p0 VALUES LESS THAN (2020),
	PARTITION p1 VALUES LESS THAN (2021),
	PARTITION p2 VALUES LESS THAN (2022)
);

2.4 配置优化

调整缓冲区大小
- 增加 innodb_buffer_pool_size，使其足够容纳常用数据。
```
SET GLOBAL innodb_buffer_pool_size = 1G;
```
调整查询缓存
- 在 MySQL 8.0 之前，可以启用查询缓存（适用于读多写少的场景）。
```
SET GLOBAL query_cache_size = 64M;
```
调整连接数
- 增加最大连接数，避免连接耗尽。
```
SET GLOBAL max_connections = 500;
```
调整日志配置
- 关闭不必要的日志（如慢查询日志、二进制日志）以减少 I/O 开销。
```
SET GLOBAL slow_query_log = OFF;
```

2.5 其他优化技巧

批量操作

使用批量插入或更新，减少单条语句的开销。

INSERT INTO table_name (column1, column2) VALUES ('value1', 'value2'), ('value3', 'value4');

使用缓存
- 使用 Redis 或 Memcached 缓存热点数据，减少数据库压力。
分库分表
- 对于超大规模数据，考虑分库分表（如使用 ShardingSphere 或 MyCat）。