MySQL给字符串加一个高效索引的实现
作者:程序员拾山
需求
在日常需求中,用户使用手机号或者邮箱登录某一个系统,是一个很常见的操作,那如何在类似手机号或者邮箱这样的字段上建立一个合理的索引呢?
前缀索引
前缀索引,就是以一个字段值的一部分作为索引。我们在MySQL中创建索引时,如果不指定索引字段的长度,那么就会以整个字符串来建立索引。
语句1: alter table test add index idx(email); 语句2: alter table test add index idx(email(8));
对于语句1,创建的索引中,会包含每条记录中的整个email字符串值。
对于语句2,创建的索引中,保存的是每条记录中email字段的前8个字节。
使用前缀索引的优势很明显,那就是索引占用的空间会更小,整个索引树会更紧凑,树的高度相对更低。
但是相应的,索引的区分度会变低,可能导致索引扫描行数增加。
在我们创建索引时,索引的区分度是一个很重要的指标。区分度越高,重复的值就越少,扫描的效率就越高。
在使用前缀索引时,合理规划使用的前缀长度,不仅可以节省空间,还可以不用额外增加扫描的行数。具体使用多少的长度,建议根据我们的实际业务场景来判断、测试。
倒序+前缀索引
倒序+前缀索引有一个经典的使用场景,就是对身份证号做索引。
假设我们现在要维护一个市县所有人的身份信息,其中按身份证号查询是一个高频场景。
身份证号码一共15位或者18位,一般来说,同一个市县的人身份证号前6位一般是相同的,如果直接对身份证号做全索引,那么会比较浪费空间,导致性能下降。直接前缀索引的话,前6位的区分度又很低(甚至可以说没有,因为大家前6位基本都一样)。
这时,使用倒序+前缀索引的好处就体现出来了。
我们先将身份证倒序存储,或者冗余一个倒序的身份证号字段,然后取前6位做前缀索引。
身份证后6位的区分度已经基本上够我们使用了,如果你还觉得查询速度不够,那取前8位也是没问题的。
总结
我们之所以尽量避免对字符串加全值索引,是因为字符串字段的长度不好预估,可能会变得很大。在一个值很大的字段上做索引,会额外的占用更多的空间,数据页上可存储的索引值会变少,导致MySQL树的高度变高,这样查询数据时,IO增加,性能下降。
但是,凡事都有例外,有时我们也不能为了优化而优化。
比如我们现在要维护一个高校的师生信息,按整个学校2万人,每年新增1万新学生来计算,10年时间也不过12万数据而已。即使在一个身份证号字段上加上全字段索引又能多占用多少空间呢?能省出多少性能呢?
有时,从业务量预估优化和收益比,也是一个很好的习惯。
到此这篇关于MySQL给字符串加一个高效索引的实现的文章就介绍到这了,更多相关MySQL字符串高效索引内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!