Mysql

关注公众号 jb51net

关闭
首页 > 数据库 > Mysql > MySQL企业版数据脱敏与去标识化

MySQL企业版数据脱敏与去标识化的方法详解

作者:lang20150928

本文介绍了MySQL企业版的数据脱敏功能,包括掩码、随机生成和字典替换三大能力,强调组件方式更安全、支持中文和权限管理,适用于客服、医疗、金融等场景,但仅限企业版,社区版不支持该功能,需要的朋友可以参考下

一、什么是“数据脱敏”(Data Masking)?

简单说:把真实敏感信息“伪装”起来,让人看不到真实内容,但格式看起来还像真的。

例如:

这样,开发人员、客服人员能看到部分信息用于工作,但无法获取完整隐私。

二、MySQL 提供的数据脱敏功能

这是 MySQL 企业版(Enterprise Edition)的付费功能,不包含在免费的社区版中。

它提供了三种核心能力:

功能描述示例
1. 数据掩码(Masking)隐藏原始数据中的部分内容mask_ssn("123-45-6789") → "***-**-6789"
2. 随机生成测试数据(Random Generation)生成符合格式的假数据用于测试gen_rnd_email() → abc123@demo.com
3. 字典替换(Dictionary Substitution)用预设词库中的词替换真实信息“北京” → “上海”,“张三” → “李四”

三、两种实现方式:组件 vs 插件

从 MySQL 8.0.33 版本开始,脱敏功能从“插件”升级为“组件”(Component),这是更现代、更安全的架构。

比较项组件(Components)✅ 推荐插件(Plugin)❌ 旧版
是否支持多字节字符(如中文)✅ 是❌ 否
字典存储位置存在数据库表里(持久化)存在文件中
管理权限专用权限 MASKING_DICTIONARIES_ADMIN使用 FILE 权限(不安全)
函数自动注册✅ 安装即用❌ 手动加载
是否可同时启用❌ 不能同时启用两者!只能选一个

建议:如果你是新项目,使用组件方式(8.0.33+)

四、如何安装组件?

步骤1:创建字典表

CREATE TABLE IF NOT EXISTS mysql.masking_dictionaries(
    Dictionary VARCHAR(256) NOT NULL,
    Term VARCHAR(256) NOT NULL,
    UNIQUE INDEX dictionary_term_idx (Dictionary, Term),
    INDEX dictionary_idx (Dictionary)
) ENGINE = InnoDB DEFAULT CHARSET=utf8mb4;

这个表用来存“替换词库”,比如城市名、人名等。

步骤2:安装组件

INSTALL COMPONENT 'file://component_masking';
INSTALL COMPONENT 'file://component_masking_functions';

安装后,系统会自动提供一系列脱敏函数。

五、常用脱敏函数详解(8.5.2.4节)

1. 通用掩码函数

函数作用示例
mask_inner(str, left, right)保留首尾,中间用 X 替换mask_inner('hello', 1, 1) → hXXXo
mask_outer(str, left, right)保留中间,首尾用 X 替换mask_outer('hello', 2, 2) → XXllo

支持中文:

SELECT mask_inner("杭州西湖", 2, 1); -- 结果:杭X西

2. 特定类型掩码函数

函数用途示例输出
mask_pan()掩码银行卡号(保留最后4位)XXXXXXXXXXXX1234
mask_pan_relaxed()保留前6位(发卡行)和后4位123456XXXXXX1234
mask_ssn()掩码美国社保号***-**-1234
mask_iban()掩码国际银行账号DE** **** **** 1234
mask_uuid()掩码UUID****-****-****-****

3. 随机数据生成函数

函数输出示例
gen_rnd_email(6,8,'test.com')abc123.def456@test.com
gen_rnd_us_phone()1-555-123-4567(555区号是测试用)
gen_rnd_ssn()900-12-3456(900开头是非真实号码)
gen_rnd_pan()4111111111111111(测试卡号)
gen_range(1,100)返回1~100之间的随机整数

注意:这些生成的“随机数据”不能用于生产环境显示,只能用于测试。真实场景应配合 mask_XXX() 使用。

4. 基于字典的随机替换(高级用法)

(1)添加词库

-- 添加德国城市
SELECT masking_dictionary_term_add('DE_Cities', 'Berlin');
SELECT masking_dictionary_term_add('DE_Cities', 'Munich');

-- 添加美国城市
SELECT masking_dictionary_term_add('US_Cities', 'New York');
SELECT masking_dictionary_term_add('US_Cities', 'Los Angeles');

(2)从词库中随机取一个词

SELECT gen_dictionary('DE_Cities'); -- 可能返回 "Berlin"

(3)词库替换(用于脱敏)

-- 把 "Munich" 替换成一个美国城市
SELECT gen_blocklist('Munich', 'DE_Cities', 'US_Cities'); -- → "New York"

应用场景:培训系统中,把真实客户所在城市替换成随机城市,保护隐私。

六、典型应用场景

场景1:客服系统只看最后4位SSN

SELECT 
  id, 
  mask_ssn(CONVERT(ssn USING binary)) AS masked_ssn
FROM customer 
WHERE name = 'Joanna Bond';

结果:

| id | masked_ssn   |
|----|--------------|
| 786| ***-**-0007  |

客服只能看到最后4位,保护用户隐私。

为什么要 CONVERT(... USING binary)?
因为如果字段是 UTF8MB4(支持中文),即使是 VARCHAR(11),也可能占用超过11字节。而 mask_ssn() 要求输入正好11字节。转成 binary 可确保长度正确。

场景2:创建视图统一脱敏

CREATE VIEW masked_customer AS
SELECT 
  id, first_name, last_name,
  mask_ssn(CONVERT(ssn USING binary)) AS masked_ssn
FROM customer;

以后所有应用都查这个视图,自动获得脱敏数据。

场景3:医疗或金融数据合规

七、总结:关键理解点

重点解释
仅限企业版社区版不能使用此功能
推荐使用组件(8.0.33+)更安全、支持中文、权限管理更好
字典存在数据库里可集中管理、支持多用户协作
权限控制严格只有授权用户才能修改字典
生成的数据不能乱用gen_rnd_pan() 生成的卡号不能对外展示
支持多语言包括中文、日文等多字节字符
按角色授权访问普通员工看脱敏数据,管理员可看原文(需审计)

建议实践步骤

  1. 确认你使用的是 MySQL 企业版
  2. 升级到 8.0.33 或更高版本
  3. 卸载旧插件(如有)
  4. 运行 SQL 创建 masking_dictionaries 表
  5. 执行 INSTALL COMPONENT 安装两个组件
  6. 添加字典数据(如城市、姓名等)
  7. 在应用或视图中使用脱敏函数
  8. 为不同用户分配权限(如只读脱敏数据)

以上就是MySQL企业版数据脱敏与去标识化的方法详解的详细内容,更多关于MySQL企业版数据脱敏与去标识化的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文