首页 > 软件编程 > java > Java数据判重

Java面试之如何实现10亿数据判重

2024-02-19 15:10:10 作者：Java中文社群

当数据量比较大时,使用常规的方式来判重就不行了,所以这篇文章小编主要来和大家介绍一下Java实现10亿数据判重的相关方法,希望对大家有所帮助

当数据量比较大时，使用常规的方式来判重就不行了。

例如，使用 MySQL 数据库判重，或使用 List.contains() 或 Set.contains() 判重就不可行，因为 MySQL 在数据量大时查询就会非常慢，而数据库又是及其珍贵的全局数据库资源。

《阿里巴巴Java开发手册》上也说了，如果单表数据量超过 500 万或 2GB 时就建议分库分表了，如下图所示：

所以数据库去重显然是不行的。而使用集合也是不合适的，因为数据量太大，使用集合会导致内存不够用或内存溢出和 Full GC 频繁等问题，所以此时我们的解决方案通常是采用布隆过滤器来实现判重，布隆过滤器的详情请参开文末补充内容

知识扩展

除了布隆过滤器之外，我们还可以使用 BitMap（位图）的数据类型来实现判重。

位图（BitMap）是一种数据结构，用于表示一个特定范围内的元素是否存在或者某种状态，通常用二进制位来表示。在位图中，每一个位只能是 0 或 1，分别表示元素不存在或存在。位图通常用一个 bit 数组来实现，每个 bit 位对应一个元素，如下图所示：

其中，上图中的 1 表示有值，上面 BitMap 描述的值是 1,3,5。

BitMap 优点分析

位图的优势包括：

空间效率优势：位图极大地节省了存储空间。对于大量稀疏数据，特别是当元素数量远大于实际存在的项时，相比于使用传统的列表、集合等数据结构，位图占用的空间极小。
查询速度：由于内存访问是按字节或字进行的，因此对单个元素的存在性检查时间复杂度为 O(1)，即常量时间，非常快速。
批量操作高效：对于批量插入、删除和查询操作，尤其是统计某一范围内元素的数量，位图表现出优秀的性能。

BitMap VS int

以 Java 中的 int 为例，来对比观察 BitMap 的优势，在 Java 中，int 类型通常需要 32 位（4 字节*8），而 BitMap 使用 1 位就可以来标识此元素是否存在，所以可以认为 BitMap 占用的空间大小，只有 int 类型的 1/32，所以有大数据量判重时，使用 BitMap 也可以实现。

PS：布隆过滤器的底层就是基于 BitMap 数据结构实现的。

BitMap 在 Java 中的使用

BitMap 在 Java 中的具体实现是 java.util 中的 BitSet，BitSet 是一个可变大小的位向量，能够动态增长以容纳更多的位数据，以下是 BitSet 基本使用示例：

import java.util.BitSet;

public class BitmapExample {
    public static void main(String[] args) {
        // 创建一个BitSet实例
        BitSet bitmap = new BitSet();

        // 设置第5个位置为1，表示第5个元素存在
        bitmap.set(5);

        // 检查第5个位置是否已设置
        boolean exists = bitmap.get(5);
        System.out.println("Element at position 5 exists: " + exists);  // 输出: Element at position 5 exists: true

        // 设置从索引10到20的所有位置为1
        bitmap.set(10, 21);  // 参数是包含起始点和不包含终点的区间

        // 计算bitset中所有值为1的位的数量，相当于计算设置了的元素个数
        int count = bitmap.cardinality();
        System.out.println("Number of set bits: " + count);

        // 清除第5个位置
        bitmap.clear(5);

        // 判断位图是否为空
        boolean isEmpty = bitmap.isEmpty();
        System.out.println("Is the bitset empty after clearing some bits? " + isEmpty);
    }
}

课后思考

除了布隆过滤器和 BitMap 之外，还有哪些大数据量判重的实现方案呢？布隆过滤器实现判重的原理又是啥呢？

知识补充

什么是布隆过滤器？如何实现布隆过滤器？

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它基于位数组和多个哈希函数的原理，可以高效地进行元素的查询，而且占用的空间相对较小，如下图所示：

根据 key 值计算出它的存储位置，然后将此位置标识全部标识为 1（未存放数据的位置全部为 0），查询时也是查询对应的位置是否全部为 1，如果全部为 1，则说明数据是可能存在的，否则一定不存在。

也就是说，如果布隆过滤器说一个元素不在集合中，那么它一定不在这个集合中；但如果它说一个元素在集合中，则有可能是不存在的（存在误差）。

1.布隆执行过程

布隆过滤器的具体执行步骤如下：

在 Redis 中创建一个位数组，用于存储布隆过滤器的位向量。
初始化多个哈希函数，并将每个哈希函数的计算结果对应的位数组位置设置为 1。
添加元素到布隆过滤器时，对元素进行多次哈希计算，并将对应的位数组位置设置为 1。
查询元素是否存在时，对元素进行多次哈希计算，并检查对应的位数组位置是否都为 1。

2.布隆使用场景

布隆过滤器的主要使用场景有以下几个：

大数据量去重：可以用布隆过滤器来进行数据去重，判断一个数据是否已经存在，避免重复插入。
缓存穿透：可以用布隆过滤器来过滤掉恶意请求或请求不存在的数据，避免对后端存储的频繁访问。
网络爬虫的 URL 去重：可以用布隆过滤器来判断 URL 是否已经被爬取，避免重复爬取。

3.如何实现布隆过滤器？

在 Redis 中不能直接使用布隆过滤器，但我们可以通过 Redis 4.0 版本之后提供的 modules (扩展模块) 的方式引入，它的实现步骤如下。

① 打包RedisBloom插件

git clone github.com/RedisLabsModules/redisbloom.git

cd redisbloom

make # 编译redisbloom

编译正常执行完，会在根目录生成一个 redisbloom.so 文件。

② 启用RedisBloom插件

重新启动 Redis 服务，并指定启动 RedisBloom 插件，具体命令如下：

redis-server redis.conf --loadmodule ./src/modules/RedisBloom-master/redisbloom.so

③ 创建布隆过滤器

创建一个布隆过滤器，并设置期望插入的元素数量和误差率，在 Redis 客户端中输入以下命令：

BF.RESERVE my_bloom_filter 0.01 100000

④ 添加元素到布隆过滤器

在 Redis 客户端中输入以下命令：

BF.ADD my_bloom_filter leige

⑤ 检查元素是否存在

在 Redis 客户端中输入以下命令：

BF.EXISTS my_bloom_filter leige

到此这篇关于Java面试之如何实现10亿数据判重的文章就介绍到这了,更多相关Java数据判重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Java如何实现海量数据判重