python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python计算图片MD5值

浅析Python如何计算图片的MD5值

作者:detayun

MD5作为图片的指纹,可用于文件校验、缓存管理和爬虫去重等场景,本文介绍了三种计算图片MD5值的方法,并提供了完整的图片去重方案,有需要的小伙伴可以了解下

一文搞懂:从 base64 到二进制,3种方式计算图片MD5,附完整去重方案

前言

在日常开发中,我们经常遇到这样的场景:

场景需求
图片上传去重判断图片是否已经存在
本地文件对比判断文件是否被修改
爬虫去重避免下载重复图片
缓存管理用MD5作为缓存key

MD5 就是解决这类问题的神器!那么在 Python 中,如何计算一张图片的 MD5 值呢?

今天这篇文章,我会从 最简单到最完整,带你掌握所有方法

一、MD5 是什么?(30秒理解)

MD5 是一种哈希算法,可以把任意长度的数据,转换成一个 32位的十六进制字符串

MD5作为图片的"指纹",可用于文件校验、缓存管理和爬虫去重等场景,

它的特点:

特性说明
相同输入 → 相同输出同一张图片,MD5永远一样
不同输入 → 不同输出不同图片,MD5几乎肯定不同
单向不可逆无法从MD5还原出原图
有极小碰撞概率实际开发中可以忽略

一句话总结:MD5 就是图片的"指纹"!

二、3种计算方式(由浅入深)

假设我们有一张 base64 图片字符串:

base64_str = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg=="

方式一:直接对 base64 字符串算 MD5(最简单)

import hashlib

def md5_from_base64(base64_str):
    clean_str = base64_str.strip().replace('\n', '').replace(' ', '')
    return hashlib.md5(clean_str.encode()).hexdigest()

md5 = md5_from_base64(base64_str)
print(md5)  # a1b2c3d4e5f6...
优点缺点
一行代码搞定base64有空格/换行会导致误判
不需要解码data:image/png;base64, 前缀会出错

适合:快速验证,对精度要求不高的场景

方式二:对原始二进制算 MD5(✅ 推荐)

import hashlib
import base64

def md5_from_binary(base64_str):
    # 1. base64 → 二进制
    image_data = base64.b64decode(base64_str)
    # 2. 二进制 → MD5
    return hashlib.md5(image_data).hexdigest()

md5 = md5_from_binary(base64_str)
print(md5)
优点缺点
最准确,不受编码影响需要多一步解码
自动忽略空格/换行-
工业级标准做法-

⭐⭐⭐⭐⭐ 这是最推荐的方式!

方式三:从文件路径计算 MD5

如果你的图片是本地文件,根本不需要 base64:

import hashlib

def md5_from_file(file_path):
    md5 = hashlib.md5()
    with open(file_path, 'rb') as f:
        for chunk in iter(lambda: f.read(8192), b''):
            md5.update(chunk)
    return md5.hexdigest()

md5 = md5_from_file('photo.jpg')
print(md5)
优点缺点
最快,不用解码只能用于本地文件
内存友好(分块读取)-
支持大文件(几GB都行)-

⭐⭐⭐⭐⭐ 本地文件首选这个!

三、踩坑指南(非常重要!)

坑1:base64 带前缀

很多地方的 base64 长这样:

data:image/png;base64,iVBORw0KGgoAAAANSUhEUg...

必须去掉前缀!

def extract_base64(s):
    if ',' in s:
        return s.split(',', 1)[1]  # 只分割一次
    return s

clean_b64 = extract_base64(base64_str)
md5 = md5_from_binary(clean_b64)

坑2:base64 有空格/换行

不同来源的 base64 格式不一样:

# 来源A(干净)
"iVBORw0KGgoAAAANSUhEUg..."

# 来源B(带换行)
"iVBORw0KGgoAAAANSUhEUg...
AAAAAAAAAAAAAAAAA..."

解决办法:解码时自动忽略!(方式二天然支持)

坑3:肉眼看一样,但MD5不同

比如:

这时候 MD5 会不同,但你可能觉得是"同一张图"。

解决方案:使用感知哈希(pHash)

# pip install imagehash
import imagehash
from PIL import Image
import io
import base64

def phash_from_base64(base64_str):
    image_data = base64.b64decode(base64_str)
    img = Image.open(io.BytesIO(image_data))
    return str(imagehash.phash(img))  # 返回感知哈希值

# 即使压缩过,pHash 也可能相同!
对比MD5pHash
精确匹配
压缩后识别
速度极快较慢
使用场景去重/校验相似图搜索

四、完整实战:图片去重管理器

下面是一个可以直接用的 图片去重类

import hashlib
import base64
import json

class ImageDeduplicator:
    """图片去重管理器"""
    
    def __init__(self):
        self.seen = {}  # {md5: count} 记录见过的图片
    
    def get_md5(self, base64_str):
        """计算图片MD5(推荐方式)"""
        # 去除前缀
        if ',' in base64_str:
            base64_str = base64_str.split(',', 1)[1]
        # base64 → 二进制 → MD5
        image_data = base64.b64decode(base64_str)
        return hashlib.md5(image_data).hexdigest()
    
    def check(self, base64_str, label=""):
        """
        检查图片是否重复
        返回: (是否重复, md5值)
        """
        md5 = self.get_md5(base64_str)
        
        if md5 in self.seen:
            self.seen[md5] += 1
            return True, md5, self.seen[md5]
        else:
            self.seen[md5] = 1
            return False, md5, 1
    
    def save(self, filepath='seen_images.json'):
        """保存去重记录"""
        with open(filepath, 'w') as f:
            json.dump(self.seen, f, indent=2)
    
    def load(self, filepath='seen_images.json'):
        """加载去重记录"""
        try:
            with open(filepath, 'r') as f:
                self.seen = json.load(f)
        except FileNotFoundError:
            self.seen = {}


# ==================== 使用示例 ====================

dedup = ImageDeduplicator()

# 模拟3张图片(第1张和第3张是同一张)
images = [
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A"),
    ("data:image/png;base64,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA", "图片B"),
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A(重复)"),
]

for b64, name in images:
    is_dup, md5, count = dedup.check(b64, name)
    status = "🔁 重复" if is_dup else "✅ 新图片"
    print(f"{name}: {status} | MD5: {md5} | 已出现{count}次")

# 保存记录
dedup.save()

运行结果

图片A: ✅ 新图片 | MD5: a1b2c3d4e5f6... | 已出现1次
图片B: ✅ 新图片 | MD5: f6e5d4c3b2a1... | 已出现1次
图片A(重复): 🔁 重复 | MD5: a1b2c3d4e5f6... | 已出现2次

五、总结对比

方式代码量准确度推荐场景
对base64字符串算MD5⭐ 最少⭐⭐⭐快速验证
对二进制算MD5⭐⭐ 少⭐⭐⭐⭐⭐所有场景(推荐)
从文件路径算MD5⭐⭐ 少⭐⭐⭐⭐⭐本地文件处理
pHash感知哈希⭐⭐⭐⭐ 多⭐⭐⭐⭐⭐相似图识别

六、一句话总结

推荐做法:base64 → 解码为二进制 → hashlib.md5() → hexdigest()

记住去前缀:base64_str.split(',')[1]

需要相似图识别?用 imagehash.phash() 代替 MD5

以上就是浅析Python如何计算图片的MD5值的详细内容,更多关于Python计算图片MD5的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文