Python中图片与pdf识别文本的方法总结(OCR)
作者:幸福清风
在Python编程语言中,我们可以利用各种库来实现OCR功能,以便从PDF文档中的图片部分提取文本信息,这篇文章主要介绍了Python中图片与pdf识别文本的相关资料,需要的朋友可以参考下
1、PaddleOCR:
基于百度飞桨框架开发,模型丰富,支持多语言识别,包括中文、英文等。性能强大,适合复杂场景的文字识别
安装 PaddleOCR 库:
pip install paddleocr
示例代码
from paddleocr import PaddleOCR, draw_ocr from PIL import Image # 初始化 PaddleOCR # 参数解释: # `lang`:指定语言模型,如 'en'(英文)、'ch'(中文)等。 # `use_angle_cls`:是否启用文字方向分类器。 ocr = PaddleOCR(use_angle_cls=True, lang='en') # 也可以设置为 'ch' 用于中文[^28^] # 指定图片路径 img_path = 'example.jpg' # 替换为你的图片路径 # 执行 OCR 识别 result = ocr.ocr(img_path, cls=True) # `cls=True` 表示启用方向分类器 # 打印识别结果 for line in result: print(line) # 可选:绘制识别结果并保存 if result: image = Image.open(img_path).convert('RGB') boxes = [line[0] for line in result] # 提取文字框 txts = [line[1][0] for line in result] # 提取文字内容 scores = [line[1][1] for line in result] # 提取置信度 # 绘制结果 im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/PaddleOCR/doc/fonts/simfang.ttf') im_show = Image.fromarray(im_show) im_show.save('result.jpg') # 保存绘制后的图片[^28^]
2、RapidOCR
首先,确保安装了 RapidOCR 的 ONNXRuntime 版本,这是一个轻量级且高效的推理引擎:
pip install rapidocr_onnxruntime
示例代码:识别数字和字母
以下代码展示了如何使用 RapidOCR 识别图片中的数字和字母,并仅打印识别结果:
from rapidocr_onnxruntime import RapidOCR # 初始化 OCR 引擎 ocr = RapidOCR() # 指定图片路径 img_path = 'example.jpg' # 替换为你的图片路径 # 执行识别 result, _ = ocr(img_path) # 提取并打印识别结果(仅数字和字母) if result: for line in result: text = line[1] # 提取文字内容 # 筛选只包含数字和字母的文本 if text.isalnum(): print(text) else: print("未识别到文字")
注意事项
- 图片路径:确保
img_path
指向的图片包含数字或字母。 - 语言设置:默认情况下,RapidOCR 支持中英文混合识别。如果需要识别其他语言,可以参考文档进行配置。
- 环境要求:确保 Python 版本为 3.6 或更高。
3、EasyOCR
特点:易于使用,支持多种语言(包括中文、英文等),基于深度学习技术,适合初学者和快速集成。
安装方法:
pip install easyocr
使用示例:
import easyocr reader = easyocr.Reader(['en', 'ch_sim']) # 支持多语言 img_path = 'example.jpg' result = reader.readtext(img_path) for line in result: print(line[1]) # 打印识别结果
4、Pytesseract
特点:Tesseract 的 Python 封装,支持多种语言,使用简单,适合传统 OCR 任务。
安装方法:
pip install pytesseract
需要先安装 Tesseract OCR,可以从 Tesseract 官网 下载。
使用示例:
from PIL import Image import pytesseract img_path = 'example.jpg' text = pytesseract.image_to_string(Image.open(img_path), lang='eng') print(text) # 打印识别结果
5、DocTR
特点:专注于文档分析和表格识别,能够提取文档中的结构化信息,适合处理复杂布局的文档。
安装方法:
pip install python-doctr
使用示例:
from doctr.models import ocr_predictor from doctr.io import DocumentFile img_path = 'example.jpg' doc = DocumentFile.from_images(img_path) model = ocr_predictor(pretrained=True) result = model(doc) for block in result.pages[0].blocks: for line in block.lines: for word in line.words: print(word.value) # 打印识别结果
6、PyOCR
特点:封装了多个 OCR 引擎(如 Tesseract、Cuneiform 等),提供了统一的接口。
安装方法:
pip install pyocr
使用示例:
import pyocr from PIL import Image tools = pyocr.get_available_tools() ocr_tool = tools[0] img_path = 'example.jpg' text = ocr_tool.image_to_string(Image.open(img_path), lang='eng') print(text) # 打印识别结果
选择建议:
速度优先:推荐使用 RapidOCR 或 EasyOCR。
准确性优先:推荐使用 PaddleOCR。
易用性优先:推荐使用 EasyOCR。
文档分析优先:推荐使用 docTR。
注意:根据你的具体需求(如语言支持、应用场景、性能要求等),可以选择最适合的 OCR 库。
总结
到此这篇关于Python中图片与pdf识别文本的文章就介绍到这了,更多相关Python图片与pdf识别文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!