python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python文档分句与翻译

Python实现文档精准分句并调用模型进行预翻译

作者:PythonFun

这篇文章主要为大家详细介绍了如何使用Python实现文档精准分句并调用模型进行预翻译功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

一、问题的来源

计算机辅助翻译CAT工具通常会把导入的文件如Docx文件进行分句,形成左右照的表格形式,再调用翻译记忆库、机器翻译或者大模型进行预翻译,译者根据术语库、预翻译结果进行译后编辑。

我一直想在Python中模拟这个过程,但是受限于分句工具NLTK工具箱中的sent_tokenize不够准确,经常把Mr. Washington D.C.中的句点分割成句子,造成分句结果十分不理想。

二、问题的解决

最近,我发现一个可以精准分句的模块。由开源社区出品PySBD模块可以处理缩写和多语言文本,精确识别句子的结束位置,为实现精准的句子分割提供了现成的“轮子”。看下面的例子,PySBD很好地识别出了句子结尾的位置,并把字符串精准分割句子列表,为后续的预翻译奠定了基础。

import pysbd
seg = pysbd.Segmenter(language="en", clean=True)
print(seg.segment("Dr. Smith went to Washington. It rained."))
# ['Dr. Smith went to Washington.', 'It rained.']

三、问题的延伸

有了准确分句的支持,下一步就可以利用Python调用python-docx模块读取要翻译的文件,分割句子,然后调用机器翻译API或者大模型进行逐句翻译,并写入到新文件中。为了保持原有的段落格式,还要对段落进行标记,以便将预翻译和译后编辑的双语文本进行还原,以便进行段对段的校核。

1. 定义翻译函数

为了更好地维护代码,我们利用小牛机器翻译定义一个翻译模块,可以在主程序中进行调用,代码如下:

# niutrans.py
import json
import requests

class Translator:
    def __init__(self, apikey="Your API"): #录入你的翻译API
        self.apikey = apikey
        self.url = 'http://api.niutrans.com/NiuTransServer/translation'

    def translate(self, sentence, src_lan="auto", tgt_lan="zh"):
        data = {"from": src_lan, "to": tgt_lan, "apikey": self.apikey, "src_text": sentence}
        res = requests.post(self.url, data=data)
        res_dict = json.loads(res.text)
        if "tgt_text" in res_dict:
            result = res_dict['tgt_text']
        else:
            result = res.text
        return result

def translate(sentence, src_lan, tgt_lan, apikey="Your API"):
    """便捷函数,直接调用翻译"""
    translator = Translator(apikey)
    return translator.translate(sentence, src_lan, tgt_lan)

if __name__ == "__main__":
    while True:
        line = input("请输入要翻译的文本:")
        try:
            trans = translate(line, 'auto', 'en')
            print(trans)
        except Exception as exc:
            print(exc)

在DeepSeek的辅助下,我们轻松定义这个翻译模块,可以使用当前代码或在另一个test.py文件中输入以下代码进行测试。调用上述模块的方法有三种,代码如下所示:

# 方式1:使用便捷函数
from niutrans import translate
result = translate("你好", "auto", "en")
print(result)

# 方式2:使用Translator类
from niutrans import Translator
translator = Translator()
result = translator.translate("你好", "auto", "en")
print(result)

# 方式3:使用自定义API密钥
from niutrans import Translator
translator = Translator(apikey="d99fc0600b16efa6e310f53579593c57")
result = translator.translate("你好", "auto", "en")
print(result)

2. 编写主程序

主要执行读取要翻译的文件记录段落信息,生成段落字符串组成的列表。然后,利用pysbd按照段落来分割句子,并存储在列表当中。最后逐句翻译后,生成英汉句级对照的文本,为译后编辑提供便利。

为了方便测试,DeepSeek还辅助生成了一个测试的函数。对于可能存在的错误信息也进行了及时的反馈。

import pysbd
from docx import Document
from niutrans import Translator
import re

class DocxSentenceProcessor:
    def __init__(self, language="en", clean=True):
        self.segmenter = pysbd.Segmenter(language=language, clean=clean)
        self.translator = Translator()

    def read_docx(self, file_path):
        """读取DOCX文件内容"""
        doc = Document(file_path)
        content = []
        for i, paragraph in enumerate(doc.paragraphs):
            if paragraph.text.strip():  # 忽略空段落
                content.append({
                    'paragraph_id': i,
                    'original_text': paragraph.text,
                    'sentences': []
                })
        return content

    def segment_sentences(self, text):
        """切分句子"""
        return self.segmenter.segment(text)

    def translate_sentence(self, sentence, dest_language='zh'):
        """翻译句子"""
        try:
            translation = self.translator.translate(sentence, "auto", dest_language)
            return translation  # 直接返回翻译结果,因为新版本返回的是字符串
        except Exception as e:
            print(f"翻译错误: {e}")
            return f"[翻译失败] {sentence}"

    def process_docx(self, input_file, output_file, dest_language='zh'):
        """处理DOCX文件:切分句子并翻译"""
        # 读取原始文档
        paragraphs = self.read_docx(input_file)

        # 处理每个段落
        for para in paragraphs:
            if para['original_text']:
                # 切分句子
                sentences = self.segment_sentences(para['original_text'])

                # 对每个句子进行翻译
                for i, sentence in enumerate(sentences):
                    if sentence.strip():  # 忽略空句子
                        translated = self.translate_sentence(sentence.strip(), dest_language)
                        para['sentences'].append({
                            'sentence_id': i,
                            'original': sentence.strip(),
                            'translated': translated
                        })

        # 保存处理后的文档
        self.save_processed_docx(paragraphs, output_file)

        return paragraphs

    def save_processed_docx(self, paragraphs, output_file):
        """保存处理后的DOCX文件(逐句对照)"""
        doc = Document()

        for para in paragraphs:
            if para['sentences']:
                # 添加段落标签
                p = doc.add_paragraph()
                p.add_run(f"[段落{para['paragraph_id']+1}] ").bold = True
                # 添加逐句照内容
                for sentence_data in para['sentences']:
                    p = doc.add_paragraph()
                    p.add_run(f"[{sentence_data['sentence_id']+1}] ")
                    p.add_run(sentence_data['original'])
                    p = doc.add_paragraph()
                    p.add_run(sentence_data['translated'])
                    p.add_run(" ")

        doc.save(output_file)
        print(f"处理后的文档已保存为: {output_file}")

    def restore_bilingual_docx(self, processed_paragraphs, output_file):
        """恢复为双语对照格式的DOCX(用换行分割)"""
        doc = Document()

        for para in processed_paragraphs:
            if para['sentences']:
                # 添加段落标签
                p_label = doc.add_paragraph()
                p_label.add_run(f"[段落{para['paragraph_id']+1}]").bold = True

                # 逐句添加双语对照,用换行分割
                for sentence_data in para['sentences']:
                    # 英文句子
                    p_en = doc.add_paragraph()
                    p_en.add_run(f"[{sentence_data['sentence_id']+1}] ").bold = True
                    p_en.add_run(sentence_data['original'])

                    # 中文翻译(换行)
                    p_zh = doc.add_paragraph()
                    p_zh.add_run(" " * 4)  # 缩进
                    p_zh.add_run(sentence_data['translated'])

                # 添加空行分隔段落
                doc.add_paragraph()

        doc.save(output_file)
        print(f"双语对照文档已保存为: {output_file}")

    def restore_bilingual_compact(self, processed_paragraphs, output_file):
        """恢复为紧凑双语对照格式(段落级别换行)"""
        doc = Document()

        for para in processed_paragraphs:
            if para['sentences']:
                # 添加段落标签
#                 p_label = doc.add_paragraph()
#                 p_label.add_run(f"[段落{para['paragraph_id']+1}]").bold = True

                # 英文段落
                p_en = doc.add_paragraph()
                p_en.add_run("EN: ").bold = True
                for sentence_data in para['sentences']:
                    p_en.add_run(f"[{sentence_data['sentence_id']+1}] {sentence_data['original']} ")

                # 中文段落(换行)
                p_zh = doc.add_paragraph()
                p_zh.add_run("CN: ").bold = True
                for sentence_data in para['sentences']:
                    p_zh.add_run(f"[{sentence_data['sentence_id']+1}] {sentence_data['translated']} ")

                # 添加空行分隔
                doc.add_paragraph()

        doc.save(output_file)
        print(f"紧凑双语对照文档已保存为: {output_file}")

# 使用示例
def main():
    # 初始化处理器
    processor = DocxSentenceProcessor()

    # 处理DOCX文件
    input_file = "input.docx"
    output_file = "processed_output.docx"
    bilingual_file = "bilingual_output.docx"
    bilingual_compact_file = "bilingual_compact_output.docx"

    try:
        # 处理文档:切分句子并翻译
        processed_data = processor.process_docx(input_file, output_file)

        # 恢复为双语对照格式(逐句换行)
        processor.restore_bilingual_docx(processed_data, bilingual_file)

        # 恢复为紧凑双语对照格式(段落级别换行)
        processor.restore_bilingual_compact(processed_data, bilingual_compact_file)

        # 打印处理结果示例
        print("\n=== 处理结果示例 ===")
        for para in processed_data[:2]:  # 显示前2个段落
            print(f"\n段落 {para['paragraph_id']+1}:")
            for sentence in para['sentences'][:3]:  # 显示前3个句子
                print(f"  [{sentence['sentence_id']+1}] EN: {sentence['original']}")
                print(f"      CN: {sentence['translated']}")
                print()  # 换行分割

    except FileNotFoundError:
        print(f"错误: 找不到输入文件 {input_file}")
        print("正在创建示例文件...")
        create_sample_docx(input_file)

if __name__ == "__main__":
    # 运行测试
    test_sentence_segmentation()
    print("\n" + "="*50 + "\n")

    # 运行主程序
    main()

最终用一百多行代码实现了文档读取、分句、翻译、存储的整个过程,模拟了普通CAT工具从导入文件——分句——预翻译——导出双语文本。

3. 进阶优化

由于Python代码十分灵活,还可以定制个性化的翻译引擎,如调用DeepSeek的API实现句子翻译。而且只需要把niutrans.py中的内容替换成调用DeepSeek API的代码就可以了。

先在DeepSeek官方文档中找到调用的样例代码:

# Please install OpenAI SDK first: `pip3 install openai`
import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get('DEEPSEEK_API_KEY'),
    base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
    ],
    stream=False
)

print(response.choices[0].message.content)

然后,让DeepSeek模仿之前调用小牛机器翻译niutrans.py的代码,生成一个可以调用的模块:deepseek_translator.py

# deepseek_translator.py
import os
from openai import OpenAI

class DeepSeekTranslator:
    def __init__(self, api_key=None, base_url="https://api.deepseek.com", model="deepseek-chat"):
        """
        初始化DeepSeek翻译器

        Args:
            api_key: API密钥,如果为None则从环境变量DEEPSEEK_API_KEY获取
            base_url: API基础URL
            model: 使用的模型
        """
        self.api_key = api_key or os.environ.get('DEEPSEEK_API_KEY')
        if not self.api_key:
            raise ValueError("未提供API密钥,请设置api_key参数或DEEPSEEK_API_KEY环境变量")

        self.client = OpenAI(
            api_key=self.api_key,
            base_url=base_url
        )
        self.model = model

    def translate(self, text, target_language="中文", source_language="自动检测"):
        """
        翻译文本

        Args:
            text: 要翻译的文本
            target_language: 目标语言,默认为中文
            source_language: 源语言,默认为自动检测

        Returns:
            str: 翻译结果
        """
        system_prompt = f"""你是一名专业的翻译助手。请将文本从{source_language}翻译成{target_language}。

翻译要求:
1. 准确传达原文意思
2. 保持语言流畅自然
3. 符合目标语言的表达习惯
4. 保留专业术语和名称
5. 不要添加额外解释或评论

只需返回翻译结果,不需要其他内容。"""

        try:
            response = self.client.chat.completions.create(
                model=self.model,
                messages=[
                    {"role": "system", "content": system_prompt},
                    {"role": "user", "content": text},
                ],
                stream=False,
                temperature=0.3  # 较低的温度使输出更稳定
            )

            return response.choices[0].message.content.strip()

        except Exception as e:
            print(f"翻译错误: {e}")
            return f"[翻译失败] {text}"

    def batch_translate(self, texts, target_language="中文", source_language="自动检测"):
        """
        批量翻译文本

        Args:
            texts: 文本列表
            target_language: 目标语言
            source_language: 源语言

        Returns:
            list: 翻译结果列表
        """
        results = []
        for i, text in enumerate(texts):
            print(f"翻译进度: {i+1}/{len(texts)}")
            result = self.translate(text, target_language, source_language)
            results.append(result)
        return results

# 便捷函数
def translate(text, target_language="中文", source_language="自动检测", api_key=None):
    """便捷翻译函数"""
    translator = DeepSeekTranslator(api_key=api_key)
    return translator.translate(text, target_language, source_language)

# 测试代码
if __name__ == "__main__":
    # 测试翻译
    try:
        translator = DeepSeekTranslator()

        # 单句翻译测试
        test_text = "Hello, how are you today? I hope you're doing well."
        result = translator.translate(test_text, "中文", "英语")
        print(f"原文: {test_text}")
        print(f"翻译: {result}")
        print("-" * 50)

        # 批量翻译测试
        test_texts = [
            "Good morning!",
            "What is your name?",
            "I love programming and artificial intelligence."
        ]
        results = translator.batch_translate(test_texts, "中文", "英语")
        for original, translated in zip(test_texts, results):
            print(f"原文: {original}")
            print(f"翻译: {translated}")
            print()

    except ValueError as e:
        print(f"初始化错误: {e}")
        print("请设置DEEPSEEK_API_KEY环境变量或提供api_key参数")
    except Exception as e:
        print(f"测试错误: {e}")

其调用的方式如下:

# 方式1:使用环境变量中的API密钥
from deepseek_translator import DeepSeekTranslator

translator = DeepSeekTranslator()
result = translator.translate("Hello, world!", "中文", "英语")
print(result)

# 方式2:直接传递API密钥
from deepseek_translator import DeepSeekTranslator

translator = DeepSeekTranslator(api_key="your_api_key_here")
result = translator.translate("Hello, world!", "中文", "英语")
print(result)

# 方式3:使用便捷函数
from deepseek_translator import translate

result = translate("Hello, world!", "中文", "英语")
print(result)

# 方式4:批量翻译
from deepseek_translator import DeepSeekTranslator

translator = DeepSeekTranslator()
texts = ["First sentence.", "Second sentence.", "Third sentence."]
results = translator.batch_translate(texts, "中文", "英语")
for original, translated in zip(texts, results):
    print(f"{original} -> {translated}")

将上面改造的DeepSeek翻译函数融合到文档翻译当中就可以了:

# 在DocxSentenceProcessor中使用DeepSeek翻译器
from deepseek_translator import DeepSeekTranslator

class DocxSentenceProcessor:
    def __init__(self, language="en", clean=True, translator_type="deepseek"):
        self.segmenter = pysbd.Segmenter(language=language, clean=clean)

        if translator_type == "deepseek":
            self.translator = DeepSeekTranslator()
        else:
            from niutrans import Translator
            self.translator = Translator()

    def translate_sentence(self, sentence, dest_language='中文'):
        """翻译句子"""
        try:
            if hasattr(self.translator, 'translate'):
                # DeepSeek翻译器
                translation = self.translator.translate(sentence, dest_language)
            else:
                # 小牛翻译器
                translation = self.translator.translate(sentence, "auto", dest_language)
            return translation
        except Exception as e:
            print(f"翻译错误: {e}")
            return f"[翻译失败] {sentence}"
# 其它内容不变。

四、生成的文件展示

生成的processed_output.docx文件当中可以看出清楚地标明了段医学,并进行了准确分句,每句句前都有序号标记,对于译者进行译后编辑也十分友好。

五、学后的总结

本案例基于Python开发了一套计算机辅助翻译流程,实现了文档导入、智能分句、机器翻译/DeepSeek大模型调用及句级对齐的全自动化处理。该方案具有个性化程度高、灵活性强、成本低廉等突出优势,有效解决了传统CAT工具无法调用大模型或使用成本过高的问题,使译者无需依赖专业CAT软件,在WPS或Word中即可直接进行译后编辑。目前该方案的主要局限在于格式标签保持方面存在一定难度,对复杂排版文档的支持尚不完善,且暂不支持PDF格式文档的处理。

后续还可以持续优化,增加UI界面,提供批量翻译,支持术语库支持和质量检测功能。

当前,人工智能技术日新月异,大模型辅助编程的能力日益强大。在掌握基础语法和程序逻辑的前提下,我们能够借助大模型实现文本处理与翻译流程的自动化,从而充分发挥Python作为“编程瑞士军刀”的强大功能,有效提升翻译工作的效率与质量。

以上就是Python实现文档精准分句并调用模型进行预翻译的详细内容,更多关于Python文档分句与翻译的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文