关于Java实现word(docx、doc)转html的完美解决方案

2025-01-26 10:32:25 作者：WAZYY0619

文章介绍了多种将Word文档转换为HTML的方法,包括使用Microsoft Word自带的导出功能、第三方工具和编程实现,展示了如何实现将.docx文件转换为HTML文件,并自动生成目录、处理分页符和增强表格样式等功能,感兴趣的朋友一起看看吧

最近在研究一些关于文档转换格式的方法，因为需要用在开发的一个项目上，所以投入了一些时间，给大家聊下这块逻辑及解决方案。

一、关于word转换html大致都有哪些方法？

（1）使用 Microsoft Word 导出

其实该方法就是使用word本身导出方案

操作步骤：

在 Microsoft Word 中打开文档。
点击文件 > 另存为或导出。
选择保存类型为网页(.html, .htm)。
保存文件后，会生成一个 HTML 文件（有时会附带一个文件夹用于存放图片等资源）。

优点：

保留了文档的大部分格式。
操作简单，无需其他工具。

缺点：

导出的 HTML 文件代码较冗余，包含许多与 Word 相关的样式和标签。

（2）使用第三方工具或在线转换工具

一般常见的有SmallPDF、Zamzar、Convertio、LibreOffice等在线工具或软件进行转换

优点：

方便快捷，适合大多数人使用。
有些工具可以清理冗余代码，生成更简洁的 HTML。

缺点：

在线工具可能存在隐私和安全风险。
某些工具可能无法完全保留复杂文档的格式。

（3）使用编程实现自动化转换

常见的编程实现有：

Python：
- 使用 python-docx 库读取 .docx 文件，再用自定义逻辑生成 HTML。
- 使用 mammoth 库，专门将 .docx 转为干净的 HTML（推荐）。
- 使用 pywin32 调用 Windows COM 接口操作 Microsoft Word。
Java：
- 使用 Apache POI 的 XWPF 模块解析 .docx 文件并输出 HTML。
Node.js：
- 使用 officegen 或 mammoth.js 转换 .docx 文件。
C#：
- 使用 OpenXML SDK 或 Interop.Word 来操作 Word 文件并转换为 HTML。

本此讲解的就是通过java的poi内的模块进行解析输出html

二、docx转换html

示例代码如下：

public static void docxtoHtml(String fileName, String outPutFile) throws TransformerException, IOException, ParserConfigurationException {
    long startTime = System.currentTimeMillis();
    XWPFDocument document = new XWPFDocument(new FileInputStream(fileName));
    // 用于存储目录内容
    StringBuilder toc = new StringBuilder();
    toc.append("<div id='toc'>\n<ul>\n");  // 直接从 <ul> 开始，表示目录
    // 遍历文档中的段落，查找目录项
    List<XWPFParagraph> paragraphs = document.getParagraphs();
    int tocLevel = 0; // 目录的当前级别，1代表一级目录，2代表二级目录，3代表三级目录
    boolean tocStarted = false; // 标记目录是否开始
    for (XWPFParagraph paragraph : paragraphs) {
        String style = paragraph.getStyle();  // 获取段落样式
        String text = paragraph.getText();  // 获取段落文本
        // 根据段落的样式级别来识别目录项，假设标题样式为 Heading 1, Heading 2, Heading 3
        if (style != null) {
            if (style.equals("Heading 1")) {  // 一级标题
                if (tocStarted) {
                    toc.append("</ul>\n"); // 关闭上一级目录
                }
                toc.append("<ul>\n");  // 开始一个新的无序列表
                toc.append("<li><a href='#" + text.hashCode() + "'>" + text + "</a></li>\n");
                tocLevel = 1;
                tocStarted = true;
            } else if (style.equals("Heading 2")) {  // 二级标题
                if (tocLevel == 1) {
                    toc.append("<ul>\n");  // 开始二级目录
                }
                toc.append("<li><a href='#" + text.hashCode() + "'>" + text + "</a></li>\n");
                tocLevel = 2;
            } else if (style.equals("Heading 3")) {  // 三级标题
                if (tocLevel == 2) {
                    toc.append("<ul>\n");  // 开始三级目录
                }
                toc.append("<li><a href='#" + text.hashCode() + "'>" + text + "</a></li>\n");
                tocLevel = 3;
            }
        }
        // 在目录项前插入锚点
        if (style != null && (style.equals("Heading 1") || style.equals("Heading 2") || style.equals("Heading 3"))) {
            String anchor = "<a name='" + text.hashCode() + "'></a>";
            String modifiedText = anchor + text;  // 在目录项文本前添加锚点
            // 更新段落中的文本
            for (XWPFRun run : paragraph.getRuns()) {
                run.setText(modifiedText, 0); // 更新段落内容
            }
        }
    }
    // 如果目录结束后，确保关闭所有的<ul>标签
    if (tocLevel > 0) {
        toc.append("</ul>\n");
    }
    toc.append("</ul>\n</div>\n");  // 关闭最外层的 <ul> 和 <div>
    // 设置XHTMLOptions
    XHTMLOptions options = XHTMLOptions.create().indent(4);
    File imageFolder = new File(tempPath);  // 图片临时文件夹路径
    options.setExtractor(new FileImageExtractor(imageFolder));
    options.URIResolver(new FileURIResolver(imageFolder));
    // 使用 `XHTMLConverter` 进行 DOCX 到 HTML 的转换
    ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
    XHTMLConverter.getInstance().convert(document, byteArrayOutputStream, options);
    System.out.println("Generate " + outPutFile + " with " + (System.currentTimeMillis() - startTime) + " ms.");
    // 获取转换后的HTML内容
    String htmlContent = new String(byteArrayOutputStream.toByteArray(), "UTF-8");
    // 将TOC插入到HTML的开头
    htmlContent = toc + htmlContent;
    // 处理分页符：将分页符添加到HTML中
    htmlContent = htmlContent.replaceAll("<!-- PAGE_BREAK -->", "<div class='page-break'></div>");
    // 添加表格样式（边框）
    htmlContent = htmlContent.replaceAll("<table>", "<table style='border: 1px solid black !important; border-collapse: collapse; width: 100%;'>");
    htmlContent = htmlContent.replaceAll("<td>", "<td style='border: 1px solid black !important; padding: 5px; text-align: left;'>");
    htmlContent = htmlContent.replaceAll("<th>", "<th style='border: 1px solid black !important; padding: 5px; text-align: left;'>");
    htmlContent = htmlContent.replaceAll("<tr>", "<tr style='border: 1px solid black !important;'>");
    htmlContent = htmlContent.replaceAll("<thead>", "<thead style='border: 1px solid black !important;'>");
    htmlContent = htmlContent.replaceAll("<tbody>", "<tbody style='border: 1px solid black !important;'>");
    htmlContent = htmlContent.replaceAll("<tfoot>", "<tfoot style='border: 1px solid black !important;'>");
    // 增加全局CSS样式（确保表格和目录样式正确）
    String style = "<style>\n" +
                   "table { border: 1px solid black !important; border-collapse: collapse; width: 100%; }\n" +
                   "td, th { border: 1px solid black !important; padding: 5px; text-align: left; }\n" +
                   "tr { border: 1px solid black !important; }\n" +
                   "ul { list-style-type: none; padding: 0; }\n" + // 去掉默认的列表样式
                   "li { margin: 5px 0; }\n" + // 设置目录项的间距
                   "</style>\n";
    htmlContent = style + htmlContent;
    // 将最终的HTML内容写入文件
    writeFile(htmlContent, outPutFile);
}

该方法功能实现：

将 .docx 文件转换为 HTML 文件。
自动生成基于文档标题的目录 (TOC)。
为标题添加锚点链接，支持 HTML 页面内跳转。
处理分页符，将其转换为 HTML 的 <div> 元素。
增强表格样式，添加边框和对齐（有时原表格css样式转换后会被覆盖掉）。
为 HTML 页面添加全局 CSS 样式，保证视觉效果统一。

三、doc转换html