Java如何获取文件夹下所有压缩包下指定文件
作者:java李杨勇
在Java中,通过遍历文件夹并对压缩包进行解析,可以实现提取指定文件的功能,如文档、PDF等,该过程中可增加过滤条件来适应不同需求,例如文件类型或文件名过滤,该方法适用于处理大量数据时的文件管理和数据提取
Java获取文件夹下所有压缩包下指定文件
import java.io.*; import java.nio.charset.Charset; import java.util.Enumeration; import java.util.zip.*; /** * Created by LiYangYong on 2023/6/8 */ public class WordDocExtractor { public static void main(String[] args) { String sourceDir = "D:\\李阳勇个人java相关\\安卓"; // 压缩包所在目录 String targetDir = "D:\\李阳勇个人java相关\\directory"; // 目标目录 File dir = new File(sourceDir); if (!dir.isDirectory()) { System.out.println("Invalid source directory."); return; } File[] files = dir.listFiles(new FilenameFilter() { @Override public boolean accept(File dir, String name) { return name.toLowerCase().endsWith(".zip") || name.toLowerCase().endsWith(".rar"); } }); for (File file : files) { String archiveName = file.getName(); String archivePath = file.getAbsolutePath(); System.out.println("Processing archive: " + archiveName); // 使用指定的字符集打开压缩文件 try (ZipFile zipFile = new ZipFile(file, Charset.forName("GBK"))) { // 获取压缩文件中的所有条目 Enumeration<? extends ZipEntry> entries = zipFile.entries(); // 遍历所有条目 while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); String entryName = entry.getName(); // 如果条目是以 .doc 或 .docx 结尾的文档文件 if ((entryName.toLowerCase().endsWith(".doc") || entryName.toLowerCase().endsWith(".docx"))) { // 如果文件名不包含 "数据库文档"、"开发文档"、"开放文档",且包含 "论文" if (!entryName.contains("数据库文档") && !entryName.contains("开发文档") && !entryName.contains("开放文档") && entryName.contains("论文")) { // 获取文档文件名 String docName = entryName.substring(entryName.lastIndexOf('/') + 1); // 拼接目标路径 String targetPath = targetDir + "/" + archiveName + "_" + docName; // 去掉文件名中的 .zip 后缀 targetPath = targetPath.replace(".zip", ""); // 输出拷贝信息 System.out.println("Copying " + entryName + " to " + targetPath); // 从压缩文件中读取文档文件内容,并写入目标文件 try (InputStream inputStream = zipFile.getInputStream(entry); OutputStream outputStream = new FileOutputStream(targetPath)) { byte[] buffer = new byte[1024]; int length; while ((length = inputStream.read(buffer)) > 0) { outputStream.write(buffer, 0, length); } } } } } } catch (IOException e) { e.printStackTrace(); } } } }
实现效果
中间可以自己加一些过滤条件来满足各种需求。
不管是文档或其他pdf等
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。