java

关注公众号 jb51net

关闭
首页 > 软件编程 > java > Java文件格式类型判断

Java文件格式类型判断的方法详解

作者:西凉的悲伤

本文介绍了两种通过URL下载文件并并识别其文件类型的方法,,方式一利用通过文件魔数识别方式二通过ApacheTika库识别并旨在提供更可靠的文件类型判断识别方法,需要的朋友可以参考下

前言

如果一个 url

例如 : https://i-blog.csdnimg.cn/direct/4b54f5f678bb404f8f92007792e46592.png

上面的链接我们可以轻松的通过 后缀 .png 判断它的文件类型,但是很多时候有的 url 链接是不带这种后缀的,并且有时候即使 url 带了.png 后缀,它下载下来也不一定是 png 文件 ,所以需要下载文件后根据文件字节码去判断。

本文通过两种方式来判断文件类型。

方式一:通过文件url 获取到文件字节数组,通过文件魔数(Magic Number)识别文件类型,比只靠文件后缀识别更可靠。

方式一:通过 tika 库来识别文件类型

方式一

1.依赖

        <dependency>
            <groupId>org.springframework</groupId>
            <artifactId>spring-web</artifactId>
            <version>5.3.29</version>
        </dependency>

2.枚举类和工具类

import lombok.AllArgsConstructor;
import lombok.Getter;

/**
 * 文件类型枚举
 *
 */
@Getter
@AllArgsConstructor
public enum FileTypeEnum {

    /**
     * JEPG.
     */
    JPEG("FFD8FF", "image/jpg"),


    /**
     * PNG.
     */
    PNG("89504E47", "image/png"),

    /**
     * Adobe Acrobat.
     */
    PDF("255044462D312E", "application/pdf"),

    OTHER("OTHER", "OTHER");

    private String value;

    private String contentType;
}
import com.hai.tang.model.FileTypeEnum;
import org.springframework.http.HttpEntity;
import org.springframework.http.HttpHeaders;
import org.springframework.http.HttpMethod;
import org.springframework.http.ResponseEntity;
import org.springframework.http.client.SimpleClientHttpRequestFactory;
import org.springframework.web.client.RestTemplate;

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.util.Base64;

public class FileTypeUtils {

    /**
     * 从文件 url 下载获取文件字节数组
     * @param url 文件url
     * @turn FileTypeEnum 文件类型枚举
     */
    public static ResponseEntity<byte[]> downloadFile(final String url) {
        SimpleClientHttpRequestFactory requestFactory = new SimpleClientHttpRequestFactory();
        // 设置超时时间为5秒
        requestFactory.setReadTimeout(5000);
        requestFactory.setConnectTimeout(60000);

        RestTemplate restTemplate = new RestTemplate(requestFactory);
        HttpHeaders headers = new HttpHeaders();
        ResponseEntity<byte[]> entity = restTemplate.exchange(url, HttpMethod.GET, new HttpEntity<>(headers), byte[].class);
        return entity;
    }

    /**
     * 从文件字节数组中前16比特获取文件类型
	 * @param bytes 文件字节数组
	 * @turn FileTypeEnum 文件类型枚举
     */
    public static FileTypeEnum getFileType(byte[] bytes) {
        int length = Math.min(bytes.length, 16);
        StringBuilder sb = new StringBuilder();

        for (int i = 0; i < length; i++) {
            sb.append(String.format("%02X", bytes[i]));
        }
        String fileHead = sb.toString();
        for (FileTypeEnum type : FileTypeEnum.values()) {
            if (fileHead.startsWith(type.getValue())) {
                return type;
            }
        }
        return FileTypeEnum.OTHER;
    }
    
     /**
     * 将 base64 文件保存到本地
     *
     * @param fileBase64 文件base64
     * @param fileType 文件类型 FileTypeEnum 里的 contentType
     * @param outPath 文件要保存到的本地路径,如: C:\Users\haitang\Desktop
     *
     */
    public static void save(String fileBase64, String fileType, String outPath) throws IOException {
        //将 base64 文件 转为 字节数组
        byte[] bytes = Base64.getDecoder().decode(fileBase64);
        String suffix = fileType.split("/")[1];
        DateTimeFormatter f = DateTimeFormatter.ofPattern("yyyy-MM-dd HH-mm-ss");
        String time = LocalDateTime.now().format(f);
        String fileName = time + "." + suffix;
        //文件保存到本地
        Files.write(Paths.get(outPath + File.separator + fileName), bytes);
    }

}

3.测试

用于测试的三个 png、jpg、pdf 文件链接

https://i-blog.csdnimg.cn/direct/4b54f5f678bb404f8f92007792e46592.png
https://pic3.zhimg.com/v2-e88c84efc46685275936b278784c0d16_1440w.jpg
https://www.kkoworld.com/kitablar/Nikolas_Sparks_Sevimli_Con_eng.pdf

测试代码如下,通过工具类下载 url 链接为字节数组然后打印文件类型

import com.hai.tang.util.FileTypeUtils;
import org.springframework.http.ResponseEntity;  

public class MainServer {
	public static void main(String[] args) throws Exception {
        String fileUrl = "https://i-blog.csdnimg.cn/direct/4b54f5f678bb404f8f92007792e46592.png";
        ResponseEntity<byte[]> entity = FileTypeUtils.downloadFile(fileUrl);
        if (entity.hasBody() && null != entity.getBody()) {
            //获取文件类型 image/jpg 或 image/png 或 application/pdf
            String attachmentType = FileTypeUtils.getFileType(entity.getBody()).getContentType();
            System.out.println(attachmentType);

            //将 entity.getBody() 即文件字节数组 转化为 base64 编码的字符串(可用于存储到数据库)
            String attachmentBase64Stream = DatatypeConverter.printBase64Binary(entity.getBody());
            // base64 编码的文件字符串 输出到 C:\Users\haitang\Desktop 保存
            FileTypeUtils.save(attachmentBase64Stream,attachmentType,"C:\\Users\\haitang\\Desktop");
        }
    }
}

方式二

使用 Apache Tika 来进行文件类型识别,Apache Tika 是一个非常强大的“文件内容分析工具”。

很多企业系统会用它做:

Apache Tika gitHubD地址

1.依赖

        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-core</artifactId>
            <version>2.9.4</version>
            <scope>compile</scope>
        </dependency>

2.枚举类

import lombok.AllArgsConstructor;
import lombok.Getter;

/**
 * 文件类型枚举
 */
@Getter
@AllArgsConstructor
public enum FileTypeEnum {

    /**
     * jpg.
     */
    JPEG("image/jpeg"),


    /**
     * png.
     */
    PNG("image/png"),

    /**
     * pdf
     */
    PDF("application/pdf"),

    /**
     * zip
     */
    ZIP("application/zip"),

    /**
     * xlsx
     */
    XLSX("application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"),

    /**
     * xls
     */
    xls("application/vnd.ms-excel"),

    /**
     * mp4
     */
    MP4("video/mp4"),

    /**
     * mp3
     */
    MP3("audio/mpeg"),

    /**
     * pptx
     */
    PPTX("application/vnd.openxmlformats-officedocument.presentationml.presentation"),

    /**
     * ppt
     */
    PPT("application/vnd.ms-powerpoint"),

    /**
     * docx
     */
    DOCX("application/vnd.openxmlformats-officedocument.wordprocessingml.document"),

    /**
     * doc
     */
    DOC("application/msword"),

    /**
     * txt
     */
    TXT("text/plain"),

    /**
     * RAR4
     */
    RAR4("application/x-rar-compressed"),

    /**
     * RAR5
     */
    RAR5("application/application/vnd.rar"),

    OTHER("OTHER");

    private String value;

}

3.使用

(1)通过 url 判断文件类型

import com.hai.tang.model.FileTypeEnum;
import org.apache.tika.Tika;

import java.io.InputStream;
import java.net.URL;

public class MainServer {
    public static void main(String[] args) throws Exception {
       String fileUrl = "https://i-blog.csdnimg.cn/direct/4b54f5f678bb404f8f92007792e46592.png";

        Tika tika = new Tika();

        try (InputStream in = new URL(fileUrl).openStream()) {
            String mimeType = tika.detect(in);
            System.out.println(mimeType);

            if (FileTypeEnum.PNG.getValue().equals(mimeType)) {
                System.out.println("是PNG文件");
            }
        }
    }
}

(2)读取本地文件判断

import com.hai.tang.model.FileTypeEnum;
import org.apache.tika.Tika;
import java.io.File;

public class MainServer {
    public static void main(String[] args) throws Exception {
        File file = new File("C:\\Users\\haitang\\Downloads\\chromedriver-win64.zip");

        Tika tika = new Tika();
        String mimeType = tika.detect(file);
        System.out.println(mimeType);
        if (FileTypeEnum.ZIP.getValue().equals(mimeType)) {
            System.out.println("是ZIP文件");
        }
    }


}

(3)通过文件流读取

import com.hai.tang.model.FileTypeEnum;
import org.apache.tika.Tika;

import java.io.FileInputStream;
import java.io.InputStream;

public class MainServer {
    public static void main(String[] args) throws Exception {
                Tika tika = new Tika();

        try (InputStream in = new FileInputStream("C:\\Users\\haitang\\Downloads\\chromedriver-win64.zip")) {
            //文件流
            String mimeType = tika.detect(in);

            if (FileTypeEnum.ZIP.getValue().equals(mimeType)) {
                System.out.println("是ZIP文件");
            }
        }

    }
}

以上就是Java文件格式类型判断的方法详解的详细内容,更多关于Java文件格式类型判断的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文