首页 > 软件编程 > java > java实现一个简单的网络爬虫

java实现一个简单的网络爬虫代码示例

2017-11-13 08:50:04 作者：在远行的路上

这篇文章主要介绍了java实现一个简单的网络爬虫代码示例，还是挺不错的，这里分享给大家，需要的朋友可以参考下。

目前市面上流行的爬虫以python居多，简单了解之后，觉得简单的一些页面的爬虫，主要就是去解析目标页面（html）。那么就在想，java有没有用户方便解析html页面呢？找到了一个jsoup包，一个非常方便解析html的工具呢。

使用方式也非常简单，引入jar包：

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.8.3</version>
</dependency>

使用http工具，请求获取目标页面的整个html页面信息，然后使用jsoup解析：

//获取html页面信息
String html = getHtml();
//使用jsoup将html解析为Document对象
Document doc = Jsoup.parse(html);
//后续操作就可以解析这个DOM树了，非常简单。

总结

以上就是本文关于java实现一个简单的网络爬虫代码示例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！