Java中怎么抓取网页中的图片

Python028

Java中怎么抓取网页中的图片,第1张

通过httpclient来爬取网站内容,分析当前内容页中的图片‘规则’

抓取一般都是模拟浏览器访问目标网页,通过返回的页面html代码进行分析自己需要的数据

查找规则,例如你爬取的网页 ,看到当前页面显示的图片格式如下<img src="http://www.baidu.com/img/20101025_user.png">

通过解析爬取的网页源代码(html)进行字符串的操作即可,现在有相应的第三方jar包可以帮你更快的完成这部分工作,例如htmlpaser,获取到对应的地址,然后进行保存或下载。

你可以搜索,java爬虫(httpclient)和htmlpaser做更多的了解。

使用jsoup解析到这个url就行,dom结构如下:

look-inside-cover类只有一个,所以直接找到这个img元素,获取src属性,就可以获取到图片路径。

代码实现如下:

Document doc = Jsoup.connect("http://link.springer.com/book/10.1057%2F9780230290617").get()

Elements imgs = doc.select(".look-inside-cover")

String imgUrl = imgs.get(0).attr("src")

jsoup的jar包分享给你: