通常爬虫的一大困难是html是由js渲染,并不是简单的发请求就可以获得肉眼看到的内容。
解决方法:用selenium等模拟用户操作。
python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。通常爬虫的一大困难是html是由js渲染,并不是简单的发请求就可以获得肉眼看到的内容。
解决方法:用selenium等模拟用户操作。
python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。