如何用python爬取js动态生成内容的页面

JavaScript08

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎,python提供了许多库可以调用这个引擎,dryscrape便是其中之一,它调用webkit引擎来处理包含js等的网页!

2 selenium web测试框架

selenium是一个web测试框架,它允许调用本地的浏览器引擎发送网页请求,所以,它同样可以实现抓取页面的要求。

是。有javascript的网页仍是静态网页,不是动态网页。不是网页上有动态的元素才是动态网页。假如一个网页有javascript花花绿绿的,它仍是静态网页,所谓的静态、动态是指能否与数据库产生交互。只有PHP、asp、JSP这些网页,才是动态网页。静态网页与动态网页的区别,动态网页以.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?”,静态网页:以.htm、.html、.shtml、.xml等形式为后缀。

在服务器端运行的程序、网页、组件,属于动态网页,它们会随不同客户、不同时间,返回不同的网页,例如HTML, ASP、PHP、JSP、ASP.net、CGI等。静态网页运行于客户端的程序、网页、插件、组件,属于静态网页,下面列出的四种情况都不一定是动态页面,带有音频和视频,带有flash动画,带有css动画,带有javascript动画。千锋教育截止目前已在北京、深圳、上海、广州、郑州、成都、大连等20余个核心城市建立直营校区,服务近20万学员、近千所高校和数万家企业。

这个不一定是由js动态生成的,发帖或者创建账号后不都是需要提交的吗,提交后页面刷新,再出来的页面就是由后台提供的新页面了,这个不需要由前端js动态生成。

当然,如果提交后页面没有刷新,但又有新内容出现,这倒是有可能是js生成的,一般都是用js通过ajax提交数据,然后再把服务器返回的信息显示到页面上,这样做可以减轻服务器的压力,而且由于页面没有刷新(闪一下),用户体验也较佳。

还有一种可能,是预先把要显示的内容放在页面上,但是隐藏起来,当某种预期的事件发生时再显示出来。