二.动态网页抓取

html-css023

二.动态网页抓取,第1张

因此,我们如果使用 AJAX 加载的动态网页,怎么爬取里面动态加载的内容呢?有两种方法:

方法1操作步骤:

步骤:

selenium选择元素的方法有很多:

有时候,我们需要查找多个元素。在上述例子中,我们就查找了所有的评论。因此,也有对应的元素选择方法,就是在上述的element后加上s,变成elements。

其中xpath和css_selector是比较好的方法,一方面比较清晰,另一方面相对其他方法定位元素比较准确。

除此之外,我们还可以使用selenium操作元素方法实现自动操作网页。常见的操作元素方法如下:

– clear 清除元素的内容

– send_keys 模拟按键输入

– click 点击元素

– submit 提交表单

由于篇幅有限,有兴趣的读者,可以到selenium的官方文档查看: http://selenium-python.readthedocs.io/index.html

用jq的load方法可以实现差不多的

首先在A页面写一个div,把需要被抓取文字的链接图片放在这个div里

<div class="box1">

    图片文字链接等

</div>

2.然后在B页面写一个div

<div class="box2">/div>

3.引入jq框架,然后loadB页面的box1

<script src="http://apps.bdimg.com/libs/jquery/2.1.4/jquery.min.js" type="text/javascript"></script>

<script type="text/javascript">

    $(function(){

        $('.box2').load('a.html .box1')

    })

</script>

1、打开IEDeveloperTools,在网络面板,进行捕获,抓取到的css文件是完整的。

2、打开IE,Developer,Tools的HTML面板,在右侧样式面板中,点击最右侧对应的该css文件,或者在css面板中选择该css文件,将滚动条拉到底,可以看到css文本是否解析完整。