代码如下:
function readHTML(){
$.ajax({
async:false,
url : "aa.html“,
success : function(result){
alert(result)
}
})
}
async:false,这个是做与其他的js同步的,若为true或不填将会先运行同级别的其它代码,也就是说这里的result为空,只有其它代码执行完毕后才会运行里面的东西,result才会有值,这通常不是所需要的
表达的可能不是很清楚,自己做个测试就明了了,这是介绍此属性的一个详细的例子:http://www.cnblogs.com/wlmemail/archive/2010/06/22/1762765.html
注:这是使用的jQuery
使用js的话是下面的代码
复制代码 代码如下:
var xmlhttp
if (window.XMLHttpRequest) { // 兼容 IE7+, Firefox, Chrome, Opera, Safari
xmlhttp = new XMLHttpRequest()
}
else { // 兼容IE6, IE5
xmlhttp = new ActiveXObject("Microsoft.XMLHTTP")
}
xmlhttp.onreadystatechange = function() {
if (xmlhttp.readyState == 4 &&xmlhttp.status == 200) {
document.getElementById("myDiv").innerHTML = xmlhttp.responseText
}
}
xmlhttp.open("GET", "aa.html", true)
xmlhttp.send()
myDiv是你输出的位置,这个是定义在了页面上的一个div
http://www.jb51.net/article/41454.htm
1、浏览器打开网页,右键-》查看源代码
然后Ctrl+S保存下来
2、打开要保存的网页,直接Ctrl+S,选择“仅HTML”
以上两种方法,选择其一即可。
首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里加上headers.如果还是没有一个你想要的结果,打印出来 的只是一个框架,那么就可以排除这方面了。就只可能是ajax或者是javascript来渲染的。
就可以按照下图去看一下里面有没有
本次先重点去讲一下关于js来渲染网页的数据爬取,这下面的数据是随机找的,只要是里面想要爬取的数据就行 了。
这里ctrl+f就可以搜索到了说明就是在这个js的文件里面
这个就是真正的数据。
剩下的就是可以利用xpath,beautifulsoup或者pyquery来解析得到的网页源码就可以了。
这里我个人推荐此处用pyquery比较方便简单一些。