怎样读取html文件源码

html-css08

怎样读取html文件源码,第1张

代码如下:

function readHTML(){

$.ajax({

async:false,

url : "aa.html“,

success : function(result){

alert(result)

}

})

}

async:false,这个是做与其他的js同步的,若为true或不填将会先运行同级别的其它代码,也就是说这里的result为空,只有其它代码执行完毕后才会运行里面的东西,result才会有值,这通常不是所需要的

表达的可能不是很清楚,自己做个测试就明了了,这是介绍此属性的一个详细的例子:http://www.cnblogs.com/wlmemail/archive/2010/06/22/1762765.html

注:这是使用的jQuery

使用js的话是下面的代码

复制代码 代码如下:

var xmlhttp

if (window.XMLHttpRequest) { // 兼容 IE7+, Firefox, Chrome, Opera, Safari

xmlhttp = new XMLHttpRequest()

}

else { // 兼容IE6, IE5

xmlhttp = new ActiveXObject("Microsoft.XMLHTTP")

}

xmlhttp.onreadystatechange = function() {

if (xmlhttp.readyState == 4 &&xmlhttp.status == 200) {

document.getElementById("myDiv").innerHTML = xmlhttp.responseText

}

}

xmlhttp.open("GET", "aa.html", true)

xmlhttp.send()

myDiv是你输出的位置,这个是定义在了页面上的一个div

http://www.jb51.net/article/41454.htm

1、浏览器打开网页,右键-》查看源代码

然后Ctrl+S保存下来

2、打开要保存的网页,直接Ctrl+S,选择“仅HTML”

以上两种方法,选择其一即可。

首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里加上headers.

如果还是没有一个你想要的结果,打印出来 的只是一个框架,那么就可以排除这方面了。就只可能是ajax或者是javascript来渲染的。

就可以按照下图去看一下里面有没有

本次先重点去讲一下关于js来渲染网页的数据爬取,这下面的数据是随机找的,只要是里面想要爬取的数据就行 了。

这里ctrl+f就可以搜索到了说明就是在这个js的文件里面

这个就是真正的数据。

剩下的就是可以利用xpath,beautifulsoup或者pyquery来解析得到的网页源码就可以了。

这里我个人推荐此处用pyquery比较方便简单一些。