如果你的网站页面经常更新,爬虫就会更加频繁的访问页面,优质的内容更是爬虫喜欢抓取的目标,尤其是原创内容。
如果你做了许多努力仍没有被爬虫抓取,可以看一下老渔哥给出的两点建议:
1、不建议站点使用js生成主体内容,如过js渲染出错,很可能导致页面内容读取错误,页面则无法被爬虫抓取。
2、许多站点会针对爬虫做优化,建议页面长度在128k之内,不要过长。
1、JS获取表格的简便方法:获取tbody:tBodies 获取thead:tHead 获取tfoot:tFoot 获取行tr:rows 获取列td:cells使用实例: oTable.tBodies[0] oTable.tHead[0] oTable.tFoot[0] oTable.rows[1] oTable.cells[1]2、遍历var oTable=document.getElementById("表格id")oTable.tBodies[0]可以看成是rows和cells组成的二维数组,用两个for循环嵌套遍历一下就可以了一、参考代码如下:
<!doctype html><html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
<script src="jquery-2.1.1.min.js"></script>
<!--记得导jquery-->
<script>
$.ajax({
type:'get',
url:"demo.html",//这里是url
success:function(body,heads,status){
console.log(body) //body就是内容了,也就是url网页中的内容
}
})
</script>
</body>
</html>
重点代码说明:
$.ajax({type:"POST",//请求方式为post
url:"order.class.php?type=add",//请求的地址
data:dataFormid,//参数
success: function(mag){
//success指的是请求并成功返回信息
//msg是返回的内容
alert(mag)
}
})
举例
//假如后台返回的是一个JSON格式的字符串,如"{code:0,msg:\"执行成功!\"}"
success: function(data){
var json=evel("("+data+")")
alter(json.msg)//会弹出执行成功的消息框
}