js爬虫如何实现网页数据抓取

JavaScript029

js爬虫如何实现网页数据抓取,第1张

爬虫就是自动提取网页的程序,如百度的蜘蛛等,要想让自己的网站更多页面被收录,首先就要让网页被爬虫抓取。

如果你的网站页面经常更新,爬虫就会更加频繁的访问页面,优质的内容更是爬虫喜欢抓取的目标,尤其是原创内容。

如果你做了许多努力仍没有被爬虫抓取,可以看一下老渔哥给出的两点建议:

1、不建议站点使用js生成主体内容,如过js渲染出错,很可能导致页面内容读取错误,页面则无法被爬虫抓取。

2、许多站点会针对爬虫做优化,建议页面长度在128k之内,不要过长。

1、JS获取表格的简便方法:获取tbody:tBodies 获取thead:tHead 获取tfoot:tFoot 获取行tr:rows 获取列td:cells使用实例: oTable.tBodies[0] oTable.tHead[0] oTable.tFoot[0] oTable.rows[1] oTable.cells[1]2、遍历var oTable=document.getElementById("表格id")oTable.tBodies[0]可以看成是rows和cells组成的二维数组,用两个for循环嵌套遍历一下就可以了

一、参考代码如下:

<!doctype html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <title>Document</title>

</head>

<body>

<script src="jquery-2.1.1.min.js"></script> 

<!--记得导jquery-->

<script>

    $.ajax({

        type:'get',

        url:"demo.html",//这里是url

        success:function(body,heads,status){

            console.log(body)  //body就是内容了,也就是url网页中的内容

        }

    })

</script>

</body>

</html>

重点代码说明:

$.ajax({

type:"POST",//请求方式为post

url:"order.class.php?type=add",//请求的地址

data:dataFormid,//参数

success: function(mag){

//success指的是请求并成功返回信息

//msg是返回的内容

alert(mag)

}

})

举例

//假如后台返回的是一个JSON格式的字符串,如"{code:0,msg:\"执行成功!\"}"

success: function(data){

var json=evel("("+data+")")

alter(json.msg)//会弹出执行成功的消息框

}