javascript 怎样抓网页上的内容

JavaScript034

javascript 怎样抓网页上的内容,第1张

基本上都是靠定义在页面上的id来抓取,举例如下:

前提:页面中某个text定义了id, 即 id="test",

目标:取得这个text中的内容,

方法:可以用如下方式:

document.getElementById("test").value

也可以用:

document.getElementsByName("test")[0].value

爬虫就是自动提取网页的程序,如百度的蜘蛛等,要想让自己的网站更多页面被收录,首先就要让网页被爬虫抓取。

如果你的网站页面经常更新,爬虫就会更加频繁的访问页面,优质的内容更是爬虫喜欢抓取的目标,尤其是原创内容。

如果你做了许多努力仍没有被爬虫抓取,可以看一下老渔哥给出的两点建议:

1、不建议站点使用js生成主体内容,如过js渲染出错,很可能导致页面内容读取错误,页面则无法被爬虫抓取。

2、许多站点会针对爬虫做优化,建议页面长度在128k之内,不要过长。