百度蜘蛛爬行CSS和JS很多,这会不会浪费了蜘蛛的资源

JavaScript011

百度蜘蛛爬行CSS和JS很多,这会不会浪费了蜘蛛的资源,第1张

百度爬虫能识别css和js里的内容,而且一般查看服务器日志里,都会有对js、css以及图片的抓取,不用担心浪费爬虫资源,一般来说百度都会派出一些爬虫去抓取样式表script等,主要是为了确保快照的正常展示,我自己也尝试过屏蔽,对百度快照的影响比较大。

如果听过N年前阿里巴巴前SEO负责人张国平的培训课程,就知道目前阿里系SEOer,基本上不建议屏蔽对静态文件的抓取的。

String url = try {WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10) //设置webClient的相关参数webClient.getOptions().setJavaScriptEnabled(true) webClient.getOptions().setCssEnabled(false) webClient.setAjaxController(new NicelyResynchronizingAjaxController()) //webClient.getOptions().setTimeout(50000) webClient.getOptions().setThrowExceptionOnScriptError(false) //模拟浏览器打开一个目标网址HtmlPage rootPage = webClient.getPage(url) System.out.println("为了获取js执行的数据 线程开始沉睡等待") Thread.sleep(3000)//主要是这个线程的等待 因为js加载也是需要时间的System.out.println("线程结束沉睡") String html = rootPage.asText() System.out.println(html)} catch (Exception e) {}