js的网页爬虫爬不到吗

2023-02-18 23:30:02JavaScript026

js的网页爬虫爬不到吗,第1张

不是爬不到

是因为用js生成的网页，是通过浏览器加载js代码之后，由js动态生成的。

用爬虫直接去抓网页的话，抓下来的是原始代码，浏览器还未解析过的内容。

纯 html 的话，抓下来可以直接拿来用，但是如果是由 js 动态生成的网页的话，就没办法直接用了。

像通过js动态加载的网页，理论上如果能用开源的浏览器内核将网页解析出来的话，通过浏览器内核提供的接口，完全可以把网页最终的 html 拿出来

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

爬虫就是自动提取网页的程序，如百度的蜘蛛等，要想让自己的网站更多页面被收录，首先就要让网页被爬虫抓取。

如果你的网站页面经常更新，爬虫就会更加频繁的访问页面，优质的内容更是爬虫喜欢抓取的目标，尤其是原创内容。

如果你做了许多努力仍没有被爬虫抓取，可以看一下老渔哥给出的两点建议：

1、不建议站点使用js生成主体内容，如过js渲染出错，很可能导致页面内容读取错误，页面则无法被爬虫抓取。

2、许多站点会针对爬虫做优化，建议页面长度在128k之内，不要过长。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：电脑运行极慢，请问可以删除些什么软件

# 下一篇：哪个牌子的电脑显卡耐用

给您推荐相同类型的内容：

如何调节电脑的风扇转速
调节电脑风扇转速的方法1、首先启动电脑，启动时按Delete键进入BIOS设置。2、在BIOS设置中打开M.I.T.项下面的.“电脑健康状态”。3、在CPU风扇转速控制中将其设置为手动。4、之后就可以对PWM斜率
计算机系学生推荐笔记本电脑哪个好
计算机相关专业要求比普通专业稍微高点，推荐这类学生时候购买4000－6000元左右的笔记本，这个价位基本都配备了独立显卡，内存，硬盘都足够大，满足当前社会上大部分流行软件的运行要求。计算机专业笔记本参考联想小新
win7我的电脑在哪里?
1，首先，Windows7电脑，进入桌面主界面，可以看到此时我的电脑图标不见了。2，在桌面左下角点击“开始按钮”，点击打开。3，在开始菜单中选择“计算机”，右键选中。4，在右键菜单中选择“在桌面上显示”，点击打开。5，最后，即可在桌面上看到
电脑麦克风什么牌子
问题一：家用电脑上的麦克风，最好的是哪个牌子的？要分有线还是无线麦克风哦。无线的话飙歌达人，有线话舒尔，得胜。问题二：什么牌子的电脑麦克风比较好？舒尔Shure (1925年芝加哥,舒尔亚洲有限公司在香港) 硕美科S
怎样用css实现div选中的效果
不懂这儿的选中是鼠标点击还是覆盖或者是点击之后的效果,因此就都说一下:x0dx0a1.被点击时的效果可以用div:active{css}x0dx0ax0dx0a2.鼠标覆盖在上面的时候可以用div：hover{ cs
css怎么在密码框前加个勾选框
引入jquery。根据css操作流程显示，css引入jquery在密码框前加个勾选框。CSS全称CascadingStyleSheet层叠样式表，是专用用来为HTML标签添加样式的。1、新建一个html文件，命名为testhtml，用于讲解
javascript,什么是js库？
JavaScript 框架（库）JavaScript 高级程序设计（特别是对浏览器差异的复杂处理），通常很困难也很耗时。为了应对这些调整，许多的 JavaScript (helper) 库应运而生，这些 JavaScript 库常被称为 J
ruby写的小项目源代码（简单的）
我有一些ruby的项目代码，你可以参考，没地方放。。。http:cid-b0c7e71ec8fabb4f.office.live.comself.aspx.Publiccollective^_intelligence.zip答：是
Html中的列表
Html中列表共有三种：有序列表、无序列表和自定义列表。下面分开解释下：1.有序列表是一列使用数字进行标记的项目，它使用&ltli&gt包含于&ltol&gt标签内。示例如下：执行效果为：1.语
CSS在IE中的奇怪BUG
.menu ul li a,.menu ul li a:link,.menu ul li a:visited,.menu ul li a:active,.menu ul li a:hover {padding:3px 7px 3px 7px
电脑显示器怎么当监控用
想知道显示器是怎么当成监控来使用的吗，下面是我带来的关于的内容，欢迎阅读!电脑显示器当监控用方法一：1：首先在电脑上安装监控管理软体CMS 2：用网线把路由器或交换机输出埠连线至电脑的网路埠3：开
4399怎么登录以前的账号
4399登录以前的账号方法如下：1、可以用账号的注册邮箱发送邮件申请找回（注册邮箱是指注册账号时填写的邮箱或qq，填写qq系统会默认该qq邮箱为账号的注册邮箱）。2、账号有充值，可以使用任意邮箱发送邮件申请查询账号。3、账号有绑定手机，可以
怎样在word中快速输入复杂的公式(数学、物理或化学公式)？
在Word中，遇到要输入带根号、导数、积分、各种格式的公式的时候，有没有想要砸电脑的冲动？首先，打开一个叫公式996 的网站，这是一个可以在线识别公式 (手写、数学、物理或化学等复杂公式)的网站。划重点：支持手写公
小米11如何投屏电脑
小米手机实现投屏到电脑非常简单，用AirDroid Cast就可以免费实现。条件：让电脑与小米手机处于同一WiFi环境中。在电脑打开AirDroid Cast，选择到无线投屏。【到官网下载客户端】然后打开小米手机的AirDroid C
HTML5文档的语义化是指什么？
在HTML5中新增了很多语义标签概念，使HTMl文档根据页面内容结构选择语义标签，是页面结构内容格式化。它有利于清楚的描述HTML文档的意义给浏览器和开发者。下面列举了一些我们常用到的语义标签：section元素表示页面中的一个内容区
如何ping局域网？
简单ping的三种用法：比如有一台电脑上不了网，你可以用以下三种ping来确定问题所在：1.ping 127.0.0.1本机回环地址，测试用的，如果不通说明tcpip协议有问题，需要修复或重装；2.ping 本机地址如果不通，说明本机网卡
怎样用python画图，为什么代码写好运行时错误？
python绘图（可视化）的模块非常多，下面我简单介绍几个不错的绘图库，感兴趣的朋友可以自己尝试一下，实验环境win7+python3.6+pycharm5.0，主要内容如下： matplotlib 这是python中专门用于绘
DELL电脑怎么把蓝牙开启
具体操作如下：1、启动蓝牙服务，需要点击左下角Windows开始菜单2、在弹出的选项列表里鼠标右键选择计算机，选择管理。点击“服务和应用程序”，然后再点击“服务“3、然后在右侧服务中找到B开头的，找到bluetooth support
看电脑时间长了会有什么危害
看电脑时间长了会有什么危害看电脑时间长了会有什么危害？现在人们的日常生活中，不管是在工作中还是生活中，都需要用到电脑，虽然电脑能够提供给我们很多的便利，但是也是有危害的，那么看电脑时间长了会有什么危害呢？看电脑时间长了会有什么
css在灰色透明的背景下，如何才能使上面的字的颜色为白色？
楼主是对整个登录div设置了opacity，因此整个登录框都是半透明的。x0dx0ax0dx0a其实只需要给这个白色background的登录框改一下background-color就可以了：x0dx0a.login{x0d
怎么使用电脑管家保护电脑？
电脑管家能有效预防和解决计算机上常见的安全风险，拥有云查杀木马，系统加速，漏洞修复，健康小助手等功能，是电脑必不可少的软体。下面是我整理的使用电脑管家保护电脑的方法，供您参考。使用电脑管家保护电脑的方法点选电脑管家快捷方式，开启
哪个牌子的电脑显卡耐用
品质类：华硕：用料最豪华，价格也最高。技嘉：品质不错，但显卡型号较少，该公司还是以主板为主。微星：价格和型号数量方面都比较好，静音效果也不错，值得推荐。HIS：在国内知名度不高，但品质好，东西较贵。蓝宝石：AMD显卡的专业生产商，龙头。索泰
如何系统的学前端，小生还是小白一个，但是很看好前端！希望老司机能给个详细计划。<我是自学的>
html学习2周开发一个静态丑陋的页面css同时学习3周，给丑陋的页面穿个漂亮的外衣js学习1年，让静态的页面动起来开始接项目，找工作，展示成果Adobe Integrated Runtime (AIR) 是一个跨操作系统的运行时，利
在同一个局域网怎么查看其它电脑
在同一个局域网内要怎么查看其它正在工作的电脑呢!然后共享他们的东西!下面由我给你做出详细的在同一个局域网内查看其它工作电脑介绍!希望对你有帮助!同一个局域网内查看其它工作电脑介绍：1，右键我的电脑计算机-管理-服务
电脑硬盘加密后如何解除锁定？
方法一：1.首先打开资源管理器，找到你所加密的磁盘或者某个驱动器。2.打开控制面板，在开始菜单中打开。打开控制面板之后，找到第一介选项。即bitlocker。如果你在控制面板中没有找到这个选项，就点击右上角的类别，选择小图标选项。然后就
js判断是否为邮件
可以根据正则表达式判断某个值是否是邮箱格式：邮箱正则表达式：var RegEmail = ^w+([-+.']w+)*@w+([-.]w+)*.w+([-.]w+)*$JS验证代码：var userEmai
用纯CSS如何制作流行的TAB菜单？
Tab菜单比较简单的方法是直接使用dreamweaver cs3的spry制作,其他方法制作难度比较大，不管哪种方法，必须要使用javascript调用。&ltul class="tabs"&gt&
怎么录制电脑里面声音？
录制电脑萤幕画面、网页视讯、播放器视讯、MV视讯等，我们需要同时录制电脑系统的声音。怎么录制电脑里的声音?我为大家介绍一下录制电脑里声音的具体操作步骤，下面大家跟着我一起来了解一下吧。录制电脑里声音方法1、开启系
HTML5与SEO有必然的联系吗
HTML5指的是万维网的核心语言，标准通用标记语言下的一个应用超文本语言（HTML）的第五次重大修改。将HTML做这次的修改，集结了所有人的智慧和心血，这次的重大修改推动了WEB标准化运动的发展。在这个修改的版本中，新的功能不断推出，以帮助
电脑怎么定位
操作方法如下：1、在电脑上打开浏览器，输入vivo云服务，如下图所示：2、进入后，选择输入账号和密码登录，如下图所示：3、再点击右下角的查找手机，如下图所示：4、届时开始定位操作，请稍微等待下，如下图所示：5、定位成功，可以点击右侧的指令

推荐阅读

热门文章

最新发布

标签列表

js的网页爬虫爬不到吗

给您推荐相同类型的内容：