最新发布

# 2023-02-17
js三种编码格式
js中有三个函数是用于编码的，他们是 escape(),encodeURI(),encodeURIComponent()函数。而相对应的解码函数式：unescape,decodeURI,decodeURIComponent 。
# 2023-02-17
Js表单提交
表单提交是刚开始学js的朋友很迷惑的一个问题，怎么提交，怎么阻止默认提交，怎么提交表单不跳转等等问题，下面是一些示例原始的表单提交有 button 按钮提交和 &ltinput &gt类型的。它们又什么区别呢？
# 2023-02-17
有哪些值得推荐的绘制3D的js库
推荐基于webGL的3D框架类库！three.js的知名度很高，在开源中国、思否、掘金等技术社区会有很多应用指导案例，很多人问我是不是需要学webGL，three.js正是对webgl进行了封装，提供更高层的渲染接口，不用重新学习3D绘图底
# 2023-02-17
eclipse中js代码如何设置可折叠？
js代码设置可折叠设置：设置代码折叠在菜单栏的窗口--&gt首选项1、选择常规--&gt编辑器--&gtstructure text editors，可以看到Enable folding选项，打上勾就可以使用代码折叠
# 2023-02-17
向js数组中添加元素的3种方法
1、push() 结尾添加数组.push(元素) 参数描述 newelement1必需。要添加到数组的第一个元素。
# 2023-02-17
JS函数的参数如何设置
1.php有个很方便的用法是在定义函数时可以直接给参数设默认值，如：&ltbr&gt&ltbr&gtfunction simue ($a=1,$b=2){&ltbr&gt return $a+
# 2023-02-17
js防水涂料是什么
js防水涂料是一种以聚丙烯酸酯乳液、乙烯-醋酸乙烯酯共聚乳液等聚合物乳液与各种添加剂组成的有机液料，和水泥、石英砂、轻重质碳酸钙等无机填料及各种添加剂所组成的无机粉料通过合理配比、复合制成的一种双组份、水性建筑防水涂料。具有抗裂性、抗冻性好
# 2023-02-17
js字体安装到目录
1、字体安装的位置还是很好找的，首先我们打开我的电脑并点击系统盘，相信绝大多数用户都是C盘，如果你的具体情况不一样，那就点击具体的系统盘2、找到一个名为“windows”的文件夹并打开3、随后找到一个名为“fonts”文件夹并打开4、打开后
# 2023-02-17
javascript用什么换行
js中alert弹出窗口换行用"n"如果这个不可以的话就是"\n"比如：&ltscript type="textjavascript"&gtalert(&qu
# 2023-02-17
js刷新框架子页面的七种方法
下面以三个页面分别命名为l l l为例来具体说明如何做其中l由上下两个页面组成代码如下 &lt!DOCTYPE HTML PUBLIC W CDTD HTML TransitionalEN &gt&

火车头怎么采集到的内容是空的div里面的内容都没有呀

2023-03-14 22:06:02JavaScript024

火车头怎么采集到的内容是空的div里面的内容都没有呀,第1张

后台源代码里看不到的内容你用火车头当然采集不到。

比如有些内容是通过js调入的，你得去分析js是怎么调用的，调入的是哪个网址。

推荐使用抓包工具去分析找到真正的你想要抓的网址。

第一步采集网址，下载好火车头采集器后打开，新建一个任务，任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页，每页有N篇文章。

2

列表页会一级网址，添加多级网址获取，从而获取二级网址（文章页网址）

设置列表分页获取，3个地方分别是：分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接，因为有34个列表页面。设置完保存。

网址获取选项，这一步用于获取列表页上面文章页的链接，根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制，设置完保存。

设置好链接采集规则后，可以测试网址，看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。

第二步是采集内容，首先修改标题规则，在页面源代码里面找到标题的代码，把标题前后代码负责过去截取出标题。保存。

修改内容采集规则，跟标题规则差不多，也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签，所以得添加一个html标签排除的规则。

完成后，测试看一下结果，从测试结果来调试规则，直到测试结果是自己想要的内容为止。

第三步是采集导出。前面1、2两步把规则设置好，最后就要把文章导出了。先做一个导出的模版。

然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认，保存。

把采集网址，采集内容，发布3个选项框都勾选，然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。

火车头采集器采集文章教程到此就完成了，由于每个网站都是不一样的，所以这里只能用一个网站演示，只是一个方法思路，自己采集文章还需要灵活变通。

1、首先在采集列表页的源码中将带有缩略图的那部分源码复制下来，如图：

2、查看网站的源码，找到这行代码，如图：

3、打开火车头，进入采集网址规则—添加多级网址采集规则，选中手动填写链接地址规则，并将第二步骤中选中的代码粘贴进去，如图：

4、将代码进行如下修改：

5、改好后保存并进行采集测试，如图所示

6、然后再在采集内容规则里进行修改，选中“缩略图”标签，打开，进行内容替换，如图：

7、然后点击文件下载，选中下载图片，并填好缩略图保存路径及命名方式，如图：

8、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀，我设定为桌面，前缀为“./”，如图：

9、我们保存后测试一下，一起顺利，缩略图顺利采集下来了

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何在mac上安装java 的

# 下一篇：怎样在电脑上兼职赚钱