火车头怎么采集到的内容是空的div里面的内容都没有呀

2023-03-14 22:16:01JavaScript024

火车头怎么采集到的内容是空的div里面的内容都没有呀,第1张

后台源代码里看不到的内容你用火车头当然采集不到。

比如有些内容是通过js调入的，你得去分析js是怎么调用的，调入的是哪个网址。

推荐使用抓包工具去分析找到真正的你想要抓的网址。

第一步采集网址，下载好火车头采集器后打开，新建一个任务，任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页，每页有N篇文章。

列表页会一级网址，添加多级网址获取，从而获取二级网址（文章页网址）

设置列表分页获取，3个地方分别是：分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接，因为有34个列表页面。设置完保存。

网址获取选项，这一步用于获取列表页上面文章页的链接，根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制，设置完保存。

设置好链接采集规则后，可以测试网址，看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。

第二步是采集内容，首先修改标题规则，在页面源代码里面找到标题的代码，把标题前后代码负责过去截取出标题。保存。

修改内容采集规则，跟标题规则差不多，也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签，所以得添加一个html标签排除的规则。

完成后，测试看一下结果，从测试结果来调试规则，直到测试结果是自己想要的内容为止。

第三步是采集导出。前面1、2两步把规则设置好，最后就要把文章导出了。先做一个导出的模版。

然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认，保存。

把采集网址，采集内容，发布3个选项框都勾选，然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。

火车头采集器采集文章教程到此就完成了，由于每个网站都是不一样的，所以这里只能用一个网站演示，只是一个方法思路，自己采集文章还需要灵活变通。

正确的正则：

document\.write\('<a\s+href="(?<content>([^\/"]*\/)*[^"]*\.jpg)"\s+id="jqzoomMain"\s+class="jqlightbox">

你的正则的错误在于：

1. (?<content>.*\/+.*\.jpg)中.*使用了贪婪匹配，匹配了所有的内容，而不光是/前的内容，正确的写法是[^/"]所有非/非"的内容。

2. (?<content>.*\/+.*\.jpg)中\/+加号修饰的是\/，而非.*\/也就是说只有斜杠可以重复N次，正确的写法是([^/"]*\/)+

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：电脑怎么外接显示器

# 下一篇：Javascript vue.js表格分页，ajax异步加载数据

给您推荐相同类型的内容：

css三大特性
css三大特性为层叠性、继承性、优先级。1、层叠性：就近原则一为同类种选择器，第二个选择器相同样式会覆盖第一个选择器。二为在同一个选择器中，相同的属性，以最后一个为准。2、继承性：所谓继承性是指书写CSS样式表时，子标签会继承父标签的某些样
js怎么判断屏幕分辨率
&ltscript language="JavaScript"&gt &lt!-- Begin function redirectPage() { var w=screen.widthvar
怎么用css实现花瓣掉落到底部指定的位置，像真的花瓣掉落一样，不在循环向上
固定顶部悬浮菜单效果我们现在在各种网站都能看到这种效果就是我们移到指定位置之后就会显示出导航菜单了，下面我们就一起来看看吧．花瓣网以前的菜单效果还不错，首先是展示出全部的菜单，然后当你向下滑动网页的时候，菜单自动吸顶固定悬浮在浏览器的顶部，
r语言没有season这个函数
你是想问r语言有没有season这个函数吗？r语言没有season这个函数，r语言的函数包括：1、ts()。2、plot()。3、start()。4、end()。5、frequency()。6、window()。7、ma()。8、stl()
电脑的反斜杠打不出来了，一按就是#，怎么办？
将输入法切换成小键盘,直接找Enter旁边下划线即可实现。1.按Ctrl键+(&gt.)键，就解决了2.点击“输入法‘提示窗口’”的“小月亮”旁的“标点符号”3.看你的输入法那里是不是“简体中文美式键盘”，如果不是，改成“简体中文美
如何用JS获取后台MAP中集合的值
一般的做法是将map对象转成json在jsp页面中输出，js直接得到的就是json对象，便利json使用for循环即可for(k in json){alert(k + "=" + json[k])}第一步，打开eclip
电脑怎么识别图片中的文字
方法如下：工具／原料：微星microstarDESKTOP-L4NKBGJ、Windows10专业版21H2、掌上识别王1.2.0.01、首先，在电脑上打开掌上识别王软件，进入首页在左侧一列工具中选择【文字识别】，然后在页面右边点击【导
css中大小写怎么规定？
对于命名的写法：大小写没有区别x0dx0ax0dx0a没有什么规定的，我做了那么多个网站，一般都采用小写字母，一个是利于查看x0dx0a试想一下，如果全部都写成大写，是不是看起来很不舒服，并且对于英文不好的人，看起来头昏眼花的。
电脑上打字怎么从英文切换成中文，按什么键?
方法1：键盘快捷键1、在键盘上同时按下Ctrl+空格键，这样可以直接由因为切换为中文，或者由英文切换为中文。2、或者在键盘上同时按下Ctrl和Shift键，可以进行语音切换。这两个键在键盘左右两侧都可以操作。3、另外，如果有下载输入法，可
学习go语言，用什么IDE比较好
1、Sublime text这个文本编辑器在编程界极为普遍，它并非一个完全成熟的IDE，但它具备了很多语言的扩展插件，比如Pyhon、lua等，其中有一个插件GoSublime专门针对Go语言，提供了语法高亮、自动补全等功能，这些功能使Su
%{.,'?!:;}在ruby中是什么意思
这个怎么说好呢，它们无非就是一些运算符而已，每个符号的用法也有很多种，具体怎么用可以通过看书、看例子来学习，没必要一下记住那么多。比如：%#取余运算，如8%3=2{}#可用在输出，如输出y的值：puts"#{y}"，也可
我的电脑图标都不见了，怎么回事啊？
电脑应用还在，但图标不见了，有以下几种办法：1、第一种，当电脑桌面上的图标消失之后，我们不要着急，首先看看是不是隐藏了桌面图标从而导致的现象。我们需要单击桌面，之后再点击鼠标右的键-“查看”-“显示桌面图标”，这时候我们需要看一下“显示桌面
css编写标签样式
切图很容易限制宽度，如果想要根据内容宽度来自适应，可以自己写css来实现。我们可以将标签拆分为：可以使用伪类 ::before实现。三角形需要用到border的transparent属性。用html
龙在江湖中的刘德华最后被谁杀的是被Ruby杀的
1、是被Ruby杀的。吉祥身负丧妻之痛，为了爱妻的遗愿，独自抚养爱子，但因与其子大洪之前接触不深故彼此摩擦不断，好在吉祥多年的红颜知己Ruby从中调解，父子关系日渐软化，RUBBY深爱韦吉祥，为了韦吉祥可以放弃很多优质男性的追求。2、三
python装饰器使用
装饰器是从英文decorator翻译过来的，从字面上来看就是对某个东西进行修饰，增强被修饰物的功能，下面我们对装饰器做下简单介绍。一、怎么编写装饰器装饰器的实现很简单，本质是一个可调用对象，可以是函数、方法、对象等，它既可
电脑桌面太大，怎么调小
要调整电脑的屏幕大小，可以通过显示器的分辨率来调整。右击桌面选择显示设置右键点击桌面，选择右键菜单上的显示设置。点击分辨率下拉框点击窗口右边的分辨率下拉框。选择分辨率点击选择一个分辨率即可调整屏幕的大小了。mac电脑点击显示器选项点击系统偏
编程逻辑打一数字
飞得更高的泉博客园首页联系管理随笔- 5文章- 0评论- 0阅读- 1009 实现猜数字的代码逻辑主要功能:1、每个用户有4次猜年龄机会2、假如超过4次还没有才对，程序会提示是否要继续猜，如果输入“m”，表示不再进行猜年龄游戏3
电脑的相距26傍是什么
电脑的相距26磅指定是一些软件编辑排版文字之间的行距和间距的距离1、word的行距设置很简单，先打开需要设置行距的word工作表，大家打开之后把需要设置行距的内容全部选上，现在我们可以将鼠标移到【菜单栏】，这时我们在【菜单栏】里可以看到有一
为什么光盘打不开?
问题一：光盘打不开，怎么办光盘打不开是指的什么，是不是光盘不能播放。还有就是视频光盘还是软件光盘，视频光盘的话1、是光盘本身质量问题，2、光驱不支持或光驱不兼容光盘，3、播放器不支持格式。如果是软件光盘的话就是因为光盘质量问题，光驱不支
如何更改我的电脑IP地址
1、如何更换自己电脑的ip地址方法2、这个IP地址就像门牌号地址一样，这样才能正常的就行网络互通数据传输和信息交换。3、因为业务以及工作或者游戏需要不同的IP地址，所以我们需要无限的切换不同城市的ip地址。4、首选我们需要一个领导者ip代理
学电脑有前途吗
如今互联网行业飞跃发展来，互联网技术日新月异，就当前就业形势来说 IT行业是适合目前社会趋势的，社会也需要大量的 IT技术型人才，各行各业也需要，所以就业广泛。学互联网的优自势有：1、电脑行业需求量大，工作很好找，而且工作环境也不错。2、电
js如何获取图片的尺寸？
项目的需求是上传一张图片，然后验证该图片的尺寸，如果跟预期的不符，就不给上传首先，可以通过new FileReader()，再通过将上传的图片文件传给实例的readAsDataUrl()，当文件加载完成触发onload事件，传递eve
「测试开发全栈化-Go」(1) Go语言基本了解
作为一个测试，作为一个测试开发，全栈化+管理是我们未来的发展方向。已经掌握了Java、Python、HTML的你，是不是也想了解下最近异常火爆的Go语言呢？来吧，让我们一起了解下。Go 是一个开源的编程语言
联想电脑卡了怎么办
问题一：联想笔记本电脑卡了怎么办?电脑卡屏的原因比较多，可以用以下办法进行尝试解决： 1、电脑内存不够，一直不清理电脑的缓存，就会让垃圾文件越来越多，这样就会导致电脑很卡，解决的办法很简单，用腾讯电脑管家进行清理下。 2、网络太
css如何让视频居中
&lthtml&gt&lthead&gt&lttitle&gt&lthead&gt&lttitle&gt居中&lthead&gt&
js跳转页面几种方法总结
js为我们提供了大量的跳转页面的命令了下面我来给大家总结一些常用的js跳转页面方法希望各位同学有所帮助第一种代码如下window location 第二种跳到前一个历史记录代码如下window hi
如何整理手机桌面
手机越来越成为我们生活的一部分，现在的手机APP种类繁多，如果我们能让手机或者电脑桌面一眼看上去简洁干净，不仅能够方便我们的工作与学习，还能够体现我们对生活细节的严谨态度。那么我们应该如何整理我们的手机或电脑桌面呢？我给大家分享一些我的方法
Javascript vue.js表格分页，ajax异步加载数据
分页一般和表格一起用，分页链接作为表格的一部分，将分页链接封装成一个独立的组件，然后作为子组件嵌入到表格组件中，这样比较合理。效果：代码：1.注册一个组件jsVue.component('pagination',{tem
js求数组最大值方法汇总
原生方法：function fnmax(array) {var max = array[0]for(var i = 1 i &lt array.length - 1i++) {if (array[i] &gt max) {m
JAVA中反射是什么
JAVA中反射是动态获取信息以及动态调用对象方法的一种反射机制。Java反射就是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意方法和属性；并且能改变它的属性。而这也是Java被视为动态

推荐阅读

热门文章

最新发布

标签列表

火车头怎么采集到的内容是空的div里面的内容都没有呀

给您推荐相同类型的内容：