火车头怎么采集到的内容是空的div里面的内容都没有呀

JavaScript011

火车头怎么采集到的内容是空的div里面的内容都没有呀,第1张

后台源代码里看不到的内容你用火车头当然采集不到。

比如有些内容是通过js调入的,你得去分析js是怎么调用的,调入的是哪个网址。

推荐使用抓包工具去分析找到真正的你想要抓的网址。

正文开始代码是<!--判断是否已经扣点-->

结束 <br />

</p>

</div>

另外可以用采集器,自动采集功能.动易2006,或者火车头采集器,火车头采集器使用方法在99D软件站有!火车头采集器下载地址在99d软件站也提供下载!!

去你百度搜索99d软件站!

软件使用,项目管理:

1、选择添加新项目,找到你需要采集的页面→复制网址到新闻网址列表框,项目名称随便填(主要是给你自己记忆备忘用)→下一步

2、项目编辑列表设置:

这里填写就要注意点了,找到你要采集的新闻列表的第一个信息标题的地方,一般标题前面这里会有一个table标签,选择这个table标签前面的具有典型特征的一些代码,代码具体选多少呢,分2种情况,一是有分页的列表,简单说就是列表最下面有下一页或者有1、2、3、等页面链接的,二是没有分页的,简单说就是列表只有1页,只有1页的情况好办,这里可以随便选了,只要保证不重复就行了。但是有分页的列表页就要麻烦一些,这时候选取代码的原则是:在保证没有重复代码的前提下,尽量选择少一点的代码,因为代码越多越容易出错,越不能保证每个列表页面都有这些代码了,这是经验之谈,当然也不一定,有些网页代码格式非常统一,那么这种网页就好采集,列表开始代码也好填一些。什么是具有典型特征的代码呢?就是基本上每个列表页都有的代码,但是这个页码在所有的列表页中又是唯一的,不重复。

火车头采集器采集内容之前是先采集网址的,所以你说的这个网址其实早就知道了,而采集内容的时候是不会采集到得,因为一般情况下一个网页的源代码里不会有这个网页的网址。

比如A是一个网页的网址,用火车头采集器的时候首先读取的就是这个网页地址A,然后再根据这个地址来请求数据,根据你的采集规则来采集内容,而这个网页的内容里没有这个网址A,那么你肯定是采集不到的。那么这个网址A在哪里呢?在生成的文件里。

比如你保存到本地之后生成一个CSV的文件,打开之后再最后一列(URL)就是采集的内容对应的这个网址。