nodejs 爬取rss得到的内容是html还是xml

JavaScript017

nodejs 爬取rss得到的内容是html还是xml,第1张

使用NodeJs抓取RSS新闻,抓取的内容包括标题、发布时间、描述、来源、新闻正文、和新闻的图片。同时为客户端提供标准的新闻服务接口。

1.多站点同时抓取,需要抓取的站点可以在配置文件中配置

2.抓取的新闻正文的准确率非常高,包括图片

3.nodejs实现,抓取效率非常高

4.可以配置抓取的时间,和新闻正文的开始标签,过滤掉广告无用的图片和广告(iframe广告)

5.已经提供了,新闻列表和新闻查询的http服务,为android或者其他客户端完美提供数据源支持

6.加入响应式框架skeleton,

<script language="javascript" runat="server">

TMess=TMess.Replace(chr(13)," <br>")

'这里用js语法写就行了

</script>

patt_link.compile(" <a name=\"Main\"></a>"+'(.+?)'+"<!-- publish_helper_end -->")

这句话其实没有什么效果主要是为了提升一下效率,而正则表达式就是

"<a name=\"Main\"></a>"+'(.+?)'+"<!-- publish_helper_end -"

就是这个问题了,你说看到的,你可以将文本列出来,然后我看下是不是匹配

估计是你看错了

解决问题的时候将问题抽象出来

你应该将那个匹配不成功的文本拿出来用上面的match看是不是正则表达式没写好

如果不是再看是不是其它问题

正则表达式有误

你可以先将patt_link的值设的简单点,例如: "<a" 这样匹配看是否有结果

得到图片连接为什么不这样用document.links 及document.images ?

这个要比与此同时表达式去匹配方便的多

var linksArr = document.links

for(var i=0i<linksArr.lengthi++)

{

linksArr[i].src ... ...

}