1.多站点同时抓取,需要抓取的站点可以在配置文件中配置
2.抓取的新闻正文的准确率非常高,包括图片
3.nodejs实现,抓取效率非常高
4.可以配置抓取的时间,和新闻正文的开始标签,过滤掉广告无用的图片和广告(iframe广告)
5.已经提供了,新闻列表和新闻查询的http服务,为android或者其他客户端完美提供数据源支持
6.加入响应式框架skeleton,
<script language="javascript" runat="server">TMess=TMess.Replace(chr(13)," <br>")
'这里用js语法写就行了
</script>
patt_link.compile(" <a name=\"Main\"></a>"+'(.+?)'+"<!-- publish_helper_end -->")这句话其实没有什么效果主要是为了提升一下效率,而正则表达式就是
"<a name=\"Main\"></a>"+'(.+?)'+"<!-- publish_helper_end -"
就是这个问题了,你说看到的,你可以将文本列出来,然后我看下是不是匹配
估计是你看错了
解决问题的时候将问题抽象出来
你应该将那个匹配不成功的文本拿出来用上面的match看是不是正则表达式没写好
如果不是再看是不是其它问题
正则表达式有误
你可以先将patt_link的值设的简单点,例如: "<a" 这样匹配看是否有结果
得到图片连接为什么不这样用document.links 及document.images ?
这个要比与此同时表达式去匹配方便的多
var linksArr = document.links
for(var i=0i<linksArr.lengthi++)
{
linksArr[i].src ... ...
}