一般采集是从xml或别的有固定形态编码中采集。如果你是直接从链接截码,必须要做后台处理。而像你说得这种还会怕多出div的问题,这个就太麻烦了。建议用iframe做这类操作。
如果可行。最正规的方法是从提供的api或xml里提取信息。
含义h1标签选择器,匹配所有使用<h1>标签的元素
a标签选择器,匹配所有使用<a>标签的元素
.infoclass选择器,匹配所有class属性等于info的元素
#infoid选择器,匹配所有id属性等于footer的元素
class选择器前面有 . 号, 如 .some_word
id选择器使前面有 # 号, 如 #some_word
例如某篇文章的标题HTML代码如下:
因此该文章标题的CSS选择器就是 .entry-title
如果是:
该文章标题的CSS选择器就是 #artibodyTitle
例如某篇文章的正文内容HTML代码如下: