R爬虫必备基础——CSS+SelectorGadget

2023-03-05 01:29:02Python015

R爬虫必备基础——CSS+SelectorGadget,第1张

CSS ，全称叫作Cascading Style Sheets，即 层叠样式表 。“层叠”是指当在HTML中引用了数个样式文件，并且样式发生冲突时，浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。HTML定义了网页的结构，但是只有HTML页面的布局并不美观，可能只是简单的节点元素的排列，为了 让网页看起来更好看一些 ，这里借助了CSS。CSS是 目前唯一的网页页面排版样式标准 ，有了它的帮助，页面才会变得更为美观。如下图的右侧，即为CSS。

就局部放大来看，下图所示就是一个CSS样式。 大括号前面 是一个CSS 选择器，此选择器的意思是 首先选中 id为head_wrapper且class为s-ps-islite的节点，然后 再选中 其内部的class为s-p-top的节点。大括号内部写的就是一条条 样式规则 ，例如 position 指定了这个元素的布局方式为 绝对布局 ，bottom指定元素的 下边距 为40像素，width指定了宽度为100%占满父元素，height则指定了元素的高度。也就是说，我们将位置、宽度、高度等样式配置统一写成这样的形式，然后用大括号括起来，接着在开头再加上CSS选择器，这就代表 这个样式对CSS选择器选中的元素生效 ，元素就会根据此样式来展示了。在网页中，一般会统一定义整个网页的样式规则，并写入CSS文件中（其后缀为css）。在HTML中，只需要用link标签即可引入写好的CSS文件，这样整个页面就会变得美观、优雅。

在爬虫过程中都需要爬取目标的节点，我们知道网页由一个个节点组成， CSS选择器会根据不同的节点 设置不同的样式规则， 那什么是节点 ？又 怎样来定位节点 呢？下面围绕这两个问题进行介绍。

在HTML中，所有 标签定义的内容都是节点 ，它们构成了一个HTML DOM树。我们先看下什么是DOM，DOM是W3C（万维网联盟）的标准，其英文全称Document Object Model，即 文档对象模型 。它定义了访问HTML和XML文档的标准：W3C文档对象模型（DOM）是中立于平台和语言的接口，它允许程序和脚本动态地访问和更新文档的内容、结构和样式。W3C DOM标准被分为如下3个不同的部分：

核心DOM ：针对任何结构化文档的标准模型。

XML DOM ：针对XML文档的标准模型。

HTML DOM ：针对HTML文档的标准模型。

根据W3C的HTML DOM标准，HTML文档中的所有内容都是节点。 整个文档 是一个文档节点； 每个HTML元素 是元素节点；HTML 元素内的文本是文本节点；每个HTML 属性是属性节点；注释是注释节点。HTML DOM将HTML文档视作树结构，这种结构被称为节点树，如下图所示。

节点树中的节点 彼此拥有层级关系 。我们常用父（parent）、子（child）和兄弟（sibling）等术语描述这些关系。父节点拥有子节点，同级的子节点被称为兄弟节点。在节点树中， 顶端节点称为根 （root）。除了根节点之外，每个 节点都有父节点 ，同时可拥有任意数量的子节点或兄弟节点。下图展示了节点树以及节点之间的关系。

在CSS中，我们使用 CSS选择器来定位节点 。例如，下图中div节点的id为container，那么就可以表示为#container，其中#开头代表选择id，其后紧跟id的名称。另外，如果我们想选择class为wrapper的节点，便可以使用.wrapper，这里以点（.）开头代表选择class，其后紧跟class的名称。另外，还有一种选择方式，那就是 根据标签名筛选 ，例如想选择二级标题，直接用h2即可。这是最常用的3种表示，分别是 根据id、class、标签名筛选 ，请牢记它们的写法。

另外，CSS选择器还支持 嵌套选择 ，各个选择器之间加上空格分隔开便可以代表嵌套关系，如#container .wrapper p则代表先选择id为container的节点，然后选中其内部的class为wrapper的节点，然后再进一步选中其内部的p节点。另外，如果不加空格，则代表并列关系，如div#container .wrapper p.text代表先选择id为container的div节点，然后选中其内部的class为wrapper的节点，再进一步选中其内部的class为text的p节点。这就是CSS选择器，其筛选功能还是非常强大的。另外，CSS选择器还有一些其他语法规则，具体如下表所示。

但是，这样每次都要浪费部分时间去寻找定位点，这样既不很方便，也不高效，那么如何提高爬虫中这部分工作的效率呢？今天我给大家分享一个爬虫的利器，它就是：SelectorGadget 插件。

point and click CSS selectors，强大的谷歌插件 CSS生成器 ，有助于我们快速找到html的节点信息，它也支持Xpath表达式。Selector Gadget是一个开源的Chrome扩展程序，可以轻松地在复杂的网站上生成和选择CSS选择器。安装扩展程序后，转到任意页面并启动它。网站右下方会打开一个方框。单击您希望选择器匹配的页面元素（它将变为绿色）。然后SelectorGadget将为该元素生成一个最小的CSS选择器，并突出显示（黄色）选择器匹配的所有内容。现在单击突出显示的元素将其从选择器中删除（红色），或单击未突出显示的元素将其添加到选择器。通过这个选择和拒绝过程，SelectorGadget可以帮助您找到满足您需求的完美CSS选择器。

首先需要安装一下这个神器。在谷歌浏览器中的应用商店里，搜索到SelectorGadget插件，点击“添加至Chrome”即可。如果不能打开Chrome应用商店，可以通过网上的其他途径获取该插件，之后再手动添加至谷歌浏览器即可。手动添加方法是：打开谷歌浏览器扩展程序，并开启开发者模式，将该插件拖拽到浏览器里，如果不成功，可以选择“加载已解压的扩展程序”，将该文件夹先压缩再解压添加进去。

同时在页面栏上能看到红框处的SelectorGadget标志。

咱们以 https://www.yugaopian.cn/ 网页为例，首先点击网页上方的SelectorGadget，然后在网页下方弹出SelectorGadget框。接下来，咱们尝试一下如何使用？比如我们想定位“拆弹专家2”的节点，直接点击它，则会在框内显示其节点—— .item-title （如下图）。绿色：单击希望选择器匹配的页面元素。黄色：生成的这个CSS选择器【 .item-title 】能匹配的所有内容，从下图可以发现该CSS选择器可以抓取哪些信息。当你把鼠标放到这些高亮的元素上时，会显示红色，代表要将其从选择器中删除；而单击未突出显示的元素将其添加到选择器。

在实际构建CSS表达式过程中，需要搭配 网页开发工具 里的copy selector功能使用，非常方便。比如：定位抓取以下网页（ https://www.yugaopian.cn/allmovies ）红框内的所有电影名称信息。

具体操作流程如下：在某一电影名称下右击——检查，定位到电影名称的网页源码处，然后右击—copy—copy selector，再打开SelectorGadget，在框内粘贴CSS表达式，按Enter键，发现在网页中准确定位出该电影名称。但我们需要定位所有的电影名称，在已有的CSS表达式【（body >div:nth-child(5) >div.inner-wrapper >div.inner-2col-main >div >ul >li:nth-child(1) >a >span.item-title）】上进行修改，这里可以发现【li:nth-child(1)】只选取了第一个，而我们所需选取所有，因此去掉后面的【(1)】即可。在具体实践中，如何修改还有有赖于小伙伴对网页结构和CSS语法的理解。最终，获取以上红框内电影名称的CSS选择器表达式为：【body >div:nth-child(5) >div.inner-wrapper >div.inner-2col-main >div >ul >li:nth-child >a >span.item-title】。在实际应用中，不同节点标签之间用空格分隔：【body div:nth-child(5) div.inner-wrapper div.inner-2col-main div ul li:nth-child a span.item-title】。

但在SelectorGadget使用中，发现其构建的CSS表达式往往很复杂，大部分情况下其实也是可以自己构建CSS表达式的。构建CSS选择表达式的关键在于清楚整个网页结构，找到标签之间的属于关系、属性值属于哪个标签等，就可以比较快速的构建。而且浏览器很智能，鼠标在源码上的位置，可以在网页显示上呈现阴影，这个功能简直太香了。以上红框内所有电影名字的CSS表达式也可以表示为：【div.movlist ul li a span.item-title】

然后用SelectorGadget验证，如下图，发现高亮选中的部分就是我想要定位的信息，说明这个CSS表达式正确。

以上简单介绍了如何构建CSS表达式，在爬虫过程中定位抓取特定节点数据是非常重要的一步，有了这步才有下游的精准数据提取与清洗。希望本次教程能给有需要的小伙伴一点小小帮助！

更多内容可关注公共号“YJY技能修炼”~~~

往期回顾

R爬虫在工作中的一点妙用

R爬虫必备基础——HTML和CSS初识

R爬虫必备基础——静态网页+动态网页

R爬虫必备——rvest包的使用

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。

HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器有：Apache服务器，IIS服务器（Internet Information Services）等。Web服务器根据接收到的请求后，向客户端发送响应信息。HTTP默认端口号为80，但是你也可以改为8080或者其他端口。

通信流程说明：

①用户首先通过鼠标/键盘点击或手动输入目标链接（即URL（Uniform Resource Locators），中文名称：统一资源定位符），向HTTP客户端（如常见的浏览器）传达数据查询需求。

②HTTP客户端收到需求后，将收到的URL信息向DNS服务器（域名系统）询问链接对应的具体IP地址，DNS服务器返回URL对应的IP地址。

③HTTP客户端再拿着IP地址通过TCP协议（传输控制协议，Transmission Control Protocol）和IP协议（Internet Protocol）向HTTP服务器发出数据请求，等待服务器响应。

④HTTP服务器将请求的相关信息返回给HTTP客户端，由客户端返回给客户。

⑤重复上述步骤①~④，直到所有请求执行完毕。

URL格式： 如 scheme://hostname:port/path?querystring#fragment 。一个完整的URL共有6部分构成，但是并不是每个部分都一定要具备。参数解释如下：

HTTP是基于客户端/服务端（C/S）的架构模型，通过一个可靠的链接来交换信息，是一个无状态的请求/响应协议。一个HTTP"客户端"是一个应用程序（Web浏览器或其他任何客户端），通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。一个HTTP"服务器"同样也是一个应用程序（通常是一个Web服务，如Apache Web服务器或IIS服务器等），通过接收客户端的请求并向客户端发送HTTP响应数据。HTTP使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和建立连接。一旦建立连接后，数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展（MIME）[RFC2045]来传送。

客户端发送一个HTTP请求到服务器的请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成，下图给出了请求报文的一般格式。

如：

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

如：

根据 HTTP 标准，HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法：GET, POST 和 HEAD方法。HTTP1.1 新增了六种请求方法：OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在请求模式中，最常用的请求方法是GET和POST方法，在爬虫过程中至关重要。这两个方法都是从服务器请求一个资源，但是在正文的使用上有所不同。GET方法是网络请求最通用方法，可理解为直接请求。POST则有所区别，需要提交表单信息才能请求到信息，比如说拉勾网招聘首页需要用户输入地点、薪资范围等信息才能请求到匹配的网页界面。

HTTP请求头提供了关于请求，响应或者其他的发送实体的信息。下面将具体来介绍HTTP响应头信息。

当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。HTTP状态码的英文为HTTP Status Code。下面是常见的HTTP状态码：

200 - 请求成功

301 - 资源（网页等）被永久转移到其它URL

404 - 请求的资源（网页等）不存在

500 - 内部服务器错误

HTTP状态码由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。HTTP状态码共分为5种类型：

Content-Type（内容类型），一般是指网页中存在的 Content-Type，用于定义网络文件的类型和网页的编码，决定浏览器将以什么形式、什么编码读取这个文件，比如text/html/xml/json/jpg/gif/pdf等。Content-Type 标头告诉客户端实际返回的内容的内容类型，如下图，返回的是html格式文件。

当我们在地址栏输入 www.sina.com.cn 时，浏览器将显示新浪的首页。在这个过程中，浏览器都干了哪些事情呢？通过Network的记录，我们就可以知道。在Network中，定位到第一条记录，点击右侧Headers，从Request Headers中可以看到浏览器发给新浪服务器的请求：请求网址为 https://www.sina.com.cn/ ，请求方法为GET.

继续往下找到Response Headers，它显示服务器返回的原始响应数据。其中200表示一个成功的响应，后面的OK是说明。失败的响应有404 Not Found：网页不存在，500 Internal Server Error：服务器内部出错，等等。Content-Type指示响应的内容，这里是text/html表示HTML网页。请注意，浏览器就是依靠Content-Type来判断响应的内容是网页还是图片，是视频还是音乐。

HTTP响应返回的是HTML源码，点击Response，可以看到返回的html网页源码。

接着，当浏览器读取到新浪首页的HTML源码后，它会解析HTML，显示页面，然后，根据HTML里面的各种链接，再发送HTTP请求给新浪服务器，拿到相应的图片、视频、Flash、JavaScript脚本、CSS等各种资源，最终显示出一个完整的页面。

参考： https://www.runoob.com/http/http-tutorial.html