CSS的调用,按照CSS出现在页面的不同位置,可以分为3种方法:
元素中直接使用;
从页面头部调用;
采用链接的形式调用。
不同的调用方法有不同的写法和优先级。下面分别做一下介绍。
一、元素中直接使用
这种调用方式的写法如下:
<元素名称 style="属性:属性值"></元素名称>
在样式中直接使用CSS,语法是使用style标签,在双引号中,样式的语法结构和独立样式表中完全相同。例如:
<div style="width:240pxheight:80pxbackground-color:#cccccctext-align:centerfont-size:14px">
示例:元素中直接调用。</div>
该样式中定义了元素宽、高为360、80像素,背景色为灰色,字体大小为14像素。其应用到页面中的显示如图1。
二、从页面头部调用
从页面头部调用CSS是将CSS写在页面的head元素中,然后在页面中调用。其语法结构如下:
<style>
选择符{属性:属性值}
</style>
页面上的所有样式都可以写在<style>和</style>中。使用这种方式调用CSS,在页面中必须有相应的调用代码。
其中,类选择符的调用代码如下:
<元素名称 class="类选择符名称"></元素名称>
ID选择符的调用代码如下:
<元素名称 id="id 类选择符名称"></元素名称>
下面我们来用一个示例演示一下。
<head>
<title>CSS调用方法</title>
<style>
.content{
background-color: #cccccc
font-size: 14px
width: 240px
height: 80px
color: Blue
text-align: center
}
</style>
</head>
<body>
<div class="content">示例:从页面头部调用。</div>
</body>
该样式应用到页面的效果如图2所示。
三、采用链接的形式调用
采用链接的形式调用CSS通常有两种方法:
使用link元素
使用link元素调用CSS的语法如下:
<link rel="stylesheet" href="css文件路径" type="text/css"/>
其中rel="stylesheet"指这个link和其href之间的关联样式为样式表文件。type="text/css"指文件类型是样式表文本。
1.静态布局——最传统的布局方式,网页中所有尺寸都是由px作为单位,设置了min-width,如果宽度小于就会出现滚动条,如果大于这个宽度则内容居中外加背景
实现方式:PC:居中布局,所有样式使用绝对宽度/高度(px),设计一个Layout,在屏幕宽高有调整时,使用横向和竖向的滚动条来查阅被遮掩部分;
移动设备:另外建立移动网站,单独设计一个布局,使用不同的域名如wap.或m.。
优点:采用之前的css2的布局·方式,布局简单,没有兼容性问题。
缺点: 在手机端不能合理的显示,移动端不能使用pc端页面,需要再写一个布局来呈现。
实践案例:Float 布局、绝对布局
2.自适应布局
——可以看成是不同屏幕下由多个静态布局组成的。自适应布局是为不同的屏幕分辨率分别定义不同的布局。改变屏幕分辨率可以切换不同的静态布局(页面元素位置可能发生改变),但在每个静态布局中,页面元素不随窗口大小的调整发生变化。自适应布局页面里面元素的位置会变化,很好的解决了流式布局中的大屏空间利用率不高弊端。
注:屏幕分辨率变化时,页面里面元素的位置会变化而大小不会变化。
3.流失布局(百分比布局 %)
网页中主要的划分区域的尺寸使用百分数(搭配min-*、max-*属性使用),分别为不同的屏幕设置布局格式,当屏幕大小改变时,会出现不同的布局,意思就是在这个屏幕下这个元素块在这个地方,但是在那个屏幕下,这个元素块又会出现在那个地方。只是布局改变,元素不变。可以看成是不同屏幕下由多个静态布局组成的。
而流式布局的特点是随着屏幕的改变,页面的布局没有发生大的变化,可以进行适配调整,这个正好与自适应布局相补。使用%百分比定义宽度,高度大都是用px来固定住,可以根据可视区域 (viewport) 和父元素的实时尺寸进行调整,尽可能的适应各种分辨率。往往配合 max-width/min-width 等属性控制尺寸流动范围以免过大或者过小影响阅读。这种布局方式在Web前端开发的早期历史上,用来应对不同尺寸的PC屏幕(那时屏幕尺寸的差异不会太大),在当今的移动端开发也是常用布局方式,但缺点明显:主要的问题是如果屏幕尺度跨度太大,那么在相对其原始设计而言过小或过大的屏幕上不能正常显示。因为宽度使用%百分比定义,但是高度和文字大小等大都是用px来固定,所以在大屏幕的手机下显示效果会变成有些页面元素宽度被拉的很长,但是高度、文字大小还是和原来一样(即,这些东西无法变得“流式”
注:屏幕分辨率变化时,页面里元素的大小会变化而但布局不变。
主要实践案例:左侧固定+右侧自适应、左右固定宽度+中间自适应、圣杯布局、双飞翼布局
4.响应式布局(媒体查询)
——通过响应式设计能使网站在手机和平板电脑上有更好的浏览阅读体验。屏幕尺寸不一样展示给用户的网页内容也不一样.利用媒体查询可以检测到屏幕的尺寸(主要检测宽度),并设置不同的CSS样式,就可以实现响应式的布局。主要依靠是css的媒体查询。
注:每个屏幕分辨率下面会有一个布局样式,即元素位置和大小都会变。
5.弹性布局
——rem/em、flex布局
CSS ,全称叫作Cascading Style Sheets,即 层叠样式表 。“层叠”是指当在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。HTML定义了网页的结构,但是只有HTML页面的布局并不美观,可能只是简单的节点元素的排列,为了 让网页看起来更好看一些 ,这里借助了CSS。CSS是 目前唯一的网页页面排版样式标准 ,有了它的帮助,页面才会变得更为美观。如下图的右侧,即为CSS。
就局部放大来看,下图所示就是一个CSS样式。 大括号前面 是一个CSS 选择器 ,此选择器的意思是 首先选中 id为head_wrapper且class为s-ps-islite的 节点 ,然后 再选中 其内部的class为s-p-top的 节点 。大括号内部写的就是一条条 样式规则 ,例如 position 指定了这个元素的布局方式为 绝对布局 ,bottom指定元素的 下边距 为40像素,width指定了 宽度 为100%占满父元素,height则指定了元素的 高度 。也就是说,我们将位置、宽度、高度等样式配置统一写成这样的形式,然后用大括号括起来,接着在开头再加上CSS选择器,这就代表 这个样式对CSS选择器选中的元素生效 ,元素就会根据此样式来展示了。在网页中,一般会统一定义整个网页的样式规则,并写入CSS文件中(其后缀为css)。在HTML中,只需要用link标签即可引入写好的CSS文件,这样整个页面就会变得美观、优雅。
在爬虫过程中都需要爬取目标的 节点 ,我们知道网页由一个个 节点 组成, CSS选择器会根据不同的节点 设置不同的样式规则, 那什么是节点 ?又 怎样来定位节点 呢?下面围绕这两个问题进行介绍。
在HTML中,所有 标签定义的内容都是节点 ,它们构成了一个HTML DOM树。我们先看下什么是DOM,DOM是W3C(万维网联盟)的标准,其英文全称Document Object Model,即 文档对象模型 。它定义了访问HTML和XML文档的标准:W3C文档对象模型(DOM)是中立于平台和语言的接口,它允许程序和脚本动态地访问和更新文档的内容、结构和样式。W3C DOM标准被分为如下3个不同的部分:
核心DOM :针对任何结构化文档的标准模型。
XML DOM :针对XML文档的标准模型。
HTML DOM :针对HTML文档的标准模型。
根据W3C的HTML DOM标准,HTML文档中的所有内容都是节点。 整个文档 是一个文档节点; 每个HTML元素 是元素节点;HTML 元素内的文本 是文本节点;每个HTML 属性 是属性节点; 注释 是注释节点。HTML DOM将HTML文档视作树结构,这种结构被称为节点树,如下图所示。
节点树中的节点 彼此拥有层级关系 。我们常用父(parent)、子(child)和兄弟(sibling)等术语描述这些关系。父节点拥有子节点,同级的子节点被称为兄弟节点。在节点树中, 顶端节点称为根 (root)。除了根节点之外,每个 节点都有父节点 ,同时可拥有任意数量的子节点或兄弟节点。下图展示了节点树以及节点之间的关系。
在CSS中,我们使用 CSS选择器来定位节点 。例如,下图中div节点的id为container,那么就可以表示为#container,其中#开头代表选择id,其后紧跟id的名称。另外,如果我们想选择class为wrapper的节点,便可以使用.wrapper,这里以点(.)开头代表选择class,其后紧跟class的名称。另外,还有一种选择方式,那就是 根据标签名筛选 ,例如想选择二级标题,直接用h2即可。这是最常用的3种表示,分别是 根据id、class、标签名筛选 ,请牢记它们的写法。
另外,CSS选择器还支持 嵌套选择 ,各个选择器之间加上空格分隔开便可以代表嵌套关系,如#container .wrapper p则代表先选择id为container的节点,然后选中其内部的class为wrapper的节点,然后再进一步选中其内部的p节点。另外,如果不加空格,则代表并列关系,如div#container .wrapper p.text代表先选择id为container的div节点,然后选中其内部的class为wrapper的节点,再进一步选中其内部的class为text的p节点。这就是CSS选择器,其筛选功能还是非常强大的。另外,CSS选择器还有一些其他语法规则,具体如下表所示。
但是,这样每次都要浪费部分时间去寻找定位点,这样既不很方便,也不高效,那么如何提高爬虫中这部分工作的效率呢?今天我给大家分享一个爬虫的利器,它就是:SelectorGadget 插件。
point and click CSS selectors,强大的谷歌插件 CSS生成器 ,有助于我们快速找到html的节点信息,它也支持Xpath表达式。Selector Gadget是一个开源的Chrome扩展程序,可以轻松地在复杂的网站上生成和选择CSS选择器。安装扩展程序后,转到任意页面并启动它。网站右下方会打开一个方框。 单击您希望选择器匹配的页面元素(它将变为绿色)。然后SelectorGadget将为该元素生成一个最小的CSS选择器,并突出显示(黄色)选择器匹配的所有内容。现在单击突出显示的元素将其从选择器中删除(红色),或单击未突出显示的元素将其添加到选择器。 通过这个选择和拒绝过程,SelectorGadget可以帮助您找到满足您需求的完美CSS选择器。
首先需要安装一下这个神器。在谷歌浏览器中的应用商店里,搜索到SelectorGadget插件,点击“添加至Chrome”即可。如果不能打开Chrome应用商店,可以通过网上的其他途径获取该插件,之后再手动添加至谷歌浏览器即可。手动添加方法是:打开谷歌浏览器扩展程序,并开启开发者模式,将该插件拖拽到浏览器里,如果不成功,可以选择“加载已解压的扩展程序”,将该文件夹先压缩再解压添加进去。
同时在页面栏上能看到红框处的SelectorGadget标志。
咱们以 https://www.yugaopian.cn/ 网页为例,首先点击网页上方的SelectorGadget,然后在网页下方弹出SelectorGadget框。接下来,咱们尝试一下如何使用?比如我们想定位“拆弹专家2”的节点,直接点击它,则会在框内显示其节点—— .item-title (如下图)。绿色:单击希望选择器匹配的页面元素。黄色:生成的这个CSS选择器【 .item-title 】能匹配的所有内容,从下图可以发现该CSS选择器可以抓取哪些信息。当你把鼠标放到这些高亮的元素上时,会显示红色,代表要将其从选择器中删除;而单击未突出显示的元素将其添加到选择器。
在实际构建CSS表达式过程中,需要搭配 网页开发工具 里的copy selector功能使用,非常方便。比如:定位抓取以下网页( https://www.yugaopian.cn/allmovies )红框内的所有电影名称信息。
具体操作流程如下:在某一电影名称下右击——检查,定位到电影名称的网页源码处,然后右击—copy—copy selector,再打开SelectorGadget,在框内粘贴CSS表达式,按Enter键,发现在网页中准确定位出该电影名称。但我们需要定位所有的电影名称,在已有的CSS表达式【(body >div:nth-child(5) >div.inner-wrapper >div.inner-2col-main >div >ul >li:nth-child(1) >a >span.item-title)】上进行修改,这里可以发现【li:nth-child(1)】只选取了第一个,而我们所需选取所有,因此去掉后面的【(1)】即可。在具体实践中,如何修改还有有赖于小伙伴对网页结构和CSS语法的理解。最终,获取以上红框内电影名称的CSS选择器表达式为:【body >div:nth-child(5) >div.inner-wrapper >div.inner-2col-main >div >ul >li:nth-child >a >span.item-title】。在实际应用中,不同节点标签之间用空格分隔:【body div:nth-child(5) div.inner-wrapper div.inner-2col-main div ul li:nth-child a span.item-title】。
但在SelectorGadget使用中,发现其构建的CSS表达式往往很复杂,大部分情况下其实也是可以自己构建CSS表达式的。构建CSS选择表达式的关键在于清楚整个网页结构,找到标签之间的属于关系、属性值属于哪个标签等,就可以比较快速的构建。而且浏览器很智能,鼠标在源码上的位置,可以在网页显示上呈现阴影,这个功能简直太香了。以上红框内所有电影名字的CSS表达式也可以表示为:【div.movlist ul li a span.item-title】
然后用SelectorGadget验证,如下图,发现高亮选中的部分就是我想要定位的信息,说明这个CSS表达式正确。
以上简单介绍了如何构建CSS表达式,在爬虫过程中定位抓取特定节点数据是非常重要的一步,有了这步才有下游的精准数据提取与清洗。希望本次教程能给有需要的小伙伴一点小小帮助!
更多内容可关注公共号“YJY技能修炼”~~~
往期回顾
R爬虫在工作中的一点妙用
R爬虫必备基础——HTML和CSS初识
R爬虫必备基础——静态网页+动态网页
R爬虫必备——rvest包的使用