最新发布

# 2023-02-17
怎么插入HTML代码？
分类:电脑网络 &gt&gt程序设计 &gt&gt其他编程语言解析:插入HTML代码十四、在网页中插入HTML代码（一）插入HTML代码的方法1、在设计视图中插入HTML代码
# 2023-02-17
html是什么意思？
HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签．通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声
# 2023-02-17
css中的绝对定位和相对定位有什么区别？
css中的绝对定位和相对定位的区别：position: absolute，绝对定位。position: relative，相对定位。position:absolute，float会隐式地改变display的类型（display：none除
# 2023-02-17
请问一下哪里有DIV+CSS的视频讲解
CSSDIV页面布局设计http:learning.artech.cncategorycss-div-web-designCSSDIV网页设计视频教程目录2007年05月01日星期二欢迎您来到前沿视频教室，下面列出的是CSS
# 2023-02-17
CSS里的定位主要有几种方法？
定位方案有四种：静态定位、相对定位、绝对定位和固定定位。你可以使用CSS 3中的「position」属性来决定要使用的定位方式。在这四种方案中，静态和相对定位不会影响整个文档的布局，而绝对和固定定位会与文档分开，因此页面不会为这两种类型的
# 2023-02-17
html网页制作教程
html是编程语言之一。下面，我们来看看html网页制作教程吧。 01新建记事本在桌面上，新建一张记事本，如下图所示：02编写代码打开记事本，编写代码，如下图所示：03修改后缀名把记事本修改后缀名为.h
# 2023-02-17
css规范写法
一般css两种写法.class{样式1:样式1样式2:样式2样式3:样式3样式4:样式4}.class{样式1:样式1样式2:样式2样式3:样式3样式4:样式4}另一种是.class{样式1:样式1样式2:样式2样式3:样式3样
# 2023-02-17
CSS border（边框）样式写法总结
border属性：在网页中设置元素的边框样式。可同时设置边框宽度、边框样式、边框颜色。也可以单独设置上边、右边、下边、左边的边框。语法：border：border-width|border-style|bo
# 2023-02-17
CSS中font是什么意思？
CSS中font是设置字体属性的。font在css的作用就是在一个声明中设置所有字体属性：举例说明：&lthtml&gt&lthead&gt&ltstyle type="text
# 2023-02-17
css+less变量
1.css变量的使用 2.less变量使用：变量+混合+嵌套+循环 webstorm配置less：通过命令npm install -g less先安装less html内容如下： less内容如下：可以的，在选择器方面，le

xPath与html

2023-03-02 02:52:01html-css017

xPath与html,第1张

xPath 是一种html和xml的查询语言，能在其树状结构中寻找节点。

LXML安装：pip install lxml

——xPath使用-----------------------------------------------------------------------------------

获取文本：

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../text()

获取属性值

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../@属性n

eg：-------------------------------------------------------------------

from lxml import html

def parse():

"""将html文件中内容使用xpath进行提取"""

#读取文件中的内容

f =open('./static/index.html', 'r', encoding='utf-8')

s = f.read()

selector = html.fromstring(s)

# 解析a 标签内容

a = selector.xpath('//div[@id="container"]/a/text()')

print(a[0])

# 解析href属性

alink = selector.xpath('//div[@id="container"]/a/@href')

print(alink[0])

f.close()

if __name__=='__main__':

parse()

看下面一些例子：

1)获取子节点：getchildren()等价于child::*

>>>doc.getchildren()

2)获取当前节点："."等价于self::node()

>>>doc.xpath(".")

>>>doc.xpath("self::node()")

3)获取父节点：".."等价于parent::node()

>>>doc.head.xpath("..")

>>>doc.head.xpath("parent::node()")

4）ancestor轴和descendant轴

分别代表当前元素所有祖先元素、所有后代元素，比如：

>>>meta.xpath('ancestor::*')

>>>meta.xpath('ancestor::head')

>>>doc.xpath('descendant::table')

>>>doc.xpath('descendant::table[@id="tcdatafields"]')

>>>doc.xpath('//table[@id="tcdatafields"]')

5）ancestor-or-self和descendant-or-self轴

分别表示当前元素或其所有祖先元素、当前元素或其所有后代元素，比如：

>>>meta.xpath('ancestor-or-self::*')

,,]

6）child和parent轴

分别表示当前元素所有子元素、父元素：

>>>doc.xpath('child::head')

>>>head.xpath('child::meta[1]')

>>>head.xpath('child::meta[position()<3]')

7）attribute轴

表示当前元素的所有属性，例如下面是meta元素的name和content两个属性以及取值：

>>>meta.items()

[('name','googlebot'),('content','index,follow')]

获取所有属性取值：

>>>meta.xpath('attribute::*')

['googlebot','index,follow']

获取name属性的取值：

>>>meta.xpath('attribute::name')

['googlebot']

8）following和preceding

分别表示当前元素的所有后继元素、前置元素，比如：

>>>meta.xpath('following::*')

>>>meta.xpath('preceding::*')

9）following-sibling和preceding-sibling轴

分别表示当前元素的所有平级后继元素、平级前置元素，比如：

>>>meta.xpath('preceding-sibling::*')

>>>meta.xpath('following-sibling::*')

10）self轴

表示当前元素自身

>>>doc.xpath("self::*")

使用谓词(predicates)

谓词就是step中使用中括号[...]定义的那部分，使用谓词能实现精确查找，看下面的例子：

>>>doc.xpath('/html/head/meta')

,,,,,,]

1)位置谓词

>>>doc.xpath('/html/head/meta[1]')

>>>doc.xpath('/html/head/meta[2]')

>>>doc.xpath('/html/head/meta[last()]')

>>>doc.xpath('/html/head/meta[last()-1]')

>>>doc.xpath('/html/head/meta[position()<3]')

注：这里使用了last()和position()两个函数，xpath还支持更多的函数，结合这些函数可以获得非常强大的处理能力。

2)属性谓词

含有属性name的meta元素：

>>>doc.xpath('/html/head/meta[@name]')

,,,]

含有属性name而且其取值为robots的meta元素：

含有任意属性的meta元素：

>>>doc.xpath('/html/head/meta[@*]')

3)函数谓词

xpath内置很多函数，灵活使用这些函数，可以极大提升查找效率，比如：

-使用text()函数

>>>doc.xpath('//td[text()="2017-03-21"]')

-使用contains函数

>>>[td.textfortdindoc.xpath('//td[contains(text(),"2017-03-2")]')]

['2017-03-29','2017-03-28','2017-03-27','2017-03-24','2017-03-23','2017-03-22','2017-03-21','2017-03-20']

-使用starts-with函数

>>>[td.textfortdindoc.xpath('//td[starts-with(text(),"2017-02-2")]')]

['2017-02-28','2017-02-27','2017-02-24','2017-02-23','2017-02-22','2017-02-21','2017-02-20']

>>>[td.textfortdindoc.xpath('//td[text()>21.0andtext()<23.0]')]

['21.02']

>>>[td.textfortdindoc.xpath('//td[text()<-2.5ortext()>21.0]')]

['21.02','-2.64']

通配符

xpath也支持通配符"*"，其中'*"可以匹配任何标签元素，"@*"可以匹配任何元素属性，node()可以匹配任何节点：

>>>head.xpath('./*')

,,,,,,,,,]

>>>head.xpath('./meta[@*]')

>>>head.xpath('./node()')

先格式化html（比如用制表符tab），然后以你要提取的节点开始向上查找，每个父级都相差一个制表符。

如果html过于复杂，可以通过某些手段只保留html的标签结构（去除属性和内容），达到看起来清晰的目的。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：css怎么实现文字在图片四周环绕

# 下一篇：电脑散热器怎么清理灰尘