html其实是超文本标记语言。超文本是一种组织信息的方式,它通过超级链接方法将文本中的文字、图表与其他信息媒体相关联。
html是一种标记语言,全称为超文本标记语言。现在大部分网页都是html格式,所以应用非常广泛,“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
BeautilfulSoup是比较常用的一个html解析库安装:pip install beautilfulsoup4
4个常用解析库
1.html.prase
2.xml
3.lxml
4.htm5lib
dmo操作
p.contents\p.children\p.silbing,p.parent\p.desantoranr\p.anstoer等等
获取属性,文本,
最最常用的css选择器:soup.select()
常用方法:find\findall