python 信息标记与提取方法

Python013

python 信息标记与提取方法,第1张

@[toc]

信息标记的三种形式:XML、JSON、YAML

eXtensible Markup Language

XML实例

Javascript Object Notation

有类型的键值对 key:value

JSON实例

YAML Ain't Markup Language

无类型键值对 key:value

YAML实例

| 表示整块数据 # 表示注释

XML:最早的通用的信息标记语言,可扩展性好,但繁琐。 Internet上的信息交互与传递

JSON:信息有类型,适合程序处理(js),较XML简洁。移动应用云端和节点的信息通信,无注释。

YAML:信息无类型,文本信息比例最高,可读性好。各类系统的配置文件,有注释易读

实例:提取HTML中所有URL链接

思路:1)搜索到所有的<a>标签

2)解析<a>标签格式,提取href后的链接内容

1.python中的标识符是区分大小写的。

2.标示符以字母或下划线开头,可包括字母,下划线和数字。

3.以下划线开头的标识符是有特殊意义的。

>以单下划线开头(_foo)的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用“from xxx import *”而导入;

>以双下划线开头的(__foo)代表类的私有成员;

>以双下划线开头和结尾的(__foo__)代表python里特殊方法专用的标识,如__init__()代表类的构造函数。

逻辑上看没有什么问题,输入一个字符串,先判断字符串是否完全由大小写字母、下划线以及数字构成,再判断首字符是否是下划线或者大小写字母,这两条有任意一条不满足输出false,若都满足则输出true。