python 信息标记与提取方法

Python015

python 信息标记与提取方法,第1张

@[toc]

信息标记的三种形式:XML、JSON、YAML

eXtensible Markup Language

XML实例

Javascript Object Notation

有类型的键值对 key:value

JSON实例

YAML Ain't Markup Language

无类型键值对 key:value

YAML实例

| 表示整块数据 # 表示注释

XML:最早的通用的信息标记语言,可扩展性好,但繁琐。 Internet上的信息交互与传递

JSON:信息有类型,适合程序处理(js),较XML简洁。移动应用云端和节点的信息通信,无注释。

YAML:信息无类型,文本信息比例最高,可读性好。各类系统的配置文件,有注释易读

实例:提取HTML中所有URL链接

思路:1)搜索到所有的<a>标签

2)解析<a>标签格式,提取href后的链接内容

一般完整的文件为:“文件名”.“文件格式”,可以通过“.”来获取文件名。\x0d\x0aimport os\x0d\x0afile_name=[]\x0d\x0astr_file=os.getcwd()#当前脚本路径\x0d\x0afor dirpaths, dirnames, filenames in os.walk(str_file):\x0d\x0afor filename in filenames:\x0d\x0aif "." in filename:\x0d\x0a\x0d\x0afilename=filename.split(".")[0]#以“.”为分割点获取文件名\x0d\x0a\x0d\x0afile_name.append(filename)\x0d\x0a\x0d\x0aprint file_name

在 Python 中,你可以使用二进制方法来提取性别信息。

例如,假设你有一个数据集,其中包含每个人的性别信息。为了节省空间,你可以使用二进制方法来存储性别信息。

假设你使用 0 表示男性,1 表示女性。那么,你可以使用 "&" 运算符来提取性别信息。

例如,假设你有一个数据记录 "x",其中包含性别信息,你可以使用以下代码片段来提取性别信息:

请注意,这里假设 "x" 是一个整型数据,并且性别信息是存储在 "x" 的最后一位中的。

总之,在 Python 中,你可以使用二进制方法来提取性别信息。