信息标记的三种形式:XML、JSON、YAML
eXtensible Markup Language
XML实例
Javascript Object Notation
有类型的键值对 key:value
JSON实例
YAML Ain't Markup Language
无类型键值对 key:value
YAML实例
| 表示整块数据 # 表示注释
XML:最早的通用的信息标记语言,可扩展性好,但繁琐。 Internet上的信息交互与传递
JSON:信息有类型,适合程序处理(js),较XML简洁。移动应用云端和节点的信息通信,无注释。
YAML:信息无类型,文本信息比例最高,可读性好。各类系统的配置文件,有注释易读
实例:提取HTML中所有URL链接
思路:1)搜索到所有的<a>标签
2)解析<a>标签格式,提取href后的链接内容
一般完整的文件为:“文件名”.“文件格式”,可以通过“.”来获取文件名。\x0d\x0aimport os\x0d\x0afile_name=[]\x0d\x0astr_file=os.getcwd()#当前脚本路径\x0d\x0afor dirpaths, dirnames, filenames in os.walk(str_file):\x0d\x0afor filename in filenames:\x0d\x0aif "." in filename:\x0d\x0a\x0d\x0afilename=filename.split(".")[0]#以“.”为分割点获取文件名\x0d\x0a\x0d\x0afile_name.append(filename)\x0d\x0a\x0d\x0aprint file_name例如,假设你有一个数据集,其中包含每个人的性别信息。为了节省空间,你可以使用二进制方法来存储性别信息。
假设你使用 0 表示男性,1 表示女性。那么,你可以使用 "&" 运算符来提取性别信息。
例如,假设你有一个数据记录 "x",其中包含性别信息,你可以使用以下代码片段来提取性别信息:
请注意,这里假设 "x" 是一个整型数据,并且性别信息是存储在 "x" 的最后一位中的。
总之,在 Python 中,你可以使用二进制方法来提取性别信息。