「目录」
数据清洗和准备
Data Cleaning and Prepration
字符串对象方法
Python能够成为流行的数据处理语言的部分原因是其易于处理字符串和文本。大部分文本运算都直接做成了字符串对象的内置方法。
split方法可以 通过指定分隔符对字符串进行切片 。
例如,以逗号分割的字符串可以用split拆分成数段:
strip可以 去除字符串头尾指定的字符 ,默认是空白符或换行符。
strip常常与split一起使用:
利用 加法可以将字符串连接起来 :
但这种方式并不实用,毕竟字符串多了就很麻烦。一种更快 更符合Python风格的方式是是使用join方法 ,我们向join方法中传入一个列表或元组:
检测子串的最佳方法是利用Python的in关键字,还可以使用index和find。
index和find会 查找指定值的首次出现的位置 。
find和index的区别是:若找不到字符串,index将会引发一个 异常 ,find则会返回 -1 :
count可以 返回指定字串的出现次数
replace用于将 指定模式替换为另一个模式 (replace will substitute occurrences of one pattern for another)
再记录几个Python内置的字符串方法吧。
startswith和endswith: 若字符串以某个前缀(后缀)开头,则返回True :
lower和uppe: 分别将字母字符转换为小写或大写 。
ljust和rjust: 用空格(或其他字符)填充字符串的空白侧以返回符合最低宽度的字符串 。
这章终于还剩两节就结束了。
-END-
「目录」
数据规整:聚合、合并和重塑
Data Wrangling: Join, Combine, and Reshape
-------->数据库风格的DataFrame合并
--------> 索引上的合并
上一篇笔记讲的是如何根据DataFrame的列名来链接两个DataFrame对象。
有时候我们要根据DataFrame中的index索引来合并数据。这种情况下,我们可以传入 left_index=True或right_index=True 或两个都传入来说明索引被用作链接键。
我们先创建两个DataFrame,指明根据第一个DataFrame的'key'列和第二个DataFrame的index索引来合并数据:
默认的merge方法是求取链接键的交集,通过传入how='outer'可以得到它们的并集:
层次化索引数据的合并
对于层次化索引的数据的合并,我们要以 列表的形式指明用作合并键的多个列 。
比如下面我们就指定根据第一个DataFrame的'key1'列和'key2'列以及第二个DataFrame的index索引来合并:
同时使用双方的索引来合并也没问题:
join方法
DataFrame还有便捷的实例方法join,它能更方便的实现按索引合并,但要求没有重叠的列。
我们还可以向join传入一组DataFrame,类似于concat函数,实现多个DataFrame的合并拼接:
-END-