python 正则表达式过滤特殊字符

Python011

python 正则表达式过滤特殊字符,第1张

>>>import re

>>>string = "123我adfasdf?(((q,[]"

>>>string

'123我adfasdf?(((q,[]'

>>>sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)

>>>sub_str

'123我adfasdfq'

您好,我觉得问题出在第二个*。

你想想,如果匹配任意的element, 就会把标题什么的都匹配。

建议改成 div 试试

如果不行,可以试试 following-sibling

还有,有一个小建议,一般xpath 开头写成 //div[....] 能具体就具体,这样可靠性更高

安装pandas库。

将之前收集到的文件信息重新构建成绝对路径以便读取,同时使用endswith()判断文件名后缀为.xlsx,使用pandas的read_excel()进行读取。

其中sheet_name=可用表名或者数字,0代表第一个表,1代表第二个表,'sheet1’代表读取sheet1表。