Python 用正则表达式提取txt文件里包含的url的表达式

Python017

Python 用正则表达式提取txt文件里包含的url的表达式,第1张

这种结构化的数据交换格式,按照约定的格式来解析是最好的,而不是去用正则,这样能准确的取出数据中对应位置的数据。像这样

#!/usr/bin/env python

#-*- coding: utf-8 -*-

import json

with open('google.txt') as f:

    obj = json.loads(f.read())

urls = [e[0] for e in obj]

print(urls)

我用你上面的部分数据做了一个测试用的google.txt,这个运行的结果是

[u'http://en.wikipedia.org/wiki/403(b)', u'http://www.investopedia.com/terms/1/403bplan.asp']

pic = requests.get(each)是发送请求到服务器,服务器返回(图片)的二进制数据流, fp.write(pic.content)就是把图片的二进制数据存到本地文件,也就是保存图片

这样

pattern='.+\.(css|img|js)$'

m=re.match(p,url)

if m!=None:

符合

else:

不符合