这种结构化的数据交换格式,按照约定的格式来解析是最好的,而不是去用正则,这样能准确的取出数据中对应位置的数据。像这样
#!/usr/bin/env python#-*- coding: utf-8 -*-
import json
with open('google.txt') as f:
obj = json.loads(f.read())
urls = [e[0] for e in obj]
print(urls)
我用你上面的部分数据做了一个测试用的google.txt,这个运行的结果是
[u'http://en.wikipedia.org/wiki/403(b)', u'http://www.investopedia.com/terms/1/403bplan.asp']
pic = requests.get(each)是发送请求到服务器,服务器返回(图片)的二进制数据流, fp.write(pic.content)就是把图片的二进制数据存到本地文件,也就是保存图片这样pattern='.+\.(css|img|js)$'
m=re.match(p,url)
if m!=None:
符合
else:
不符合