代理模式(Proxy):为某个对象提供一种代理以控制对这个对象的访问。
注意:代理模式和策略模式的类图很相近,实现方法也是一样的,但是应用场景很不一样,体现了不同的思想。
策略模式中同一外部对象访问上下文对象的操作一样,但是里面的策略对象不同。
代理模式中不同的外部对象访问代理对象的操作一样,但是里面的真实对象是一样的。
代理模式在访问对象时引入一定程度的间接性,因为这种间接性,可以附加多种用途。
应用场景:
1、远程代理。为一个对象在不同的地址空间提供局部代表。这样可以隐藏一个对象存在于不同地址空间的事实。
2、虚拟代理。当要创建耗时很长的对象时,可以使用虚拟代理。虚拟代理完成的工作为新建真实对象,并在新建的过程中给出提示。比如在网页加载图片的过程中,虚拟代理可以用一个图片框暂时替代真实的图片。
3、安全代理。用于控制真实对象访问是的权限。
4、智能指引。当调用真实的对象时,代理处理另外一些事情,比如计算真实对象的引用次数、是否锁定等等。
"""
import time
class SalesManager:
def talk(self):
print("销售经理准备谈")
class Proxy:
def __init__(self):
self.busy = 'No'
self.sales = None
def talk(self):
print("代理检查销售经理的可访问性")
if self.busy == 'No':
self.sales = SalesManager()
time.sleep(0.1)
self.sales.talk()
else:
time.sleep(0.1)
print("销售经理正忙")
class NoTalkProxy(Proxy):
def talk(self):
print("代理检查销售经理的可访问性")
time.sleep(0.1)
print("该销售经理也不会跟你说话不论他/她是否正忙")
if __name__ == '__main__':
p = Proxy()
p.talk()
p.busy = 'Yes'
p.talk()
p = NoTalkProxy()
p.talk()
p.busy = 'Yes'
p.talk()
网络数据量越来越大,从网页中获取信息变得越来越困难,如何有效地抓取并利用信息,已成为网络爬虫一个巨大的挑战。下面IPIDEA为大家讲明爬虫代理IP的使用方法。
1. 利用爬虫脚本每天定时爬取代理网站上的ip,写入MongoDB或者其他的数据库中,这张表作为原始表。
2. 使用之前需要做一步测试,就是测试这个ip是否有效,方法就是利用curl访问一个网站查看返回值,需要创建一张新表,循环读取原始表有效则插入,验证之后将其从原始表中删除,验证的同时能够利用响应时间来计算这个ip的质量,和最大使用次数,有一个算法能够参考一种基于连接代理优化管理的多线程网络爬虫处理方法。
3. 把有效的ip写入ip代理池的配置文件,重新加载配置文件。
4.让爬虫程序去指定的dailiy的服务ip和端口,进行爬取。
先来看这段代码:import threading
import time
def worker():
print “worker”
time.sleep(1)
return
for i in xrange(5):
t = threading.Thread(target=worker)
t.start()
这段代码就使用了多线程,但是没法传递参数,而实际使用多线程,往往是需要传递参数的,于是问了一位群里的网友后,知道可以这么写实现传递参数的多线程:
import threading
import time
def worker(number):
print “worker”
time.sleep(number)
return
for i in xrange(5):
t = threading.Thread(target=worker,args=(i,))
t.start()
第一个参数是线程函数变量,第二个参数args是一个数组变量参数,如果只传递一个值,就只需要i, 如果需要传递多个参数,那么还可以继续传递下去其他的参数,其中的逗号不能少,少了就不是数组了,就会出错。