调用是超级简单的
from tornado_fetcher import Fetcher# 创建一个爬虫
>>> fetcher=Fetcher(
user_agent='phantomjs', # 模拟浏览器的User-Agent
phantomjs_proxy='http://localhost:12306', # phantomjs的地址
poolsize=10, # 最大的httpclient数量
async=False # 同步还是异步
)
# 开始连接Phantomjs的代理,可以渲染JS!
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')
希望能帮到你!
建议你观察下页面内资源的加载时间,同时在页面中打开多个js文件主要耗时为TTFB,主要耗时为「等待某个js加载渲染完成」+「等待dns解析时间」+「浏览器的pending策略」等。你在页面内同步加载了多个js资源,所以下载速度的不可控是正常的。因为JS在执行的时候会影响到页面的DOM和样式等情况。浏览器在解析渲染HTML的时候,如果解析到需要下载文件的script标签,那么会停止解析接下来的HTML,然后下载外链JS文件并执行。减少 JavaScript 对性能的影响有以下几种方法:1、将所有的