python rq 的这个库,可以用于分布式吗

Python020

python rq 的这个库,可以用于分布式吗,第1张

只能应付简单的异步计算需求而已。复杂的分布式计算不是很靠谱(因为 rq 实在是太简单了,个人认为它缺少资源调度、稳定性保障和监控机制),而且对中文支持有 bug ,提交过 patch 忘记作者合了没有。

学习

基本爬虫工作原理

基本的http抓取工具,scrapy

Bloom Filter: Bloom Filters by Example

如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)