spider roach:分布式定向抓取集群 源码

上传:noun1505 浏览: 9 推荐: 0 文件:ZIP 大小:12KB 上传时间:2021-05-12 13:36:46 版权申诉
声明 本人自知精力与能力有限,欢迎志同道合之士送上您宝贵的建议与Patch! 关于 一个分布式定向抓取集群的简单实现。 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 TODO List KISS: Keep it simple & stupid! Supports cookies,and authentication. Write information into files (using protobuf??). INSTALL 确认安装Python2.7及依赖库: MySQLdb: http://sourceforge.net/projects/my
上传资源
用户评论