升级版PHP爬虫:基于swoole与QueryList.zip

上传:qqcontradictory2501 浏览: 54 推荐: 0 文件:zip 大小:24.51KB 上传时间:2024-04-11 19:20:43 版权申诉

PHP爬虫,基于swoole与QueryList,通过CLI执行。

  • 启动: #php start.php
  • 停止: #php stop.php

运行环境:

php >= 7.0
需配置swoole扩展与redis扩展

执行顺序:

1. 执行php tastqueue.php,创建任务队列queue。
2. swoole启动分布式任务,每隔五分钟执行一次。
3. QueryList采集queue队列,将数据入库。

爬虫说明:

1. 失败任务将进入errorlist队列。
2. 任务失败时,自动重新检测代理池并移除失效代理。
3. 依赖库:
    - jaeger/querylist: ^4.0
    - illuminate/database: ~4.2
4. Pickup::setRule()方法用于编写页面采集规则。
5. Server::$count定义开启的爬虫数量。
6. 支持随机代理和随机age。
上传资源
用户评论