java网络爬虫，网络检索作业

上传：大魔王来巡山浏览： 95 推荐： 0 文件：ZIP 大小：819.29KB 上传时间：2018-12-09 19:18:22 版权申诉

实现了一下功能：（1）能够搜集本站内的所有网页，能提取出其中的URL并加入到待搜集的URL队列中，对非本网站域名的URL，只允许搜集首页，记录发现的URL即可；对搜集的结果，产生2个URL列表：站内搜集URL、非站内（站外）发现URL；（2）使用User-agent向服务器表明自己的身份；（3）能对HTML网页进行解析，提取出链接URL，能判别提取的URL是否已处理过，不重复下载和解析已搜集过的网页；（4）能够对crawler的一些基本参数进行设置，包括：搜集深度（depth）、文件类型、文件大小等。（5）对搜集的过程生成日志文本文件，日志文件的格式定义，请在实验报告中详细说明。（6）遵循礼貌规则。必须分析robots.txt文件和meta tag有无限制；一个线程抓完一个网页后要适当停顿（sleep）；最多允许与被搜集站点同时建立2个连接（本地做网页解析的线程数则不限）。（7）采用多线程并行编程技术，提高搜集速度。

上传资源

huluzai 2018-12-09 19:18:22

不错不错，很棒的资源

linzhude 2018-12-09 19:18:22

可以运行的

xuwenjun65602 2018-12-09 19:18:22

可以作为我这样的初学者参考源码的资料