多线程实现的Java爬虫程序

上传:50690bobo 浏览: 26 推荐: 0 文件:PDF 大小:54.73KB 上传时间:2020-12-29 17:02:14 版权申诉
以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。 参数:private static int webDepth = 2;//爬虫深度。 主页的深度为1,设置深度后超过该深度的网页不会抓取。 private int intThreadNum = 10;//线程数。开启的线程数。 抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件索引。 本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtabl
上传资源
用户评论