多线程实现的Java爬虫程序

上传：50690bobo 浏览： 26 推荐： 0 文件：PDF 大小：54.73KB 上传时间：2020-12-29 17:02:14 版权申诉

以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。参数:private static int webDepth = 2;//爬虫深度。主页的深度为1,设置深度后超过该深度的网页不会抓取。 private int intThreadNum = 10;//线程数。开启的线程数。抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件索引。本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtabl