基于Python的简单网络爬虫的实现

上传:qq_37193196 浏览: 66 推荐: 0 文件:PDF 大小:1.07MB 上传时间:2019-05-04 03:35:40 版权申诉
随着互联网技术的发展,网络信息过载已经成为不争的事实。因此,如何有效提取互联网信息,并将这些信息充分利用已经成为一个巨大的挑战。搜索引擎成为用户检索信息的工具。而所谓搜索引擎的重要组成部分,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序和脚本。网络爬虫技术的应用范围较广。例如,可将爬虫获取的有价值数据资源进行整合,实现不同类型的垂直领域的应用,图书价格比对,新闻主题聚合网等。特别要提到的是,现今大数据时代,机器学习算法需要大量的网络数据作为训练数据,一定程度上说,训练数据的质量高低决定了机器学习算法效果的差异。而获取训练数据的方法除了其他典型的统计数据外,网络爬虫提取数据也是其中主要的
上传资源
用户评论