demo.zip jsoup爬取
java爬虫获取网站数据
获取网页中的javascript执行后生成的完整的网页源码(通常使用的右键-查看源代码是看不到js执行后的内容的,用firefox的firebug看到的代码就是js执行后的代码),从中提取一些有用的数据。目前用到的方案是SWT调用IE浏览器内核来执行网页并获取代码,这种方式有两个地方存在严重不足:
用户评论