Skip to content

WebMagic 0.5.1

Compare
Choose a tag to compare
@code4craft code4craft released this 02 May 22:26
· 709 commits to develop since this release

此次更新主要包括Scheduler的一些改动,对于自己定制过Scheduler的用户,强烈推荐升级。

  • 修复了RedisScheduler无法去重的BUG,感谢@codev777 仔细测试并发现问题。 #117
  • 对Scheduler进行了重构,新增了接口DuplicateRemover,将去重单独抽象出来,以便在同一个Scheduler中选择不同的去重方式。 #118
  • 增加了BloomFilter去重方式。BloomFilter是一种可以用极少的内存消耗完成大量URL去重的数据结构,缺点是会有少量非重复的URL被判断为重复,导致URL丢失(小于0.5%)。

使用以下的方式即可将默认的HashSet去重改为BloomFilter去重:

spider.setScheduler(new QueueScheduler()
.setDuplicateRemover(new BloomFilterDuplicateRemover(10000000)) //10000000是估计的页面数量