WebMagic 0.5.1
·
709 commits
to develop
since this release
此次更新主要包括Scheduler的一些改动,对于自己定制过Scheduler的用户,强烈推荐升级。
- 修复了RedisScheduler无法去重的BUG,感谢@codev777 仔细测试并发现问题。 #117
- 对Scheduler进行了重构,新增了接口
DuplicateRemover
,将去重单独抽象出来,以便在同一个Scheduler中选择不同的去重方式。 #118 - 增加了BloomFilter去重方式。BloomFilter是一种可以用极少的内存消耗完成大量URL去重的数据结构,缺点是会有少量非重复的URL被判断为重复,导致URL丢失(小于0.5%)。
使用以下的方式即可将默认的HashSet去重改为BloomFilter去重:
spider.setScheduler(new QueueScheduler()
.setDuplicateRemover(new BloomFilterDuplicateRemover(10000000)) //10000000是估计的页面数量