在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。
上篇文章我们介绍了智能模式中如何在任务中断的前提下继续采集数据。本文将为大家介绍遇到网址不会随着页码的变动而变动的网站流程图模式如何实现断点续采。
1.有下一页按钮,但是网址不会随着页码的变动而变动的网站
如果该网站,无论页数怎么变动,网址也不会变动的情况下,我们点击页面上的分页按钮,在操作提示框内选择点击“循环点击该元素”按钮,此时软件上会设置一个新的翻页循环按钮。
假设之前的任务在第3页停止,用户要从第4页开始采集,则可以在这个翻页循环上设置自定义翻页次数“4”。
2.网址不会随着页码的变动而变动,但是页码可以通过输入的方式直接跳转的网站
有一些网站的网址虽然不会随着页码的变动而变动,但是页码部分有输入框,可以直接输入页数跳转到相应的页码,如以下这种网站:
针对这种网站,我们点击页面上的输入框,在跳转出的操作提示框内输入想要跳转的界面,此处用第4页来举例,在输入框内填入数字“4”之后,点击确定,软件上会出现一个输入文字组件。
我们再点击页面上“go”按钮,在跳转出来的提示操作框上选择“点击一次该元素”按钮,页面就会跳转到第4页去了。
我们可以在采集任务中增加特殊字段来记录采集状态,包括起始网址(创建任务时输入的网址)、数据ID、当前页码、当页排名和当前网页URL。
第二步:右击该字段,在菜单中选择“改为特殊字段”。