你好呀,
今天的文章介绍,
后羿采集器里面的流程图模式
有时候「智能模式」无法解决问题,就需要用到「流程图模式」。
前几天找到一批知乎小说的关键词,需要是要找出这批关键词对应的小说链接。
比如在知乎搜索「男神谈恋爱」这个关键词。
复制搜索结果「https://www.zhihu.com/search?type=content&q=男神谈恋爱」。
使用后羿采集器的「智能模式」,结果无法提取到小说的链接链接,只能获取到部分文字。
此时可以试一试后羿采集器的「流程图模式」,出现如下图的底部页面说明使用的「流程图模式」。
接下来需要做的是数据提取的操作,我们先来提取关键词的数据。
第一步:用鼠标点击关键词「男神谈恋爱」。
第二步:选择「提取该元素的数据」,如下图右下角所示关键词「男神谈恋爱」已提取成功了。
完成了关键词的提取,接下来进行小说链接的提取,
第一步:和前面的关键词的提取步骤一样,用鼠标点击关键词「男神谈恋爱」
第二步:选择「点击一次该元素」,然后等待页面加载。
第三步:等待页面加载成功以后,鼠标点击「原来他也喜欢我」,然后选择「提取该元素的数据」,这样原始小说的名字也被提取出来了。
第四步:先点击「添加字段」,然后选择「改为特殊字段」、「当前网页URL」。
第五步:点击「开始采集」,然后等待采集结束。
文章开头说了,有一批关键词,
可以先用 Excle 表格或者其它工具,完成搜索地址的拼接,如下所示:
1.https://www.zhihu.com/search?type=content&q=关键词1
2.https://www.zhihu.com/search?type=content&q=关键词2
……
然后复制这些链接到红框的地方,就可以实现批量采集了。
至此完成了,
我们的需求「找出多个关键词对应的小说链接」。
后羿采集器的「流程图模式」,还有很多实用的技巧,今天就先介绍这么多。