一、功能简介:
《后羿采集器》是一款实现低代码爬取网页信息的免费软件。使用者不需要掌握爬虫技术就可以在网页中采集所需的数据,非常的方便。
图 1 后羿采集器
《后羿采集器》可以爬取的网页有以下要求:
1、网页具有暴露在显示界面的数据信息。
(非暴露信息依然需要自行写爬虫进行爬取)
2、网页没有反爬限制。
(如中国知网由于具有反爬限制无法进行爬虫)
本文提供两个案例来具体介绍《后羿采集器》的使用方法。案例一为B站上介绍《后羿采集器》的视频;案例二以文字方式介绍了《后羿采集器》在Pubmed上爬取数据的过程。
二、软件下载:
1、下载地址:
网站网页爬虫工具_真免费!导出采集结果无任何限制_后羿采集器 (houyicaiji.com)
2、文字教程说明:
数据采集教程_智能模式_第一个采集案例_后羿采集器 (houyicaiji.com)
三、案例:
3.1爬取四家招聘网站信息:
B站上有非常简单、清晰的教程。详细请查看:
【戴师兄】三句话,让我同事肝了一个零代码数据工程项目丨数据爬取&数据清洗丨Tableau丨Excel丨后羿采集器丨prep丨不用Python丨数据分析师_哔哩哔哩_bilibili
3.2爬取Pubmed中文献信息:
3.2.1 需求描述:
(整个需求可以使用Pubmed自带的一些功能进行化简,但本次为了详细描述《后羿采集器》的使用方法,全部过程使用《后羿采集器》来满足需求。)
1、爬取Pubmed中关键词为“cost effectiveness analysis”,“TEXT AVAILABILITY”为“Free full text”,发表时间为2022年,前5页的信息。包括:“题目、作者、发表时间、DOI、摘要”。
图 2 Pubmed网页1
2、爬取Pubmed中关键词为“cost effect analysis” ,“TEXT AVAILABILITY”为“Free full text”,发表时间为2021-2022年,前5页的信息。包括:“题目、作者、发表时间、DOI、摘要”。
图 3 Pubmed网页2
3、将内容整合在Excel中进行输出。
3.2.2 详细步骤:
3.2.2.1 获取需求网址:
1、打开Pubmed,在搜索栏搜索“cost effectiveness analysis” ,“TEXT AVAILABILITY”设置为“Free full text”,“RESULTS BY YEAR”设置为“2022年”。
图 4 Pubmed示意图1
2、将网址复制至空白txt文件中。
本文中空白txt文件名称为“后羿采集器测试.txt”。
图 5 Pubmed示意图2
图 6网址txt文件
3、打开Pubmed,在搜索栏搜索“cost effect analysis” ,“TEXT AVAILABILITY”设置为“Free full text”,“RESULTS BY YEAR”设置为“2021-2022年”。
图 7 Pubmed示意图3
4、将网址复制至“后羿采集器测试.txt”中。
图 8 Pubmed示意图4
图 9 批量网址txt文件
说明——网址分析:
对于同一网页的不同的搜索条件或搜索关键词进行批量爬取时,需要进行“网址分析”,即通过分析网址来快速大量获得所需的所有网址。
Pubmed网址中第一部分term为搜索关键词;第二部分filter为搜索的文章类型;第三部分为筛选文章的时间段。可以通过更改该部分的信息来快速批量获得想要获得的网址。
5、将网址复制至空白xlsx文件中,本文中为“后羿采集器测试. xlsx”中。
图 10 批量网址xlsx文件
3.2.2.2 获取“标题”、“作者”、“DOI”及“标题链接”:
1、打开后羿采集器,将网址1输入后羿采集器中,获得界面如下图所示。
图 11《后羿采集器》示意图1
2、点击“智能采集”,获得如下页面。红框部分为“自动识别”的爬取内容。有时候《后羿采集器》自动采集的字段即为所需字段,而有时候由于网站具有多个“列表”内容。因此在《后羿采集器》识别错误的时候,需要进行将模式更改为“手动点机列表”进行重新识别。
图 12 《后羿采集器》示意图2
3、将“页面类型”栏中的页面识别方式更改为“手动点机列表”。
图 13 《后羿采集器》示意图3
4、按照指示选择第一篇+第二篇文献的题目《Nanopore sequencing data analysis using Microsoft Azure cloud computing service》、《Acceptability and feasibility of the Heartfulness Way: A social-emotional learning program for school-going adolescents in India》,“爬取内容”改变为下图所示。
图 14《后羿采集器》示意图4
5、右击不需要的字段进行删除字段。
图 15《后羿采集器》示意图5
6、将字段进行排序并重命名,结果如图所示。
图 16《后羿采集器》示意图6
7、点击“设置采集范围”,并将“设置结束页”设定为“5”。
(这里需要注意观察“分页设置”一栏中是否“自动识别分页”成功,如果不成功需要将分页设置修改为“点击分页按钮”进行手动选中分页按钮。)
图 17《后羿采集器》示意图7
3.2.2.3 获取“摘要”:
1、点击右侧“深入采集”。《后羿采集器》会自动选择含有链接的字段中第一个链接进入,或可以手动选择进入的链接。
图 18《后羿采集器》示意图8
2、点击右侧“添加字段”,并选中“Abstract”部分。《后羿采集器》会根据选择的结果自动批量采集需要的内容。
图 19《后羿采集器》示意图9
3.2.2.4 导入批量网址:
1、点击“编辑网址”。
图 20《后羿采集器》示意图10
2、选择“文件导入”,并选中“后羿采集器测试.xlsx”,点击“确定”将网页信息全部导入。
图 21《后羿采集器》示意图11
3.2.2.5 导出数据:
1、点击“开始采集”。
图 22《后羿采集器》示意图12
2、开启“数据去重”,点击启动。
(如果觉得有其他需求可以在官网上进行购买其他套餐)
图 23《后羿采集器》示意图13
3、开始爬取所需内容,如下图所示。
图 24《后羿采集器》示意图14
图 25《后羿采集器》示意图15
4、爬取成功,导出内容。
图26《后羿采集器》示意图16
图27爬取结果xlsx文件
四、注意事项
使用《后羿采集器》时有几点需要注意:
1、采集数据大概1分钟10条左右,如果需要短时间下载大量数据需要去官网购买付费套餐。
2、《后羿采集器》支持将数据导出到数据库中,同时付费版本支持定时采取,因此理论上可以作为一个中间软件进行定期爬取。
3、《后羿采集器》还具有一些未描述的功能,等待发现及开发。
4、《后羿采集器》中有比较多的bug。