后羿采集器批量爬取网页信息——以Pubmed为例

一、功能简介:

《后羿采集器》是一款实现低代码爬取网页信息的免费软件。使用者不需要掌握爬虫技术就可以在网页中采集所需的数据,非常的方便。

后羿采集器批量爬取网页信息——以Pubmed为例

图 1 后羿采集器

《后羿采集器》可以爬取的网页有以下要求:

1、网页具有暴露在显示界面的数据信息。

(非暴露信息依然需要自行写爬虫进行爬取)

2、网页没有反爬限制。

(如中国知网由于具有反爬限制无法进行爬虫)

本文提供两个案例来具体介绍《后羿采集器》的使用方法。案例一为B站上介绍《后羿采集器》的视频;案例二以文字方式介绍了《后羿采集器》在Pubmed上爬取数据的过程。

二、软件下载:

1、下载地址:

网站网页爬虫工具_真免费!导出采集结果无任何限制_后羿采集器 (houyicaiji.com)

2、文字教程说明:

数据采集教程_智能模式_第一个采集案例_后羿采集器 (houyicaiji.com)

三、案例:

3.1爬取四家招聘网站信息:

B站上有非常简单、清晰的教程。详细请查看:

【戴师兄】三句话,让我同事肝了一个零代码数据工程项目丨数据爬取&数据清洗丨Tableau丨Excel丨后羿采集器丨prep丨不用Python丨数据分析师_哔哩哔哩_bilibili

3.2爬取Pubmed中文献信息:

3.2.1 需求描述:

(整个需求可以使用Pubmed自带的一些功能进行化简,但本次为了详细描述《后羿采集器》的使用方法,全部过程使用《后羿采集器》来满足需求。)

1、爬取Pubmed中关键词为“cost effectiveness analysis”,“TEXT AVAILABILITY”为“Free full text”,发表时间为2022年,前5页的信息。包括:“题目、作者、发表时间、DOI、摘要”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 2 Pubmed网页1

2、爬取Pubmed中关键词为“cost effect analysis” ,“TEXT AVAILABILITY”为“Free full text”,发表时间为2021-2022年,前5页的信息。包括:“题目、作者、发表时间、DOI、摘要”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 3 Pubmed网页2

3、将内容整合在Excel中进行输出。

3.2.2 详细步骤:

3.2.2.1 获取需求网址:

1、打开Pubmed,在搜索栏搜索“cost effectiveness analysis” ,“TEXT AVAILABILITY”设置为“Free full text”,“RESULTS BY YEAR”设置为“2022年”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 4 Pubmed示意图1

2、将网址复制至空白txt文件中。

本文中空白txt文件名称为“后羿采集器测试.txt”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 5 Pubmed示意图2

后羿采集器批量爬取网页信息——以Pubmed为例

图 6网址txt文件

3、打开Pubmed,在搜索栏搜索“cost effect analysis” ,“TEXT AVAILABILITY”设置为“Free full text”,“RESULTS BY YEAR”设置为“2021-2022年”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 7 Pubmed示意图3

4、将网址复制至“后羿采集器测试.txt”中。

图片[8]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 8 Pubmed示意图4

图片[9]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 9 批量网址txt文件

说明——网址分析:

对于同一网页的不同的搜索条件或搜索关键词进行批量爬取时,需要进行“网址分析”,即通过分析网址来快速大量获得所需的所有网址。

Pubmed网址中第一部分term为搜索关键词;第二部分filter为搜索的文章类型;第三部分为筛选文章的时间段。可以通过更改该部分的信息来快速批量获得想要获得的网址。

图片[10]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

5、将网址复制至空白xlsx文件中,本文中为“后羿采集器测试. xlsx”中。

图片[11]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 10 批量网址xlsx文件

3.2.2.2 获取“标题”、“作者”、“DOI”及“标题链接”:

1、打开后羿采集器,将网址1输入后羿采集器中,获得界面如下图所示。

图片[12]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 11《后羿采集器》示意图1

2、点击“智能采集”,获得如下页面。红框部分为“自动识别”的爬取内容。有时候《后羿采集器》自动采集的字段即为所需字段,而有时候由于网站具有多个“列表”内容。因此在《后羿采集器》识别错误的时候,需要进行将模式更改为“手动点机列表”进行重新识别。

图片[13]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 12 《后羿采集器》示意图2

3、将“页面类型”栏中的页面识别方式更改为“手动点机列表”。

图片[14]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 13 《后羿采集器》示意图3

4、按照指示选择第一篇+第二篇文献的题目《Nanopore sequencing data analysis using Microsoft Azure cloud computing service》、《Acceptability and feasibility of the Heartfulness Way: A social-emotional learning program for school-going adolescents in India》,“爬取内容”改变为下图所示。

图片[15]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 14《后羿采集器》示意图4

5、右击不需要的字段进行删除字段。

图片[16]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 15《后羿采集器》示意图5

6、将字段进行排序并重命名,结果如图所示。

图片[17]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 16《后羿采集器》示意图6

7、点击“设置采集范围”,并将“设置结束页”设定为“5”。

(这里需要注意观察“分页设置”一栏中是否“自动识别分页”成功,如果不成功需要将分页设置修改为“点击分页按钮”进行手动选中分页按钮。)

图片[18]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 17《后羿采集器》示意图7

3.2.2.3 获取“摘要”:

1、点击右侧“深入采集”。《后羿采集器》会自动选择含有链接的字段中第一个链接进入,或可以手动选择进入的链接。

图片[19]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 18《后羿采集器》示意图8

2、点击右侧“添加字段”,并选中“Abstract”部分。《后羿采集器》会根据选择的结果自动批量采集需要的内容。

图片[20]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 19《后羿采集器》示意图9

3.2.2.4 导入批量网址:

1、点击“编辑网址”。

图片[21]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 20《后羿采集器》示意图10

2、选择“文件导入”,并选中“后羿采集器测试.xlsx”,点击“确定”将网页信息全部导入。

图片[22]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 21《后羿采集器》示意图11

3.2.2.5 导出数据:

1、点击“开始采集”。

图片[23]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 22《后羿采集器》示意图12

2、开启“数据去重”,点击启动。

(如果觉得有其他需求可以在官网上进行购买其他套餐)

图片[24]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 23《后羿采集器》示意图13

3、开始爬取所需内容,如下图所示。

图片[25]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 24《后羿采集器》示意图14

图片[26]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 25《后羿采集器》示意图15

4、爬取成功,导出内容。

图片[27]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

26《后羿采集器》示意图16

图片[28]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

27爬取结果xlsx文件

 

四、注意事项

使用《后羿采集器》时有几点需要注意:

1、采集数据大概1分钟10条左右,如果需要短时间下载大量数据需要去官网购买付费套餐。

2、《后羿采集器》支持将数据导出到数据库中,同时付费版本支持定时采取,因此理论上可以作为一个中间软件进行定期爬取。

3、《后羿采集器》还具有一些未描述的功能,等待发现及开发。

4、《后羿采集器》中有比较多的bug。

 

 

© 版权声明
THE END
喜欢就支持一下吧
点赞41 分享