一、功能简介：

《后羿采集器》是一款实现低代码爬取网页信息的免费软件。使用者不需要掌握爬虫技术就可以在网页中采集所需的数据，非常的方便。

后羿采集器批量爬取网页信息——以Pubmed为例

图 1 后羿采集器

《后羿采集器》可以爬取的网页有以下要求：

1、网页具有暴露在显示界面的数据信息。

（非暴露信息依然需要自行写爬虫进行爬取）

2、网页没有反爬限制。

（如中国知网由于具有反爬限制无法进行爬虫）

本文提供两个案例来具体介绍《后羿采集器》的使用方法。案例一为B站上介绍《后羿采集器》的视频；案例二以文字方式介绍了《后羿采集器》在Pubmed上爬取数据的过程。

二、软件下载：

1、下载地址：

网站网页爬虫工具_真免费！导出采集结果无任何限制_后羿采集器 (houyicaiji.com)

2、文字教程说明：

数据采集教程_智能模式_第一个采集案例_后羿采集器 (houyicaiji.com)

三、案例：

3.1爬取四家招聘网站信息：

B站上有非常简单、清晰的教程。详细请查看：

【戴师兄】三句话，让我同事肝了一个零代码数据工程项目丨数据爬取&数据清洗丨Tableau丨Excel丨后羿采集器丨prep丨不用Python丨数据分析师_哔哩哔哩_bilibili

3.2爬取Pubmed中文献信息：

3.2.1 需求描述：

（整个需求可以使用Pubmed自带的一些功能进行化简，但本次为了详细描述《后羿采集器》的使用方法，全部过程使用《后羿采集器》来满足需求。）

1、爬取Pubmed中关键词为“cost effectiveness analysis”，“TEXT AVAILABILITY”为“Free full text”，发表时间为2022年，前5页的信息。包括：“题目、作者、发表时间、DOI、摘要”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 2 Pubmed网页1

2、爬取Pubmed中关键词为“cost effect analysis” ，“TEXT AVAILABILITY”为“Free full text”，发表时间为2021-2022年，前5页的信息。包括：“题目、作者、发表时间、DOI、摘要”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 3 Pubmed网页2

3、将内容整合在Excel中进行输出。

3.2.2 详细步骤：

3.2.2.1 获取需求网址：

1、打开Pubmed，在搜索栏搜索“cost effectiveness analysis” ，“TEXT AVAILABILITY”设置为“Free full text”，“RESULTS BY YEAR”设置为“2022年”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 4 Pubmed示意图1

2、将网址复制至空白txt文件中。

本文中空白txt文件名称为“后羿采集器测试.txt”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 5 Pubmed示意图2

后羿采集器批量爬取网页信息——以Pubmed为例

图 6网址txt文件

3、打开Pubmed，在搜索栏搜索“cost effect analysis” ，“TEXT AVAILABILITY”设置为“Free full text”，“RESULTS BY YEAR”设置为“2021-2022年”。

后羿采集器批量爬取网页信息——以Pubmed为例

图 7 Pubmed示意图3

4、将网址复制至“后羿采集器测试.txt”中。

图片[8]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 8 Pubmed示意图4

图片[9]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 9 批量网址txt文件

说明——网址分析：

对于同一网页的不同的搜索条件或搜索关键词进行批量爬取时，需要进行“网址分析”，即通过分析网址来快速大量获得所需的所有网址。

Pubmed网址中第一部分term为搜索关键词；第二部分filter为搜索的文章类型；第三部分为筛选文章的时间段。可以通过更改该部分的信息来快速批量获得想要获得的网址。

图片[10]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

5、将网址复制至空白xlsx文件中，本文中为“后羿采集器测试. xlsx”中。

图片[11]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 10 批量网址xlsx文件

3.2.2.2 获取“标题”、“作者”、“DOI”及“标题链接”：

1、打开后羿采集器，将网址1输入后羿采集器中，获得界面如下图所示。

图片[12]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 11《后羿采集器》示意图1

2、点击“智能采集”，获得如下页面。红框部分为“自动识别”的爬取内容。有时候《后羿采集器》自动采集的字段即为所需字段，而有时候由于网站具有多个“列表”内容。因此在《后羿采集器》识别错误的时候，需要进行将模式更改为“手动点机列表”进行重新识别。

图片[13]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 12 《后羿采集器》示意图2

3、将“页面类型”栏中的页面识别方式更改为“手动点机列表”。

图片[14]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落

图 13 《后羿采集器》示意图3

4、按照指示选择第一篇+第二篇文献的题目《Nanopore sequencing data analysis using Microsoft Azure cloud computing service》、《Acceptability and feasibility of the Heartfulness Way: A social-emotional learning program for school-going adolescents in India》，“爬取内容”改变为下图所示。

图片[15]-后羿采集器批量爬取网页信息——以Pubmed为例-淘金部落