八爪鱼采集器是一款全网通用的互联网数据采集器,模拟人浏览网页的行为,通过简单的页面点选,生成自动化的采集流程,从而将网页数据转化为结构化数据,存储于EXCEL或数据库等多种形式。并提供基于云计算的大数据云采集解决方案,实现数据采集。是数据一键采集平台。
八爪鱼采集器以分布式云计算平台为核心,结合智能识别算法,可视化的操作界面。从不同的网站或者网页获取标准化数据。帮助需要从网页获取信息的客户,数据自动化标准化采集、导出,提高效率。
八爪鱼采集器作为数据收集工具,服务于国内企业/单位。是一个四种语言版本的采集软件,覆盖汉语,英语,日语,西班牙语。
Windows客户端安装方法
在正式开始数据采集之前,请根据自身系统,下载安装合适的八爪鱼客户端。
本文讲解Windows客户端安装方法与常见问题汇总。
一、下载安装八爪鱼Windows客户端(8版本)
1、系统要求
Win7/Win8/Win8.1/Win10(x64位)
XP系统和32位系统,请下载安装7版本
特别说明:
a. 如何查看自己电脑是什么系统?找到【此电脑】,右键,选择【属性】即可查看。
2、下载安装
① 访问 https://www.bazhuayu.com/download/windows,下载八爪鱼采集器安装文件(.exe)
② 关闭所有杀毒软件
③ 双击.exe文件,开始安装
④ 安装完成后,在开始菜单或桌面上找到八爪鱼采集器快捷方式
⑤ 启动八爪鱼采集器,使用您的账号登录(还没有账号?点击免费注册)
二、安装过程中常见问题
按照以上常规操作,无法安装八爪鱼Windows客户端?您可能遇到以下问题:
1、安装过程中提示【安装已终止,安装程序并未成功地运行完成】
出现原因:之前安装过老版本,没有卸载干净,有残留。
解决方法① :删除八爪鱼8缓存文件夹。找到AppDataRoamingOctopus8 文件夹,将Octopus8 文件夹删除。
解决方法②:打开【控制面板】-【程序】,将之前安装过的版本卸载干净。
二、安装成功进入客户端,几分钟后自动退出。再次进入提示【找不到路径,没有权限】
出现原因:电脑上安装了杀毒软件,将八爪鱼的部分程序删掉了。
解决方法:将电脑上的杀毒软件关掉。
免费注册账号
安装完 八爪鱼Windows客户端 / 八爪鱼Mac客户端 以后,注册一个八爪鱼账号(免费)后,即可登录进入客户端,开始数据采集。
一、注册账号
1、点击客户端【免费注册】按钮,进入注册页面。
访问八爪鱼官网www.bazhuayu.com,点击右上角【注册】按钮,也可进入注册页面。
2、进入注册页面以后,请按提示,使用邮箱或手机号注册。
二、注册账号常见问题
1、邮箱注册,未收到激活邮件?
① 检查邮箱地址是否正确。填写正确的邮箱地址,重新注册一个账号。
② 激活邮件可能在垃圾箱里,请到垃圾箱里看一下。
③ 可能是被邮箱拦截,请将以下3个八爪鱼邮箱加入白名单,然后进入官网【用户中心】重发激活邮件。
service@bazhuayu.com
service@skieer.com
bazhuayu@support.bazhuayu.com。
经过上述操作后,还未收到激活邮件,请联系客服解决。
客户端界面介绍
看过 八爪鱼软件安装与账号注册 教程,我们已注册好账号、登录进入八爪鱼客户端。
现在来看看客户端界面吧!
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
一、【输入框】和【热门模板采集】
【输入框】:输入网址或者网站名称,开始数据采集。
输入网址:进入【自定义配置采集数据】模式,详情请查看 自定义配置采集数据(含智能识别)
输入网站名称:查找内置的相关网站模板,进入【通过模板采集数据】模式,详情请查看 使用模板采集数据
【热门采集模板】:展示热门的采集模板,点击网站模板图标,进入【通过模板采集数据】模式,详情请查看 使用模板采集数据
二、左侧边栏
左侧边栏如下图所示。可点击相应的按钮进入相应的模块。
1 、【+ 新建】
自定义任务:进入【自定义配置采集数据】模式,详情请查看 自定义配置采集数据(含智能识别)
模板任务:进入【通过模板采集数据】模式,详情请查看 使用模板采集数据
导入任务:自定义任务可以.otd的文件形式进行导入导出,便于与他人分享任务。导入任务后可直接使用。
新建任务组:可添加新的任务组。便于任务比较多时,分组管理任务。
2、【我的任务】
【自定义任务】和【模板任务】被创建和保存后,都会存储在【我的任务】中。如果【我的任务】界面为空,说明您还没有创建任务。快去创建一个【自定义任务】或【模板任务】吧。
在【我的任务】界面,可以对任务进行多种操作。
① 进行任务二次编辑(a)、多次启动采集(b)、按任务名搜索(c)、按条件筛选(d)。
② 任务选中状态下,可进行导出任务、删除任务、复制到组、移动到分组(包含移动到新建任务组)等操作。
通过导出任务,可与别人分享【自定义任务】。通过【模板任务】只可使用,不可导出。
③ 如果任务启动采集并获取到数据,可通过以下操作,查看此任务采集到的历史数据。
④ 任务可按最近编辑时间排序(便于查找最近编辑任务),也可按任务组排序(便于分组管理)。
在按任务组排序时,鼠标移动到任务组后的空白区域,还可进行重命名任务组、删除任务组、对任务组设置定时、设为默认任务组等操作。
⑤ 任务还可以按照任务名,任务组名,最近编辑的时间进行排序,还可以重置,灵活操作。
3 、【快速筛选和筛选条件】
① 查看云采集任务运行状态的快捷筛选入口。
② 筛选条件,可以通过多种条件的组合来筛选任务,比如关键词搜索、任务组、采集方式、任务类型、采集状态、采集数据量、采集时间等。例如,如果想要筛选运行异常的任务,可以通过筛选采集数据量为0的任务来检查任务是否运行异常(一般运行异常的任务都会采集不到数据)。用户可以根据自己的需要,灵活运用各种筛选条件。
4、【协作】
提供团队协作平台,可统一管理团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。
5、【定制】
八爪鱼官方提供规则定制、数据定制、1对1收费专属服务等增值服务,有需要可通过此渠道联系我们,或者拨打八爪鱼官网-联系我们的客服电话进行咨询。
6、【客服】
使用软件过程中有任何问题,工作时间都可通过【人工客服】联系我们。
7 、【左侧边栏底部】
工具:放置八爪鱼常用小工具,【正则表达式工具】、【定时入库工具】等。
教程:官网提供详细的教程,用户可根据自己的需要搜索教程学习。
关于我们:展示软件版本号与说明。
设置:可进行一些全局设置,【打开流程图】、【自动识别网页】、【删除字段不需要确认】、【本地采集优先启动加速模式】等。
自定义任务编辑界面介绍
在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。
本文将详细讲解【自定义任务编辑界面介绍】,【自定义配置采集数据】可点击开始学习 。
一、自定义采集界面介绍
自定义任务界面是在自定义采集模式下出现的界面,该界面包含了不同的功能分区,自定义模式界面所下图示。
1)左上角红框为任务名,双击后可进行修改,修改完成后点击其他位置即可进行保存。
2)界面右上角为【切换浏览模式】、【设置】、【点击隐藏数据预览】、【点击隐藏流程图】、【保存】及【采集】按键。
①【切换浏览模式】是当处于浏览模式状态下,可以像在浏览器中一样正常点击操作网页,如需编辑流程图,需关闭浏览模式;
②【设置】按键会进入任务设置界面,进行各项任务设置,可设置功能会在后面章节进行讲解;
③【点击隐藏数据预览】会隐藏下方的数据预览、【点击隐藏流程图】会隐藏右侧的流程图;
④【保存】按键的作用是保存任务;
⑤【采集】按键会先进行保存然后进入采集方式选择界面。
3)界面中间为浏览器界面,界面展示当前网页,可通过点击行为对页面中不同元素进行操作,操作会在流程图中生成模块方便查看。
4)界面中下方为【数据预览】,可查看当前页面中选中的数据组,并对采集的数据进行操作。
5)右侧为流程可视化,代表了流程中各模块进行的顺序,从上至下进行查看。最右侧为各模块详细参数设置页面,稍后会进行详细讲解。
6)流程图下面,也就是右下角是流程图每个步骤的【基础设置】、【高级设置】及【重试】的模块,通过不同功能模块组合可实现不同使用需求。
那么现在,相信大家已经了解了自定义界面的不同功能分区和含义,下面就尝试自定义采集吧~
点我开始学习【自定义配置采集数据
使用模板采集数据
在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。
本文将详细讲解【使用模板采集数据】,【自定义配置采集数据】可点击开始学习 。
一、使用【使用模板采集数据】
顾名思义,【采集模板】是由八爪鱼官方提供的、做好的采集模板,目前已有200+采集模板,涵盖主流网站的采集场景。模板数还在不断增加。
【使用模板采集数据】时,只需输入几个参数(网址、关键词、页数等),就能在几分钟内快速获取到目标网站数据。(类似PPT模板,只需修改关键信息就能直接使用,无需自己从头配置。)
1、如何找到所需的【采集模板】
① 首页【输入框】
在客户端首页【输入框】中,输入目标网站名称,八爪鱼自动寻找相关的采集模板。将鼠标移到需要的模板上并单击,进入模板详情页面。
注意,请确保输入的网站名称正确,否则可能无法查找到相关模板。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
② 首页【热门采集模板】
点击【热门采集模板】中的模板,或者【更多>>】,进入采集模板展示页面。可通过【模板类型】、【搜索模板】多种方法,寻找目标模板。
③ 没有所需的模板
如果没有找到想要的模板,请进入模板展示页面后,点击右上角【我想要新模板】,提交新模板制作需求。
官方会评估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:进入【模板详情页】后,仔细阅读【模板介绍】、【采集字段预览】、【采集参数预览】、【示例数据】,确认此模板采的数据符合需求。
注意:模板中的字段是固定的,无法自行增加字段。如果想要增加模板中的字段,请联系官方客服。
Step2:确定模板符合需求以后,点击【立即使用】,自行【配置参数】。常见的参数有关键词、翻页次数、URL等。
请认真查看【模板介绍】中的使用方法说明和参数说明,输入格式正确的参数,否则将影响模板的使用。
Step3:然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务并采集数据。
Step4:数据采集完成以后,可以需要的格式导出。这里以导出为【Excel】为例。数据示例:
通过【采集模板】创建并保存的任务,会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作并查看任务采集到的历史数据。在 客户端界面介绍 中有详细说明。
3、【采集模板】是否收费
【采集模板】大部分是免费的,少部分是收费的。
【采集模板】收费详情【模板详情页】有详细说明,使用前请仔细阅读。如有疑问请咨询客服。
现在,我们已经学会【使用模板采集数据】了。快选择合适的模板采集数据吧!
除了【使用模板采集数据】外,我们还可以通过【自定义配置采集数据】。【自定义配置采集数据】有2种方式:① 【智能识别】,只需输入网址,自动智能识别网页上的数据。自动生成采集流程;② 自己动手配置采集流程,灵活应对各类采集场景,包括翻页、滚动、登录、AJAX网页等。
更多信息关注我微信公众号或者有事情请点击下方发消息。