如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率

最近,在跑全新的高客单价赛道,在收集过程中,后裔八爪鱼被反爬虫,所以直接开发了脚本(文末代码开源)可以一键获取批量笔记,用技术赋能内容创作,接下来,就和大家复盘这一整个过程。
如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率
如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率
小红书变现的入局者,在我看来,可以分为两类,一类是已有相关知识积累的专业玩家,一类是行业积累甚少,甚至没有的小白玩家。
现在,我做小红书,已经横跨多个赛道,有时,也会面对跑全新赛道,没有知识积累的情况。
但是,并不妨碍我继续取得成绩。
比如,我最近跑的珠宝赛道,用0粉新号一篇笔记直接吸引了300+精准粉丝,用户画像中未成年人占比为0。
在缺少知识储备的情况下,我是如何做到的?
如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率
我在入局珠宝赛道的时候,面临最大的问题,就是对要做的事情,一问三不知:用户痛点是啥?赛道的选题都有啥?内容要写啥?
但是我知道,要解决这个问题,核心就四个字:搜索采集
搜索,就是利用关键词,快速构建起对一个赛道的整体认知,从用户痛点确定选题模块,根据选题多渠道收集素材,完成对内容的撰写。
采集,就是为了批量收集数据进行分析,以及素材对内容的辅助创作。
搜索的难点在于,因为0知识储备,我脑子里没几个相关关键词,不知道搜啥,采集的难点在于,小红书烦人的反爬虫机制。

利用搜索采集构建赛道整体认知

这赛道,对我这个玩家太不友好了,开局一个关键词:珠宝。
如何通过珠宝进行拓展呢,就是先收集珠宝检索结果下的爆款标题,进行分词,从而收集到相关关键词。

1、用关键词开启上帝视角

手机不方便,改用网页版,它有个细节,就是有一栏关键词,直接完成了第一轮的拓展。
然后,检索珠宝,得到一堆笔记。
如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率
为了批量获取它们,我反手就是后裔采集器+八爪鱼采集器,奈何网页的反爬虫太厉害,都失败了……于是,我只能通过游览的方式,提取标题关键词,完成手动记录。
图片[5]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
记录下来之后,做去重处理,和对词的关系进一步梳理,使得层级逻辑更加清晰。
图片[6]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
这样梳理之后,你直接就开启了对珠宝赛道的上帝视角,能看到用户在购买决策的不同阶段,所关注的焦点,以及珠宝的哪些细分赛道,在小红书上是可以做的。
你能看到赛道的完整度,取决于你初始数据收集的多寡。
然后,结合你已经有资源,就可以开始找切入点了。
如果你本身是开线下实体店,想要线上拓客,那么找你的产品品类,在小红书上,是否受欢迎。
但,如果你自身没有资源……
你可以做流量生意,引流给有珠宝资源的合作伙伴,以此收分佣,珠宝作为高客单价,是非常值得去做的。
你可以做广告变现,一个月百万投放,可以说是品牌方非常有钱的赛道了。
图片[7]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
你还可以做无货源,借助上面关键词的检索,挖掘爆品,然后开店,中间商赚差价。
你甚至可以涨粉卖号,一个珠宝号,高净值人群,用户画像极好,可以卖出不菲的价格。

2、再切细分赛道做素材库

珠宝这个赛道依然太大了,从上面的思维导图就可以看出,我们需要细分,越细分,人群越精准。
切翡翠赛道,你可能觉得,这都是类型里面的二级关键词了,真的有流量吗?
不要凭感觉,直接上数据,需求是很大的。
图片[8]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
翡翠这个时候,就相当于刚才开局的珠宝,所以,针对这个关键词,要进行拓展,从而俯瞰这个细分赛道,不一样的是,在这个过程中,可以同步锁定选题模块。
图片[9]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
这是翡翠赛道的鸟瞰图,也是选题的关键词库,根据这些词去检索,取爆款,就可以构建你的爆款选题库了。
这里需要注意的,依然是先要明确你的商业模式。
如果你是走实体店,或者无货源,可以往定制和二手这一块去深入,主选翡翠手镯和翡翠挂件。
如果你要做ip接广告,那么可以主选科普下的二级关键词。
这里你可能要问了,自己对翡翠一点都不了解,科普知识写不来。
而我要说,它不是能力问题,而是认知问题。
在小红书上,每个人都可以做IP,关键在于,你必须找到知识储备少于你的人,进行输出。
你开过车,你就可以教准备学车的人,怎么考科一,怎么过科三。
你工作过,你就可以教毕业生,怎么去面试,怎么混职场。
甚至,你有了二胎,你就可以给新手妈妈分享育儿踩过的坑。
你有80分,就去教60分的人,你有30分,就去教10分的人。
只要看几篇翡翠的笔记,知道翡翠的分类,就可以对想要了解翡翠的人,说的头头是道。
比如现在的我,之于你。
那么,如何找到大量笔记,把自己的知识储备,从0分快速提升至60分呢?
在小红书网页版,翡翠关键词检索结果下的知识科普页面,展示有限,每个页面平均200条笔记。
把点赞排名前20%的笔记整理出来。
具体到标题的时候,你就更知道用户都在关注什么了。
翡翠种水、手镯价位、翡翠挑选、翡翠行话,都是比较爆款的选题。
很多人不知道选题库怎么去呈现,也分不清选题和标题的区别,我用一张图来简单解释一下。
赛道是对选题的统领
选题是对标题的归纳
标题是对内容的总结
内容是对素材的融合
图片[10]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
所以,构建好选题库之后,不是就开始动笔了啊!
你需要借助选题,构建素材库,而素材库,才是你内容创作的起点。
小红书的素材,主要是图文、视频,以及文案区的文字。
在对标排版上,我们需要把图片、视频,下载下来,一边分析,一边临摹。
在对标内容上,我们需要图片、视频提取文字,以及直接复制粘贴文案区的文字。
同时,小红书的查重机制在不断完善,如果只用站内的内容,而自己改表达又不能很好降低重复率的时候,就可以借助万能的搜索引擎,来拓展你的知识边界。
比如,我要写翡翠的分类,素材库里面,对标的内容,是这张图,我要对它降重,又不会改写,那么你就替换里面的句子,替换什么呢?用检索来帮你。
图片[11]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
这样,就快速完成了笔记的生产,还能降低被系统抓到、限流的概率。
这么一套下来,去哪个赛道做流量,还会有困难?

借助GPT开发实现工具赋能效率

开发缘起

正当复盘完这一套方法之后,我突然意识到,有好几个点,真的太浪费时间了。
如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率
因为后裔八爪鱼又被反爬虫,使得我在构建关键词库,和收集素材的过程中,效率之低,尤为痛苦。
那怎么办?因为之前有合作开发过自动排版器的经验,让我立马想到:要不,就做一个符合自己需求的凌云采集器!
说干就干,能提升效率的三个环节,分别是网页检索结果的笔记爬取、笔记素材的导出和快速切换检索渠道。
我在大学的时候,做动漫混剪,用过油猴插件安装脚本,下载b站视频。油猴插件,就是你通过安装脚本修改网页html,来实现你想要的效果。
虽然网页插件开发0经验,但我对编程还是有一点点经验,于是就想着,借助chatgpt在油猴插件的基础上,直接开发脚本。

开发过程

第一步:小红书搜索页面的采集
因为小红书深度采集笔记正文和更多笔记数据,需要二次打开页面,会降低采集速度,以及被小红书限制。
为了在有用的基础上,保证效率,所以选择采集笔记标题、笔记链接、作者、作者链接、点赞数据。
关于chatGPT的操作,在生财已有不少内容,这里不在过多展开细节,但是,我要讲一下开发过程中要注意的。
开发关键点:
1、因为chatgpt的数据截止到21年,所以对当前小红书页面的信息不太了解,需要你提供更多网页html信息给它。
图片[13]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
2、小红书页面展现内容是滚动加载,并且每次加载的数据是有限制的,所以必须实时监控加载的信息并保存,还要对已保存的数据做去重处理。
图片[14]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
第二步:快速下载素材
这个功能开发是最简单的,只需要你给GPT提供丰富的小红书笔记页面信息,就可以实现图片/视频的提取。
开发关键点:
1、提供GPT足够多页面信息,包括图文笔记和视频笔记。
2、需要代码获取当前页面标题,然后对下载的图片/视频素材命名规则为:页面标题+页数
图片[15]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
第三步:快速切换检索渠道
这个想法,来源于在搜集对标信息时,需要小红书收集外部更多信息,来对对标内容进行降重,按个把关键词扔到“百度”“公众号”“知乎”太慢了,所以开发这个功能。
开发关键点:
1、网页搜索按钮的设计比较麻烦,需要给GPT反馈左侧网页信息,并且按钮大小、左右间距需要不断调整。
2、需要对当前搜索关键词进行实时监控,如果有变动,要将搜索关键词赋值给其他跳转搜索链接。
图片[16]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落

小红书网页工具安装和使用方法

安装方法

里面具体讲解edge和谷歌浏览器安装方法,由于内容较多,梨云放到飞书了。
凌云采集器:小红书搜索网页导出/图文下载/搜索跳转脚本安装教程:
图片[17]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落

使用方法

1、小红书搜索批量爬取笔记
搜索框输入关键词,点击搜索后,需要刷新一次页面,召唤此功能。
然后开始手动滚动,会显示已采集的笔记数,需要多少条,然后点击导出即可。
图片[18]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
下载表格打开后:
图片[19]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
点击表格中的链接,可以直达笔记并且一键下载,打开网页后,需要刷新召唤此功能。
图片[20]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
相同关键词下,快速切换检索渠道,收集素材辅助内容输出。
图片[21]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
图片[22]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
图片[11]-如何用GPT开发插件脚本,批量爬取小红书笔记,提升内容创作效率-淘金部落
一顿操作猛如虎,可能你会觉得,用GPT写了个插件,真他妈的6,也想学怎么用它写代码,但我想说,这不是最重要的。
最重要的是,如何用更高的效率,来实现你想要的目标。
永远记住,工具是对方法的执行赋能,对流程的降本增效。
今天的小红书分享就到这里,内容很干,希望能给到大家一些启发和帮助,坚持下去,你一定会有所收获。有帮助的话,记得点个赞哦~

 

© 版权声明
THE END
喜欢就支持一下吧
点赞24 分享