数据获取速度慢?教你如何查找数据源(建议收藏)纳豆(收徒)2024年01月24日 09:21:32更新关注3821 相信职场上的小伙伴,多多少少都会遇到这样的问题,想要做数据分析的时候,没有数据,或者是需要在短时间内梳理本行业的资料,却不知道如何下手,费尽心思搜集出来的资料质量不是很高,工作效率大打折扣。 想通过编程爬虫数据,学习和时间成本又太高,那有什么简单高效的获取数据方法呢? 今天给大家分享下高效搜集和整理行业资料技巧和方法! 大家可以根据自己的工作需要,选择适合的方法哦 善用数据查询网站 大家在找数据前,先搞清楚什么网站可以获得什么类型的数据这个很重要。 国家公开数据 国家统计局:http://www.stats.gov.cn/tjsj/xwfbh/ 中国统计信息网:http://www.tjcn.org/ 中国信通院:http://www.caict.ac.cn/ 中国城市轨道交通协会:https://www.camet.org.cn/ 中华人民共和国中央人民政府:http://www.gov.cn/fuwu/bmfw/zggjbzhglwyhgjbzxxcx/ 世界银行:https://data.worldbank.org.cn/indicator?tab=all 世界数据图册:https://cn.knoema.com/atlas 中华全国商业信息中心:https://www.cncic.org/?cat=7 中财网:http://data.cfi.cn/cfidata.aspx 中国互联网信息中心:https://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ 中国教育研究院:http://www.nies.edu.cn/jyyj/ CEIC(全球经济数据):https://www.ceicdata.com/zh-hans 咨询报告 艾瑞咨询:https://www.iresearch.com.cn/ 友盟指数:https://www.umeng.com/ 艾媒网:https://www.iimedia.cn/ TalkingData(数字营销):http://www.talkingdata.com/ Growing io(用户行为分析):https://www.growingio.com/ 艾瑞数据:https://data.iresearch.com.cn/iRView.shtml 1991T:http://www.199it.com/ 极光大数据:https://www.jiguang.cn/reports 比达网:http://www.bigdata-research.cn/ 卡思数据:https://www.caasdata.com/ 镝数聚:https://www.dydata.io/ 优易数据:http://www.youedata.com/ 易观千帆:https://qianfan.analysys.cn/ itrustdata(移动大数据统计分析平台):http://www.itrustdata.com/ KPMG毕马威:https://home.kpmg/cn/zh/home.html 移动端数据 【微信数据】 新榜:https://www.newrank.cn/ 西瓜数据:http://data.xiguaji.com/ 【抖音数据】 飞瓜数据:https://www.feigua.cn/ 蝉妈妈数据:https://www.chanmama.com/ TooBigdate:https://toobigdata.com/ 【微博数据】 微热点:https://www.wrd.cn/login.shtml 西瓜微数:http://wb.xiguaji.com/?chl=kl 【B站、快手、小红书数据】 小小数据:https://xxkol.cn/ 【淘宝电商数据】 阿里指数:https://dwz.red/TgJ0c 生意参谋:https://sycm.taobao.com/custom/login.htm?_target=http://sycm.taobao.com/ 【KOL数据】 Topsocial数播:https://www.topsocial.com.cn/ 小葫芦大数据:https://www.xiaohulu.com/ 全球数据 SimilarWeb(分析网站):https://www.similarweb.com/ 世界互联网统计数据:https://www.internetworldstats.com/stats.htm PwC publications(各个行业的主要发现和行业报告):https://www.pwc.com/us/en/library.html weforum(世界经济论坛、国内外发展大趋势):https://www.weforum.org/reports Rolandberger(战略和行业评论和报告):https://www.rolandberger.com/en/?country=CN similarweb (网站分析工具):https://www.similarweb.com/zh/ CADAS(全球航空公司研究报告):http://www.cadas.com.cn/ GSMA:(全球移动互联网经济):https://www.gsma.com/mobileeconomy/ IBM商业价值研究院(行业观点报告):https://www.ibm.com/cn-zh/services/insights/institute-business-value Kantar(Android和ios市场份额):https://www.kantarworldpanel.com/global Flurry(国外app行业报告):https://www.flurry.com/ App Annie (app指数报告):https://www.appannie.com/cn/insights/ 互联网趋势分析 百度指数:https://index.baidu.com/v2/index.html#/ 360趋势:https://trends.so.com/ 巨量算数:https://trendinsight.oceanengine.com/arithmetic-index 企业信息报告 巨潮资讯(中国上市公司季度年度财务报告):http://www.cninfo.com.cn/new/index 资本邦:https://www.chinaipo.com/listed/ SEC(美国上市公司年度财务报告):https://www.sec.gov/ 天眼查:https://www.tianyancha.com/ 其它 CBNData-第一财经商业数据中心:https://www.cbndata.com/home 胡润百富:https://hurun.net/ IT桔子:https://www.itjuzi.com/ 投中网:https://www.chinaventure.com.cn/report/list.html 艾漫数据:http://www.imzs.com/ 中国广视索福瑞媒介研究(CSM):https://www.csm.com.cn/ 玩家电竞:https://www.wanplus.com/schedule MAX+ APP:http://www.maxjia.com/maxjia/index/ 猫眼专业版:https://piaofang.maoyan.com/dashboard 灯塔专业版:https://piaofang.taopiaopiao.com/pro/download/pc/index.html (以上所有网站排名不分先后) 最后,给大家推荐一个数据中心导航栏,里面有各个维度的分类数据,快速导航栏能帮你便捷找到想要的数据! 199it:http://hao.199it.com/ 巧用搜索引擎 大家在使用搜索引擎时候是不是经常会遇到这样的情况,想搜文档但出来的全是网页和广告,如何能够快速找到自己想搜集的文档呢? 搜索引擎其实有许多实用的小技巧,可帮助我们更高效的进行搜索。 1、 “” 意为完全匹配,结果中必须出现与搜索文本完全相同的内容。 2、X -Y搜索包含X但不包含Y的结果(请注意A后面的空格不能省略)。 3、filetype限定文件类型,以百度搜索为例,在检索词前加上filetype:all,如要特定PDF格式则输入:filetype:PDF。 4、site 限定搜索网站,例如:site:http://pan.baidu.com 特别好用,用来搜百度云里的资源。 5、link搜索网页中含有某链接的结果,比如搜索:link:http://baidu.com,则结果为包含百度这个链接的页面。 6、intitle 搜索标题内包含关键词的结果。 7、inurl 搜索网站地址中包含关键词的结果。 8、related 搜索相关网站。 9、index of 可以突破网站入口下载。 使用时注意所有提到的符号要使用半角模式。 无需编程的爬虫工具 不会写编程,但是还想爬取特定数据,在这样的形势下,一些可视化的爬虫工具诞生了!这些工具通过一些策略来爬取特定的数据,虽然没有自己写爬虫操作精准,但是学习成本低很多,下面就来介绍几款可视化的爬虫工具。 1、集搜客GooSeeker http://www.gooseeker.com/ 使用集搜客不需要编程语言的基础,将要抓取的特定字段映射到工作台,建立好采集的规则,就能轻松将数据采集成功,整个过程简单明了。 集搜客的特色是爬虫群功能,功能非常强大,可以直接在会员中心控制采集数量,控制采集时间,同时可以用多个爬虫采集同一网址,防止采集过于频繁IP被封,又能保证采集的速度,同时采集的数据可以直接入库,并导出,关键是集搜客还不限制采集的深度和广度,想多少采集多少。 2、八爪鱼 https://www.bazhuayu.com/ 八爪鱼无需再学爬虫编程技术,可以轻松抓取网页数据,支持多种格式一键导出,快速导入数据库。还可以下载现成的采集规则,如果不会写规则,就直接用别人写的规则就好了, 进一步降低了使用爬虫的门槛。 3、后羿采集器 https://www.houyicaiji.com/ 基于人工智能算法,只需输入网址就能智能识别列表数据、表格数据和分页按钮,不需要配置任何采集规则,一键采集。 以上就是今天分享的全部内容了,小伙伴们记得点赞收藏起来哦! © 版权声明如有侵权,请联系站长删除THE END杂谈 喜欢就支持一下吧点赞21 分享QQ空间微博QQ好友海报分享复制链接收藏