目前无论是做什么行业,数据分析都是必备可少的要求,下面这篇文章教你2个小时快速分析行业的网站数据! 工欲善其事必先利其器,如何做到快速分析当然少不了工具的使用,快速分析1个行业的网站数据到底需要哪些工具与技能 ?
今天带大家分析的数据涉及这几个方面:
1. 人群画像及其分析网址(备注:预计耗时15分钟)
2.用户搜索需求关键词:挖掘关键词、关键词行业网站覆盖率数据(备注:预计耗时20分钟;个人认知中的top10网站往往不全面,通过一定量的关键词,根据关键词抓取网址在筛选才能找到更全面的top网站)
3. 通过关键词批量抓取行业网站网址,批量查网站权重,筛选行业top网站(备注:预计耗时20分钟;关键词覆盖率数据可以使用python或5118数据参考)
4.批量下载行业top网站关键词数据(备注:预计耗时5分钟;5118基本满足需求)
5.分析行业网站的关键词排名首页词量、流量来源栏目数量、栏目更新量数据、栏目收录率(收录速度、日更大致数据)(备注:预计耗时30分钟;了解行业竞品网站的一些日更新量、主要流量来源情况)
6.分析行业网站关键词的关键词属性,对于排名首页的属于该关键词的关键词做初步归类(备注:预计耗时30分钟;根据关键词属性分类,以职业培训举例属于报考类、报名周期类、成绩类、真题类、职业前景类、项目实操案例类等等,确定行业top网站流量词主要来源,对于后续工作有一定的指导意义)快速了解一个行业少不了人群画像、用户搜索需求。
一、人群画像的基本分析网址:
1. 百度指数 https://index.baidu.com/
2. 淘宝指数 https://shu.taobao.com/
3. 巨量算数 https://trendinsight.oceanengine.com/
4. 其他,360指数、搜狗指数效果一般,根据研究群体适当添加分析。
根据人群画像初步的了解搜索的人群体特征(地域、性别、年龄、学历、兴趣爱好,搜索关键词特征等。),这里由于是分析行业网站就不展开。
每一个工具里面都会涉及基本的人群画像:
(图片中百度指数的参考数据)
二、用户搜索需求关键词
用户搜索需求关键词:这里主要谈谈如何拿到核心关键词(指数关键词)及辅助关键词、下拉词数据。
第1步:获取覆盖人群的核心关键词,可以通过各种站长工具来获取 核心关键词,然后基于核心关键词抓取一些百度联想词、下拉词数据作为补充关键词数据。
第2步:基于第1步获取的核心关键词,抓取足量行业网站
关键词拓展工具:5118
根据关键词采集百度前N页工具:URL采集
根据关键词抓取行业网站覆盖率数据:python脚本
这里以建造师行业(备注:这个行业笔者也是不熟悉的,简单作为测试)根据指数获取初步的核心关键词4个:建造师、一建、二建、二级建造师。再根据核心关键词拓展,可以使用拉取周边的关键词(根据经验即可),剔除一些不相关的指数词并做好去重。
(图片中一些不相关的关键词剔除)
获取辅助关键词73个,抓取网址数据量(去重后):
(图片抓取一建的关键词url网址)
(图片抓取二建的关键词url网址)
第3步:基于抓取的网址,取域名(二级域名的保留,通过url的频率,也能初步看出行业top网站),汇总行业网站进行去重处理,获取全量的网站URL。
第4步:基于覆盖人群的关键词,通过python脚本,抓取行业各个网站的覆盖率数据。可以作为行业网站的初步top数据。可以与后续拿到的权重站点数据作为比对,验证数据的准确度或者辅助提供参考数据。
(图片python脚本抓取行业网站基于搜索需求关键词覆盖率由大到小排序)
(图片python脚本抓取排名第二中大网校有排名的url和排名数量情况)
三、批量查网站权重,筛选行业top网站
根据核心关键词 4个,抓取前15页网站数据,筛掉*.baidu.com *.zhihu.com域名的数据,获取数据380条网址。在筛掉非行业网站的过程中发现一个有意思的事情B站出现的频次也是相当高,看样子B站上建造师学习的干货内容排名不差。
使用工具:爱站工具包或link114
第1步,利用excel替换、剔除、分列筛选出待查询的行业网站域名数据、记录高频行业网站数据。
(图片筛选频次大于5的网站)
第2步,利用工具批量查询行业域名权重等数据,以爱站工具包为例。如果涉及待查询site比较多,可以多次查询或使用付费工具。
(图片查询的爱站权重数据)
第3步,可以筛选出权重>=2的网站记录url与网站名称,结合python脚本抓取的覆盖率行业网站数据,分析出做站群的行业网站、是否是建造师垂直站点、综合性站点,筛选有关业务的站点,排除一些广告联盟或者建造师是边缘业务的站点。
名称网站爱站PC权重爱站M权重备注
四、批量下载行业top网站关键词数据
分析行业网站的关键词排名
首页词量、流量来源、栏目数量、栏目设置、栏目更新量数据、栏目收录率;分析行业网站关键词的关键词属性,对于排名首页的属于该关键词的关键词做初步归类将下载好的数据批量筛选关键词排名首页词量,非垂直类站点通过核心关键词筛选出属于首页的关键词情况,统计排入首页的关键词情况。
(图片简单的列举233网校的数据、包括一建、二建栏目的流量来源类型)
(图片简单的列举jianshe99的数据、包括子域名的流量来源类型)
(图片简单的列举jianshe99的数据、流量来源目录)
其他的一些数据可以根据自身需求去抓取或者通过百度指令查询获取,通过这些数据基本的可以了解建造师这个行业的排名情况、潜在流量的来源数据等。