PBI系列 关键词 决策树 影响因子 15(数据分析)【花随花心】

4人 购买 好评度 - 收藏
  • PBI系列15
更多班级

PBI系列15

支持随到随学,23年10月过期

¥68.00

本班因教学质量问题暂时不能报名。 查看详情

课程因违反平台规定暂时不能报名。

立即报名

课程概述

课程目录

学员评论

老师介绍

  • 花随花心

    花随花心

    花随花心数据自媒体创始人,五年电商数据分析从业经验,擅长选款定价、竞品追踪、市场调研、软件研发、报表制作。
简  介 本次课程涵盖3个核心关键词:关键词、决策树、影响因子,希望通过这节课程,让大家学会如何用决策树算法进行数据归纳,分析数据之间的关系。
商业智能数据分析师,花随花心。
 
大家好,我是花老师。今天,这堂课是整个PBI系列的第15课,核心关键词正如本文名字一样,关键词、决策树、影响因子。当然,这么讲肯定是不好理解的,不过没关系,稍后我会好好给大家分享。
 
还没有看过上14堂课的同学,要记得提前预习,文章名如下:
 
《PBI系列 车图 色彩搭配 数据分析 01》花随花心著
《PBI系列 竞品评论 流量 词云分析 02》花随花心著
《PBI系列 快选 人气新品池 品质档 03》花随花心著
《PBI系列 天猫国际 搜索 属性分析 04》花随花心著
《PBI系列 京东 词根分析 时段流量 05》花随花心著
《PBI系列 关键词 多维度 市场分析 06》花随花心著
《PBI系列 类目大词 群店 竞争透视 07》花随花心著
《PBI系列 搜索环境 竞店 二维矩阵 08》花随花心著
《PBI系列 店铺分类 地区透视 关系 09》花随花心著
《PBI系列 象限分析 雷达 区间分段 10》花随花心著
《PBI系列 搜索环境 波动性 集中度 11》花随花心著
《PBI系列 权重 相关系数 指标关联 12》花随花心著
《PBI系列 快选池 聚类分析 二维化 13》花随花心著                       
《PBI系列 搜索 逻辑回归 分类预判 14》花随花心著
 
那么,接下来,就让我们正式进入主题。                                                                   
 
正文
 
相信长久以来,做电商的各位同学肯定是觉得搜索的规则一直在发生变化,很多时候都抓不到变化的根本。我们都知道,很大程度上搜索的核心权重指标其实来来回回就那么几个,要么就是点击、要么就是转化、收藏、要么就是加购。具体的,到底需要多少数据,是根据我们类目的竞争对手们操作下来的数据进行分析的。
 
好比如说,能查到平台上竞争对手的数据指标当中,凡是出现过的指标都在统计范畴里头。也就是说,即使是官方的大数据,也脱离不了我们实际上能看到的数据范畴,最多就是比我们多了一些隐藏的数据指标。至于隐藏的指标是什么,鬼知道。
 
也就是说,以上这段话的重点在于,看自己着重研究什么数据指标,至于具体的数据阈值,是看竞争对手的,比如TOP10,甚至TOP50等等,无非就是求这些指标的五数概况,比如均值、最大值、最小值、标准差、中位数,然后让自己的数据指标尽量往这些方面上去靠近而已。
 
至于所谓的通过查看官方的源代码来看具体的规则的,反正我目前是不懂,并且我也觉得平台不是傻的,就这么简单。
 
想要直接看最终源代码的,基本是不可能的,唯一可能的就是不断测试我们自认为的指标,然后根据自己测试的结果加大力度,因此所谓的经验都是靠自己去摸索的。
 

 
今天我拿了手淘的综合排序数据,想要通过这堆数据,挖掘出重点影响付款人数这个指标的究竟是哪些维度。也就是,哪些维度最终决定了产品的付款人数的增长。
 
大家不是一直都想知道权重因子吗?我们现在的目的就是找到这个影响因子究竟是哪些?是动态评分吗,还是收藏加购呢?
 
当然,因为我今天获取的数据的维度毕竟有限,因此,真正挖掘出来的因子就两个,如图所示
 

 
这个是我在PBI系列的第12堂课就讲过的微软官方数据挖掘套件,具体的软件安装方法大家可以参考第12堂课的操作视频,我自己因为已经安装完毕,懒得重复安装。如果需要压缩包的,可以自行下载,也可以找我要,我自己有备份。
 
今天用到的是决策树算法,很多人第一次听到这个算法的,都不清楚是拿来干嘛的,我们可以先看下百度百科上面的解释,如图所示
 

 
简单来说,就是用来对数据进行分类的。通过挖掘数据背后的规律来找出权重因子,然后做成一种树状结构的关系图像,如图所示
 

 
正如上面这个图所示,通过分类,按年龄的不同阶段进行分类,比如小于30,30-40,甚至大于40以上的不同阶段,根据不同阶段,生出不同的分支,比如小于30的,需要判断是否是学生这个问题;而在大于40的,则要进一步判断信用等级是否良好。
 
通过分类判断,进而找出规则出来。这就是决策树算法的基本理解。也就是说,实际上规则不是统一的,而是分段呈现,不同阶段的产品,会受到不同规则的制约,进而产出不同的数据规律。也就是说,如果我们自己的产品跟人家的产品根本就不是同个量级的,那么即使用了同一套操作方法,也是不可行的,因为数据的阈值不同,数据的权重影响因子不同。
 

 
我将数据源当中的数据指标,通过这个套件进行数据挖掘,最后发现影响付款人数的,居然是收藏人气和描述这2个指标。说明在这些数据当中,这个算法认为只有这2个指标的权重影响最大。而我们都知道描述是属于动态评分,收藏人气一直以来都是被很多人知道的权重指标,只不过不知道怎么计算出来而已。而今天的这堂课,就可以教大家如何计算。
 

 
来了,影响付款人数这个指标的决策树模型,就是上面这个图。很明显,收藏人气大于7033和小于7033被分成了2个分支,并且小于7033的这个分支还会受到动态评分当中的描述的影响。
 
那如果说,我这里所获取到的数据指标,包括加购人数、点击率、转化率的话,通过分析多个竞争对手的内部数据,是否可以很快知道其中的规律,进而算出实际权重因子是哪些?
 
然后依据这些重点的指标,去计算其五数概括,再加上每天的数据走势,其实很快就可以知道一个类目的具体玩法了。但是,有个非常重要的前提,那就是体量要相似,不能跨度太大,也就是这些对手的水平都差不多,体现在付款人数的多少上。
 
进而不断测试,修正自己的错误观点。
 
另外,今天所下载的手淘搜索综合排序数据,用的是我自己研发的数据分析工具箱,如图所示
 


 
目前为止,这个是第5代版本,一共有15个免费功能,当然随着我后面的不断更新,肯定会加入更多实用功能进来,尽请期待!
 
以上内容,基本上可以让大家了解到这个图表是干嘛用的。当然,其中技术方面的细节,我都会留到(付费)视频、(免费)音频当中进行详细介绍。不过,从这个系列开始,与以往不同的是,我会加入一段漫长的无声操作视频,将自己完整的操作过程记录下来,这样大家就不会说不清楚其中的细节了,由于是无声,因此我在音频当中会减掉这部分内容。
 

 
希望我今天的分享能对大家有所帮助,谢谢!想要获取这堂课的核心技术的同学,如下所示操作即可。
 

资料下载报名后支持下载

* 课程提供者:花随花心

老师还为你推荐了以下几门课程