课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 中国电信北京研究院产品总监,CDA二级建模师。从事数据分析和数据挖掘的工作8年,从2010年陆续通过网络远程语音和面授有上百次教学经验。

  • 课程详情

    标准差很好理解,使用频率也很高。按照公式的理解,它表达的是数据中每个元素与均值之间差异的总和。通俗的理解,它衡量的是一组数据彼此之间的差异程度(本质是所有数据与均值的差异程度),标准差越大数据之间的差异越大。

     

    由于它是一个相对指标,我们在使用时无法根据标准差的大小,来单独判断一组数据的差异是大还是小,比如一个班级30名学生,年龄的标准差为10,我们不知道这个班级学生间年龄到底是偏大还是偏小。只能对比两个班级的年龄差异谁大谁小,因此在衡量数据间差异程度时还有其他更好的指标来代替。

     

    标准误其实也是一种标准差,它是多个随机抽样样本均值的标准差,是用来衡量抽样误差的指标。比如北京市人群真实平均年龄为35岁,我们从北京市随机抽取200人,这200人的平均年龄为37.8岁,那37.8-35=2.8岁则是这次抽样产生的误差。

     

    那如果以200份的样本大量随机抽取,平均会产生多大的抽样误差呢?计算方式为200人的样本标准差除以根号200(这地方我都不敢写公式,就怕你一看到公式头皮发麻。。。这公式不用记,随便搜索下就能找到)

     

    标准误最常使用的场景就是在我们完成一次抽样采集后,需要告知他人这次的抽样误差有多大,我们抽样数据的误差是否可以容忍。

     

    如果看文字还没懂,再看一遍视频肯定能懂