Allen's Blog

Allen's Blog

马上订阅 Allen's Blog RSS 更新: https://www.capallen.top/atom.xml

每周导学-第十周-统计学基础

2018年9月13日 12:30

If you tell yourself you can’t, you won’t.

Hi,同学们,上一阶段我们学习了数据分析的基本流程、Pandas在数据分析各个过程中的应用以及Matplotlib&Pandas的可视化基础,截至目前,你们已经算是掌握了基础的数据分析技能啦!撒花!但是在统计学理论和预测方面仍有欠缺,那么P4阶段就是解决这个欠缺哒!

本周开始,我们就进入到了项目四(P4)阶段,本阶段总共包含三周,在这三周内,我们要对统计学进行学习,掌握基础的描述统计学理论、基本的概率知识、二项分布和贝叶斯公式,并学会使用 Python 来实践;学习正态分布、抽样分布、置信区间以及假设检验的概念和计算方式;学习线性回归以及逻辑回归,在真实场景中应用,比如分析 A/B 测试结果,搭建简单的监督机器学习模型。可谓是时间紧任务重,但是也别怕,统计学的基础知识还是非常简单的,跟着课程内容一步步来,自己多做笔记多查资料,一定没问题的!

那么我们的课程安排:

时间学习重点对应课程
第1周统计学基础描述统计学 - 抽样分布与中心极限定理
第2周统计学进阶置信区间 - 逻辑回归
第3周完成项目项目:分析A/B测试结果

本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决:

饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧!

注:本着按需知情原则,所涉及的知识点都是在数据分析过程中必须的、常用的,而不是最全面的,想要更丰富,那就需要你们课下再进一步的学习和探索!

本周目标

学习课程中的描述统计学 - 抽样分布与中心极限定理课程,掌握统计学基础知识。

学习计划

时间学习资源学习内容
周二微信群 - 每周导学预览每周导学
周三、周四Udacity - Classroom描述统计学 - 抽样分布与中心极限定理
周五微信/Classin - 1V1课程难点
周六Classin - 优达日本周学习总结、答疑
周日笔记本总结沉淀
周一自主学习查漏补缺

本周知识清单

描述统计学基础

描述统计分析就是通过数字或可视化的方法,对数据集进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述。其简要可以分为集中趋势分析、离散程度分析以及相关分析三大部分。所以,虽然这部分是选修内容,但拜托各位一定要看,这部分理论是数据分析的基础。

数据类型

数据类型是基础,尤其是之后在进行回归预测时,针对不同的数据类型可以选择不同的算法,所以必须掌握。

数据类型可以分为两大类:数值和分类;进而分为四小类:连续、离散、定序和定类。

数据类型
数值:连续离散
身高、年龄、收入书中的页数、院子里的树、咖啡店里的狗
分类:定序定类
字母成绩等级、调查评级性别、婚姻状况、早餐食品

描述统计的量

数据类型描述方面描述方式备注
数值:集中趋势均值
中位数偶数个时取中间两值均数
众数存在没有或多个的可能
离散程度极差max - min
四分位差(IQR)75%数 - 25%数
方差每个观察值与均值之差平方和的平均数
标准差方差的平方根
数据形状左偏态均值小于中位数(普遍但不绝对,下同)
(需做直方图)右偏态均值大于中位数
对称分布(通常是正态分布)均值等于中位数
异常值一般为上下超过1.5倍四分位差处理方式见下面【异常值的处理】
分类:分类计量个数或比例
  • 偏态分布示意图

  • 其他概念:

    • 五数概括描述法:利用最小值、第一四分位数(25%处)、第二四分位数(中位数)、第三四分位数(75%处)和最大值五个数对数值型变量的离散程度进行描述的方法。

    • 当我们的数据遵循正态分布时,我们可以使用均值标准差完全理解我们的数据集。

      但是,如果我们的数据集是偏态分布,五数概括法(和关联的集中趋势度量)更适用于概括数据。

    • 除直方图外,你还可以使用箱线图进行统计描述,箱线图其实是五数概括法的可视化。

  • 异常值的处理:

    1. 至少注意到它们的存在并确定对概括统计的影响。

    2. 如果是输入错误 —...

剩余内容已隐藏

查看完整文章以阅读更多