每周导学-第十周-统计学基础
If you tell yourself you can’t, you won’t.
Hi,同学们,上一阶段我们学习了数据分析的基本流程、Pandas在数据分析各个过程中的应用以及Matplotlib&Pandas的可视化基础,截至目前,你们已经算是掌握了基础的数据分析技能啦!撒花!但是在统计学理论和预测方面仍有欠缺,那么P4阶段就是解决这个欠缺哒!
本周开始,我们就进入到了项目四(P4)阶段,本阶段总共包含三周,在这三周内,我们要对统计学进行学习,掌握基础的描述统计学理论、基本的概率知识、二项分布和贝叶斯公式,并学会使用 Python 来实践;学习正态分布、抽样分布、置信区间以及假设检验的概念和计算方式;学习线性回归以及逻辑回归,在真实场景中应用,比如分析 A/B 测试结果,搭建简单的监督机器学习模型。可谓是时间紧任务重,但是也别怕,统计学的基础知识还是非常简单的,跟着课程内容一步步来,自己多做笔记多查资料,一定没问题的!
那么我们的课程安排:
| 时间 | 学习重点 | 对应课程 | 
|---|---|---|
| 第1周 | 统计学基础 | 描述统计学 - 抽样分布与中心极限定理 | 
| 第2周 | 统计学进阶 | 置信区间 - 逻辑回归 | 
| 第3周 | 完成项目 | 项目:分析A/B测试结果 | 
本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决:
- 先自行查找问题答案(注意提取关键词),参考:谷歌/必应搜索、CSDN、stackoverflow
 - 额外参考资料:
 - 若问题未解决,请将问题及其所在课程章节发送至微信群,并@助教即可
 
饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧!
注:本着按需知情原则,所涉及的知识点都是在数据分析过程中必须的、常用的,而不是最全面的,想要更丰富,那就需要你们课下再进一步的学习和探索!
本周目标
学习课程中的描述统计学 - 抽样分布与中心极限定理课程,掌握统计学基础知识。
学习计划
| 时间 | 学习资源 | 学习内容 | 
|---|---|---|
| 周二 | 微信群 - 每周导学 | 预览每周导学 | 
| 周三、周四 | Udacity - Classroom | 描述统计学 - 抽样分布与中心极限定理 | 
| 周五 | 微信/Classin - 1V1 | 课程难点 | 
| 周六 | Classin - 优达日 | 本周学习总结、答疑 | 
| 周日 | 笔记本 | 总结沉淀 | 
| 周一 | 自主学习 | 查漏补缺 | 
本周知识清单
描述统计学基础
描述统计分析就是通过数字或可视化的方法,对数据集进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述。其简要可以分为集中趋势分析、离散程度分析以及相关分析三大部分。所以,虽然这部分是选修内容,但拜托各位一定要看,这部分理论是数据分析的基础。
数据类型
数据类型是基础,尤其是之后在进行回归预测时,针对不同的数据类型可以选择不同的算法,所以必须掌握。
数据类型可以分为两大类:数值和分类;进而分为四小类:连续、离散、定序和定类。
| 数据类型 | ||
|---|---|---|
| 数值: | 连续 | 离散 | 
| 身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 | |
| 分类: | 定序 | 定类 | 
| 字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 | 
描述统计的量
| 数据类型 | 描述方面 | 描述方式 | 备注 | 
|---|---|---|---|
| 数值: | 集中趋势 | 均值 | |
| 中位数 | 偶数个时取中间两值均数 | ||
| 众数 | 存在没有或多个的可能 | ||
| 离散程度 | 极差 | max - min | |
| 四分位差(IQR) | 75%数 - 25%数 | ||
| 方差 | 每个观察值与均值之差平方和的平均数 | ||
| 标准差 | 方差的平方根 | ||
| 数据形状 | 左偏态 | 均值小于中位数(普遍但不绝对,下同) | |
| (需做直方图) | 右偏态 | 均值大于中位数 | |
| 对称分布(通常是正态分布) | 均值等于中位数 | ||
| 异常值 | 一般为上下超过1.5倍四分位差 | 处理方式见下面【异常值的处理】 | |
| 分类: | 分类计量个数或比例 | 
偏态分布示意图
其他概念:
五数概括描述法:利用最小值、第一四分位数(25%处)、第二四分位数(中位数)、第三四分位数(75%处)和最大值五个数对数值型变量的离散程度进行描述的方法。
当我们的数据遵循正态分布时,我们可以使用
均值和标准差完全理解我们的数据集。但是,如果我们的数据集是偏态分布,
五数概括法(和关联的集中趋势度量)更适用于概括数据。除直方图外,你还可以使用箱线图进行统计描述,箱线图其实是五数概括法的可视化。
异常值的处理:
1. 至少注意到它们的存在并确定对概括统计的影响。
2. 如果是输入错误 —...
剩余内容已隐藏