每周导学-第八周-TMDb数据分析
Awareness is the greatest agent for change.
Hi,同学们,经过了前两周的学习,我们掌握了数据分析的基本流程、Pandas在数据分析各个流程中的基本应用以及使用matplotlib&Pandas进行可视化的技巧,那么本周我们就真刀实枪地找一套数据集练练手。本周的导学有两期,分别选用了项目三中的两个数据集(TMDb电影数据和FBI枪支数据)进行分析,只是分享思路和方法,起一个抛砖引玉的作用,大家选择其他的数据集也可以举一反三,如果有什么棘手的问题随时微信联系我就OK~
本周开始,我们就进入到了项目三(P3)阶段,本阶段总共包含四周,在这一个月内,我们要对数据分析入门进行学习,学习数据分析思维,掌握Python数据分析及可视化方法,并使用所学知识完成项目三:探索数据集,尝试着自己完成整个数据分析的流程,得到一些饶有兴趣的结论,你一定会非常有成就感哒!那么以下便是这四周的学习安排:
| 时间 | 学习重点 | 对应课程 | 
|---|---|---|
| 第1周 | 数据分析过程-1 | 数据分析过程&案例研究-1 | 
| 第2周 | 数据分析过程-2 | 案例研究-1&案例研究-2 | 
| 第3周 | 完成项目 | 项目:探索数据集 | 
| 第4周 | 项目修改与通过 | 修改项目、查缺补漏、休息调整 | 
!!看这里!!:在P3课程里面安排了SQL的高阶课程,但是因为在项目三中并不会涉及到SQL知识,所以为了保证大家学习的连贯性,在完成前两周的课程之后,就开始项目。至于!!SQL的高阶知识,大家可以放在课程通关后进行选修!!;
本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决:
- 先自行查找问题答案(注意提取关键词),参考:谷歌/百度搜索、菜鸟教程、CSDN、stackoverflow、Python for Data Analysis, 2nd Edition 、Python Cookbook
 - 若问题未解决,请将问题及其所在课程章节发送至微信群,并@助教即可
 
饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧!
注:本着按需知情原则,所涉及的知识点都是在数据分析过程中必须的、常用的,而不是最全面的,想要更丰富,那就需要你们课下再进一步的学习和探索!
本周目标
- 在此处挑选和你确认过眼神的数据集,并对其进行数据分析和探索,得出你自己的结论,然后进行提交。
 
学习计划
| 时间 | 学习资源 | 学习内容 | 
|---|---|---|
| 周二 | 微信群 - 每周导学 | 预览每周导学 | 
| 周三、周四 | Udacity - Classroom | 项目三 | 
| 周五 | 微信/Classin - 1V1 | 课程难点 | 
| 周六 | Classin - 优达日 | 本周学习总结、答疑 | 
| 周日 | 笔记本 | 总结沉淀 | 
| 周一 | 自主学习 | 查漏补缺 | 
项目准备
环境准备
强烈建议大家完成本地环境的搭建,在本地完成此项目。搭建本地环境的方法请参考Anaconda的安装与配置一节,完成后你将获得本项目中会用到的关键软件:Spyder和Jupyter Notebook。
文件准备
- 项目文件:依次进入到项目:探索数据集 –> 3.实战项目中,下载项目文件的ipynb格式。
 
数据集选择:在此处选择你感兴趣的数据集并下载至与项目文件相同的文件夹。(若下载失败,请微信联系我索取)
本地打开:在项目文件的文件夹下,按住
Shift键,右击选择在此处打开命令窗口,输入jupyter notebook,待打开本地页面之后,选择项目文件打开,之后就请开始你的表演。
方法准备
项目文件中已经给大家列好了基本流程,所以请在开始项目之前,一定要先整体浏览一遍项目文件,着重看一下:
- 项目流程
 - 每一个流程中你需要做哪些工作
 - 每一个流程中的提示
 
要记得,数据分析过程不是一蹴而就的,是螺旋上升接近目标的过程,所以一定要保持耐心,对照着项目评估准则一步步完成。
另外,一开始你的notebook会显得很乱没有章法,那在提交之前最好能再修改一个整理好的版本。
项目流程(TMDb)
数据集说明
本项目选择的数据集为Kaggle提供的TMDb电影数据。此数据集中包含 1 万条电影信息,信息来源为“电影数据库”(TMDb,The Movie Database),包括用户评分和票房等。数据已进行了简单清理,涉及到的变量如下表所示:
| 变量名 | 注释 | 变量名 | 注释 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| id | 电影序号 | keywords | 电影关键词 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| imdb_id | imdb电影序号 | overview | 剧情摘要 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| popularity | 受欢迎程度 | runtime | 电影时长(min) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| budget | 预算($) | genres | 电影风格 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| revenue | 收入 | production_companies | 制作公司 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| original_title | 电影名称 | release_date | 发布日期(月/日/年) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| cast | 演员表 | vote_count | 评价次数 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| homepage | 电影网址 | vote_average | 平均评分 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| director | 导演 | release_year | 发布年份 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| tagline | 宣传词 | budget_adj | 预算(考虑通胀) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| revenue_adj... 剩余内容已隐藏 查看完整文章以阅读更多 每周导学-第八周-TMDb数据分析2018年9月5日 12:30 
 Hi,同学们,经过了前两周的学习,我们掌握了数据分析的基本流程、Pandas在数据分析各个流程中的基本应用以及使用matplotlib&Pandas进行可视化的技巧,那么本周我们就真刀实枪地找一套数据集练练手。本周的导学有两期,分别选用了项目三中的两个数据集(TMDb电影数据和FBI枪支数据)进行分析,只是分享思路和方法,起一个抛砖引玉的作用,大家选择其他的数据集也可以举一反三,如果有什么棘手的问题随时微信联系我就OK~ 本周开始,我们就进入到了项目三(P3)阶段,本阶段总共包含四周,在这一个月内,我们要对数据分析入门进行学习,学习数据分析思维,掌握Python数据分析及可视化方法,并使用所学知识完成项目三:探索数据集,尝试着自己完成整个数据分析的流程,得到一些饶有兴趣的结论,你一定会非常有成就感哒!那么以下便是这四周的学习安排: 
 !!看这里!!:在P3课程里面安排了SQL的高阶课程,但是因为在项目三中并不会涉及到SQL知识,所以为了保证大家学习的连贯性,在完成前两周的课程之后,就开始项目。至于!!SQL的高阶知识,大家可以放在课程通关后进行选修!!; 本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决: 
 饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧! 
 本周目标
 学习计划
 项目准备环境准备强烈建议大家完成本地环境的搭建,在本地完成此项目。搭建本地环境的方法请参考Anaconda的安装与配置一节,完成后你将获得本项目中会用到的关键软件:Spyder和Jupyter Notebook。 文件准备
 
 方法准备项目文件中已经给大家列好了基本流程,所以请在开始项目之前,一定要先整体浏览一遍项目文件,着重看一下: 
 要记得,数据分析过程不是一蹴而就的,是螺旋上升接近目标的过程,所以一定要保持耐心,对照着项目评估准则一步步完成。 另外,一开始你的notebook会显得很乱没有章法,那在提交之前最好能再修改一个整理好的版本。 项目流程(TMDb)数据集说明本项目选择的数据集为Kaggle提供的TMDb电影数据。此数据集中包含 1 万条电影信息,信息来源为“电影数据库”(TMDb,The Movie Database),包括用户评分和票房等。数据已进行了简单清理,涉及到的变量如下表所示: 
  | 
