安装Anaconda Python集成环境
下载环境
官网: https://www.anaconda.com/ 下载: https://www.anaconda.com/distribution/

安装环境
下载过程中使用默认,但有一个页面需要确认,如下图。

第一个勾是是否把 Anaconda 加入环境变量,这涉及到能否直接在 cmd中使用 conda、jupyter、 ipython 等命令,推荐打勾。
第二个是是否设置 Anaconda 所带的 Python 3.6 为系统默认的 Python 版本,可以打勾。
安装完成后,在开始菜单中显示“Anaconda2”如下图所示。

安装第三方程序包 Graphviz
目的是在决策树算法中八进制最终的树结构。
1、打开 Anaconda Prompt ,输入 conda install python-graphviz,回车即可完成安装,如下图所示,本图所示已经安装 了 graphviz 包,若之前没有安装,这时会花点时间安装,安装不用干预。

安装完成后先输入 python,然后再输入 import graphviz,测试是否成功安装,如上图所示。 需要设置环境变量,才能使用新安装的 graphviz。
Anaconda及依赖包环境变量设置
首先查看 anaconda 安装在哪个目录下,可以打开 Spyder 的属性,看一看目标是什么目 录。例如本机的 anaconda 安装路径为 C:\Users\lenovo\Anaconda2。
下面设置环境变量
- 在用户变量“path”里添加
C:\Users\debuginn\Anaconda2\Library\bin\graphviz - 在系统变量的“path”里添加
C:\Users\debuginn\Anaconda2\Library\bin\graphviz\dot.exe - 如果现在有正在打开的 anaconda 程序,例如正在 Spyder,那么关闭 Spyder,再启动,这 样刚才设置的环境变量生效。
决策树分析
格式化原始数据
将下图的表 demo 输入到 Excel 中,保存为.csv 文件(.csv 为逗号分隔值文件格式)。 注意将表 demo 中的汉字值转换成数据字值,例如“是否是公司职员”列中的“是”为“1”, “否”为“0”。转换后的表中数据如下图所示。

编写数据分析代码
编写程序对上面的数据进行决策树分类,采用信息熵(entropy)作为度量标准。参考代码如下所示:
| |
| |
数据分析结果
程序运行结果在与该程序在同一目录下的 table.pdf 文件中,将每一个叶子结点转换成 IF-THEN 规则。

IF-THEN分类规则
| |