机器学习 – 决策树_代码007(未授权)

本文介绍: 熵是信息论中的一个核心概念，最初由克劳德·香农提出。它是用来量化信息中的不确定性或混乱度的度量。在信息论中，熵可以理解为传输的信息量或系统的无序程度。我们通过信息增益构建决策树，决策树类似于if else条件流程，我们可以使用python的绘图工具画出来。决策树的范例，如下，我们通过决策树就可以直接得到预测结果。

之前有说过k近邻算法，k近邻算法是根据寻找最相似特征的邻居来解决分类问题。k近邻算法存在的问题是：不支持自我纠错，无法呈现数据格式，且吃性能。k近邻算法的决策过程并不可视化。对缺失数据的样本处理很不友好，而且当处理具有许多特征的高维数据时，K-NN的性能可能会下降。

在了解决策树之前，有必要了解一个熵的概念，这是高数必学的一个东西。

熵是信息论中的一个核心概念，最初由克劳德·香农提出。它是用来量化信息中的不确定性或混乱度的度量。在信息论中，熵可以理解为传输的信息量或系统的无序程度。

抛硬币，硬币有正有反，理论上抛到正面和抛到负面的概率是一样大，我跑了三次硬币，分别是

次数	结果
1	正
2	反
3	正

问：我第四抛硬币的结果是什么？
这不扯淡吗？我怎么会知道？这种情况下的熵是最大的。

拿小球，我一个袋子里有一百个球，其中一个黑球，九十九个白球，问：你会拿到什么球？
我可以直接预测：白球。

from math import log2

# 抛硬币是一个典型的二分类问题，正面和反面出现的概率相等，都是0.5
prob_head = 0.5  # 正面的概率
prob_tail = 0.5  # 反面的概率

# 根据熵的公式计算熵
entropy = - (prob_head * log2(prob_head) + prob_tail * log2(prob_tail))
entropy

天气	温度	风速	出门郊游
晴朗	热	高	否
雨天	凉	低	是
阴天	温暖	高	是
晴朗	凉	低	否
晴朗	温暖	高	是
雨天	热	高	否
阴天	凉	低	是

# 计算熵
def calcShannonEnt(dataSet):
    # 统计实例总数
    numEntries = len(dataSet)
    # 字典标签，统计标签出现的次数
    labelCounts = {}
    for data in dataSet:
        # 每个实例的最后一个元素是标签元素
        currentLabel = data[-1]
        if currentLabel not in labelCounts:
            labelCounts[currentLabel] = 0
            # 为当前类别标签的计数加一
        labelCounts[currentLabel] += 1

    # 设置初始熵
    shannonEnt = 0.0  # 初始化熵为0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries  # 计算每个类别标签的出现概率
        shannonEnt -= prob * log(prob, 2)  # 使用香农熵公式计算并累加熵
    return shannonEnt  # 返回计算得到的熵

    for i in range(numFeatures):  # 遍历所有特征
        featList = [example[i] for example in dataSet]  # 提取当前特征列的所有值
        uniqueVals = set(featList)  # 获取当前特征的唯一值集合
        newEntropy = 0.0  # 初始化新熵
        for value in uniqueVals:  # 遍历当前特征的每个唯一值
            subDataSet = splitDataSet(dataSet, i, value)  # 根据当前特征和值分割数据集
            prob = len(subDataSet) / float(len(dataSet))  # 计算子数据集的比例
            newEntropy += prob * calcShannonEnt(subDataSet)  # 计算新熵，并累加

  什么是信息增益？
  信息增益衡量的是在知道某个特征的信息之后，数据集熵的减少量，即该特征给我们带来多少信息。

 baseEntropy = calcShannonEnt(dataSet)  # 计算数据集当前的熵
 bestInfoGain = 0.0  # 初始化最佳信息增益
 bestFeature = -1    # 初始化最佳特征的索引
   newEntropy = 0.0  # 初始化新熵

       for value in uniqueVals:  # 遍历当前特征的每个唯一值
          subDataSet = splitDataSet(dataSet, i, value)  # 根据当前特征和值分割数据集
          prob = len(subDataSet) / float(len(dataSet))  # 计算子数据集的比例
          newEntropy += prob * calcShannonEnt(subDataSet)  # 计算新熵，并累加