机器学习-决策树_代码007(未授权)

本文介绍: 决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

在决策树流程学习中，寻找最优划分属性是决策树过程中的重点。那么如何在众多的属性中选择最优的呢

Ent = - sum_{k=1}^{K} p_k * log_2p_k

import collections
def entropy(label):
    counter = collections.Counter(label)
    ent = 0.0
    for num in counter.values():
        p = num/len(label)
        ent += -p*np.log2(p)
    return ent

def information_gain(data,a):
    Ent = entropy(data)
    feature_class = data[a].value_counts()
    gain = 0
    for key in feature_class.keys():
        weight = feature_class[key]/data.shape[0]
        Ent_v = entropy(data.loc[data[a]==key])
        gain += weight * Ent_v
    return Ent - gain

信息增益率计算公式如下所示：
某数据集

$D$ 有若干属性值以及对应的值标记值，其样本大小为

Gain_ratio(D,feature) = frac{Gain(D,feature)} {Ent(feature)}


def gain_ratio(data , a):
    #先计算固有值intrinsic_value
    IV_a = 0
    feature_class = data[a].value_counts()  # 特征有多少种可能
    for v in feature_class.keys():
        weight = feature_class[v]/data.shape[0]
        IV_a += -weight*np.log2(weight)
    gain_ration = cal_information_gain(data,a)/IV_a
    return gain_ration

Gini(D) = 1 - sum_{k=1}^Kp_{k}^2

#计算基尼指数
def gini(data):
    data_label = data.iloc[:, -1]
    label_num = data_label.value_counts() #有几类，每一类的数量
    res = 0
    for k in label_num.keys():
        p_k = label_num[k]/len(data_label)
        res += p_k ** 2
    return 1 - res

Gini_index(D,feature) = frac{|D_1|}{|D|}Gini(D_1) +frac{|D_2|}{|D|}Gini(D_2)

# 计算每个特征取值的基尼指数，找出最优切分点
def gini_index(data,a):
    feature_class = data[a].value_counts()
    res = []
    for feature in feature_class.keys():
        weight = feature_class[feature]/len(data)
        gini_value = gini(data.loc[data[a] == feature])
        res.append([feature, weight * gini_value])
    res = sorted(res, key = lambda x: x[-1])
    return res[0]

def split(feature, label, dimension):
    Len_label = len(label)#数据的长度
    a_d = np.unique(feature[:,dimension])#指定维度下的不同样本
    Len_a = len(a_d)#指定维度下的样本长度
    Feature = []
    Label = []
    split_feature = []
    split_label = []
    #初始化列表
    for j in range(Len_a):
        Feature.append(feature)
        Label.append(label)
    #对不同的a进行分类
    for j in range(Len_a):
        #从后往前判定，并删除不是该特征的数据
        for i in range(Len_label-1, -1, -1):
            if feature[i,dimension] != a_d[j]:
                Feature[j] = np.delete(Feature[j],i,axis=0)
                Label[j] = np.delete(Label[j],i,axis=0)
    #将输出结果整合为一个列表
    for j in range(Len_a):
        split_feature.append(Feature[j])
        split_label.append(Label[j])
    return split_feature,split_label

Gain(G,feature) = Ent(D) - sum_{v=1}^K frac{|D^v|}{D}Ent(D^v)

def one_split_ID3(feature,label):
    Ent_D = entropy(label)
    len_data, len_dimension = np.shape(feature)
    Gain = []
    for i in range(len_dimension):
        split_feature,split_label = split(feature,label,i) 
        len_split = len(split_label)
        E = 0.0 
        for j in range(len_split):
            Ent_D_v = entropy(split_label[j])
            len_D_v = len(split_label[j])
            p = len_D_v/len_data
            E = E + p*Ent_D_v 
        gain = Ent_D - E 
        Gain.append(gain)
    best_entropy = 0
    best_dimension = 0
    for i in range(len_dimension):
        if Gain[i] > best_entropy:
            best_entropy = Gain[i]
            best_dimension = i 
    return best_entropy, best_dimension

#输出每个特征的信息增益率，之后返回最大的信息增益率对应的属性维数以及最大的信息增益率
def one_split_C4_5(feature, label):
    #计算区域D的信息熵
    Ent_D = entropy(label)
    len_data,len_dimension = np.shape(feature)
    Grain_ratio = []
    #求出不同维度分类下的信息增益率
    for i in range(len_dimension):
        split_feature,split_label = split(feature, label, i)
        len_split = len(split_label)
        E = 0.0
        for j  in range(len_split):
            Ent_D_v = entropy(split_label[j] )
            len_D_v = len(split_label[j])
            p = len_D_v/len_data
            E = E + p*Ent_D_v
       
        grain = Ent_D - E
        Ent_f = entropy(feature[:,i])
        grain_ratio = grain / Ent_f#计算信息增益率
        Grain_ratio.append(grain_ratio)
   
    #通过比较得到最好的信息增益率以及维度
    best_entropy = 0
    best_dimension = 0
    for i in range(len_dimension):
       
        if Grain_ratio[i] > best_entropy:
            best_entropy = Grain_ratio[i]
            best_dimension = i  
           
    return best_entropy, best_dimension

#找到最小的基尼系数对应的属性维数以及对应的分类值
def one_split_CART(feature, label):
    
    len_data,len_dimension = np.shape(feature)
    #初始化所需要求的三个值
    best_entropy = 10000.0
    best_dimension = 10000
    best_value =10000    
    for i in range(len_dimension):
        split_feature,split_label = split(feature, label, i)
        unique_f = np.unique(feature[:,i])
        len_uni = len(unique_f)      
        Gini_index = []       
        for j in unique_f:
            #初始化所用到的计数器
            count1 = 0
            count2 = 0
            count3 = 0
            count4 = 0           
            #对二分类问题中的不同情况进行计数
            for k in range(len_data):
                if feature[k,i] == j:
                    count1 = count1 + 1
                    count2 = count2 + label[k]
                if feature[k,i] != j:
                    count3 = count3 +1
                    count4 = count4 + label[k]           
            p1 = count2/count1
            p2 = count4/count3
            #实现基尼系数的计算公式
            gini_D_1 = (count1/len_data) * ((1-p1)*(1-p1) +p1* p1)
            gini_D_2 = (count3/len_data) * ((1-p2)*(1-p2) +p2* p2)
            gini_index = gini_D_1 + gini_D_2
            Gini_index.append(gini_index)                      
        #通过比较找到最好的维度以及对应的分类值    
        for d in range(len_uni):
            if Gini_index[d] < best_entropy:
                best_entropy = Gini_index[d]
                best_dimension = i#对应的维度值i即为最佳维度
                best_value = unique_f[d]#此d对应的分类值即为最佳分类值           
    return best_entropy,best_dimension,best_value

import numpy as np
import pandas as pd
### 将数据进行转换
def drop_exist_feature(data,best_feature):
    attr = pd.unique(data[best_feature])
    new_data = [(nd,data[best_feature] == nd) for nd in attr]
    new_data = [(n[0],n[1].drop([best_feature],axis=1)) for n in new_data]
    return new_data
# 预测单条数据
def predict(Tree,test_data):
    first_feature = list(Tree.keys())[0]
    second_dict = Tree[first_feature]
    input_first = test_data.get(first_feature)
    input_value = second_dict[input_first]
    if is_dict(input_value,test_data): ## 判断是分支还是字典
        class_label = predict(input_value,test_data)
    else:
        class_label = input_value
    return class_label
#测试很多案例，话返回准确率
def predict_more(Tree, test_data, test_label):
    cnt = 0
    #计算如果该节点不剪枝的准确率
    for i in range(len(test_data)):
        after_data = test_data.reset_index().loc[i].to_dict()
        pred = predict(Tree,  after_data)
        if pred == test_label[i]:
            cnt += 1
    return cnt / len(test_label)
#用于预测节点剪枝后的预测正确数
def equalNums(label, featPreLabel):
    res = 0
    for l in label:
        if l == featPreLabel:
            res += 1
    return res
# 后剪枝
def post_purnning(tree,test_data,test_label,names):
    newTree = tree.copy()
    names = np.asarray(names)
    # 取决策点的名称，即特征名称
    feature_name = list(tree.keys())[0]
    # 取特征的列
    featcol =  np.argwhere(names==feature_name)[0][0]
    names = np.delet(names,[featcol])
    newTree[feature_name] = tree[feature_name].copy()
    feature_value_dict = newTree[feature_name]
    feature_pre_label = feature_value_dict.pop('prun_label')
   
    # 分割测试数据，如果有数据的话，则进行测试或者递归调用
    split_data = drop_exist_feature(test_data,feature_name)
    split_data = dict(split_data)
   
    for feature_value in feature_value_dict.keys():
        if type(feature_value_dict[feature_value]) == dict:
            split_data_feature = split_data[feature_value]
            split_data_label = split_data[feature_value].iloc[:,-1].values
            newTree[feature_name][feature_value] = post_purnning(   feature_value_dict[feature_value_dict],split_data_feature,split_data_label,split_data_feature.columns)
   
    ratio_PreDivision = equalNums(test_label, feature_pre_label) / test_label.size
        #计算如果该节点不剪枝的准确率
    ratioAfterDivision = predict_more(newTree, test_data, test_label)
    if ratioAfterDivision < ratio_PreDivision:
        newTree = feature_pre_label # 返回剪枝结果，其实也就是走到当前节点的数据最多的那一类
    return newTree