本文介绍: 为了降低过拟合,通常假设不同类别方差一样,均值不同. 通过增加样本数降低方差高斯分类器一步要得到均值,和方差均值,方差如何获取这个就是样本均值样本的协方差,假设有79个点。这章节主要讲解常用分类器原理.分类主要是要找到一个映射函数。主要应用场景垃圾邮件分类,手写数字识别,金融信用评估.不同均值,方差的高斯分类器容易发生过拟合.假设不同类别服从不同的高斯分布。有两个盒子,里面分别放绿球和红球。: 条件概率,不同类别出现x概率。: 不同类别出现概率先验概率

前言

        这章节主要讲解常用分类器原理.分类主要是要找到一个映射函数

         c=f(x) 比如垃圾邮件分类 :

         c=0, 垃圾邮件  c=1 正常邮件

      主要应用场景垃圾邮件分类,手写数字识别,金融信用评估.

       这里面简单了解一下,很少用

目录

    1: Generative model

    2:    高斯分类

    3:    高斯分类器跟其它模型关系


一 Generative model

     朴素贝叶斯分类器:

     以二分为例

       c_1,c_2  不同类别

       p(c_1),p(c_2): 不同类别出现概率先验概率

      p(x|c_1),p(x|c_2): 条件概率,不同类别出现x概率

  模型

          p(c_1 |x)=frac{p(x)p(x|c_1)}{p(x|c_1)p(c_1)+p(x|c_2)p(c_2)}(贝叶斯联合分布推导)

    例子

    有两个盒子,里面分别放绿球和红球

       

现在有个绿色的球,它来自哪个盒子

    p(c_1|g)=frac{p(g|c_1)p(c_1)}{p(g)}

   其中p(g)=p(c_1)p(g|c_1)+p(c_2)p(g|c_2)

                 =frac{2}{3}frac{4}{5}+frac{1}{3}frac{2}{5}

     所以

      p(c_1|g)=frac{4}{5}

      p(c_c|g)=1-frac{4}{5}=frac{1}{5}


二  高斯分类器

     2.1  模型

        假设不同类别服从不同的高斯分布

        输入x ,输出 对该类别的概率

       

       u : 均值

        sum: 协方差矩阵  

     

a = np.cov(x,y)

   2.2  主要流程

             

       2.3 maximum likelihood 极大似然估计计算u,sum

                高斯分类器第一步要得到均值,和方差。均值,方差如何获取

                我们通过极大似然估计 计算均值 和 协方差矩阵

               我们有训练样本 (x^1,c_1),(x^2,c_1),(x^3,c_1).....(x^N,c_1)

                我们要找到u,sum使得下面概率最大

                 L(u,sum)=f_{u,sum}(x^1)=f_{u,sum}(x^2)...f_{u,sum}(x^N)

                 这个就是样本均值和样本的协方差,假设有79个点

              

            2.3 高斯分类器问题   

           不同均值,方差的高斯分类器容易发生过拟合.

           为了降低过拟合,通常假设不同类别的方差一样,均值不同. 通过增加样本数降低方差 。如下图两类样本.

L(u_1,u_2,sum)=f_{u_1,sum}(x^1)f_{u_1,sum}(x^2)...f_{u_2,sum}(x^{80})...f_{u_2,sum}(x^{179})


三  高斯分类器跟其它模型关系

1: 跟Sigmoid 关系

     设   z=ln frac{p(x|c_1)p(c_1)}{p(x|c_2)p(c_2)}

     则

     p(c_1|x)=frac{p(x|c_1)p(c_1)}{p(x|c_1)p(c_1)+p(x|c_2)p(c_2)}

                   =frac{1}{1+frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}}

                   =frac{1}{1+e^{-z}}

                   =sigma (z)

 3.2  跟Linear 函数关系

           z=lnfrac{p(x|c_1)}{p(x|c_2)}+lnfrac{p(c_1)}{p(c_2)}

                 =lnfrac{p(x|c_1)}{p(x|c_2)}+lnfrac{N_1}{N_2}

  当 sum^2=sum^1=sum 时候,可以一步简化

 z=(u_1-u_2)^T(sum)^{-}x-frac{1}{2}u_1^Tsum^{-}u_1+frac{1}{2}u_2^Tsum^{-}u_2+lnfrac{N_1}{N_2}  

x 的项可以看作常数b

x前面可以看作w

 z=wx+b

 

原文地址:https://blog.csdn.net/chengxf2/article/details/134785877

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_48726.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注