本文介绍: 准确率、精确率与召回率、F值、ROC-AUC、混淆矩阵、TPR与FPR兰德指数、互信息轮廓系数

xyxy
2:测量列是否存在粗差(肖维涅舍弃判据)

肖维涅系数Cu(查表)

y

=

a

+

b

x

i

+

C

u

σ

y

y^{”}=a+bx_i+Cucdotsigma_y

y′′=a+bxi+Cuσy

y

=

a

+

b

x

i

y=a+bx_i

y=a+bxi

y

=

a

+

b

x

i

C

u

σ

y

y^{‘}=a+bx_i-Cucdotsigma_y

y=a+bxiCuσy

最小二乘法优缺点

1:实验数据处理常用方法

2:最佳配方逼近可在一个区间比较均匀的逼近函数,方法简单易行,实效性大,应用广泛

3:正规方程阶数较高时,容易出现病态

4:解决病态性,可引入正交多项式

8-5 逻辑回归

回归任务变量连续

分类任务变量离散

原理——替换回归判别函数sigmod

y

=

1

1

+

e

(

w

T

X

+

b

)

y=frac{1}{1+e^{-(w^TX+b)}}

y=1+e(wTX+b)1
S形曲线,在中心点附近的增长速度快,在两段的增长速度慢

逻辑回归解决的问题——二分类(大于等于0.5的为正样本,小于0.5的为负样本)

判别函数

F

(

x

)

=

{

1

,

Y

(

x

)

>

=

0.5

0

,

Y

(

x

)

<

0.5

F(x)=begin{cases} 1,&Y(x)>=0.5\ 0,&Y(x)<0.5 end{cases}

F(x)={1,0,Y(x)&gt;=0.5Y(x)<0.5

关键:模型参数w和b的估计

代价函数

c

o

s

t

(

Y

(

x

)

,

y

)

=

{

l

o

g

Y

(

x

)

,

y

=

1

l

o

g

(

1

Y

(

x

)

)

,

y

=

0

cost(Y(x),y)=begin{cases} –logY(x),&amp;y=1\ –log(1-Y(x)),&amp;y=0 end{cases}

cost(Y(x),y)={logY(x),log(1Y(x)),y=1y=0
所有m个样本的代价累加并平均,可得最终的代价函数

c

o

s

t

=

1

m

cos

(

Y

(

x

)

y

)

cost=frac{1}{m}cos(Y(x)cdot y)

cost=m1cos(Y(x)y)

逻辑回归推导

1:梯度下降法,对代价函数求偏导,直至函数值收敛

2:设置合适的学习率,过小会迭代过慢,过大会错过最佳收敛点

8-6 降维

在降低数据维度的同时,保证有效信息不要丢失

维度灾难:feature过多,导致过拟合

降维方法

1:特征选择(原来特征子集

2:特征抽取(原来的特征空间映射到新的特征空间

成分分析PCA

监督学习的降维技术

主要思想:把原有的n维特征映射k维的正交特征(即,主成分

第一个新坐标轴的选择:原始数据方差最大的方向

第二个坐标轴的选择:与第一个坐标正交平面方差最大的

第三个新坐标轴的选择:与第一个和第二个坐标轴均正交平面方差最大的

(以此类推)

线性判别分析LDA

监督学习的降维技术数据集的每个样本有类别输出)——与PCA的不同

主要思想:投影后类内方差最小,类间方差最大

LDA和PCA的区别

1:PCA从特征的协方差切入,寻找投影方式

2:LDA从类别标注切入,期望投影后不同类别之间的数据距离较大,同一类别数据紧凑

LDA和PCA的异同点

同:

1:数据降维

2:降维时使用矩阵特征分解的思想

3:假设数据符合高斯分布

异:

1:LDA降维最多到类别k-1的维数,PCA无限制

2:LDA可以用于分类

3:LDA选择分类性能最好投影方向,PCA选择样本点投影具有最大方差方向

原文地址:https://blog.csdn.net/m0_65787507/article/details/134529705

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_8183.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注