最小二乘线性回归_代码007(未授权)

首页
互联网
正文

本文介绍: 他们都能使均方差最小化。选择哪一个解作为输出，将由机器学习算法的归纳偏好决定，常见的做法是引入正则化项。通常不是满秩矩阵，例如在许多任务中会遇到大量的变量，其数目甚至超过样例数，导致X的列数多于行数，以一个例子来说明线性回归，假设银行贷款会根据年龄和工资来评估可放款的额度。：试图学得一个线性模型以尽可能准确地预测实际值的输出。真实值和预测值之间肯定存在误差，用。是独立同分布的，且服从均值为0方差为。，添加一个全为1的特征，方便表示。为满秩矩阵或者正定矩阵时，令偏导数。就是银行最终放款额度。

σ1−σ21∗21∗i=1∑m(yi−θ⊤xi)2
目标是让似然函数（对数变换之后）越大越好：

(

)

→

(

)

∑

(

−

⊤

)

（最小二乘法）

max log L(theta)\ →min J(theta)=frac12 sum_{i=1}^m(y_i-theta^top x_i)^2（最小二乘法）

$m a x l o g L (θ) \to min J (θ) = \frac{1}{2} i = 1 \sum m (y_{i} - θ^{⊤} x_{i})^{2} （最小二乘法）$

(

)

∑

(

−

⊤

)

J(theta)=frac12 sum_{i=1}^m(y_i-theta^top x_i)^2

$J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y_{i} - θ^{⊤} x_{i})^{2}$ 即为最小二乘法。

将目标函数写为矩阵形式：

(

)

∑

(

−

⊤

)

(

−

)

⊤

(

−

)

对

求偏导

∇

(

)

⊤

−

⊤

令

∇

(

)

得

(

⊤

)

−

⊤

J(theta)=frac12 sum_{i=1}^m(y_i-theta^top x_i)^2= frac12(Xtheta-y)^top (Xtheta-y)\ 对t h eta 求偏导:\ na bla_th eta J(th eta)=X^top Xth eta-X^top y\ 令nabla_th eta J(th eta)=0得:\ th eta=(X^top X)^{-1}X^top y

$J (θ) = \frac{1}{2} i = 1 \sum m (y_{i} - θ^{⊤} x_{i})^{2} = \frac{1}{2} (Xθ - y)^{⊤} (Xθ - y) 对 θ 求偏导 : \nabla_{θ} J (θ) = X^{⊤} Xθ - X^{⊤} y 令 \nabla_{θ} J (θ) = 0 得 : θ = (X^{⊤} X)^{- 1} X^{⊤} y$
采用微分和迹的关系

(

∂

)

⊤

)

df= tr((frac{p artial f}{p artial X})^top dX)

$df = t r ((\frac{\partial f}{\partial X})^{⊤} d X)$ 进行求导，求导过程如下：

(

)

(

)

[

(

−

)

⊤

(

−

)

]

[

(

⊤

−

⊤

)

]

[

(

⊤

)

]

−

(

⊤

)

(

⊤

)

(

⊤

)

(

⊤

)

−

(

⊤

)

(

⊤

)

(

⊤

)

−

(

⊤

)

(

⊤

−

⊤

)

(

⊤

−

⊤

)

(

⊤

−

⊤

)

⊤

)

故：

∂

(

)

∂

⊤

−

⊤

dJ(th eta)= tr(dJ(theta))=d[frac12(Xtheta-y)^top (Xtheta-y)]\ =tr[d(frac12(theta^top X^top Xtheta-2y^top Xtheta+y^top y))]\ =tr[d(frac12theta^top X^top Xtheta)]-tr(d(2y^top Xtheta))+tr(d(y^top y))\ =tr(frac12dtheta^top X^top Xtheta)+tr(frac12theta^top X^top Xdtheta)-tr(2y^top Xdtheta)+0\ =tr(frac12theta^top X^top Xdtheta)+tr(frac12theta^top X^top Xdtheta)-tr(2y^top Xdtheta)\ =tr(theta^top X^top Xdtheta-2y^top Xdtheta)=tr((theta^top X^top X-2y^top X)dtheta)\ =tr(( X^top Xtheta – 2X^top y)^top dtheta)\ 故：\ frac{partial J(theta)}{partial theta}=X^top Xtheta – 2X^top y\

$dJ (θ) = t r (dJ (θ)) = d [\frac{1}{2} (Xθ - y)^{⊤} (Xθ - y)] = t r [d (\frac{1}{2} (θ^{⊤} X^{⊤} Xθ - 2 y^{⊤} Xθ + y^{⊤} y))] = t r [d (\frac{1}{2} θ^{⊤} X^{⊤} Xθ)] - t r (d (2 y^{⊤} Xθ)) + t r (d (y^{⊤} y)) = t r (\frac{1}{2} d θ^{⊤} X^{⊤} Xθ) + t r (\frac{1}{2} θ^{⊤} X^{⊤} X d θ) - t r (2 y^{⊤} X d θ) + 0 = t r (\frac{1}{2} θ^{⊤} X^{⊤} X d θ) + t r (\frac{1}{2} θ^{⊤} X^{⊤} X d θ) - t r (2 y^{⊤} X d θ) = t r (θ^{⊤} X^{⊤} X d θ - 2 y^{⊤} X d θ) = t r ((θ^{⊤} X^{⊤} X - 2 y^{⊤} X) d θ) = t r ((X^{⊤} Xθ - 2 X^{⊤} y)^{⊤} d θ) 故： \frac{\partial J ( θ )}{\partial θ} = X^{⊤} Xθ - 2 X^{⊤} y$
当