改进神经网络_代码007(未授权)

首页
互联网
正文

本文介绍: 偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。

Improve NN

文章目录

Improve NN

train/dev/test set

0.7/0/0.3 0.6.0.2.0.2 -> 100-10000

0.98/0.01/0.01 … -> big data

Bias/Variance

偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。

在这里插入图片描述

high variance ->high dev set error

high bias ->high train set error

basic recipe

high bias -> bigger network / train longer / more advanced optimization algorithms / NN architectures

high variance -> more data / regularization / NN architecture

Regularization

Logistic Regression

(

)

→

(

)

∑

(

)

(

)

∥

L2;; regularization:\minmathcal{J}(w,b)rightarrow J(w,b)=frac{1}{m}sum_{i=1}^mmathcal{L}(hat y^{(i)},y^{(i)})+frac{lambda}{2m}Vert wVert_2^2

$L 2 re gu l a r i z a t i o n : min J (w, b) \to J (w, b) = \frac{1}{m} i = 1 \sum m L (\overset{y}{^}^{(i)}, y^{(i)}) + \frac{λ}{2 m} ∥ w ∥_{2}^{2}$

Neural network

∥

[

]

∥

∑

[

]

∑

[

−

]

(

[

]

)

(

[

]

[

]

)

(

)

Frobenius;; norm\ Vert w^{[l]}Vert^2_F=sum_{i=1}^{n^{[l]}}sum_{j=1}^{n^{[l-1]}}(w_{i,j}^{[l]})^2\\ Dropout;; regularization:\ d3=np.randm.rand(a3.shape.shape[0],a3.shape[1]<keep.prob)\ a3=np.multiply(a3,d3)\ a3/=keep.prob

$F ro b e ni u s n or m ∥ w^{[l]} ∥_{F}^{2} = i = 1 \sum n^{[l]} j = 1 \sum n^{[l - 1]} (w_{i, j}^{[l]})^{2} Dro p o u t re gu l a r i z a t i o n : d 3 = n p . r an d m . r an d (a 3. s ha p e . s ha p e [0], a 3. s ha p e [1] < k ee p . p ro b) a 3 = n p . m u lt i pl y (a 3, d 3) a 3/ = k ee p . p ro b$

other ways

early stopping
data augmentation

optimization problem

speed up the training of your neural network

Normalizing inputs

subtract mean

∑

(

)

−

mu =frac{1}{m}sum _{i=1}^{m}x^{(i)}\ x:=x-mu

$μ = \frac{1}{m} i = 1 \sum m x^{(i)} x := x - μ$

normalize variance

∑

(

)

sigma ^2=frac{1}{m}sum_{i=1}^m(x^{(i)})^2\ x/=sigma

$σ^{2} = \frac{1}{m} i = 1 \sum m (x^{(i)})^{2} x / = σ$

vanishing/exploding gradients

[

]

[

−

]

[

]

[

]

[

]

→

(

[

]

)

→

∞

[

]

→

(

[

]

)

→

y=w^{[l]}w^{[l-1]}…w^{[2]}w^{[1]}x\ w^{[l]}>Irightarrow (w^{[l]})^Lrightarrowinfty \w^{[l]}<Irightarrow (w^{[l]})^Lrightarrow0

$y = w^{[l]} w^{[l - 1]} \dots w^{[2]} w^{[1]} x w^{[l]} > I \to (w^{[l]})^{L} \to \infty w^{[l]} < I \to (w^{[l]})^{L} \to 0$

weight initialize

(

)

(

−

)

[

]

(

)

∗

(

−

)

var(w)=frac{1}{n^{(l-1)}}\ w^{[l]}=np.random.randn(shape)*np.sqrt(frac{1}{n^{(l-1)}})

$v a r (w) = \frac{1}{n ^{(l - 1)}} w^{[l]} = n p . r an d o m . r an d n (s ha p e) * n p . s q r t (\frac{1}{n ^{(l - 1)}})$

gradient check

Numerical approximation

(

)

′

(

)

(

)

−

(

−

)

f(theta)=theta^3\ f'(theta)=frac{f(theta+varepsilon)-f(theta-varepsilon)}{2varepsilon}

$f (θ) = θ^{3} f^{'} (θ) = \frac{f ( θ + ε ) - f ( θ - ε )}{2 ε}$

grad check

[

]

(

)

−

(

−

)

[

]

∥

−

∥

−

dtheta_{approx}[i]=frac{J(theta_1,…theta_i+varepsilon…)-J(theta_1,…theta_i-varepsilon…)}{2varepsilon}=dtheta[i]\ check:frac{Vert dtheta_{approx}-dthetaVert_2}{Vert dtheta_{approx}Vert_2+Vert dthetaVert_2}<10^{-7}

$d θ_{a pp ro x} [i] = \frac{J ( θ _{1} , \dots θ _{i} + ε \dots ) - J ( θ _{1} , \dots θ _{i} - ε \dots )}{2 ε} = d θ [i] c h ec k : \frac{∥ d θ _{a pp ro x} - d θ ∥ _{2}}{∥ d θ _{a pp ro x} ∥ _{2} + ∥ d θ ∥ _{2}} < 1 0^{- 7}$