[NN]迴歸和分類的線性模型總結 Linear Model for Regression and Classification

時間 2021-04-21 標籤神經網絡邏輯迴歸深度學習

迴歸和分類的線性模型總結

前言

由於我時間實在不充裕，沒能提供中文翻譯，給觀衆老爺造成的不便本人深感抱歉，那就給觀衆老爺表演個大石碎胸口！

正文

思維導圖原址請點這裏

1. 極大似然 Miximum Likelihood

f ∗ ( x ) = a r g m a x ∏ i = 1 n p ^ ( y i ∣ f ( x i ) ) = − a r g m i n ∑ i = 1 n l o g [ p ^ ( y i ∣ f ( x i ) ] f^{*}(x)=arg max \prod_{i=1}^{n}\hat{p}(y_{i}|f(x_{i}))=-argmin\sum_{i=1}^{n}log[\hat{p}(y_{i}|f(x_{i})] f∗(x)=argmaxi=1∏np^(yi∣f(xi))=−argmini=1∑nlog[p^(yi∣f(xi)]

2. 凸函數與非凸函數 Convex and Non-Convex

請注意中國大陸數學界某些機構關於函數凹凸性定義和國外的定義是相反的。Convex Function在某些中國大陸的數學書中指凹函數。Concave Function指凸函數。

3. 梯度下降 Gradient Decent

θ t + 1 = θ t − η ∇ J ( θ t ) \theta_{t+1}=\theta_{t}-\eta∇J(\theta_{t}) θt+1=θt−η∇J(θt)
其中， η \eta η 表示步長(Step Size)或者學習速率(Learning Rate)

4. 線性函數和偏置 Linear Model with Bias

f ( x ) = W T x + b f(x)=W^{T}x+b f(x)=WTx+b

5. 最小絕對偏差 Least Absolute Deviation(LAD)

W ∗ = a r g m i n 1 n ∑ i = 1 n ∣ y i − f ( x i ) ∣ W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}|y_{i}-f(x_{i})| W∗=argminn1i=1∑n∣yi−f(xi)∣

6. 最小二值和封閉解 Least Square and Closed-form Solution

W ∗ = a r g m i n 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2} W∗=argminn1i=1∑n(yi−f(xi))2
W ∗ = ( X T X ) − 1 X T y W^{*}=(X^{T}X)^{-1}X^{T}y W∗=(XTX)−1XTy

7. Sigmoid

σ = e x p ( s ) e x p ( s ) + 1 \sigma=\frac{exp(s)}{exp(s)+1} σ=exp(s)+1exp(s)

8. 獨熱 One Hot

假設一個三分類任務：貓，狗，其他，其對應類編號爲 0， 1， 2.那麼對應的獨熱編碼爲：[1， 0， 0]，[0， 1， 0]，[0， 0， 1]

9. Softmax

S o f t m a x ( s i ) = e x p ( s i ) ∑ j e x p ( s j ) Softmax(s_{i})=\frac{exp(s_{i})}{\sum_{j} exp(s_{j})} Softmax(si)=∑jexp(sj)exp(si)

10. 分類分佈 Categorical Distribution

p ( y ∣ f ( x ) ) = ∏ c = 1 c f c ( x ) y c p(y|f(x))=\prod_{c=1}^{c}f_{c}(x)^{y_{c}} p(y∣f(x))=c=1∏cfc(x)yc

各位觀衆老爺，給個贊再走吧~~