這個公式中有n+1個參數和n個變量,爲了使得公式能夠簡化一些,引入x0=1,則公式轉化爲:
此時模型中的參數是一個n+1維的向量,任何一個訓練實例也都是n+1維的向量,特徵矩陣X的維度是m*(n+1)。 因此公式可以簡化爲:,其中上標代表矩陣轉置。
其他部分跟單變量差不多,直接到關鍵求θ
一.多變量梯度下降
下圖右下角則是推廣
過大顯然不能很好地到達底部,提醒應該用更小的學習率
特徵值的範圍會不同,有的很大,有的很小,等高線圖就顯得很畸形,我們就很難獲得想要的θ
處理方法:解決的方法是嘗試將所有特徵的尺度都儘量縮放到-1到1之間。如圖:
例子:
前面單變量線性迴歸的文章有涉及解釋
不用考慮XTX是否可逆
因爲我們提供的條件往往不會有線性關係,即依賴性,有的話我們可以將其中一個剔除掉
這裏的θ是表示(n+1)*1列向量
令上式爲0則可解得 歐米卡 跟公式的 斯塔 一樣 代表的是向量
下面用到了手寫證明方法,更形象,但需要了解跡運算和導數的一些結論
機器學習中跡運算符和導數的一些結論:https://mp.csdn.net/mdeditor/100176845#
矩陣,向量求導法則:https://mp.csdn.net/mdeditor/89504723#
梯度下降/正規方程: