如何通俗地理解「極大似然估計」?

博客內容搬運自https://www.matongxue.com/madocs/447.html


前言

 最大似然估計說的就是,如果事情發生了,那必然是概率最大的。

一般來說,我們都覺得硬幣是公平的,也就是「花」和「字」出現的概率是差不多的。如果我扔了100次硬幣,100次出現的都是「花」。在這樣的事實下,我覺得似乎硬幣的參數不是公平的。你硬要說是公平的,那就是侮辱我的智商。這種通過事實,反過來猜測硬幣的情況,就是似然。而且,我覺得最有可能的硬幣的情況是,兩面都是「花」:通過事實,推斷出最有可能的硬幣情況,就是最大似然估計


1 概率vs似然

讓我們先來比較下概率和似然。爲了避免和我們想討論的概率混淆,我們把硬幣的「花」出現的概率稱爲硬幣的參數。

1.1 頻率

已知硬幣的參數,就可以去推測拋硬幣的各種情況的可能性,這稱爲概率。比如已知硬幣是公平的,也就是硬幣的參數爲0.5。那麼我們就可以推測,扔10次硬幣,出現5次「花」朝上的概率爲(拋硬幣遵循二項分佈,這個就不多解釋了):

1.2 似然

正如開頭所說,我們對硬幣的參數並不清楚,要通過拋硬幣的情況去推測硬幣的參數,這稱爲似然。可以再舉不那麼恰當(主要模型不好建立)的例子。比如我們發現,鹿晗和關曉彤戴同款手鍊,穿同款衛衣:

我們應該可以推測這兩人關係的「參數」是「親密」。進一步發現,兩人在同一個地方跨年:

 似乎,關係的「參數」是「不簡單」。最後,關曉彤號稱要把初吻留給男友,但是最近在熒幕中獻出初吻,對象就是鹿晗:

我覺得最大的可能性,關係的「參數」是「在一起」。通過證據,對兩人的關係的「參數」進行推斷,叫做似然,得到最可能的參數,叫做最大似然估計

 


2 最大似然估計

來看看怎麼進行最大似然估計。

2.1 具體的例子

我們實驗的結果是,10次拋硬幣,有6次是「花」。所謂最大似然估計就是假設硬幣的參數,然後計算實驗結果的概率是多少,概率越大的,那麼這個假設的參數就越可能是真的。我們先看看硬幣是否是公平的,就用0.5作爲硬幣的參數,實驗結果的概率爲:

單獨的一次計算沒有什麼意義,讓我們繼續往後面看。再試試用0.6作爲硬幣的參數,實驗結果的概率爲:

之前說了,單次計算沒有什麼意義,但是兩次計算進行比較就有意義了。可以看到:

我們可以認爲,0.6作爲參數的可能性是0.5作爲參數的可能性的1.2倍。 

2.2 作圖

 我們設硬幣的參數爲θ,可以得到似然函數爲:

作圖如下:

 

 

我們可以從圖中看出兩點:

  • 參數爲0.6時,概率最大

  • 參數爲0.5、0.7也是有可能的,雖然可能性小一點

所以更準確的說,似然(現在可以說似然函數了)是推測參數的分佈。而求最大似然估計的問題,就變成了求似然函數的極值。在這裏,極值出現在0.6。

2.3  更多的實驗結果

如果實驗結果是,投擲100次,出現了60次「花」呢?似然函數爲:

 用0.5作爲硬幣的參數,實驗結果的概率爲:

再試試用0.6作爲硬幣的參數,實驗結果的概率爲:

此時:

此時,0.6作爲參數的可能性是0.5作爲參數的可能性的8倍,新的實驗結果更加支持0.6這個參數。圖像爲:

很明顯圖像縮窄了,可以這麼解讀,可選的參數的分佈更集中了。越多的實驗結果,讓參數越來越明確。

2.4 更復雜一些的最大似然估計 

2.4.1 數學名詞

下面提升一點難度,開始採用更多的數學名詞了。先說一下數學名詞:

  • 一次實驗:拋硬幣10次,出現6次「花」,就是一次實驗。

  • 二項分佈:拋硬幣10次,出現6次「花」的概率爲0.25,出現5次「花」的概率爲0.21,所有的可能的結果(比如拋硬幣10次,出現11次「花」,這就是不可能)的概率,放在一起就是二項分佈。

2.4.2 多次試驗

之前的例子只做了一次實驗。只做一次實驗,沒有必要算這麼複雜,比如投擲100次,出現了60次「花」,我直接(這裏根據大數定理,當訓練集包含充足的獨立同部分樣本的時候,可通過各類樣本出現的頻率來進行估計其概率):

不就好了?最大似然估計真正的用途是針對多次實驗。

2.4.3 上帝視角

爲了說清楚這個問題,我引入一個上帝視角。比如,我有如下的二項分佈,θ爲出現「花」的概率(硬幣拋10次):

在實際生活中, θ往往是不知道的,這裏你可以看得到,就好像你是上帝一樣。要提醒大家注意的一點,上面的圖像只有上帝才能看到的,包括:

  • 二次分佈的柱狀圖

  • 二次分佈的曲線圖

  • θ值爲多少

 我把只有上帝能看到的用虛線表示,θ用淡一點的顏色表示:

 2.4.4 通過多次實驗進行最大似然估計

上面的二項分佈用通俗點的話來說,就是描述了拋10次硬幣的結果的概率,其中,「花」出現的概率爲θ。根據上面的二項分佈,我進行了6次實驗(也就是總共6次,每次拋10次硬幣),把實驗結果用點的形式標記在圖像上(從技術上講,這6個點是根據二項分佈隨機得到的):

這個實驗結果,也就是圖上的點,是我們「愚蠢的人類」可以看見的了。可以看到,雖然進行了6次實驗,但是卻沒有6個點,這是因爲有的實驗結果是一樣的,就重合了。爲了方便觀察,我把6個點的值用文字表示出來:

上圖中的 ,就是6次實驗的結果,分別表示:

  • 第一次實驗,4次出現「花」

  • 第二次實驗,5次出現「花」

  • 第三次實驗,5次出現「花」

  • 以此類推

 我們用表示每次實驗結果,因爲每次實驗都是獨立的,所以似然函數可以寫作(得到這個似然函數很簡單,獨立事件的聯合概率,直接相乘就可以得到):

 表示在同一個參數下的實驗結果,也可以認爲是條件概率。下面這幅圖,分爲兩部分,上面除了實驗結果外,都是上帝看到的,而下面是通過實驗結果,利用似然函數對θ值的推斷:

可以看出,推斷出來的θ值和上帝看到的差不多。之所以有差別是因爲實驗本身具有二項隨機性,相信試驗次數越多,推測會越準確。


3  最大似然估計與貝葉斯定理的異同

3.1 相同之處

扔了100次硬幣,100次出現的都是「花」,不論是最大似然估計,或者是貝葉斯定理,都認爲有必要對之前假設的硬幣的參數進行調整。該博主在怎樣用非數學語言講解貝葉斯定理?的最後也提出了這個問題。

3.2 不同之處

貝葉斯定理還要考慮,兩面都是「花」的硬幣本身存在的概率有多高。如果我的硬幣不是精心準備的,而是隨機挑選的,那麼一枚硬幣兩面都是「花」可能性微乎其微,幾乎就是一個傳說。那麼貝葉斯會認爲哪怕扔了100次硬幣,100次出現的都是「花」,但是因爲兩面都是「花」的硬幣實在太少,那麼實際這枚硬幣是兩面「花」的可能性仍然不高。

關於這點可以參考文章:什麼是貝葉斯推斷,beta分佈