Python中的垃圾回收機制及原理

不同於C/C++,像Python這樣的語言是不需要程序員寫代碼來管理內存的,它的GC(Garbage Collection)機制 實現了自動內存管理。GC做的事情就是解放程序員的雙手,找出內存中不用的資源並釋放這塊內存。 下面我們來看看Python的GC是怎麼做的:

Python自帶的解釋器CPython主要使用了三種垃圾回收機制(引用計數爲主,標記-清除和分代回收爲輔):

  • 引用計數
  • 標記清除
  • 分代回收

下面讓我們分別瞭解下這幾種機制:

1.引用計數

引用計數法Reference Counting的原理是,每個對象都維護一個引用計數字段,記錄這個對象被引用的次數(如果不清楚變量->引用->對象 的問題,可以查看深拷貝與淺拷貝),如果有新的引用指向對象,對象引用計數就加一,引用被銷燬時,對象引用計數減一,當用戶的引用計數爲0時,該內存被釋放。可以通過sys.getrefcount()函數查看對象被引用的個數。

這種方法主要存在兩種問題:

  • 需要去維護引用計數,存在執行效率問題
  • 無法解決循環引用問題

所謂循環引用就是:有一組對象的引用計數不爲0,但是這組對象實際上並沒有被變量引用,它們之間是相互引用,而且也不會有其他的變量再去引用這組對象,最終導致如果使用 引用計數法 這些對象佔用的內存永遠不會被釋放。

可以舉個實際

得到的結果估計你們心中產生困惑,咋不報錯呢:看下面

 

可以看到,現在a b都出現了循環引用,此時就算使用del語句刪除變量,被使用的內存也不會被回收,所以就需要第二種GC機制:

 

2.標記清除

標記清除Mark-Sweep是針對循環引用問題的回收機制,作用的對象是容器類型的對象(比如:list、set、dict等)。
原理是:通過根節點對象(不會被刪除的對象)對有向圖把所有活動對象打上標記,然後回收沒有被標記的非活動對象

原理:1. 尋找跟對象(root object)的集合作爲垃圾檢測動作的起點,跟對象也就是一些全局引用和函數棧中的引用,這些引用所指向的對象是不可被刪除的;2. 從root object集合出發,沿着root object集合中的每一個引用,如果能夠到達某個對象,則說明這個對象是可達的,那麼就不會被刪除,這個過程就是垃圾檢測階段;3. 當檢測階段結束以後,所有的對象就分成可達和不可達兩部分,所有的可達對象都進行保留,其它的不可達對象所佔用的內存將會被回收,這就是垃圾回收階段。(底層採用的是鏈表將這些集合的對象連接在一起)

缺點:標記和清除的過程效率不高。

3.分代回收

分代回收是建立在標記清除基礎上的一種輔助回收容器對象的GC機制。 無論開發的程序類型如何,規模如何,都有這樣的相同之處:一些比例的內存生存週期都很短,而另一些內存的生存週期比較長,可能會伴隨着整個程序的開始和結束。 所以分代回收就根據系統中內存存活時間把它們劃分成不同的集合:一共分成三個集合,每個集合稱爲一個。 它們的垃圾收集頻率 隨 對象 存活存活時間的增大 而 減小。也就是說:對於存活時間越長的對象,就越不可能是垃圾,減少對其的收集頻率。而新創建的對象都在第一代,第一代集合總數達到上限後,會觸發GC機制:可以回收的對象所佔的內存被釋放,不能被回收的移到中年代。內部垃圾處理機制掃描不能被回收的產生新生代-----第一代集合總數達到上限後,會觸發GC機制 將還繼續被引用,移到中年代-----》》》時間週期變長,同樣觸發GC回收機制-----》》》老年代

  ------》》》其實垃圾回收機制內部是咱們Cpython 解釋器GIL全局鎖的底層原理