Python中的垃圾回收機制及原理

時間 2021-06-06 標籤面試/筆試題 Python python 垃圾回收 GC

不同於C/C++，像Python這樣的語言是不需要程序員寫代碼來管理內存的，它的GC(Garbage Collection)機制實現了自動內存管理。GC做的事情就是解放程序員的雙手，找出內存中不用的資源並釋放這塊內存。下面我們來看看Python的GC是怎麼做的：

Python自帶的解釋器CPython主要使用了三種垃圾回收機制(引用計數爲主，標記-清除和分代回收爲輔)：

引用計數
標記清除
分代回收

下面讓我們分別瞭解下這幾種機制：

1.引用計數

引用計數法Reference Counting的原理是，每個對象都維護一個引用計數字段，記錄這個對象被引用的次數(如果不清楚變量->引用->對象的問題，可以查看深拷貝與淺拷貝),如果有新的引用指向對象，對象引用計數就加一，引用被銷燬時，對象引用計數減一，當用戶的引用計數爲0時，該內存被釋放。可以通過sys.getrefcount()函數查看對象被引用的個數。

這種方法主要存在兩種問題：

需要去維護引用計數，存在執行效率問題
無法解決循環引用問題

所謂循環引用就是：有一組對象的引用計數不爲0，但是這組對象實際上並沒有被變量引用，它們之間是相互引用，而且也不會有其他的變量再去引用這組對象，最終導致如果使用引用計數法這些對象佔用的內存永遠不會被釋放。

可以舉個實際

得到的結果估計你們心中產生困惑，咋不報錯呢：看下面

可以看到，現在a b都出現了循環引用，此時就算使用del語句刪除變量，被使用的內存也不會被回收，所以就需要第二種GC機制：

2.標記清除

標記清除Mark-Sweep是針對循環引用問題的回收機制，作用的對象是容器類型的對象(比如：list、set、dict等)。
原理是：通過根節點對象(不會被刪除的對象)對有向圖把所有活動對象打上標記，然後回收沒有被標記的非活動對象。

原理：1. 尋找跟對象（root object）的集合作爲垃圾檢測動作的起點，跟對象也就是一些全局引用和函數棧中的引用，這些引用所指向的對象是不可被刪除的；2. 從root object集合出發，沿着root object集合中的每一個引用，如果能夠到達某個對象，則說明這個對象是可達的，那麼就不會被刪除，這個過程就是垃圾檢測階段；3. 當檢測階段結束以後，所有的對象就分成可達和不可達兩部分，所有的可達對象都進行保留，其它的不可達對象所佔用的內存將會被回收，這就是垃圾回收階段。（底層採用的是鏈表將這些集合的對象連接在一起）

缺點：標記和清除的過程效率不高。

3.分代回收

分代回收是建立在標記清除基礎上的一種輔助回收容器對象的GC機制。無論開發的程序類型如何，規模如何，都有這樣的相同之處：一些比例的內存生存週期都很短，而另一些內存的生存週期比較長，可能會伴隨着整個程序的開始和結束。所以分代回收就根據系統中內存存活時間把它們劃分成不同的集合：一共分成三個集合，每個集合稱爲一個代。它們的垃圾收集頻率隨對象存活存活時間的增大而減小。也就是說：對於存活時間越長的對象，就越不可能是垃圾，減少對其的收集頻率。而新創建的對象都在第一代，第一代集合總數達到上限後，會觸發GC機制：可以回收的對象所佔的內存被釋放，不能被回收的移到中年代。內部垃圾處理機制掃描不能被回收的產生新生代-----第一代集合總數達到上限後，會觸發GC機制將還繼續被引用，移到中年代-----》》》時間週期變長，同樣觸發GC回收機制-----》》》老年代

　　------》》》其實垃圾回收機制內部是咱們Cpython 解釋器GIL全局鎖的底層原理