ICLR2021盲審的一篇論文
在自然語言處理領域(NLP)成爲重要力量的 Transformer 技術最近已經開始在計算機視覺領域展現自己的實力。不過到目前爲止,由於 Transformer 注意力機制對內存的需求是輸入圖像的二次方,所以這一方向還存在一些挑戰。這篇文章就是針對attention機制的一個替代,近日,LambdaNetworks 的出現提供了一種解決此問題的方法,人們可以無需建立昂貴的注意力圖即可捕捉長距離交互。這一方法在 ImageNet 上達到了新的業界最佳水平(state-of-the-art 84.8%)。
https://openreview.net/pdf?id=xTJEN-ggl1b
這一部分主要就是說明注意力機制的一些問題。
當前注意力交互。首先縮小查詢深度,創建查詢和上下文元素之間的相似性核(注意力圖),也就是所謂的注意力操作。該機制可以被看作激發查詢、鍵和數值術語的可微內存的尋址。由於上下文位置 |m| 的數量越來越大,並且輸入和輸出維數 |k| 和 |v| 保持不變,所以在層輸出是較小維數 |v| << |m| 的一個向量時,作者假設計算注意力圖是不划算的。
一:lambda層:將上下文轉換成線性函數
這一部分主要分爲一下幾部分:
二:帶有結構化上下文的lambda層
這一部分介紹瞭如何使 lambda 層適應結構化的上下文,如相關上下文和局部上下文。
三:利用多查詢 lambda 降低複雜度
多查詢 lambdas 可以降低複雜度。所以,研究者提出將 lambda 層的時間和空間複雜度從輸出維數 d 中解耦。他們並沒有強制地令 |v|=d,而是創建了 |h| 查詢 {q^h _n},將相同的 lambda 函數 λ_n 應用到每個查詢 q^h_n,並將輸出串連接成 y_n=concat(λ_nq^1_n , · · · ,λ_nq^|h|_n )。
局部位置的 lambdas 可以通過 lambdas 卷積來獲得,具體如上文公式3所示。
還有幾個實驗就不一一列舉了。