CUDA-全局內存讀取-實驗(緩存+非緩存-Pascal架構-sm6.1)

特別聲明: 設備GTX1050Ti, 計算能力6.1.代碼附在後面;

緩存加載:

(1)Pascal架構,啓用L1緩存,-Xptxas -dlcm=ca 。即採用128字節內存事務。

  採用不同的偏移量,以實現非對齊訪問。命令行爲:「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理,計算0-255的偏移量的全局內存加載效率,統計結果如下:偏移量每隔4,跳變一次。


非緩存加載:

(1)Pascal架構,禁用L1緩存,-Xptxas -dlcm=cg 。即採用32字節內存事務。

  採用不同的偏移量,以實現非對齊訪問。命令行爲:「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理,計算0-255的偏移量的全局內存加載效率,統計結果如下:偏移量每隔8,跳變一次。


計算性能對比: