CUDA-全局內存讀取-實驗（緩存+非緩存-Pascal架構-sm6.1）

時間 2021-01-16

特別聲明：設備GTX1050Ti, 計算能力6.1.代碼附在後面；

緩存加載:

（1）Pascal架構，啓用L1緩存，-Xptxas -dlcm=ca 。即採用128字節內存事務。

採用不同的偏移量，以實現非對齊訪問。命令行爲：「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理，計算0-255的偏移量的全局內存加載效率，統計結果如下：偏移量每隔4，跳變一次。

（1）Pascal架構，禁用L1緩存，-Xptxas -dlcm=cg 。即採用32字節內存事務。

採用不同的偏移量，以實現非對齊訪問。命令行爲：「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理，計算0-255的偏移量的全局內存加載效率，統計結果如下：偏移量每隔8，跳變一次。

計算性能對比：