特別聲明: 設備GTX1050Ti, 計算能力6.1.代碼附在後面;
(1)Pascal架構,啓用L1緩存,-Xptxas -dlcm=ca 。即採用128字節內存事務。
採用不同的偏移量,以實現非對齊訪問。命令行爲:「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理,計算0-255的偏移量的全局內存加載效率,統計結果如下:偏移量每隔4,跳變一次。
(1)Pascal架構,禁用L1緩存,-Xptxas -dlcm=cg 。即採用32字節內存事務。
採用不同的偏移量,以實現非對齊訪問。命令行爲:「nvprof --metircs gld_efficiency test.exe N」 (N爲偏移量)。採用批處理,計算0-255的偏移量的全局內存加載效率,統計結果如下:偏移量每隔8,跳變一次。
計算性能對比: