关于cuda的内存传输,通过cuda-z可以测量出Host和Device之间以及device to device的实际传输速率。 但是有没有这个device to device的理论传输速率应该怎么计算呢?
另外,global和GPU芯片之间的通行,其理论速率应该是可以用显存带宽来描述的,在GPU内部的shared的带宽明显要比显存带宽高得多。但是有没有要怎样才能测量global和shared之间的实际通信速率呢?