Я спрашивал себя, что вызывает задержку глобальной памяти графического процессора. Я имею в виду, что глобальная память работает, например, на частоте 1700 МГц (например) и имеет 352-битную полосу, это означает, что она может двигаться около 600 ГБ / с. Но потом все утверждают, что это самая медленная память на GPU, и у вас есть около 200 - 800 циклов доступа. Если ваше ядро работает с частотой около 1000 МГц, это означает, что у вас есть около 2us на доступ, что намного медленнее, чем 600 ГБ / с.

Откуда эта разница?

0