-1

Я использую графический процессор NVIDIA Quadro K2000. Я запустил deviceQuery.exe , результаты которого приведены ниже. Это говорит о том, что у меня только 2 единицы СМ. Я не уверен, действительно ли у меня только 2 SM или некоторые из них отключены, как указано в третьем комментарии к этому вопросу SO.

Я также видел, что количество SP составляет 192 на SM. Может быть, есть какой-то способ включить больше SM, и тогда количество SP на SM будет уменьшено.

образ

Обновление: причина, по которой я спрашиваю, состоит в том, что я хочу сделать обработку моего графического процессора эффективной. У меня есть изображение 1080 x 1920, которое я разделил на три сегмента. Я передаю эти сегменты H2D, обрабатываю и переношу D2H асинхронно. Поэтому я хочу выбрать такой размер блоков и количество потоков на блок, который может эффективно использовать аппаратную конфигурацию моего графического процессора. Кроме того, я все еще не уверен, что графический процессор с более чем 2 SM (скажем, 8 SM), но меньшим количеством SP на SM (384/8 = 48 SP на SM) будет работать так же, как GPU с 2 SM и 192 SP на СМ? Я имею в виду, имеет ли значение общее количество доступных SP?

1 ответ1

1

С целью:

  1. Я не уверен, действительно ли у меня только 2 SM или некоторые из них отключены

    Ваш графический процессор GK107. Он имеет два SMX, каждый с 192 SP. Там нет отключенных процессоров.

  2. Может быть, [sic] есть какой-то способ включить больше SM, и тогда количество SP на SM будет уменьшено.

    Нет волшебного способа изменить кремний в программном обеспечении.

  3. Я все еще путаюсь, что GPU, имеющий более 2 SM (скажем, 8 SM), но меньшее количество SP на SM (384/8 = 48 SP на SM) будет работать так же, как GPU с 2 SM и 192 SP на SM?

    Это огромный вопрос, и я не собираюсь здесь отвечать. NVIDIA выпустила множество очень подробных технических описаний архитектуры и производительности различных поколений своих флагманских компьютерных карт по мере выпуска. Если вы так склонны, я предлагаю прочитать их для себя. Тем не менее, эмпирическое правило заключается в том, что в рамках одной и той же генерации архитектуры, чем больше SM или SMX имеет устройство, тем лучше оно будет работать при операциях с арифметическими связями. Сравнение разных поколений графических процессоров бесполезно. Например, самая первая вычислительная карта Telsa NVIDIA имеет 16 SM (C860). Самый последний имеет 15 SMX (K40). Разница в их максимальной производительности с одинарной точностью составляет примерно 10 раз. Также обратите внимание, что многие приложения реального мира ограничены пропускной способностью памяти, и это может радикально изменить разницу в производительности между различными картами. В то время как количество ядер и пик FLOP более или менее следовали закону Мура, пропускная способность памяти - нет.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .