2Gb Sapphire RX 460
OC
Цена 8'830 руб.
Palit GeForce GTX 1080
Jetstream 8G
Цена 48'340 руб.
Sapphire Radeon RX 460
NITRO
Цена 10'840 руб.

Сервера размещены в

Мобильные устройства
Конференция
Персональные страницы
Wiki
Статистика разгона CPU (+1 за неделю, всего: 26894) RSS     



Объявления компаний (реклама) и анонсы
  • RX 480 в наличии только в XPERT.RU
  • Ситилинк рушит цены на GTX 1080
  • GTX 1060 за копейки, дешевле GTX 970!!
  • Нерефы GTX 1080 по самой низкой в Москве цене в Ситилинке

Вы можете отметить интересные вам фрагменты текста,
которые будут доступны по уникальной ссылке в адресной строке браузера.

Первенец на архитектуре Maxwell: обзор и тестирование видеокарты NVIDIA GeForce GTX 750 Ti

Дмитрий Владимирович 18.02.2014 18:00 Страница: 1 из 4 | ссылка на материал | версия для печати | обсуждение | архив

Оглавление

Вступление

400x267  22 KB. Big one: 1500x1000  144 KB

С учетом задерживающихся 20 нм норм техпроцесса компании-производители графических решений вынуждены затягивать анонсы новых поколений GPU. Но если не сидеть сложа руки, а попытаться выжать последние соки из 28 нм, то результат может быть очень и очень интересным.

Как такое возможно? Об этом вы узнаете из обзора, посвященного новинке компании NVIDIA – видеокарте GeForce GTX 750 Ti, основанной на архитектуре Maxwell.

Технические особенности

400x399  44 KB

Появление архитектуры Maxwell ожидалось в начале этого года, но реальные события вокруг доступности 20 нм техпроцесса расставили всех на свои места. По этой причине компания NVIDIA достаточно долго оттягивала неизбежное, лишь недавно решившись на первый показ новой архитектуры в рамках 28 нм.

400x155  21 KB. Big one: 4252x1646  1736 KB

Чтобы лучше понять тенденции развития архитектур NVIDIA, будем держать в уме некоторые ключевые вещи, указанные в таблице ниже.

Характеристики
Fermi GF104
Fermi GF110
Kepler GK104
Kepler GK110
Maxwell
Graphics Processing Clusters, шт.
2
4
4
1
SMx, шт.
4
4
2
15
5
Блочность
3
2
6
6
4
Количество CUDA Cores в блоке, шт.
16
16
32
32
32
CUDA Cores в SMx, шт.
48
32
192
192
128
Всего SP
384
512
1536
2880
640
Scheduler в SM
2
2
4
4
4
Всего scheduler
16
32
32
60
20
L1 Cache, Кбайт (16-48 Кбайт на SM)
128
768
384
720
?
L2 Cache, Кбайт
512
768
512
1536
2048
Texture Units
32
64
128
240
40
Threads на Warp
32
32
32
32
?
Warps
48
48
64
64
?
Threads
1536
1536
2048
2048
?
Thread Blocks
8
8
16
16
?

Число CUDA ядер в SM сократилось со 192 штук до 128, текстурных блоков – с 16 до 8. Эволюция SMX в SMM превратила массив GPC в сумму пяти SMM (GPC теперь содержит пять SM, а не два, как было раньше). Общее количество логики осталось приблизительно на том же уровне. WarpSheduler и DispatchUnit по-прежнему привязаны к CUDA Cores (по 32 штуки). Общее число CUDA ядер уменьшилось в полтора раза на один SM.

Если вспомнить архитектуры Fermi и Kepler, нельзя не заметить, что Maxwell ожидался более прогрессивным, ведь в том, что получилось, заметен консервативный подход. Скорее всего, перед нами пока что гибрид из Kepler и Maxwell, причем с частичными вкраплениями Fermi (общий на SM регистровый файл разбили под каждый SIMD, как это было в Fermi), а настоящий Maxwell будет представлен на 20 нм техпроцессе.

При дальнейшем рассмотрении появляются очевидные отличия, характерные для новой архитектуры и реализованные с целью адаптации под существующие графические вычисления:

  • Четыре SIMD на SM вместо шести. Решение, которое при одинаковой транзисторной сложности даст меньшее число SP и повысит эффективность SIMD.
  • Пять SM на GPC вместо двух. Решение, которое на той же площади позволит разместить большее число SP, теоретически приводящее к снижению геометрической производительности.

На данный момент при разборе скудного описания архитектуры Maxwell в White Paper получается, что NVIDIA отдала предпочтение увеличению производительности в пиксельных шейдерах ценой некоторого уменьшения геометрической скорости, что в текущих условиях выглядит разумно. Обращает на себя внимание существенный рост L2 кэша, который был увеличен до 2 Мбайт.

Теоретически после громких заявлений компании о том, что L2 не столь важен для общей производительности, остается вопрос, зачем увеличивать то, что не принесет прироста. Ответ может лежать в другой плоскости. CEO NVIDIA упоминал о скором переходе на StackedDRAM, и, скорее всего, L2 Cache не просто увеличился в размерах, а стал более функциональным. Но, увы, описание всех нововведений производитель держит под грифом «Секретно» и остается лишь догадываться о внесенных изменениях.

У каждого блока появился Instruction Buffer и количество TMU уменьшилось – следовательно, вектор сместился в сторону математики. Очевидно, что с Cache памятью произошли более глобальные метаморфозы: если раньше L1 и Shared Memory делили общий объем (64 Кбайта) на двоих в разных пропорциях, то теперь 64 Кбайта отведено под Shared memory отдельным блоком, а L1 делит объем с текстурным кэшем (возвращение к конфигурации кэшей G80).

Изменилась и блочность в SM. Стало что-то среднее между Fermi и Kepler: четыре SIMD по 32 CUDA ядра вместо четырех SIMD по 48 CUDA ядер. По всей вероятности, при такой ребалансировке GPU точно не обошлось бы без дальнейших изменений в самих SP, планировщиках и конвейерах вычислительных устройств. В конце концов, это может привести к более эффективной загрузке SM и параллельному уменьшению площади, занимаемой SM.

Возвращаясь к эволюции Fermi -> Kepler -> Maxwell, отмечу интересные преобразования. В Fermi эффективность исполнения кода на одном SIMD была высокой, поскольку число SIMD в одном SM было невелико (это, кстати, съедало площадь и повышало сложность GPU). В Kepler мы увидели увеличение числа SIMD в SM, что дало улучшение энергоэффективности, но увеличило нагрузку на логику GPU и снизило производительность. Внеся ряд изменений в SP, NVIDIA снизила энергозатраты на работу SP и вернулась к прежнему количественному соотношению. В результате родился графический процессор с низким энергопотреблением, с небольшим увеличением уровня сложности и высоким коэффициентом полезной деятельности. В планах производителя присутствует переход на 20 нм, который должен решить проблему сложности и позволит нарастить дальше удельное число SP.

Если хорошенько подумать, то предварительный вывод будет прост: GM107 на самом деле полу-Maxwell (первое поколение), а GM20x станет полноценным преемником Kepler.

По заявлениям компании-производителя, архитектура SM обеспечивает высокую энергоэффективность и дает прирост до 35% на сложных задачах с шейдерами. Для этого с целью снижения удельных затрат энергии на распределение команд заново спроектированы планировщики команд и алгоритмы. Каждый SM разделен логически на четыре блока с персональным буфером инструкций, планировщиком и 32 ядрами CUDA. Блоки попарно делят четыре TMU и область текстурного кэша. Кэш L1 вычислений для увеличения КПД объединен с текстурным кэшем инструкций, а shared memory теперь стала отдельным блоком. Кстати, последняя теперь доступна для всех блоков единовременно.

Физический размер SM уменьшился, но он по-прежнему обладает девяностопроцентной производительностью такого же блока, но с 192 CUDA ядрами. Якобы существенное уменьшение SM в будущем позволит NVIDIA размесить большое число SM в более производительных GPU. По сравнению с GK107 новый GM107 на 25% превосходит его в пиковых текстурных операциях и в два с лишним раза быстрее на шейдерных операциях.

Обновления затронули и аппаратный блок H.264 NVENC. В частности, он обязан своему появлению в GPU функции ShadowPlay. Как всегда, производитель заявляет о радикальном снижении энергопотребления с возросшей производительностью кодирования и декодирования. В цифрах это звучит следующим образом: кодирование – в шесть-восемь раз быстрее реального времени для Maxwell в сравнении с 4х для Kepler, декодирование – в восемь-десять раз быстрее реального времени. И все это благодаря кэш-памяти для NVENC.

Кроме того, стоит отметить, что Maxwell обзавелся новым режимом GC5. Он заточен на максимальное снижение энергопотребления, но не в простое или в выключенном состоянии, а в моменты легкой нагрузки на GPU: при проигрывании видео, например. Да, загруженный рабочий стол тоже попадает под влияние режима GC5, в чем можно будет убедиться ниже.

Итак, подводя итоги, можно сказать, что NVIDIA раскрывает тайны архитектуры Maxwell лишь в общих чертах, не позволяя конкуренту узнать все о низкоуровневой организации графического процессора. А очередную порцию информации нам обещают только весной.

Технические характеристики

Наименование
GTX 750
GTX 750 Ti
R7 250X
R7 260
R7 260X
R7 265
Кодовое имя
GM107
GM107
Cape Verde XT
Bonaire Pro
Bonaire XT
Pitcairn Pro
Версия
Maxwell 1.x
Maxwell 1.x
GCN 1.0
GCN 1.1
GCN 1.1
GCN 1.0
Техпроцесс, нм
28
28
28
28
28
28
Размер ядра/ядер, мм2
148
148
123
160
160
212
Количество транзисторов, млн
1870
1870
1500
2080
2080
2800
Частота ядра, МГц
1020
1020
1000
1000
1100
900
Частота ядра Turbo, МГц
1085
1085
925
Число шейдеров (PS), шт.
512
640
640
768
896
1024
Число блоков растеризации (ROP), шт.
16
16
16
16
16
32
Число текстурных блоков (TMU), шт.
32
40
40
48
56
64
Максимальная скорость закраски, Гпикс/с
16.3
16
16
17.6
29.6
Максимальная скорость выборки текстур Гтекс/с
32.6
40.8
40
48
61.6
59.2
Тип памяти
GDDR5
GDDR5
GDDR5
GDDR5
GDDR5
GDDR5
Эффективная частота памяти, МГц
5400
5400
4500
6000
6500
5600
Объем памяти, Гбайт
2
2
2
2
2
2
Шина памяти, бит
128
128
128
128
128
256
Пропускная способность памяти, Гбайт/с
86.4
86.4
72
96
104
179
Питание Pin
6pin
6pin
6pin
6pin
Потребляемая мощность (2D/3D), Вт
-/55
-/60
-/95
-/95
-/115
-/130
CrossFire/Sli
V
V
V
V
Рекомендованная цена, $
120
150
100
110
120
150
Заменяет модель
GTX 650 Ti
GTX 650 Ti
HD 7770
HD 7790
HD 7850

Внешний вид и размеры

450x156  13 KB

Модель
A,
мм
B,
мм
C,
мм
D,
мм
A1,
мм
B1,
мм
C1,
мм
AMD Radeon HD 7750
167
98
14
65
167
98
19
AMD Radeon HD 7770
210
98
34
77
213
98
38
AMD Radeon HD 7850 v1
240
98
34
63
248
98
38
AMD Radeon HD 7850 v2
198
98
34
67
198
98
38
AMD Radeon R7 260X
172
98
34
76
172
98
38
AMD Radeon R9 270X
240
98
34
73
248
98
38
NVIDIA GeForce GTX 650 Ti Boost
172
98
33
68
241
98
37
NVIDIA GeForce GTX 750 Ti
145
98
30
55
145
98
34

А – длина печатной платы, без учета системы охлаждения и планки портов видеовыходов.
В – ширина печатной платы, без учета контактов PCI-E и системы охлаждения.
С – высота от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D – диаметр вентилятора/ов по внешнему радиусу.

А1 – длина печатной платы, с учетом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 – ширина печатной платы, без учета контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 – высота, с учетом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности системы охлаждения. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.

400x310  33 KB. Big one: 1500x1162  267 KB

Низкое энергопотребление позволило отказаться от крупной системы охлаждения и выпустить компактную печатную плату. Необходимо отметить, что партнеры могут анонсировать сразу две версии плат без дополнительного питания (для HTPC половинной высоты и без питания) и полноразмерную с питанием в расчете на оверклокеров.

400x93  15 KB. Big one: 1500x348  122 KB

Компания NVIDIA при разработке референсной модели отказалась от D-SUB, оставив пару DVI и mini-HDMI.

Печатная плата

400x319  45 KB. Big one: 1500x1197  543 KB

Видеокарта GeForce GTX 750 Ti заменяет GTX 650 Ti (не Boost), по факту можно ожидать полного исчезновения линейки GTX 650. И правда, зачем продолжать выпуск плат на устаревшей архитектуре? Тем не менее, NVIDIA решила все же оставить простую версию GTX 650.

Схемотехника печатной платы максимально простая: 2+1 фаза питания. Никаких ультрасовременных DrMOS, все банально и просто. Разводка под разъем питания оставлена для партнеров, по замыслу инженеров, GTX 750 Ti должна разгоняться с ним еще больше.

Подходим к очень интересной особенности. Вы помните, что NVIDIA всегда ограничивает максимальное энергопотребление своих решений? Та же участь постигла и GTX 750 Ti. Но вместо 100+6% нам предложили всегда оставаться на 100%. Как так? Почему? Вспомним о максимальной отдаче слота PCI-e – 75 Вт. Официально новинка потребляет в среднем 60 Вт, а запас в 15 Вт не такой уж большой. Но теперь 100% означают не 60 Вт, а все 75 Вт. В компании разумно посчитали, что неплохо бы отдать пользователям весь лимит, обеспечиваемый слотом, а дальше пусть они сами им распоряжаются. Поэтому в тестах под 100% нагрузкой видеокарта съедала 60 Вт и требовала добавки, если дело заканчивалось разгоном.

Оцените материал →

Объявления компаний (реклама) и анонсы
  • Новейшая ZOTAC GTX 1080 МЕГАДЕШЕВО в Регарде
  • 3Gb GTX 1060 MSI Gaming X в Регарде задешево
  • Крутой нереф GTX 1070 от 30 т.р. в XPERT.RU, дешевле нет нигде




Обсуждение ВКонтакте (скрыть)