ASUS GeForce GTX 1070
TURBO-GTX1070-8G
Цена 33'830 руб.
PowerColor Radeon RX 460
Red Dragon
Цена 10'250 руб.
MSI GeForce GTX 1080
GAMING X 8G OC
Цена 51'750 руб.

Сервера размещены в

Мобильные устройства
Конференция
Персональные страницы
Wiki
Статистика разгона CPU (+1 за неделю, всего: 26893) RSS     
Gigabyte AMD R9 390
GAMING-8GD
Цена 23'100 руб.
MSI GeForce GTX 1080
ARMOR 8G OC
Цена 49'700 руб.
MSI Radeon RX 470
GAMING X 8G
Цена 19'810 руб.



Объявления компаний (реклама) и анонсы
  • GTX 1060 за копейки, дешевле GTX 970!!
  • Нерефы GTX 1080 по самой низкой в Москве цене в Ситилинке
  • Новая Gigabyte GTX1080 XTREME в Ситилинке
  • R9 Fury - еще одно падение цены, смотри
  • Sapphire NITRO RX 460 - самая низкая цена в Ситилинке

Вы можете отметить интересные вам фрагменты текста,
которые будут доступны по уникальной ссылке в адресной строке браузера.

Рождественская сказка AMD. Обзор и тестирование видеокарты Radeon HD 7970

Дмитрий Владимирович 06.01.2012 06:00 Страница: 1 из 4 | ссылка на материал | версия для печати | обсуждение | архив

Оглавление

Вступление

400x187  21 KB. Big one: 1500x702  263 KB

Прошедший Новый год поставил перед журналистами непростую задачу. Видимо, производители, любящие преподносить сюрпризы именно в канун праздника, взяли за правило ежегодно дарить нам незабываемые моменты. В целом мне нравятся приятные неожиданности, тем более, от одного из лидеров графических технологий. Что ж, встречайте лидера игрового (и не только) мира - новую видеокарту Radeon HD 7970.

Технические характеристики

Наименование
HD 6970
HD 7970
HD 6990
GTX 580
GTX 590
Кодовое имя
Cayman XT
Tahiti XT
Antilles
GF110
GF110
Техпроцесс, нм
40
28
40
40
40
Размер ядра/ядер, мм2
389
378
389 x2
~530
~530 x2
Количество транзисторов, млн
2640
4300
2640 x2
3300
3300 x2
Частота ядра, МГц2D
150
150
150
50 / 100
50 / 100
3D
880
925
830/880
772 / 1544
608/1216
Частота ядра OC, МГц
1000
1125
980
925 / 1850
650/1300
Напряжение на ядре, В2D
0.90
0.90
0.90
0.96
0.95
3D
1.18
1.14
1.12/1.175
1.09
0.98
Число шейдеров (PS), шт.
1536
2048
1536x2
512
512 x2
Число блоков растеризации (ROP), шт.
32
32
32 x2
48
48 x2
Число текстурных блоков (TMU), шт.
96
128
96 x2
64
64 x2
Максимальная скорость закраски, Гпикс/с
28.2
29.6
53.1/56.3
37.1
58.4
Максимальная скорость выборки текстур, Гтекс/с
84.5
118.4
159.4/169
49.4
77.8
Версия пиксельных/вертексных шейдеров
5.0 / 5.0
5.0 / 5.0
5.0 / 5.0
5.0 / 5.0
5.0 / 5.0
Тип памяти
GDDR5
GDDR5
GDDR5
GDDR5
GDDR5
Эффективная частота памяти, МГц2D
300
300
300
67
67
3D
5500
5500
5000
4008
3420
Эффективная частота памяти OC, МГц
5800
6300
5800
4100
3600
Напряжение на памяти, В2D
1.60
1.60
1.60
1.36
1.31
3D
1.60
1.60
1.60
1.62
1.53
Объём памяти, Мбайт
2048
3072
2048 x2
1536
1536 x2
Шина памяти, бит
256
384
256 x2
384
384 x2
Пропускная способность памяти, Гбайт/с
176
264
160 x2
192.4
164 х2
Потребляемая мощность, Ватт2D
20
3
37
нд
нд
3D
250
250
375 / 450
244
365
Crossfire/Sli
да
да
да
да
да
Размер карты
ДхШхВ, мм
275x100x37
275x100x37
340x100x38
270x100x38
280x100x38
Рекомендованная цена, $
369
549
699
499
699

Архитектура

400x148  20 KB. Big one: 1500x555  264 KB

Как и любое устройство, архитектура графического ядра начинается с небольших блоков, составляющих основу. Ядро Tahiti стало и проще, и сложнее одновременно. Сложнее, потому что теперь оно содержит 4.3 млрд транзисторов, что почти вдвое больше, чем ранее было в видеопроцессоре HD 5870. А проще, потому что теперь в единичном устройстве меньше логики.

Для сравнения приведу упрощенную схему трех GPU. В порядке последовательности идут: GTX 580, как наиболее производительное и современное решение NVIDIA, предыдущий лидер AMD – HD 6970, и соответственно само ядро Tahiti, дающее жизнь графическому ускорителю 7970.

  • GF110.

188x114  7 KB

  • Cayman.

188x114  5 KB

  • Tahiti.

268x114  18 KB

Былое разнообразие типовых вычислительных юнитов превратилось в простой массив элементарных частиц под названием ALU. Одновременно увеличился объём кэш-памяти до шестнадцати единиц, а вся управляющая логика переместилась на один уровень выше.

  • GF110.

500x515  89 KB

  • Cayman.

387x600  82 KB

  • Tahiti.

500x242  111 KB

Сделаем небольшую поправку на разные технологические нормы производства, ведь GTX 580 и HD 6970 используют 40 нм, а Tahiti - 28 нм. Архитектура GCN для AMD действительно стала новым шагом в сторону GPGPU вычислений. Ранее VLIW была оптимизирована для графических вычислений, но время не стоит на месте, и требуется все большая унификация в неграфических вычислениях и сложных универсальных задачах.

Посмотрите, как схематично изменился набор вычислительных юнитов в одном блоке. Правильным и одновременно своевременным стало событие, позволяющее AMD отдалиться от графического контента и приблизиться к смешанным вычислениям, где графическая часть больше не является первостепенной. Благодаря нескольким упрощениям архитектура GCN стала гибче и проще для программирования и использования. Но еще важнее то, что AMD наделила CU (Compute Unit) собственным планировщиком и позволила единому блоку работать самостоятельно. Теоретически, планировщик может выдавать до пяти задач, что должно равномернее загружать исполнительные модули.

Как-то раз между слов мне удалось добыть интересную информацию, говорящую о том, что средняя загрузка VLIW архитектуры не поднималась выше 3.6 ядер из 5 возможных. Нетрудно подсчитать, что процент бездействия непозволительно высок для современной архитектуры. Сейчас пользователям обещают практически 80-85% загрузки. А все благодаря тому, что блок GCN состоит из нескольких важных частей.

Векторные ALU объединены в ячейки по шестнадцать штук с собственной кэш-памятью, общей суммой в 64 ALU. Ячеек четыре штуки, и каждая способна работать с собственным потоком команд, плюс еще один важный модуль скалярных вычислений, также оснащенный кэш-памятью. Объединение скалярных и векторных модулей позволяет максимально упростить программную часть кода и разгрузить компилятор.

В VLIW архитектуре параллельность вычислений достигалась за счет нескольких операций в одной инструкции. С GCN параллельность задействована за счет нескольких ячеек из ALU юнитов. Производительность VLIW напрямую зависела от компилятора, передающего некоторое число кодированных скалярных операций в длинном коде на исполнение. Отдельный блок CU динамически распределяет нагрузку между объединёнными ALU блоками, которая состоит из 64 инструкций.

Для выполнения последовательности CU выделяется четыре цикла, но одновременно исполняется только 4х64 инструкции, еще 28х64 находятся во временном буфере, позволяющем планировщику динамически перераспределять нагрузку на исполнительные блоки. Таким образом, если одна из четырех частей массива ALU «буксует», то планировщик распределит нагрузку на другие блоки. Отдельный скалярный ALU предназначен для операций, не укладывающихся в 64 инструкции, или контролирует условные ветвления, переходы и прочее. Он физически ограничен одной операцией за такт работы.

Естественно не обошлось без увеличения объёмов кэш-памяти, что так хорошо реализовано в GF110 и чем обоснованно может гордиться NVIDIA. Каждый GCN оснащён двумя различными кэш-буферами: L1 16 Кбайт и локальным хранилищем данных 64 Кбайта, общим для четырех CU. Первый, L1 по праву может считаться полноценным: исполнительные модули не только читают, но и пишут в него. Помимо персонального хранилища промежуточных результатов GCN блок обращается и к общему хранилищу. Прибавьте сюда полностью когерентный кэш L2, поделенный на массивы по 64 Кбайта между двухканальными контроллерами памяти. Шины кэшей L1 и L2 получили разрядность 64 байта.

Система кэширования памяти подверглась модернизации и линейному расширению. В Tahiti внедрена двухуровневая адресация, и не только в режиме чтения, но и при записи с перекрестным обращением. Что это даёт? Многое, но отнюдь не все, ориентировочно аналогичная схема уже используется у NVIDIA, что даёт большую гибкость модулям и простор для обмена данными. Всего же в графическом ядре насчитывается 512 Кбайт L1 и 768 Кбайт L2. Каждый GCN блок обращается дифференцированно по 64 байта в L1 кэш или глобальную общую память, служащую для обмена данными между наборами команд. L2 также гранулирован наборами ячеек по 64 байта для блоков CGN, таким образом запись или чтение туда осуществляется аналогичными порциями.

Суммарная пропускная способность Tahiti увеличилась на 50% по сравнению с ядром Cayman. В составе GCN можно обнаружить полноценный текстурный конвейер, состоящий из четырех TMU. Все вместе это делает GCN самостоятельной единицей в архитектуре графического ядра. Нет, центральный планировщик никуда не пропал, но теперь его работа существенно облегчилась.

Схематический вид графических ядер:

  • GF110.

180x150  46 KB. Big one: 1500x1248  1093 KB

  • Cayman.

180x150  37 KB. Big one: 1500x1248  710 KB

  • Tahiti.

132x150  33 KB. Big one: 1323x1500  870 KB

С приходом демократии в блоки GCN планировщик организует потоки команд и распределяет их самостоятельно. Максимальное число достигает 32 массивов, по 64 инструкции. Немаловажно то, что теперь массивы планировщик может получать из разных адресных пространств, полностью защищённых и независимых друг от друга. Забавно наблюдать, как архитектурные улучшения AMD логично повторяют наработки NVIDIA, которые уже доказали свою эффективность в пересчете на один МГц частоты GPU. Само собой, скопирована только логика, что представляет собой не более 1% от всей сложности компоновки GPU, и говорить об аналогичности нужно очень осторожно.

Но, как можно заметить по схемам выше, один немаловажный аспект строения GF110 остался практически незамеченным. Блоки тесселяции у NVIDIA находятся в SM, в то время как AMD осталась верна собственным алгоритмам. С другой стороны, вычислительная мощность Tahiti сейчас предлагает невиданное количество исполнительных, независимых блоков, способных «перемолоть» массивы входных данных и выдать результат 3.79 ТФлоп. Архитектура, основанная на скалярном исполнении, позволяет упростить задачи по программированию, а также ликвидирует прямую зависимость и конфликты единственного планировщика в предыдущем решении.

А теперь несколько мнений, как мое, так и компетентных инженеров, где ядро Tahiti сравнивается с Fermi. На глобальном уровне у последней планировщик выстраивает потоки (kernels) для каждого блока SM. Алгоритм Tahiti немного иной, в блоке содержится большее число исполнительных единиц. Разработчики AMD поставили командный процессор (CP) во главу микросхемы, в которой содержится распределитель заданий, блок по обработке примитивов, пиксельный блок. Все эти устройства нагружены обработкой в большой степени, что скажется на эффективности обработки данных в остальных частях графического ядра. То есть предполагается, что именно на начальной стадии у новой архитектуры будут случаться задержки, возможно, и блоки ROP обслуживаются этим же глобальным устройством. Что опять же скажется на эффективности графического ядра в целом.

Планировщик Fermi теоретически может обработать и выдать шестнадцать независимых потоков, AMD пиковую производительность своего планировщика скромно умалчивает. Хотя известно, что ядро Tahiti содержит два ACE устройства (асинхронных вычислительных движка или Asynchronous Compute Engines).

Разделение ресурсов в CU и SM на чтение и запись также существенно отличается между Fermi и Tahiti. Количеством простых исполняющих устройств ALU и разной частотой, вы ведь помните, что у NVIDIA применена двойная частота для SM. Двойная частота – двойная эффективность при меньшем количестве простых ядер. Это означает то, что у её решений планирование и распределение заданий должно происходить быстрее.

Распределение кэшей так же получило ряд отличий. У Fermi пул из 64 Кбайт, делящийся на L1 и LDS (общей разделяемой памяти), а небольшой объём текстурной памяти как бы отделен. У Tahiti L1 и текстурная память составляют одно целое, а LDS находится в стороне. Отдельно расположенный SFU (Scalar) у Tahiti оснащен общей кэш-памятью только для чтения.

Два планировщика Fermi в SM блоке производят и отслеживают потоки из независимых адресных пространств, у Tahiti четыре планировщика, работающих на меньшей частоте. Они не могут наблюдать за независимыми потоками заданий. ALU Fermi сопряжены с единым 128 Kбайт буфером, для Tahiti он поделен на четыре блока по 64 Кбайта для каждого CU.

Tahiti ведет себя агрессивней при сохранении промежуточных результатов в общую кэш-память, Fermi делает запись только после полного выполнения заданий. У Fermi полиморфный и растровые блоки находятся в каждом SM и синхронизированы, что позволяет лучше справляться с упорядоченными параллельными задачами. AMD оставила аналогичные блоки за пределами CU, что делает подход к конструированию графического ядра более консервативным.

И, несмотря на кажущиеся большие отличия между GF110 и Tahiti, они все же похожи друг на друга =). Продолжим знакомство с нововведениями в Tahiti.

Количество геометрических блоков не изменилось - две штуки, официально AMD говорит о возросшей эффективности. Всего в Tahiti тридцать два GCN блока, в каждом по четыре TMU, итого 128 текстурных блоков, и это пока рекорд для единичной микросхемы. Модернизации подверглись и ROP блоки, больше не привязанные к каналам памяти. Теперь ROP отданы GCN модулям. Растущие потребности видеоигр и неграфических вычислений привели AMD к одному логичному пути, скорость микросхем растет, но не так быстро как рассчитывала компания, поэтому пришлось расширить ширину шины обмена данными до 384 бит. А заодно обновить внешнюю шину, до версии PCI-E 3.0.

В очередной раз улучшилось качество текстурной фильтрации, но отличить без визуального определения используемую графическую карту, думаю, не под силу даже специалисту. В динамике в части игр исчез «песок», но из-за тестовой версии драйверов появились мигающие текстуры.

Асинхронные командные движки призваны помочь наступлению AMD на фронт неграфических вычислений. Впрочем, я все еще помню её обещание открыть доступ к ним для программирования «напрямую» через OpenCL. Как только появится такая возможность, можно будет проверить эффективность некоторых частей графического ядра.

Не думаю, что стоит вам перечислять всевозможные улучшения GPGPU вычислений, так что остановлюсь на интересных физических особенностях новинки.

Контроль энергопотребления отныне внедрен в программную часть. Причем грамотно, а не для галочки, в чем пришлось убедиться, когда возникла необходимость разогнать и сравнить энергопотребление двух моделей: HD 6970 и HD 7970. PowerTune «калькулятор» достаточно шустро вычисляет энергопотребление видеокарты и в режиме реального времени устанавливает пиковые частоты. Но даже на частоте 1125 МГц в FurMark он не позволял сбрасывать частоты! В то же время при наличии возможности тактовая частота GPU увеличивается. Да здравствует динамический разгон видеокарт, пришедший к нам из страны CPU, что дальше? Ждем плавную Х-миграцию технологий.

Дополнительно AMD позволяет вентилятору полностью останавливаться, когда монитор отключается и переходит в режим сна. Последнее может быть очень полезным для любителей не выключать компьютер. 3 ватта в простое говорят как раз за такой режим работы видеокарты. Не обошли стороной и конфигурации Crossfire, и пусть PowerTune до них еще не добрался, но в 2D бездействующие видеокарты практически полностью отключаются, в том числе - с остановкой вентиляторов. Кроме того, ведущий ускоритель в CrossFire также будет переходить в режим сна при длительном простое.

В новой архитектуре нашлось место для очередного улучшения технологии AMD Eyefinity. Она получила большие разрешения, поддержку большего количества дисплеев и расширение гибкости. Eyefinity 2.0 поддерживает вывод изображения и в стереорежиме HD3D (до трех мониторов). Нашлось место применению формату пакетной передачи, в котором кадры для левого и правого глаза объединены в один массив, AMD Radeon HD 7970 передаёт его в виде HDMI 1.4a для вывода стереокартинки, и на каждый глаз приходится Full HD картинка с частотой 60 Гц.

Появилась возможность вывода звука на разные источники, теперь можно для каждого монитора задать тип аудиоданных. Полезно, когда к одной видеокарте подключен и монитор, и телевизор. Не забыты просьбы пользователей с разными диагоналями мониторов. Формат разрешений вырос до 16384?16384, используемые мониторы могут быть с разной диагональю, работающие в портретных и горизонтальных режимах. Доступны конфигурации как горизонтальные и вертикальные 5?1, так и на основе шести мониторов в виде 3?2.

В ближайшем будущем новые драйвера позволят изменять настройки размещения панели задач. Кроме того, поддерживаемые стандарты DisplayPort 1.2 HBR 2 и 3 ГГц HDMI потребуются для подключения дисплеев с разрешением 4096x2160. Расширившийся список мультимедийных возможностей достаточно велик, и наверняка оправдает надежды многих пользователей. Но на этом AMD обещала не останавливаться и продолжать совершенствование и улучшение потребительских свойств своих графических карт.

Внешний вид и размеры

400x429  27 KB. Big one: 1399x1500  143 KB

 
A, мм
B, мм
C, мм
D, мм
A1, мм
B1, мм
C1, мм
AMD
HD 6970
266
95
34
65
273
97
39
AMD
HD 7970
266
98
34
71
277
98
39
NVIDIA
GTX 580
268
98
36
68
268
98
38
А - длина печатной платы, без учёта системы охлаждения и планки портов видеовыходов.
В - ширина печатной платы, без учёта контактов PCI-E и системы охлаждения.
С - высота, от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D - диаметр отверстий под вентиляторы.

А1 - длина печатной платы, с учётом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 - ширина печатной платы, без учёта контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 - высота, с учётом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности СО. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.

Длина печатной платы HD 7970 и HD 6970 одинакова. А вот ширина отличается на несколько миллиметров, у HD 7970 нет скошенного края, из-за плотной компоновки модулей памяти. Тип турбины остался прежним, но изменился профиль лопастей и их количество. Полная длина карты несколько увеличилась по сравнению как с HD 6970, так и с GTX 580, но пока не превышает разумные пределы.

400x128  11 KB. Big one: 1500x479  128 KB

На задней части видеокарты убрали один разъём DVI, высвободив место под отверстие системы охлаждения.

Печатная плата

250x119  12 KB. Big one: 1500x715  321 KB 250x119  12 KB. Big one: 1500x726  335 KB

Любая видеокарта начинается с дизайна печатной платы и качества используемых элементов. К моделям, относящимся к верхнему ценовому сегменту, требования предъявляются серьёзные. AMD применила ранее опробованную схему с раздельным питанием графического ядра и независимым питанием памяти (Vmem, Pll). Предыдущая схема выражается числами 6+2+1, нынешняя 6+1+1 (инженерные образцы), магазинные варианты довольствуются комбинацией 5+1+1.

Количество фаз питания GPU на видеокартах с черным цветом печатной платы (тех, что поступят в продажу) сократится на одну, вместо Volterra используются иные силовые ключи, аналогичные тем, что ставит на свои продукты серии Lightning MSI. Там они показали себя только с положительной стороны, но количество фаз у моделей MSI исчисляется десятками, а у HD 7970 только пять фаз.

250x115  12 KB. Big one: 1500x688  379 KB 250x115  12 KB. Big one: 1500x696  310 KB

Часть управляющей логики переместилась на обратную сторону платы. Временами даже не верится, что мощные интегрированные микросхемы Volterra заменили на вполне заурядные силовые цепи.

400x265  41 KB. Big one: 1500x994  426 KB

Поскольку ширина шины подросла до 384 бит, то и число модулей памяти увеличилось, расположены они по окружности вокруг GPU, последняя микросхема сильно смещена к слоту.

400x265  28 KB. Big one: 1500x994  269 KB

По пути к графическому ядру инженеры дополнительно предусмотрели фильтры в виде конденсаторов, что прежде не было видно, потому как конденсаторы были без оболочки. Присмотритесь, как близко расположены модули памяти к цепям питания.

400x219  28 KB. Big one: 1500x821  281 KB

Единые блоки дросселей заменили одиночными решениями. Ширина платы увеличилась из-за большего количества микросхем памяти.

400x248  33 KB. Big one: 1500x930  356 KB

Чтобы соблюсти правила одинаковой длины соединительных каналов памяти, последнюю микросхему развернули на 90 градусов.

250x249  14 KB. Big one: 1500x1495  287 KB 248x249  15 KB. Big one: 1500x1505  418 KB

Графическое ядро приобрело оригинальный панцирь. Вместо привычной рамки по бокам, защитная часть теперь частично закрывает подложку GPU. Маркировка наносится непосредственно на стороны рамки, а не на сам процессор.

250x208  9 KB 248x208  10 KB

С памятью все просто, как стояли микросхемы Hynix, рассчитанные на 6 ГГц, так и стоят. Как говорится - от добра добра не ищут. Частично, чтобы компенсировать свой выбор, была расширена граница разгона памяти в самих драйверах до 1575 МГц.

250x136  7 KB

Переключатель BIOS остался на прежнем месте, но вторую микросхему перезаписать теперь невозможно. Она оставлена на всякий пожарный случай.

Система питания памяти.

  • HD 7970.

Выделенная фаза выглядит следующим образом.

400x230  15 KB

С обратной стороны расположен ШИМ-контроллер, сама фаза занимает достаточно большое пространство.

169x250  15 KB. Big one: 540x800  116 KB 300x250  17 KB. Big one: 400x333  25 KB

  • HD 6970.

300x312  24 KB. Big one: 800x832  138 KB

На Cayman схемотехника Volterra ничтожно мала по габаритам.

Оцените материал →

Объявления компаний (реклама) и анонсы
  • GTX 1060 MSI GAMING X нереально дешево в Регарде!
  • Новая недорогая Gigabyte GTX 1060
  • Нереф GTX 1070 дешевле 30 т.р.
  • Sapphire RX 460 в Ситилинке




Обсуждение ВКонтакте (скрыть)