ASUS RX 480
DUAL OC
Цена 19'770 руб.
Palit GeForce GTX 1080
GameRock
Цена 47'960 руб.
Palit GeForce GTX 1080
Jetstream 8G
Цена 47'630 руб.

Сервера размещены в

Мобильные устройства
Конференция
Персональные страницы
Wiki
Статистика разгона CPU (+4 за неделю, всего: 26903) RSS     



Объявления компаний (реклама) и анонсы
  • R9 FURY за копейки в Регарде, смотри!!!
  • Еще один нереф GTX 1060 дешевле 15 т.р.
  • Открыты вакансии веб-дизайнера и программиста

Вы можете отметить интересные вам фрагменты текста,
которые будут доступны по уникальной ссылке в адресной строке браузера.

Тестирование AMD FX Bulldozer

Дмитрий Владимирович 12.10.2011 08:00 Страница: 1 из 3 | ссылка на материал | версия для печати | обсуждение | архив

Оглавление

500x252  33 KB. Big one: 1500x755  147 KB

Вступление

Как известно, Intel уже более пяти лет придерживается стратегии развития «Tick-Tock», меняя по нечётным годам технологический процесс производства, а по чётным - микроархитектуру. AMD следует совершенно другой политике, улучшая свои модели по мере готовности новых технологий. Так, последнее обновление микроархитектуры компания проводила почти четыре года назад, выпустив CPU Phenom на K10, освоившей с тех пор три техпроцесса – 65 нм у Agena, 45 нм у Deneb и 32 нм у Llano. Тем не менее, рано или поздно потенциал любой разработки исчерпывает себя и назревает необходимость её радикального обновления.

И, в отличие от Intel, которая планомерно освежает свою микроархитектуру каждые два года, AMD предпочитает делать это несколько реже, но внося больше изменений и улучшений. Фактически, с момента появления первых Athlon на К7, было всего два её обновления, но зато существенных и радикальных – это K8, представленная в 2003 году и ставшая основой для Athlon 64, и уже упомянутая K10, в семействах Phenom и Athlon II. Да, впоследствии компания наращивала частоты, кэши и количество ядер в своих продуктах, меняла технологические процессы, но их структура, являющаяся основой и «сердцем» целых семейств CPU, оставалась незыблемой.

Немного теории

450x431  85 KB. Big one: 640x614  70 KB

Новая микроархитектура Bulldozer, дебютирующая в процессорах AMD FX, существенно отличается от прошлой – K10, и кроме того, не вписывается в стратегию предшествующих обновлений, когда инженеры стремились исправить их недостатки и подчеркнуть достоинства. Рассматривая K10, можно было увидеть в ней очертания и общую топологию K8 и K7, а если поступить аналогичным образом с Sandy Bridge, то и у последней можно заметить ряд особенностей предыдущих Nehalem и Conroe.

А если взяться за Bulldozer, сразу бросается в глаза, что она фактически полностью отлична как от K10, так и от других х86 совместимых микроархитектур. На фоне предшественников новинка смотрится не менее необычно, чем самолёт на фоне вертолёта. Рассмотрим её подробнее, но сразу оговорюсь, что постараюсь объяснить суть и характер изменений, не залезая в технические дебри и тонкости, поскольку большинству это скучно и неинтересно, а кому необходимо - тот и так знает, где найти интересующую его информацию.

450x181  34 KB. Big one: 940x380  49 KB

Основное отличие Bulldozer от других актуальных процессорных микроархитектур заключается в компоновке x86 ядер, которые теперь попарно расположены в одном «модуле» и делят между собой остальные ресурсы – блок вещественных вычислений (FPU), кэш второго уровня (L2) и так называемый «front end», о последнем будет рассказано ниже. Таким образом, каждый модуль новой микроархитектуры является чем-то средним между обычным двухъядерным CPU и процессорным ядром с Hyper-Threading.

В некотором смысле это даже развитие идеи Hyper-Threading, но в отличие от неё, где два потока «разбивают» то же количество аппаратных ресурсов, в модуле Bulldozer'a два потока часть ресурсов делят, а часть - получают в единоличное пользование. Но баланс подобран грамотно, все «тяжёлые» и «дорогие» (с точки зрения транзисторного бюджета) блоки распределяются между двумя ядрами, а сами х86 ядра дублируются, поскольку тратится на каждое из них всего лишь около 12% общего числа транзисторов в модуле.

450x384  55 KB. Big one: 572x489  41 KB

С точки зрения выполнения целочисленных и адресных операций каждый модуль представляет собой два полноценных и независимых ядра, между которыми при вещественных вычислениях делятся ресурсы FPU. Эти же ядра по факту и обслуживают FPU, отправляя ему инструкции на исполнение, загружая и выгружая данные, храня и отставляя МОПы, поскольку именно к ним привязаны вычислительные потоки, механизмы внеочередного исполнения команд и кэши данных первого уровня (L1D).

Очевидно, что основное преимущество данной схемы перед одним ядром - в повышенной производительности при многопоточной нагрузке, особенно с упором на целочисленные вычисления. Попробуем рассмотреть основные блоки Bulldozer подробнее.

Front end

450x220  47 KB. Big one: 900x440  61 KB

Фактически, «front end» представляет собой набор логических устройств, обеспечивающих подготовку инструкций для исполнения на вычислительных устройствах. В него входят блоки предсказания переходов, точность работы которых влияет на то, как часто будет простаивать CPU в процессе ожидания передачи нужных данных из оперативной памяти или кэшей, кэш инструкций первого уровня (L1I) и декодер, который занимается «переводом» х86 инструкций в понятный для исполнительных устройств вид - МОПы.

Изменения, которые коснулись этих блоков, неоднозначны. С одной стороны, повысилась точность предсказаний переходов. При декодировании из кэша данные считываются порциями в 32 байта, как у K10, что хорошо и вдвое больше, чем у Sandy Bridge. Инструкции теперь перерабатываются четырьмя каналами, а не тремя, как в K7-K10. И это одно из самых важных и долгожданных улучшений в микроархитектуре. Но AMD только сейчас внедрила четырёхканальный декодер, в то время как у Intel он появился пять лет назад, в Conroe (Core2). При этом кэш инструкций фактически того же размера и ассоциативности (64 Кбайта, 2-way), что и в K10, куда он перекочевал без особых изменений ещё с K7.

Также не стоит забывать, что теперь и кэш инструкций, и декодер будут нужны не одному, а двум потокам, так что их возможности можно условно разделить пополам при интенсивной многопоточной нагрузке. Резюмируя, можно сказать, что новый «front end» выглядит в чём-то лучше, а в чём-то хуже, чем у предшественников, и будет демонстрировать свою силу и слабость в зависимости от характера задачи.

Х86 ядра

440x242  52 KB. Big one: 880x485  70 KB

Данные блоки, в количестве двух штук на модуль, являются как раз той самой отличительной особенностью Bulldozer'a и позволяют одному модулю обрабатывать два потока инструкций. По сути, в них сосредоточены основные устройства х86 ядер с механизмом внеочередного исполнения команд (Out-of-Order Execution), а именно – буфер МОПов, поступивших с декодера (Sheduler), устройство отставки выполненных инструкций (Retire), сами целочисленные исполнительные устройства и устройства генерации адреса (ALU и AGU), по две штуки на х86 ядро, а также кэш данных первого уровня (L1D) и устройство загрузки выгрузки (LSU).

Во многом, х86 ядро Bulldozer'a напоминает целочисленный блок K10, но налицо ряд заметных и неоднозначных изменений. Во-первых, количество ALU и AGU сократилось с трёх до двух, по сравнению с K10. С одной стороны, это падение пиковой теоретической производительности в полтора раза, с другой, выжать её на практике практически невозможно, так что потеря не велика, хоть и есть. Во-вторых, кэш данных стал в четыре раза меньше, чем у K10, 16 Кбайт вместо 64 Кбайт, но зато его ассоциативность выросла с двух путей до четырёх. Так что можно назвать это оправданным разменом объёма на скорость.

Ну а LSU стал лучше во всём, как номинальная, так и эффективная вместимость буферов существенно выросла, а разрядность операций записи увеличена в два раза.

FPU

440x220  43 KB. Big one: 880x440  57 KB

Пожалуй, один из самых важных блоков процессора – блок вещественных вычислений, отвечает, как несложно догадаться, за выполнение операций с плавающей запятой, а также исполнение наборов инструкций SSE всех версий, AVX, FMA и отдельных команд. Фактически FPU Bulldozer является самым мощным и функциональным на сегодня, и во многом именно благодаря ему, AMD надеется одолеть конкурирующие решения Intel на базе микроархитектуры Sandy Bridge.

Основой FPU Bulldozer являются два FMAC устройства, разрядностью 128-бит каждое. В отличие от K10, где за операции сложения и умножения отвечали разные устройства, эти являются универсальными и способны выполнить весь спектр поддерживаемых команд. Можно сказать, AMD перешла от ассиметричной схемы исполнительных устройств FPU к симметричной. В случае разделения ресурсов между двумя x86 ядрами, каждое может работать со своим FMAC устройством.

Единственным исключением является исполнение AVX команд разрядностью 256-бит, в этом случае оба вычислительных устройства выполняют эту операцию как единый блок. Причём стоит отметить, что если при AVX операциях 256-битной разрядности его производительность на один такт равна FPU Sandy Bridge, то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает таковой в два раза.

Помимо скорости стоит вспомнить и о функциональности. Как уже было сказано, блок вещественных вычислений Bulldozer'a поддерживает FMA (fused multiply-add – совмещённое умножение-сложение) команды, вида A = B x C + D. Причём результат умножения не округляется перед сложением, что положительно сказывается на точности вычислений. В общем итоге можно сказать, что FPU по всем параметрам лучше, чем в предыдущих микроархитектурах AMD, и инженеры могут гордиться своей работой.

Кэши и северный мост

Подсистема кэшей также претерпела несколько важных изменений, по сравнению с K10. Как уже упоминалось, кэш данных первого уровня (L1D) разменял объём на ассоциативность, а кэш инструкций (L1I) остался фактически без изменений. Кэш второго уровня (L2), который раньше единолично использовался одним ядром, теперь является общим для двух х86 ядер модуля. Кроме того, объём L2 кэша вырос с 512 Кбайт до 2 Мбайт, по сравнению с K10. Уровень ассоциативности остался тот же, 16-way.

Это значит, что в восьмиядерном, четырехмодульном ЦП с микроархитектурой Bulldozer используется четыре кэша второго уровня суммарным объёмом 8 Мбайт. Но, скорее всего, рост объёма и необходимость делить ресурсы между двумя ядрами также наложили отрицательный отпечаток на время доступа к кэшу второго уровня. Кэш третьего уровня и контроллер памяти, подобно K10, работают на своей частоте, более низкой, чем частоты модулей. Для анонсированных процессоров она составляет 2-2.2 ГГц, в зависимости от модели. Это меньше, чем у Sandy Bridge, где интегрированный контроллер памяти и L3 кэш работают на частоте ядра. Объём кэша третьего уровня у Bulldozer, составляет теперь 8 Мбайт, а его ассоциативность 64-way, что на треть больше, чем у Deneb (6 Мбайт и 48-way соответственно).

Стоит также напомнить, что кэш у процессоров AMD организован по так называемой эксклюзивной схеме, когда данные в кэшах разных уровней не дублируются и суммарный объём их всех можно считать и эффективным. Подводя итоги по кэшам, скажу, что изменения в L1 и L2 существенные, но неоднозначные, а L3 выглядит логичным развитием наработок K10.

Контроллер памяти ЦП AMD FX не претерпел существенных изменений, он по-прежнему двухканальный, а штатно поддерживаемая частота модулей памяти DDR3 увеличилась до 1866 МГц.

Turbo Core 2.0

450x180  31 KB. Big one: 946x380  67 KB

Технология автоматического разгона, дебютировавшая в моделях AMD Phenom II X6, была существенно улучшена и во многом похожа на ту, что используется в линейке Sandy Bridge. В процессоре появился специальный блок, который отслеживает актуальное потребление CPU и загрузку ядер, и на основе этой информации изменяет частоты ядер модулей. Если потребление ЦП не превышает TDP, то частоты всех ядер могут подниматься сверх базовых на заданное значение.

К примеру, для AMD FX-8150 частота возрастает со штатных 3.6 ГГц до 3.9 ГГц, для всех восьми ядер. А когда потребление процессора ниже TDP, а часть ядер при этом ещё и простаивает, то частоты нагруженных ядер могут подниматься ещё выше, до 4.2 ГГц, в случае с AMD FX-8150. Справедливости ради стоит напомнить, что подобная технология используется в AMD Llano, где учитывается потребление не только ядер CPU, но и интегрированного графического процессора.

Теория - заключение

Что же можно сказать, подводя итоги по новой микроархитектуре? Как уже было показано выше, изменений очень много, все они глубокие и неоднозначные. Нет сомнений, что Bulldozer - новая микроархитектура AMD. Это же означает, что показать она себя может также очень неоднозначно, продемонстрировав местами производительность чуть ниже, чем у K10, а местами значительно больше.

Тем не менее, с точки зрения поддержки современных наборов команд и технологий автоматического повышения частот, ориентированности на многопоточную нагрузку, новая разработка AMD не уступает конкурирующей – Sandy Bridge, а в ряде случаев смотрится даже выгоднее. И хотя заметно, что у Bulldozer есть целый ряд слабых мест, они легко могут быть устранены в будущем.

На этом, вероятно, и будет основана стратегия компании на ближайшие годы. Bulldozer можно рассматривать, как инвестиции в её будущее, это скелет следующих микроархитектур, которые будут обрастать «мясом», и давать приросты производительности. Согласно текущим планам, AMD будет ежегодно, а не раз в несколько лет, обновлять микроархитектуру своих процессоров, что должно будет отзываться 10-15% приростом производительности и ростом энергоэффективности будущих решений.

450x297  50 KB. Big one: 750x495  51 KB

Отдельно хотелось бы упомянуть момент, касающийся распределения вычислительных потоков по ядрам. Windows 7 в текущем виде лишена оптимизации под процессоры с микроархитектурой Bulldozer и не способна правильно распределять потоки, что в ряде случаев приводит к потери производительности, поскольку ЦП не может использовать технологии повышения частот, или же зависимые вычислительные потоки обмениваются данными через L3, а не более быстрый L2, поскольку они оказались привязаны к ядрам разных модулей.

330x360  17 KB

AMD в своих материалах указывает, что планировщик Windows 8 уже умеет правильно работать с Bulldozer и преимущество в производительности над Windows 7 способно достигать в отдельных случаях до 10%, что, согласитесь, немало. Впрочем, возможно Microsoft выпустит патч на «семерку», который научит и эту популярную операционную систему правильно распределять потоки для новых процессоров AMD.

450x163  32 KB. Big one: 540x196  42 KB

Теперь самое время закончить с теорией и посмотреть, чем же может порадовать новый флагман AMD на практике.

500x346  29 KB. Big one: 1500x1039  270 KB

Инструментарий и методика тестирования

Скорость работы связки «процессор-чипсет-память» оценивалась следующими приложениями:

  • Cinebench 10;
  • Cinebench 11.5;
  • Pov-Ray All CPU Total seconds;
  • TrueCrypt Serpent-Twofish-AES;
  • wPrime 2.00;
  • x264 v3 (устаревшая версия, без агрессивных оптимизаций под многопоточность);
  • x264 v4 (новая версия, хорошо оптимизированная под многопоточность с новыми кодеками);
  • WinRAR;
  • Photoshop CS5 x64 (применение последовательности из нескольких десятков фильтров);
  • Autodesk Revit Architecture 2012 (визуализация 3D-чертежа дома).

500x431  27 KB. Big one: 1500x1294  324 KB

Тестовый стенд

В тестировании участвовало несколько систем с использованием большого набора комплектующих, в том числе материнских плат. Таблица ниже позволит ознакомиться с полным описанием стендов, а также режимов работы конфигураций.

Материнская
плата
NB
Чипсет
Частота
памяти
Количество
ядер
Частота
шины
Множитель
Турбо
Название процессора
/режим
ASUS Crosshair V
2200
FX990
1333
8
200
21
4200 МГц
FX 8150
3600 МГц
MSI 990FXA-GD80
2000
FX990
1333
6
200
16.5-18.5
3700 МГц
Phenom II 1100
3300 МГц
MSI 990FXA-GD80
2000
FX990
1333
4
200
18.5
-
Phenom II 980
3700 МГц
MSI 990FXA-GD80
2000
FX990
1333
4
200
15.5
-
Athlon II 645
3100 МГц
MSI A75MA-G55
-
A75
1333
4
100
29
-
A8 3850
2900 МГц
MSI A75MA-G55
-
A75
1333
4
100
24-27
2700 МГц
A8 3800
2400 МГц
MSI A75MA-G55
-
A75
1333
4
100
26
-
A6 3650
2600 МГц
MSI A75MA-G55
-
A75
1333
3
100
21-24
2400 МГц
A6 3500
2100 МГц
MSI A75MA-G55
-
A75
1333
2
100
27
-
A4 3400
2700 МГц
MSI Z68A-GD80
-
Z68
1333
4
100
34-38
3800 МГц
i7 2600K
3400 МГц
MSI Z68A-GD80
-
Z68
1333
4
100
33-37
3700 МГц
i5 2500
3300 МГц
MSI Z68A-GD80
-
Z68
1333
4
100
31-34
3400 МГц
i5 2400
3100 МГц
ASUS P6X58D
2667
X58
1333
4
133
23
3060 МГц
i7 930
2800 МГц
MSI Z68A-GD80
-
Z68
1333
2
100
31
-
i3 2100
3100 МГц
ASUS Crosshair V
2200
FX990
1866
8
200
21
4200 МГц
FX 8150
3600 МГц 1866
MSI A75MA-G55
-
A75
1866
4
100
29
-
A8 3850
2900 МГц 1866
MSI A75MA-G55
-
A75
1866
4
100
24-27
2700 МГц
A8 3800
2400 МГц 1866
MSI A75MA-G55
-
A75
1866
4
100
26
-
A6 3650
2600 МГц 1866
MSI A75MA-G55
-
A75
1866
3
100
21-24
2400 МГц
A6 3500
2100 МГц 1866
MSI A75MA-G55
-
A75
1866
2
100
27
-
A4 3400
2700 МГц 1866
MSI Z68A-GD80
-
Z68
1866
4
100
34-38
3800 МГц
i7 2600K
3400 МГц 1866
MSI Z68A-GD80
-
Z68
1866
4
100
33-37
3700 МГц
i5 2500
3300 МГц 1866
ASUS Crosshair V
2200
FX990
1866
8
200
22.5
-
FX 8150
4500 МГц
MSI 990FXA-GD80
2380
FX990
1820
6
340
12.5
-
Phenom II 1100
4250 МГц
MSI 990FXA-GD80
2400
FX990
1600
6
200
21
-
Phenom II 1100
4200 МГц
MSI 990FXA-GD80
2400
FX990
1600
4
200
22.5
-
Phenom II 980
4500 МГц
MSI 990FXA-GD80
2240
FX990
1500
4
280
16
-
Phenom II 980
4480 МГц
MSI A75MA-G55
-
A75
2000
4
150
29
-
A8 3850
4350 МГц
MSI A75MA-G55
-
A75
2040
4
153
27
-
A8 3800
4133 МГц
MSI A75MA-G55
-
A75
1900
4
142
26
-
A6 3650
3700 МГц
MSI A75MA-G55
-
A75
1900
3
142
24
-
A6 3500
3400 МГц
MSI A75MA-G55
-
A75
2050
2
154
27
-
A4 3400
4160 МГц
MSI 990FXA-GD80
2170
FX990
1650
4
310
12
-
Athlon II 645
3720 МГц
MSI Z68A-GD80
-
Z68
1866
4
100
48
5000 МГц
i7 2600K
5000 МГц
MSI Z68A-GD80
-
Z68
1866
4
100
45
-
i7 2600K
4500 МГц
ASUS P6X58D
3200
X58
1600
4
200
21
-
i7 930
4200 МГц

500x202  14 KB. Big one: 1500x606  125 KB

  • Оперативная память: объём 8 Гбайт, (2х4). Тайминги 9-9-9-24-2Т, частота от 1333 МГц до 2050 МГц, в зависимости от настроек и условий тестирования;
  • Видеокарта: AMD HD 6790;
  • Жёсткий диск: SSD Crucial М4 128 Гбайт;
  • Блок питания: Tagan TG1100-U95 1100 Вт;
  • Операционная система: Microsoft Windows 7 x64 Sp1.

И три режима тестирования:
1. Номинальные частоты процессора, память 1333 МГц.
2. Номинальные частоты процессора, память 1866 МГц.
3. Разгон, память работает на разной частоте в зависимости от множителя.

407x389  35 KB

407x389  35 KB

Результаты тестов

За начальную точку отсчета была взята конфигурация, состоящая из материнской платы на чипсете 990FX, ЦП AMD FX 8150, и памяти, работающей на частоте 1333 МГц, с таймингами 9-9-9-24-2Т.


Cinebench 10

Настройки:

  • Монопоток и многопоточный тест.
  • Профиль CPU.

Баллы


Номинальный режим: Performance 1 CPU | Multi CPU


Включите JavaScript, чтобы видеть графики

Тест, использующий как одно, так и все ядра, показывает не лучшее положение дел у новичка, который чувствует себя не в своей тарелке, если нагрузка приходится только на одно ядро. Как только программа задействует все ядра, ситуация значительно изменяется, и он становится прямым конкурентом Intel i5-2500. Впрочем, AMD именно так и позиционирует свой ЦП с индексом 8150. А сравнивая производительность FX с i7-930, можно убедиться в превосходстве первого над вторым.

Баллы


Память на частоте 1866 МГц: Performance 1 CPU | Multi CPU


Включите JavaScript, чтобы видеть графики

Разогнанная память мало сказывается на производительности любого современного процессора AMD, поэтому бежать в магазин и обзаводиться высокочастотными модулями совсем не нужно.

Баллы


Overclocking: Performance 1 CPU | Multi CPU


Включите JavaScript, чтобы видеть графики

FX 8150 пока что слабо изучен, и разгон сопровождается трудностями взаимопонимания материнской платы и процессора. По температурам было видно, что Bulldozer способен работать на большей частоте, но иные множители не включились. Полагаю, со временем производители еще неоднократно обновят BIOS, прежде чем наладится дружба комплектующих. Тем не менее, 4.5 Ггц неплохая цифра, и благодаря такому разгону новичок в многопоточном тесте уверенно опережает практически все процессоры Intel, за исключением разогнанного i7-2600K.

Наименование
1 CPU %
xCPU %
Среднее
FX 8150 3600 МГц
0
0
0
Phenom II 1100 3300 МГц
2
-9
-4
Phenom II 980 3700 МГц
5
-26
-11
Athlon II 645 3100 МГц
-20
-46
-33
A8 3850 2900 МГц
-18
-42
-30
A8 3800 2400 МГц
-28
-51
-40
A6 3650 2600 МГц
-27
-47
-37
A6 3500 2100 МГц
-37
-66
-51
A4 3400 2700 МГц
-28
-72
-50
i7 2600K 3400 МГц
52
12
32
i5 2500 3300 МГц
49
1
25
i5 2400 3100 МГц
34
-7
14
i7 930 2800 МГц
8
-15
-4
i3 2100 3100 МГц
23
-46
-11
FX 8150 3600 МГц 1866
0
1
0
A8 3850 2900 МГц 1866
-17
-40
-28
A8 3800 2400 МГц 1866
-27
-48
-37
A6 3650 2600 МГц 1866
-24
-46
-35
A6 3500 2100 МГц 1866
-36
-65
-50
A4 3400 2700 МГц 1866
-26
-72
-49
i7 2600K 3400 МГц 1866
52
16
34
i5 2500 3300 МГц 1866
50
1
25
FX 8150 4500 МГц
10
23
16
Phenom II 1100 4250 МГц
20
14
17
Phenom II 1100 4200 МГц
19
14
16
Phenom II 980 4500 МГц
27
-11
8
Phenom II 980 4480 МГц
26
-11
8
A8 3850 4350 МГц
23
-12
6
A8 3800 4133 МГц
17
-17
0
A6 3650 3700 МГц
6
-25
-10
A6 3500 3400 МГц
-1
-49
-25
A4 3400 4160 МГц
13
-56
-22
Athlon II 645 3720 МГц
-4
-34
-19
i7 2600K 5000 МГц
106
52
79
i7 2600K 4500 МГц
83
46
64
i7 930 4200 МГц
49
18
34

Оцените материал →

Объявления компаний (реклама) и анонсы
  • Крутой обвал цен на GTX 1080, самая низкая в XPERT.RU
  • GTX 980 Ti - цена рухнула!
  • GTX 1060 MSI за 15 т.р.




Обсуждение ВКонтакте (скрыть)