Итак, они наконец-то вышли. Обзор архитектуры Bulldozer и тестирование AMD FX 8150.

12 октября 2011, среда 08:00

Дмитрий Владимирович для раздела Лаборатория

793

Страница 1 из 3

793

Вступление, немного теории, инструментарий и методика тестирования, тестовый стенд, результаты тестов: Cinebench 10

Результаты тестов: Cinebench 11.5, Pov-Ray, TrueCrypt, wPrime, x264 3.19

Результаты тестов: x264 4.хх, WinRAR, Revit Architecture 2012, Adobe Photoshop CS 5.0 x64, тесты - заключение

Вступление

Как известно, Intel уже более пяти лет придерживается стратегии развития «Tick-Tock», меняя по нечётным годам технологический процесс производства, а по чётным - микроархитектуру. AMD следует совершенно другой политике, улучшая свои модели по мере готовности новых технологий. Так, последнее обновление микроархитектуры компания проводила почти четыре года назад, выпустив CPU Phenom на K10, освоившей с тех пор три техпроцесса – 65 нм у Agena, 45 нм у Deneb и 32 нм у Llano. Тем не менее, рано или поздно потенциал любой разработки исчерпывает себя и назревает необходимость её радикального обновления.

И, в отличие от Intel, которая планомерно освежает свою микроархитектуру каждые два года, AMD предпочитает делать это несколько реже, но внося больше изменений и улучшений. Фактически, с момента появления первых Athlon на К7, было всего два её обновления, но зато существенных и радикальных – это K8, представленная в 2003 году и ставшая основой для Athlon 64, и уже упомянутая K10, в семействах Phenom и Athlon II. Да, впоследствии компания наращивала частоты, кэши и количество ядер в своих продуктах, меняла технологические процессы, но их структура, являющаяся основой и «сердцем» целых семейств CPU, оставалась незыблемой.

Немного теории

Новая микроархитектура Bulldozer, дебютирующая в процессорах AMD FX, существенно отличается от прошлой – K10, и кроме того, не вписывается в стратегию предшествующих обновлений, когда инженеры стремились исправить их недостатки и подчеркнуть достоинства. Рассматривая K10, можно было увидеть в ней очертания и общую топологию K8 и K7, а если поступить аналогичным образом с Sandy Bridge, то и у последней можно заметить ряд особенностей предыдущих Nehalem и Conroe.

А если взяться за Bulldozer, сразу бросается в глаза, что она фактически полностью отлична как от K10, так и от других х86 совместимых микроархитектур. На фоне предшественников новинка смотрится не менее необычно, чем самолёт на фоне вертолёта. Рассмотрим её подробнее, но сразу оговорюсь, что постараюсь объяснить суть и характер изменений, не залезая в технические дебри и тонкости, поскольку большинству это скучно и неинтересно, а кому необходимо - тот и так знает, где найти интересующую его информацию.

Основное отличие Bulldozer от других актуальных процессорных микроархитектур заключается в компоновке x86 ядер, которые теперь попарно расположены в одном «модуле» и делят между собой остальные ресурсы – блок вещественных вычислений (FPU), кэш второго уровня (L2) и так называемый «front end», о последнем будет рассказано ниже. Таким образом, каждый модуль новой микроархитектуры является чем-то средним между обычным двухъядерным CPU и процессорным ядром с Hyper-Threading.

В некотором смысле это даже развитие идеи Hyper-Threading, но в отличие от неё, где два потока «разбивают» то же количество аппаратных ресурсов, в модуле Bulldozer'a два потока часть ресурсов делят, а часть - получают в единоличное пользование. Но баланс подобран грамотно, все «тяжёлые» и «дорогие» (с точки зрения транзисторного бюджета) блоки распределяются между двумя ядрами, а сами х86 ядра дублируются, поскольку тратится на каждое из них всего лишь около 12% общего числа транзисторов в модуле.

С точки зрения выполнения целочисленных и адресных операций каждый модуль представляет собой два полноценных и независимых ядра, между которыми при вещественных вычислениях делятся ресурсы FPU. Эти же ядра по факту и обслуживают FPU, отправляя ему инструкции на исполнение, загружая и выгружая данные, храня и отставляя МОПы, поскольку именно к ним привязаны вычислительные потоки, механизмы внеочередного исполнения команд и кэши данных первого уровня (L1D).

Очевидно, что основное преимущество данной схемы перед одним ядром - в повышенной производительности при многопоточной нагрузке, особенно с упором на целочисленные вычисления. Попробуем рассмотреть основные блоки Bulldozer подробнее.

Front end

Фактически, «front end» представляет собой набор логических устройств, обеспечивающих подготовку инструкций для исполнения на вычислительных устройствах. В него входят блоки предсказания переходов, точность работы которых влияет на то, как часто будет простаивать CPU в процессе ожидания передачи нужных данных из оперативной памяти или кэшей, кэш инструкций первого уровня (L1I) и декодер, который занимается «переводом» х86 инструкций в понятный для исполнительных устройств вид - МОПы.

Изменения, которые коснулись этих блоков, неоднозначны. С одной стороны, повысилась точность предсказаний переходов. При декодировании из кэша данные считываются порциями в 32 байта, как у K10, что хорошо и вдвое больше, чем у Sandy Bridge. Инструкции теперь перерабатываются четырьмя каналами, а не тремя, как в K7-K10. И это одно из самых важных и долгожданных улучшений в микроархитектуре. Но AMD только сейчас внедрила четырёхканальный декодер, в то время как у Intel он появился пять лет назад, в Conroe (Core2). При этом кэш инструкций фактически того же размера и ассоциативности (64 Кбайта, 2-way), что и в K10, куда он перекочевал без особых изменений ещё с K7.

Также не стоит забывать, что теперь и кэш инструкций, и декодер будут нужны не одному, а двум потокам, так что их возможности можно условно разделить пополам при интенсивной многопоточной нагрузке. Резюмируя, можно сказать, что новый «front end» выглядит в чём-то лучше, а в чём-то хуже, чем у предшественников, и будет демонстрировать свою силу и слабость в зависимости от характера задачи.

Х86 ядра

Данные блоки, в количестве двух штук на модуль, являются как раз той самой отличительной особенностью Bulldozer'a и позволяют одному модулю обрабатывать два потока инструкций. По сути, в них сосредоточены основные устройства х86 ядер с механизмом внеочередного исполнения команд (Out-of-Order Execution), а именно – буфер МОПов, поступивших с декодера (Sheduler), устройство отставки выполненных инструкций (Retire), сами целочисленные исполнительные устройства и устройства генерации адреса (ALU и AGU), по две штуки на х86 ядро, а также кэш данных первого уровня (L1D) и устройство загрузки выгрузки (LSU).

Во многом, х86 ядро Bulldozer'a напоминает целочисленный блок K10, но налицо ряд заметных и неоднозначных изменений. Во-первых, количество ALU и AGU сократилось с трёх до двух, по сравнению с K10. С одной стороны, это падение пиковой теоретической производительности в полтора раза, с другой, выжать её на практике практически невозможно, так что потеря не велика, хоть и есть. Во-вторых, кэш данных стал в четыре раза меньше, чем у K10, 16 Кбайт вместо 64 Кбайт, но зато его ассоциативность выросла с двух путей до четырёх. Так что можно назвать это оправданным разменом объёма на скорость.

Ну а LSU стал лучше во всём, как номинальная, так и эффективная вместимость буферов существенно выросла, а разрядность операций записи увеличена в два раза.

FPU

Пожалуй, один из самых важных блоков процессора – блок вещественных вычислений, отвечает, как несложно догадаться, за выполнение операций с плавающей запятой, а также исполнение наборов инструкций SSE всех версий, AVX, FMA и отдельных команд. Фактически FPU Bulldozer является самым мощным и функциональным на сегодня, и во многом именно благодаря ему, AMD надеется одолеть конкурирующие решения Intel на базе микроархитектуры Sandy Bridge.

Основой FPU Bulldozer являются два FMAC устройства, разрядностью 128-бит каждое. В отличие от K10, где за операции сложения и умножения отвечали разные устройства, эти являются универсальными и способны выполнить весь спектр поддерживаемых команд. Можно сказать, AMD перешла от ассиметричной схемы исполнительных устройств FPU к симметричной. В случае разделения ресурсов между двумя x86 ядрами, каждое может работать со своим FMAC устройством.

Единственным исключением является исполнение AVX команд разрядностью 256-бит, в этом случае оба вычислительных устройства выполняют эту операцию как единый блок. Причём стоит отметить, что если при AVX операциях 256-битной разрядности его производительность на один такт равна FPU Sandy Bridge, то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает таковой в два раза.

Помимо скорости стоит вспомнить и о функциональности. Как уже было сказано, блок вещественных вычислений Bulldozer'a поддерживает FMA (fused multiply-add – совмещённое умножение-сложение) команды, вида A = B x C + D. Причём результат умножения не округляется перед сложением, что положительно сказывается на точности вычислений. В общем итоге можно сказать, что FPU по всем параметрам лучше, чем в предыдущих микроархитектурах AMD, и инженеры могут гордиться своей работой.

Кэши и северный мост

Подсистема кэшей также претерпела несколько важных изменений, по сравнению с K10. Как уже упоминалось, кэш данных первого уровня (L1D) разменял объём на ассоциативность, а кэш инструкций (L1I) остался фактически без изменений. Кэш второго уровня (L2), который раньше единолично использовался одним ядром, теперь является общим для двух х86 ядер модуля. Кроме того, объём L2 кэша вырос с 512 Кбайт до 2 Мбайт, по сравнению с K10. Уровень ассоциативности остался тот же, 16-way.

Это значит, что в восьмиядерном, четырехмодульном ЦП с микроархитектурой Bulldozer используется четыре кэша второго уровня суммарным объёмом 8 Мбайт. Но, скорее всего, рост объёма и необходимость делить ресурсы между двумя ядрами также наложили отрицательный отпечаток на время доступа к кэшу второго уровня. Кэш третьего уровня и контроллер памяти, подобно K10, работают на своей частоте, более низкой, чем частоты модулей. Для анонсированных процессоров она составляет 2-2.2 ГГц, в зависимости от модели. Это меньше, чем у Sandy Bridge, где интегрированный контроллер памяти и L3 кэш работают на частоте ядра. Объём кэша третьего уровня у Bulldozer, составляет теперь 8 Мбайт, а его ассоциативность 64-way, что на треть больше, чем у Deneb (6 Мбайт и 48-way соответственно).

Стоит также напомнить, что кэш у процессоров AMD организован по так называемой эксклюзивной схеме, когда данные в кэшах разных уровней не дублируются и суммарный объём их всех можно считать и эффективным. Подводя итоги по кэшам, скажу, что изменения в L1 и L2 существенные, но неоднозначные, а L3 выглядит логичным развитием наработок K10.

Контроллер памяти ЦП AMD FX не претерпел существенных изменений, он по-прежнему двухканальный, а штатно поддерживаемая частота модулей памяти DDR3 увеличилась до 1866 МГц.

Turbo Core 2.0

Технология автоматического разгона, дебютировавшая в моделях AMD Phenom II X6, была существенно улучшена и во многом похожа на ту, что используется в линейке Sandy Bridge. В процессоре появился специальный блок, который отслеживает актуальное потребление CPU и загрузку ядер, и на основе этой информации изменяет частоты ядер модулей. Если потребление ЦП не превышает TDP, то частоты всех ядер могут подниматься сверх базовых на заданное значение.

К примеру, для AMD FX-8150 частота возрастает со штатных 3.6 ГГц до 3.9 ГГц, для всех восьми ядер. А когда потребление процессора ниже TDP, а часть ядер при этом ещё и простаивает, то частоты нагруженных ядер могут подниматься ещё выше, до 4.2 ГГц, в случае с AMD FX-8150. Справедливости ради стоит напомнить, что подобная технология используется в AMD Llano, где учитывается потребление не только ядер CPU, но и интегрированного графического процессора.

Теория - заключение

Что же можно сказать, подводя итоги по новой микроархитектуре? Как уже было показано выше, изменений очень много, все они глубокие и неоднозначные. Нет сомнений, что Bulldozer - новая микроархитектура AMD. Это же означает, что показать она себя может также очень неоднозначно, продемонстрировав местами производительность чуть ниже, чем у K10, а местами значительно больше.

Тем не менее, с точки зрения поддержки современных наборов команд и технологий автоматического повышения частот, ориентированности на многопоточную нагрузку, новая разработка AMD не уступает конкурирующей – Sandy Bridge, а в ряде случаев смотрится даже выгоднее. И хотя заметно, что у Bulldozer есть целый ряд слабых мест, они легко могут быть устранены в будущем.

На этом, вероятно, и будет основана стратегия компании на ближайшие годы. Bulldozer можно рассматривать, как инвестиции в её будущее, это скелет следующих микроархитектур, которые будут обрастать «мясом», и давать приросты производительности. Согласно текущим планам, AMD будет ежегодно, а не раз в несколько лет, обновлять микроархитектуру своих процессоров, что должно будет отзываться 10-15% приростом производительности и ростом энергоэффективности будущих решений.

Отдельно хотелось бы упомянуть момент, касающийся распределения вычислительных потоков по ядрам. Windows 7 в текущем виде лишена оптимизации под процессоры с микроархитектурой Bulldozer и не способна правильно распределять потоки, что в ряде случаев приводит к потери производительности, поскольку ЦП не может использовать технологии повышения частот, или же зависимые вычислительные потоки обмениваются данными через L3, а не более быстрый L2, поскольку они оказались привязаны к ядрам разных модулей.

AMD в своих материалах указывает, что планировщик Windows 8 уже умеет правильно работать с Bulldozer и преимущество в производительности над Windows 7 способно достигать в отдельных случаях до 10%, что, согласитесь, немало. Впрочем, возможно Microsoft выпустит патч на «семерку», который научит и эту популярную операционную систему правильно распределять потоки для новых процессоров AMD.

Теперь самое время закончить с теорией и посмотреть, чем же может порадовать новый флагман AMD на практике.

500x346 29 KB. Big one: 1500x1039 270 KB

Инструментарий и методика тестирования

Скорость работы связки «процессор-чипсет-память» оценивалась следующими приложениями:

Cinebench 10;
Cinebench 11.5;
Pov-Ray All CPU Total seconds;
TrueCrypt Serpent-Twofish-AES;
wPrime 2.00;
x264 v3 (устаревшая версия, без агрессивных оптимизаций под многопоточность);
x264 v4 (новая версия, хорошо оптимизированная под многопоточность с новыми кодеками);
WinRAR;
Photoshop CS5 x64 (применение последовательности из нескольких десятков фильтров);
Autodesk Revit Architecture 2012 (визуализация 3D-чертежа дома).

500x431 27 KB. Big one: 1500x1294 324 KB

Тестовый стенд

В тестировании участвовало несколько систем с использованием большого набора комплектующих, в том числе материнских плат. Таблица ниже позволит ознакомиться с полным описанием стендов, а также режимов работы конфигураций.

Материнская плата	NB	Чипсет	Частота памяти	Количество ядер	Частота шины	Множитель	Турбо	Название процессора /режим
ASUS Crosshair V	2200	FX990	1333	8	200	21	4200 МГц	FX 8150 3600 МГц
MSI 990FXA-GD80	2000	FX990	1333	6	200	16.5-18.5	3700 МГц	Phenom II 1100 3300 МГц
MSI 990FXA-GD80	2000	FX990	1333	4	200	18.5	-	Phenom II 980 3700 МГц
MSI 990FXA-GD80	2000	FX990	1333	4	200	15.5	-	Athlon II 645 3100 МГц
MSI A75MA-G55	-	A75	1333	4	100	29	-	A8 3850 2900 МГц
MSI A75MA-G55	-	A75	1333	4	100	24-27	2700 МГц	A8 3800 2400 МГц
MSI A75MA-G55	-	A75	1333	4	100	26	-	A6 3650 2600 МГц
MSI A75MA-G55	-	A75	1333	3	100	21-24	2400 МГц	A6 3500 2100 МГц
MSI A75MA-G55	-	A75	1333	2	100	27	-	A4 3400 2700 МГц
MSI Z68A-GD80	-	Z68	1333	4	100	34-38	3800 МГц	i7 2600K 3400 МГц
MSI Z68A-GD80	-	Z68	1333	4	100	33-37	3700 МГц	i5 2500 3300 МГц
MSI Z68A-GD80	-	Z68	1333	4	100	31-34	3400 МГц	i5 2400 3100 МГц
ASUS P6X58D	2667	X58	1333	4	133	23	3060 МГц	i7 930 2800 МГц
MSI Z68A-GD80	-	Z68	1333	2	100	31	-	i3 2100 3100 МГц
ASUS Crosshair V	2200	FX990	1866	8	200	21	4200 МГц	FX 8150 3600 МГц 1866
MSI A75MA-G55	-	A75	1866	4	100	29	-	A8 3850 2900 МГц 1866
MSI A75MA-G55	-	A75	1866	4	100	24-27	2700 МГц	A8 3800 2400 МГц 1866
MSI A75MA-G55	-	A75	1866	4	100	26	-	A6 3650 2600 МГц 1866
MSI A75MA-G55	-	A75	1866	3	100	21-24	2400 МГц	A6 3500 2100 МГц 1866
MSI A75MA-G55	-	A75	1866	2	100	27	-	A4 3400 2700 МГц 1866
MSI Z68A-GD80	-	Z68	1866	4	100	34-38	3800 МГц	i7 2600K 3400 МГц 1866
MSI Z68A-GD80	-	Z68	1866	4	100	33-37	3700 МГц	i5 2500 3300 МГц 1866
ASUS Crosshair V	2200	FX990	1866	8	200	22.5	-	FX 8150 4500 МГц
MSI 990FXA-GD80	2380	FX990	1820	6	340	12.5	-	Phenom II 1100 4250 МГц
MSI 990FXA-GD80	2400	FX990	1600	6	200	21	-	Phenom II 1100 4200 МГц
MSI 990FXA-GD80	2400	FX990	1600	4	200	22.5	-	Phenom II 980 4500 МГц
MSI 990FXA-GD80	2240	FX990	1500	4	280	16	-	Phenom II 980 4480 МГц
MSI A75MA-G55	-	A75	2000	4	150	29	-	A8 3850 4350 МГц
MSI A75MA-G55	-	A75	2040	4	153	27	-	A8 3800 4133 МГц
MSI A75MA-G55	-	A75	1900	4	142	26	-	A6 3650 3700 МГц
MSI A75MA-G55	-	A75	1900	3	142	24	-	A6 3500 3400 МГц
MSI A75MA-G55	-	A75	2050	2	154	27	-	A4 3400 4160 МГц
MSI 990FXA-GD80	2170	FX990	1650	4	310	12	-	Athlon II 645 3720 МГц
MSI Z68A-GD80	-	Z68	1866	4	100	48	5000 МГц	i7 2600K 5000 МГц
MSI Z68A-GD80	-	Z68	1866	4	100	45	-	i7 2600K 4500 МГц
ASUS P6X58D	3200	X58	1600	4	200	21	-	i7 930 4200 МГц

Оперативная память: объём 8 Гбайт, (2х4). Тайминги 9-9-9-24-2Т, частота от 1333 МГц до 2050 МГц, в зависимости от настроек и условий тестирования;
Видеокарта: AMD HD 6790;
Жёсткий диск: SSD Crucial М4 128 Гбайт;
Блок питания: Tagan TG1100-U95 1100 Вт;
Операционная система: Microsoft Windows 7 x64 Sp1.

И три режима тестирования:
1. Номинальные частоты процессора, память 1333 МГц.
2. Номинальные частоты процессора, память 1866 МГц.
3. Разгон, память работает на разной частоте в зависимости от множителя.

Результаты тестов

За начальную точку отсчета была взята конфигурация, состоящая из материнской платы на чипсете 990FX, ЦП AMD FX 8150, и памяти, работающей на частоте 1333 МГц, с таймингами 9-9-9-24-2Т.

Cinebench 10

Настройки:

Монопоток и многопоточный тест.
Профиль CPU.

Баллы

Номинальный режим: Performance 1 CPU | Multi CPU

Включите JavaScript, чтобы видеть графики

Тест, использующий как одно, так и все ядра, показывает не лучшее положение дел у новичка, который чувствует себя не в своей тарелке, если нагрузка приходится только на одно ядро. Как только программа задействует все ядра, ситуация значительно изменяется, и он становится прямым конкурентом Intel i5-2500. Впрочем, AMD именно так и позиционирует свой ЦП с индексом 8150. А сравнивая производительность FX с i7-930, можно убедиться в превосходстве первого над вторым.

Баллы

Память на частоте 1866 МГц: Performance 1 CPU | Multi CPU

Включите JavaScript, чтобы видеть графики

Разогнанная память мало сказывается на производительности любого современного процессора AMD, поэтому бежать в магазин и обзаводиться высокочастотными модулями совсем не нужно.

Баллы

Overclocking: Performance 1 CPU | Multi CPU

Включите JavaScript, чтобы видеть графики

FX 8150 пока что слабо изучен, и разгон сопровождается трудностями взаимопонимания материнской платы и процессора. По температурам было видно, что Bulldozer способен работать на большей частоте, но иные множители не включились. Полагаю, со временем производители еще неоднократно обновят BIOS, прежде чем наладится дружба комплектующих. Тем не менее, 4.5 Ггц неплохая цифра, и благодаря такому разгону новичок в многопоточном тесте уверенно опережает практически все процессоры Intel, за исключением разогнанного i7-2600K.

Наименование	1 CPU %	xCPU %	Среднее
FX 8150 3600 МГц	0	0	0
Phenom II 1100 3300 МГц	2	-9	-4
Phenom II 980 3700 МГц	5	-26	-11
Athlon II 645 3100 МГц	-20	-46	-33
A8 3850 2900 МГц	-18	-42	-30
A8 3800 2400 МГц	-28	-51	-40
A6 3650 2600 МГц	-27	-47	-37
A6 3500 2100 МГц	-37	-66	-51
A4 3400 2700 МГц	-28	-72	-50
i7 2600K 3400 МГц	52	12	32
i5 2500 3300 МГц	49	1	25
i5 2400 3100 МГц	34	-7	14
i7 930 2800 МГц	8	-15	-4
i3 2100 3100 МГц	23	-46	-11
FX 8150 3600 МГц 1866	0	1	0
A8 3850 2900 МГц 1866	-17	-40	-28
A8 3800 2400 МГц 1866	-27	-48	-37
A6 3650 2600 МГц 1866	-24	-46	-35
A6 3500 2100 МГц 1866	-36	-65	-50
A4 3400 2700 МГц 1866	-26	-72	-49
i7 2600K 3400 МГц 1866	52	16	34
i5 2500 3300 МГц 1866	50	1	25
FX 8150 4500 МГц	10	23	16
Phenom II 1100 4250 МГц	20	14	17
Phenom II 1100 4200 МГц	19	14	16
Phenom II 980 4500 МГц	27	-11	8
Phenom II 980 4480 МГц	26	-11	8
A8 3850 4350 МГц	23	-12	6
A8 3800 4133 МГц	17	-17	0
A6 3650 3700 МГц	6	-25	-10
A6 3500 3400 МГц	-1	-49	-25
A4 3400 4160 МГц	13	-56	-22
Athlon II 645 3720 МГц	-4	-34	-19
i7 2600K 5000 МГц	106	52	79
i7 2600K 4500 МГц	83	46	64
i7 930 4200 МГц	49	18	34

Вступление, немного теории, инструментарий и методика тестирования, тестовый стенд, результаты тестов: Cinebench 10

Результаты тестов: Cinebench 11.5, Pov-Ray, TrueCrypt, wPrime, x264 3.19

Результаты тестов: x264 4.хх, WinRAR, Revit Architecture 2012, Adobe Photoshop CS 5.0 x64, тесты - заключение

Страница 1 из 3

следующая страница

Оценитe материал

рейтинг: 4.2 из 5
голосов: 192

Добавить в закладки Спасибо автору

Тестирование AMD FX Bulldozer

Страницы материала

реклама

Оглавление

Вступление

Немного теории

реклама

реклама

Front end

Х86 ядра

FPU

реклама

Кэши и северный мост

Turbo Core 2.0

Теория - заключение

Инструментарий и методика тестирования

Тестовый стенд

Результаты тестов

Cinebench 10

Баллы

Баллы

Баллы

реклама

Страницы материала

Теги

Комментарии Правила

Лента материалов раздела

Популярные новости

Сейчас обсуждают