Тестирование AMD FX Bulldozer
реклама
Оглавление
- Вступление
- Немного теории
- Теория - заключение
- Инструментарий и методика тестирования
- Тестовый стенд
- Результаты тестов
- Cinebench 10
- Cinebench 11.5
- Pov-Ray
- TrueCrypt
- wPrime
- x264 3.19
- x264 4.хх
- WinRAR
- Revit Architecture 2012 визуализация
- Adobe Photoshop CS 5.0 x64
- Тесты - заключение
Вступление
Как известно, Intel уже более пяти лет придерживается стратегии развития «Tick-Tock», меняя по нечётным годам технологический процесс производства, а по чётным - микроархитектуру. AMD следует совершенно другой политике, улучшая свои модели по мере готовности новых технологий. Так, последнее обновление микроархитектуры компания проводила почти четыре года назад, выпустив CPU Phenom на K10, освоившей с тех пор три техпроцесса – 65 нм у Agena, 45 нм у Deneb и 32 нм у Llano. Тем не менее, рано или поздно потенциал любой разработки исчерпывает себя и назревает необходимость её радикального обновления.
И, в отличие от Intel, которая планомерно освежает свою микроархитектуру каждые два года, AMD предпочитает делать это несколько реже, но внося больше изменений и улучшений. Фактически, с момента появления первых Athlon на К7, было всего два её обновления, но зато существенных и радикальных – это K8, представленная в 2003 году и ставшая основой для Athlon 64, и уже упомянутая K10, в семействах Phenom и Athlon II. Да, впоследствии компания наращивала частоты, кэши и количество ядер в своих продуктах, меняла технологические процессы, но их структура, являющаяся основой и «сердцем» целых семейств CPU, оставалась незыблемой.
Немного теории
реклама
Новая микроархитектура Bulldozer, дебютирующая в процессорах AMD FX, существенно отличается от прошлой – K10, и кроме того, не вписывается в стратегию предшествующих обновлений, когда инженеры стремились исправить их недостатки и подчеркнуть достоинства. Рассматривая K10, можно было увидеть в ней очертания и общую топологию K8 и K7, а если поступить аналогичным образом с Sandy Bridge, то и у последней можно заметить ряд особенностей предыдущих Nehalem и Conroe.
А если взяться за Bulldozer, сразу бросается в глаза, что она фактически полностью отлична как от K10, так и от других х86 совместимых микроархитектур. На фоне предшественников новинка смотрится не менее необычно, чем самолёт на фоне вертолёта. Рассмотрим её подробнее, но сразу оговорюсь, что постараюсь объяснить суть и характер изменений, не залезая в технические дебри и тонкости, поскольку большинству это скучно и неинтересно, а кому необходимо - тот и так знает, где найти интересующую его информацию.
Основное отличие Bulldozer от других актуальных процессорных микроархитектур заключается в компоновке x86 ядер, которые теперь попарно расположены в одном «модуле» и делят между собой остальные ресурсы – блок вещественных вычислений (FPU), кэш второго уровня (L2) и так называемый «front end», о последнем будет рассказано ниже. Таким образом, каждый модуль новой микроархитектуры является чем-то средним между обычным двухъядерным CPU и процессорным ядром с Hyper-Threading.
В некотором смысле это даже развитие идеи Hyper-Threading, но в отличие от неё, где два потока «разбивают» то же количество аппаратных ресурсов, в модуле Bulldozer'a два потока часть ресурсов делят, а часть - получают в единоличное пользование. Но баланс подобран грамотно, все «тяжёлые» и «дорогие» (с точки зрения транзисторного бюджета) блоки распределяются между двумя ядрами, а сами х86 ядра дублируются, поскольку тратится на каждое из них всего лишь около 12% общего числа транзисторов в модуле.
С точки зрения выполнения целочисленных и адресных операций каждый модуль представляет собой два полноценных и независимых ядра, между которыми при вещественных вычислениях делятся ресурсы FPU. Эти же ядра по факту и обслуживают FPU, отправляя ему инструкции на исполнение, загружая и выгружая данные, храня и отставляя МОПы, поскольку именно к ним привязаны вычислительные потоки, механизмы внеочередного исполнения команд и кэши данных первого уровня (L1D).
реклама
Очевидно, что основное преимущество данной схемы перед одним ядром - в повышенной производительности при многопоточной нагрузке, особенно с упором на целочисленные вычисления. Попробуем рассмотреть основные блоки Bulldozer подробнее.
Front end
Фактически, «front end» представляет собой набор логических устройств, обеспечивающих подготовку инструкций для исполнения на вычислительных устройствах. В него входят блоки предсказания переходов, точность работы которых влияет на то, как часто будет простаивать CPU в процессе ожидания передачи нужных данных из оперативной памяти или кэшей, кэш инструкций первого уровня (L1I) и декодер, который занимается «переводом» х86 инструкций в понятный для исполнительных устройств вид - МОПы.
Изменения, которые коснулись этих блоков, неоднозначны. С одной стороны, повысилась точность предсказаний переходов. При декодировании из кэша данные считываются порциями в 32 байта, как у K10, что хорошо и вдвое больше, чем у Sandy Bridge. Инструкции теперь перерабатываются четырьмя каналами, а не тремя, как в K7-K10. И это одно из самых важных и долгожданных улучшений в микроархитектуре. Но AMD только сейчас внедрила четырёхканальный декодер, в то время как у Intel он появился пять лет назад, в Conroe (Core2). При этом кэш инструкций фактически того же размера и ассоциативности (64 Кбайта, 2-way), что и в K10, куда он перекочевал без особых изменений ещё с K7.
Также не стоит забывать, что теперь и кэш инструкций, и декодер будут нужны не одному, а двум потокам, так что их возможности можно условно разделить пополам при интенсивной многопоточной нагрузке. Резюмируя, можно сказать, что новый «front end» выглядит в чём-то лучше, а в чём-то хуже, чем у предшественников, и будет демонстрировать свою силу и слабость в зависимости от характера задачи.
Х86 ядра
Данные блоки, в количестве двух штук на модуль, являются как раз той самой отличительной особенностью Bulldozer'a и позволяют одному модулю обрабатывать два потока инструкций. По сути, в них сосредоточены основные устройства х86 ядер с механизмом внеочередного исполнения команд (Out-of-Order Execution), а именно – буфер МОПов, поступивших с декодера (Sheduler), устройство отставки выполненных инструкций (Retire), сами целочисленные исполнительные устройства и устройства генерации адреса (ALU и AGU), по две штуки на х86 ядро, а также кэш данных первого уровня (L1D) и устройство загрузки выгрузки (LSU).
Во многом, х86 ядро Bulldozer'a напоминает целочисленный блок K10, но налицо ряд заметных и неоднозначных изменений. Во-первых, количество ALU и AGU сократилось с трёх до двух, по сравнению с K10. С одной стороны, это падение пиковой теоретической производительности в полтора раза, с другой, выжать её на практике практически невозможно, так что потеря не велика, хоть и есть. Во-вторых, кэш данных стал в четыре раза меньше, чем у K10, 16 Кбайт вместо 64 Кбайт, но зато его ассоциативность выросла с двух путей до четырёх. Так что можно назвать это оправданным разменом объёма на скорость.
Ну а LSU стал лучше во всём, как номинальная, так и эффективная вместимость буферов существенно выросла, а разрядность операций записи увеличена в два раза.
FPU
Пожалуй, один из самых важных блоков процессора – блок вещественных вычислений, отвечает, как несложно догадаться, за выполнение операций с плавающей запятой, а также исполнение наборов инструкций SSE всех версий, AVX, FMA и отдельных команд. Фактически FPU Bulldozer является самым мощным и функциональным на сегодня, и во многом именно благодаря ему, AMD надеется одолеть конкурирующие решения Intel на базе микроархитектуры Sandy Bridge.
Основой FPU Bulldozer являются два FMAC устройства, разрядностью 128-бит каждое. В отличие от K10, где за операции сложения и умножения отвечали разные устройства, эти являются универсальными и способны выполнить весь спектр поддерживаемых команд. Можно сказать, AMD перешла от ассиметричной схемы исполнительных устройств FPU к симметричной. В случае разделения ресурсов между двумя x86 ядрами, каждое может работать со своим FMAC устройством.
реклама
Единственным исключением является исполнение AVX команд разрядностью 256-бит, в этом случае оба вычислительных устройства выполняют эту операцию как единый блок. Причём стоит отметить, что если при AVX операциях 256-битной разрядности его производительность на один такт равна FPU Sandy Bridge, то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает таковой в два раза.
Помимо скорости стоит вспомнить и о функциональности. Как уже было сказано, блок вещественных вычислений Bulldozer'a поддерживает FMA (fused multiply-add – совмещённое умножение-сложение) команды, вида A = B x C + D. Причём результат умножения не округляется перед сложением, что положительно сказывается на точности вычислений. В общем итоге можно сказать, что FPU по всем параметрам лучше, чем в предыдущих микроархитектурах AMD, и инженеры могут гордиться своей работой.
Кэши и северный мост
Подсистема кэшей также претерпела несколько важных изменений, по сравнению с K10. Как уже упоминалось, кэш данных первого уровня (L1D) разменял объём на ассоциативность, а кэш инструкций (L1I) остался фактически без изменений. Кэш второго уровня (L2), который раньше единолично использовался одним ядром, теперь является общим для двух х86 ядер модуля. Кроме того, объём L2 кэша вырос с 512 Кбайт до 2 Мбайт, по сравнению с K10. Уровень ассоциативности остался тот же, 16-way.
Это значит, что в восьмиядерном, четырехмодульном ЦП с микроархитектурой Bulldozer используется четыре кэша второго уровня суммарным объёмом 8 Мбайт. Но, скорее всего, рост объёма и необходимость делить ресурсы между двумя ядрами также наложили отрицательный отпечаток на время доступа к кэшу второго уровня. Кэш третьего уровня и контроллер памяти, подобно K10, работают на своей частоте, более низкой, чем частоты модулей. Для анонсированных процессоров она составляет 2-2.2 ГГц, в зависимости от модели. Это меньше, чем у Sandy Bridge, где интегрированный контроллер памяти и L3 кэш работают на частоте ядра. Объём кэша третьего уровня у Bulldozer, составляет теперь 8 Мбайт, а его ассоциативность 64-way, что на треть больше, чем у Deneb (6 Мбайт и 48-way соответственно).
Стоит также напомнить, что кэш у процессоров AMD организован по так называемой эксклюзивной схеме, когда данные в кэшах разных уровней не дублируются и суммарный объём их всех можно считать и эффективным. Подводя итоги по кэшам, скажу, что изменения в L1 и L2 существенные, но неоднозначные, а L3 выглядит логичным развитием наработок K10.
Контроллер памяти ЦП AMD FX не претерпел существенных изменений, он по-прежнему двухканальный, а штатно поддерживаемая частота модулей памяти DDR3 увеличилась до 1866 МГц.
Turbo Core 2.0
Технология автоматического разгона, дебютировавшая в моделях AMD Phenom II X6, была существенно улучшена и во многом похожа на ту, что используется в линейке Sandy Bridge. В процессоре появился специальный блок, который отслеживает актуальное потребление CPU и загрузку ядер, и на основе этой информации изменяет частоты ядер модулей. Если потребление ЦП не превышает TDP, то частоты всех ядер могут подниматься сверх базовых на заданное значение.
К примеру, для AMD FX-8150 частота возрастает со штатных 3.6 ГГц до 3.9 ГГц, для всех восьми ядер. А когда потребление процессора ниже TDP, а часть ядер при этом ещё и простаивает, то частоты нагруженных ядер могут подниматься ещё выше, до 4.2 ГГц, в случае с AMD FX-8150. Справедливости ради стоит напомнить, что подобная технология используется в AMD Llano, где учитывается потребление не только ядер CPU, но и интегрированного графического процессора.
Теория - заключение
Что же можно сказать, подводя итоги по новой микроархитектуре? Как уже было показано выше, изменений очень много, все они глубокие и неоднозначные. Нет сомнений, что Bulldozer - новая микроархитектура AMD. Это же означает, что показать она себя может также очень неоднозначно, продемонстрировав местами производительность чуть ниже, чем у K10, а местами значительно больше.
Тем не менее, с точки зрения поддержки современных наборов команд и технологий автоматического повышения частот, ориентированности на многопоточную нагрузку, новая разработка AMD не уступает конкурирующей – Sandy Bridge, а в ряде случаев смотрится даже выгоднее. И хотя заметно, что у Bulldozer есть целый ряд слабых мест, они легко могут быть устранены в будущем.
На этом, вероятно, и будет основана стратегия компании на ближайшие годы. Bulldozer можно рассматривать, как инвестиции в её будущее, это скелет следующих микроархитектур, которые будут обрастать «мясом», и давать приросты производительности. Согласно текущим планам, AMD будет ежегодно, а не раз в несколько лет, обновлять микроархитектуру своих процессоров, что должно будет отзываться 10-15% приростом производительности и ростом энергоэффективности будущих решений.
Отдельно хотелось бы упомянуть момент, касающийся распределения вычислительных потоков по ядрам. Windows 7 в текущем виде лишена оптимизации под процессоры с микроархитектурой Bulldozer и не способна правильно распределять потоки, что в ряде случаев приводит к потери производительности, поскольку ЦП не может использовать технологии повышения частот, или же зависимые вычислительные потоки обмениваются данными через L3, а не более быстрый L2, поскольку они оказались привязаны к ядрам разных модулей.
AMD в своих материалах указывает, что планировщик Windows 8 уже умеет правильно работать с Bulldozer и преимущество в производительности над Windows 7 способно достигать в отдельных случаях до 10%, что, согласитесь, немало. Впрочем, возможно Microsoft выпустит патч на «семерку», который научит и эту популярную операционную систему правильно распределять потоки для новых процессоров AMD.
Теперь самое время закончить с теорией и посмотреть, чем же может порадовать новый флагман AMD на практике.
Инструментарий и методика тестирования
Скорость работы связки «процессор-чипсет-память» оценивалась следующими приложениями:
- Cinebench 10;
- Cinebench 11.5;
- Pov-Ray All CPU Total seconds;
- TrueCrypt Serpent-Twofish-AES;
- wPrime 2.00;
- x264 v3 (устаревшая версия, без агрессивных оптимизаций под многопоточность);
- x264 v4 (новая версия, хорошо оптимизированная под многопоточность с новыми кодеками);
- WinRAR;
- Photoshop CS5 x64 (применение последовательности из нескольких десятков фильтров);
- Autodesk Revit Architecture 2012 (визуализация 3D-чертежа дома).
Тестовый стенд
В тестировании участвовало несколько систем с использованием большого набора комплектующих, в том числе материнских плат. Таблица ниже позволит ознакомиться с полным описанием стендов, а также режимов работы конфигураций.
плата |
|
|
памяти |
ядер |
шины |
|
|
/режим |
ASUS Crosshair V |
|
|
|
|
|
|
|
3600 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
3300 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
3700 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
3100 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2900 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2400 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2600 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2100 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2700 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3400 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3300 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3100 МГц |
ASUS P6X58D |
|
|
|
|
|
|
|
2800 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3100 МГц |
ASUS Crosshair V |
|
|
|
|
|
|
|
3600 МГц 1866 |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2900 МГц 1866 |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2400 МГц 1866 |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2600 МГц 1866 |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2100 МГц 1866 |
MSI A75MA-G55 |
|
|
|
|
|
|
|
2700 МГц 1866 |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3400 МГц 1866 |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
3300 МГц 1866 |
ASUS Crosshair V |
|
|
|
|
|
|
|
4500 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
4250 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
4200 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
4500 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
4480 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
4350 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
4133 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
3700 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
3400 МГц |
MSI A75MA-G55 |
|
|
|
|
|
|
|
4160 МГц |
MSI 990FXA-GD80 |
|
|
|
|
|
|
|
3720 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
5000 МГц |
MSI Z68A-GD80 |
|
|
|
|
|
|
|
4500 МГц |
ASUS P6X58D |
|
|
|
|
|
|
|
4200 МГц |
- Оперативная память: объём 8 Гбайт, (2х4). Тайминги 9-9-9-24-2Т, частота от 1333 МГц до 2050 МГц, в зависимости от настроек и условий тестирования;
- Видеокарта: AMD HD 6790;
- Жёсткий диск: SSD Crucial М4 128 Гбайт;
- Блок питания: Tagan TG1100-U95 1100 Вт;
- Операционная система: Microsoft Windows 7 x64 Sp1.
И три режима тестирования:
1. Номинальные частоты процессора, память 1333 МГц.
2. Номинальные частоты процессора, память 1866 МГц.
3. Разгон, память работает на разной частоте в зависимости от множителя.
Результаты тестов
За начальную точку отсчета была взята конфигурация, состоящая из материнской платы на чипсете 990FX, ЦП AMD FX 8150, и памяти, работающей на частоте 1333 МГц, с таймингами 9-9-9-24-2Т.
Cinebench 10
Настройки:
- Монопоток и многопоточный тест.
- Профиль CPU.
Баллы
Номинальный режим: Performance 1 CPU | Multi CPU
Включите JavaScript, чтобы видеть графики
Тест, использующий как одно, так и все ядра, показывает не лучшее положение дел у новичка, который чувствует себя не в своей тарелке, если нагрузка приходится только на одно ядро. Как только программа задействует все ядра, ситуация значительно изменяется, и он становится прямым конкурентом Intel i5-2500. Впрочем, AMD именно так и позиционирует свой ЦП с индексом 8150. А сравнивая производительность FX с i7-930, можно убедиться в превосходстве первого над вторым.
Баллы
Память на частоте 1866 МГц: Performance 1 CPU | Multi CPU
Включите JavaScript, чтобы видеть графики
Разогнанная память мало сказывается на производительности любого современного процессора AMD, поэтому бежать в магазин и обзаводиться высокочастотными модулями совсем не нужно.
Баллы
Overclocking: Performance 1 CPU | Multi CPU
Включите JavaScript, чтобы видеть графики
FX 8150 пока что слабо изучен, и разгон сопровождается трудностями взаимопонимания материнской платы и процессора. По температурам было видно, что Bulldozer способен работать на большей частоте, но иные множители не включились. Полагаю, со временем производители еще неоднократно обновят BIOS, прежде чем наладится дружба комплектующих. Тем не менее, 4.5 Ггц неплохая цифра, и благодаря такому разгону новичок в многопоточном тесте уверенно опережает практически все процессоры Intel, за исключением разогнанного i7-2600K.
|
|
|
|
FX 8150 3600 МГц |
|
|
|
Phenom II 1100 3300 МГц |
|
|
|
Phenom II 980 3700 МГц |
|
|
|
Athlon II 645 3100 МГц |
|
|
|
A8 3850 2900 МГц |
|
|
|
A8 3800 2400 МГц |
|
|
|
A6 3650 2600 МГц |
|
|
|
A6 3500 2100 МГц |
|
|
|
A4 3400 2700 МГц |
|
|
|
i7 2600K 3400 МГц |
|
|
|
i5 2500 3300 МГц |
|
|
|
i5 2400 3100 МГц |
|
|
|
i7 930 2800 МГц |
|
|
|
i3 2100 3100 МГц |
|
|
|
FX 8150 3600 МГц 1866 |
|
|
|
A8 3850 2900 МГц 1866 |
|
|
|
A8 3800 2400 МГц 1866 |
|
|
|
A6 3650 2600 МГц 1866 |
|
|
|
A6 3500 2100 МГц 1866 |
|
|
|
A4 3400 2700 МГц 1866 |
|
|
|
i7 2600K 3400 МГц 1866 |
|
|
|
i5 2500 3300 МГц 1866 |
|
|
|
FX 8150 4500 МГц |
|
|
|
Phenom II 1100 4250 МГц |
|
|
|
Phenom II 1100 4200 МГц |
|
|
|
Phenom II 980 4500 МГц |
|
|
|
Phenom II 980 4480 МГц |
|
|
|
A8 3850 4350 МГц |
|
|
|
A8 3800 4133 МГц |
|
|
|
A6 3650 3700 МГц |
|
|
|
A6 3500 3400 МГц |
|
|
|
A4 3400 4160 МГц |
|
|
|
Athlon II 645 3720 МГц |
|
|
|
i7 2600K 5000 МГц |
|
|
|
i7 2600K 4500 МГц |
|
|
|
i7 930 4200 МГц |
|
|
|
реклама
Страницы материала
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила