Будни «бульдозера»

Обозреватели компьютерного железа, да и сама компания AMD, поставили себя в очень трудную ситуацию. Отставание AMD от Intel в последние годы стало настолько явным, что выхода какого-то революционного продукта, способного хотя бы уравнять конкурентов в ожесточенной борьбе, ждали все. PR — менеджеры AMD заранее готовили всех к тому, что, как только на фабриках будет отработан новый техпроцесс, появится «бомба». Релизы процессоров Zacate и Llano только подогрели интерес, показав, что AMD находится на верном пути. Ожидание чуда и сопутствующая этому наэлектризованная информационная атмосфера настраивали на то, что когда Bulldozer появится, он всех обидчиков разрежет на ленточки. Ну просто «раскатает гусеницами», ведь «трактор»очень мощная штука: восемь ядер, совершенно новая микроархитектура, тонкий техпроцесс 32 нм.

И вот он взял и приехал. Аварийной ситуации, если вдруг новый процессор окажется по какой-либо причине нехорош, у технических журналистов не было предусмотрено в принципе. Его так ждали, возлагали на него такие надежды, что ему не остается ничего другого, как быть идеальным. Но давайте не будем делать скоропалительных выводов, а беспристрастно посмотрим, что удалось сотворить инженерам AMD, и попытаемся оценить расстановку сил на рынке десктопных процессоров. К сожалению, из-за того что AMD не смогла в обещанный срок предоставить сэмпл, в сегодняшний номер не пойдет практическая часть материала, зато это даст нам отсрочку на неделю. А значит, появится возможность не только сравнить между собой камни компании разных поколений и противопоставить их какому-нибудь интеловскому процу, но и уделить больше внимания нюансам оверклокинга октакора. Так что начнем, как обычно, с теории.

Парк строительной техники

Но, прежде чем углубиться в созерцание и анализ содержимого «вафель», сперва, пожалуй, стоит посмотреть на табличку, в которой расписаны ТТХ всех четырех процессоров, которым выпало отстаивать честь AMD осенью 2011 года. Старшие восьмиядерные модели уже кряхтят под азотом в тестовых лабораториях, шести — и четырехъядерники, появление которых неизбежно в условиях отладки производства и выхода части кристаллов с дефектными ядрами или кэшем, будут выбрасываться на прилавки по велению маркетологов. Как видим, работает проверенная годами схема освоения рынка: сначала насыщается серверный и «верхний» десктопный сегмент, а бюджетные модели «возникают» по мере надобности в них.

Из таблицы можно сделать несколько любопытных наблюдений. Посмотрите, вновь вытащен из забвения суффикс «FX»во времена Athlon им наделялись самые шустрые десктопные процы, что как бы подтверждает слова первого абзаца: харизмой их начали накачивать еще до начала массовых продаж. Взгляните и на цену: AMD пока явно не собирается в высшую лигу. И пусть даже розничная цена по понятным причинам будет выше табличной, ближайшие конкуренты такой стоимости — Intel Core iS и, в случае с четырехъядерными моделями, Intel Core i3. Также обратите внимание на отсутствие каких-либо строчек, касающихся GPU,его просто нет. А вы хотели к восьми ядрам еще и встроенную графику подселить? Шалуны! Ну а если серьезно, то тут маркетологи и инженеры проводят однозначно правильную политику: нужна HD — графика — обращайтесь к Llano, нужна вычислительная мощность — Bulldozer к вашим услугам. Наличие обязательного встроенного видеоядра в любом проце Intel Sandy Bridge в ряде случаев не только мне кажется ненужным обременением.

Есть и приятная новость: со временем, когда люди в белых халатах настроят станки так, что процент брака снизится, можно ожидать какой-то действенной технологии разблокировки ядер и кэша, аналогичной той, что была популярна во времена вторых Phenom с двумя и тремя ядрами, где для включения отрезанного достаточно было зайти в BIOS. Я думаю, что от такой простой возможности привлечь внимание тусовки оверклокеров к новым камням AMD вряд ли откажется, тем более что каких-либо препятствий для этого нет.

Тепловыделение и энергопотребление кажутся слишком высокими, все-таки 125 Вт — это не шутки, но, как только на ум приходят восемь работающих одновременно ядер, цифра уже не кажется чрезмерно высокой. Технологии CoolnQuiet также присутствуют, что дает экономию электроэнергии и упрощает требования к охлаждающей системе.

Осталась нераскрытой тайна двух строчек TurboBoost, но к ней мы еще вернемся.

Коммунальное хозяйство

Теперь давайте сковырнем крышку с процессора и взглянем на ядро через микроскоп. Как, у вас еще нет такого полезного прибора? Ну, тогда остается изучать новинку по фото. Видите испещренный «кварталами» рисунок? Вот это и есть ядро Bulldozer. Картинка чем-то напоминает QR — код — наверное, благодаря крупным квадратам по углам. Их четыре, поскольку вычислительные ядра в новом процессоре объединены попарно и образуют тем самым «модуль»ячейку, которая снабжена не только двумя не зависимыми друг от друга «сердечниками», но и общими, разделяемыми между ними ресурсами: кэшем L2, блоком вещественных вычислений и особым блоком Front End, о котором я расскажу чуть позже. Готовая ячейка здорово напоминает полный двухъядерный CPU, которых под крышкой ровнехонько четыре. Такая схема применена конструкторами потому, что им была поставлена задача сделать кристалл минимально возможного размера, распределив при этом общее количество транзисторов так, чтобы не тратить их на узлы, эффективность которых избыточна. Посмотрите в таблицу 1 снова: как видите, на размере кэша экономия не сказалась — все же грех жаловаться, имея в распоряжении по 8 Мбайт в «банках» L2 и L3. Зато отчетливо видно распределение кэш — памяти L2 на четыре модуля, а кэш L3 — общий на весь кристалл. Так в чем же секрет, спросит внимательный читатель? А вот как раз в объединении ядер в пары, в которых каждый из участников тандема может пользоваться выделенной ему частью кэша L2, блока вещественных вычислений, а также общим блоком выборки и декодирования инструкций. Можно предположить, что это скажется на быстродействии, но практика показывает, что одновременное пользование всеми этими ресурсами двух ядер, а не одного не снижает скорости обработки команд. Профит в том, что, по заявлению AMD, такая «ячейка общества» имеет производительность на уровне 80% от оной у двухъядерного процессора при экономии общего числа транзисторов до 47%. Можно поздравить инженеров: 16 Мбайт кэша на восьми — ядерный процессор при относительно небольшой площади кристалла — это технологическая победа. Таблица 2 позволяет провести сравнительный анализ плотности компоновки элементов на кристаллах разных камней. Простейшие расчеты показывают, что при вдвое большем количестве ядер, чем у Intel Sandy Bridge, процы AMD Bulldozer имеют кристалл всего лишь на 46% большего размера. А размеры кристалла прямо влияют на конечную стоимость процессора.

Если сравнивать технологию Intel Hyper — Threading с решением AMD по интеграции ядер в «модули», можно отметить некоторое сходство. И там и там могут обрабатываться восемь вычислительных потоков одновременно, только способы выполнения этой задачи кардинально противоположные. У Intel на два потока выделен один исполнитель, у AMD каждый поток обрабатывает физическое ядро, пусть и усеченное по «обвязке». Представьте себя на местах обоих ядер: наверное, в том офисе, где на вас свалятся дела вашего занятого чем-то срочным коллеги, итоговая производительность будет низкой. А с помощником, пусть даже имея в распоряжении один принтер на двоих, вы выполните намного больше задач. Опять же, со слов AMD, только этим обеспечивается рост быстродействия на 80% при переходе на 8 — поточные вычисления против 15% при применении Intel Hyper — Threading.

Логика выполнения команд

Как показывает жизнь, увеличивая только частоту и количество ядер, недолго оказаться в аутсайдерах. Так было с пресловутым Prescott, примерно то же самое показал и AMD Phenom II Х6, не выигрывая у четырехъядерного Intel Sandy Bridge ни одного раунда, несмотря на дополнительные два ядра. Главное — сделать так, чтобы вычислительные устройства не простаивали в ожидании команды. Эта задача возложена на тот самый блок Front End, о котором я говорил выше. В нем чрезвычайно много нововведений в сравнении с аналогичным устройством процессора семейства К10. Во-первых, увеличена точность предсказания ветвлений и переходов, что повысит скорость подачи данных к ядрам из запоминающих устройств, к которым относятся кэши и оперативка. Значительно прокачан и декодер, «переводящий» команды на «язык», понятный вычислительным устройствам: теперь он четы — рехпоточный, как в архитектуре Intel Core. Все это, безусловно, поспособствует ускорению новых процессоров. А как же наша «коммуналка»? Ведь теперь на блок

Front End ложится работа по обеспечению данными сразу двух вычислительных устройств, и это может сильно его замедлить. Насколько — смогут показать только практические тесты и сравнения с основным конкурентом, Sandy Bridge.

FPU, или вычисления с плавающей запятой

Это еще одна козырная карта AMD, используя которую инженеры надеются когда-нибудь добиться паритета с Intel. Основой блока FPU являются два FMAC — устрой — ства разрядностью 128 бит. Отличие их от аналогов в К10 заключается в универсальности: если раньше за разные операции, например сложение и умножение, отвечали разные блоки, то теперь они равноценны. Для выполнения 256 — битных команд они могут объединяться либо обслуживать каждое из ядер модуля самостоятельно. Теперь в распоряжении конструкторов полностью симметричная схема, и AMD вправе гордиться собой. Блок FPU является очень важным звеном в работе любого процессора, и в сравнении с К10 именно здесь добавлено много нововведений.

Снова кэш — память и северный мост

Если улучшения в блоке Front End, что называется, налицо, то со скоростью обмена данными с кэшем по шине все выглядит не очень радужно. Во-первых, шина эта 128 — битная, точно та же, что была использована в процах К10. Но главный минус ее не в этом, а в увеличенной вдвое латентности, что позволило поднять тактовую частоту, не рискуя надежностью. В переводе на русский это означает, что инженеры AMD посчитали вклад вычислений на более высокой тактовой частоте более весомым, чем вклад быстрого кэша с короткими задержками. Не стоит забывать и о том, что 1_3 — кэш традиционно для AMD работает не на частоте вычислительного ядра, а синхронно с северным мостом, то есть на 2,0-2,2 ГГц в зависимости от модели процессора. У Intel Sandy Bridge такой дифференциации нет, и кэши, как и контроллер северного моста, трудятся на частоте процессора. Контроллер памяти нового камня не претерпел каких-либо существенных изменений относительно его коллеги из К10: как и прежде, он двухканальный, а максимальная частота выросла с 1600 до 1866 МГц.

Если подвести промежуточный итог по кэшам, то можно сказать следующее. Изменения в кэше L2 очень весомы, но их преимущества могут быть утеряны из-за двойной нагрузки, они неоднозначны. Работа с кэшем L3 не станет быстрее из-за узкой шины и высокой латентности. Видно, что многое поставлено на карту многозадачных параллельных вычислений, и конечная производительность процессора при такой организации обработки данных просто обязана зависеть от программного обеспечения — от того, насколько оно окажется способным разделять свои потребности на несколько потоков.

Двухступенчатый «турборежим»

Ну вот я дошел и до двух строчек «турбо» в таблице. Поднимать частоту процессора в зависимости от реальной нагрузки умели еще и шестиядерные AMD Phenom II с ядрами Thuban, в Bulldozer же эти умения были дополнительно развиты. В том случае, если не все вычислительные модули заняты, частота камня динамически поднимается с 3,6 до 3,9 ГГц. При условии, что часть ядер простаивает, а энергопотребление не превышает расчетного по TDP, частота еще увеличивается и составляет целых 4,2 ГГц в режиме Max Turbo Core. Обесточиваются ядра не по одному, а вместе, вместе с ними засыпает и соответствующий им «кусок» кэша L2. Алгоритм теперь разрешает поднимать напряжение питания и частоту даже при работе всех четырех вычислительных модулей, при условии что энергопотребление еще не достигло своего предела. А пределы изменений в 900 МГц выглядят солидно.

Заключения и выводы

Когда я посмотрел изображения структуры ядра, я был крайне удивлен. Ничего похожего не было не только в К10, но и в Llano, вышедшем совсем недавно. Наработки инженеров Intel хоть по результатам пока и явно превосходят труды эйэмдишников, по крайней мере в плане тактовой частоты отдельных блоков, по сути сделаны давным-давно, а здесь перед нами совершенно новый, революционный подход к вычислениям. Другой вопрос, кому сейчас нужны восемь ядер? Имеющихся шести, даже четырех, хватит для большинства обычных пользователей, а если их приложения еще и не сумеют распараллеливать потоки данных, может получиться совсем некрасивая ситуация, когда такой долгожданный камень пойдет по скорости «ноздря в ноздрю» с процем предыдущего поколения, который истоками относится к 1999 году.

Спрос, как обычно, будет определяться конечной магазинной ценой и отчасти интересом со стороны энтузиастов. Только кажется, что последних немного относительно общего числа потребителей, но удачный опыт с Phenom Black Edition показывает, что их не так уж и мало. И к этому AMD подготовилась уже сейчас. Никаких ограничений по разгону нет, множитель открыт, можно настраивать параметры Turbo Core и частоту шины. В этом аспекте AMD FX смотрится намного выгоднее, чем Intel.

Имеющиеся данные из зарубежных лабораторий, в которых уже успели помучить новинку, говорят о достаточно беспроблемном покорении частот 4,5-4,8 ГГц при относительно доступном охлаждении, по опыту можно надеяться на еще более жесткий разгон при выходе новых ревизий процессоров. Все. Дальше рассуждать о кем-то проведенном разгоне смысла не вижу. Нужно все попробовать самостоятельно, а в этом номере места уже нет. За сим и прощаюсь. На недельку…

Почему такой шум и гам?

Долгожданный выход Bulldozer — это не просто анонс нового процессора или да же нескольких процессоров. В первую очередь событие следует рассматривать как веху, с которой начинают проступать контуры будущих изделий AMD. Ведь, не имея возможности так часто обновлять микроархитектуру и техпроцесс, как Intel, AMD сегодня фактически приоткрыла завесу тайны над тем, чего нам стоит ждать в будущем. Роадмапы показывают стратегию на три года вперед, согласно которой Bulldozer будет и развиваться в сектор мобильных решений, и наращивать мускулы в десктопном сегменте. Уже достаточно скоро начнется вытеснение устаревших ядер микроархитектуры К10 в процессорах семейства Llano, которые в момент релиза мозолили глаз, выглядя как седло на корове.

Но есть и тревожные моменты. Если взглянуть на план развития процессоров, согласно которому нам в 2014 году обещают выкатить целый Excavator, настораживает заявленная цифра прироста производительности: 10-15% в год. Поясню. Мне это говорит о том, что каких-то суперпроцев нам не видать как своих ушей, а развитие будет осуществляться экстенсивным способом: в основном наращиванием тактовой частоты и «полировкой» структуры кристаллов уже разработанных камней. Учитывая, что Intel имеет возможность раз в два года менять микроархитектуру и уже сейчас целится на покорение 22 — нанометрового техпроцесса, это слишком маленький рост. AMD пока остается в роли догоняющей и, судя по тому, что нам показали, будет ею еще достаточно долгое время. Если, конечно, не случится какого-то технологического чуда.