Меню

Архитектуры intel процессоров: Текущая архитектура настольных процессоров Intel настолько старая, что следующая принесёт прирост IPC на 35-50%. Речь об Alder Lake

Содержание

Текущая архитектура настольных процессоров Intel настолько старая, что следующая принесёт прирост IPC на 35-50%. Речь об Alder Lake

В начале следующего года компания Intel представит настольные процессоры Rocket Lake. В конце 2021 либо в начале 2022 года, что вероятнее, будут выпущены совершенно новые Alder Lake. Они наконец-то принесут в настольный сегмент 10-нанометровый техпроцесс, а заодно станут первыми настольными гетерогенными CPU Intel.  

Согласно свежим утечкам, показатель выполняемых за такт инструкций (IPC) относительно архитектуры Skylake вырастет на невероятные 35-50%, а относительно самой современной на данный момент архитектуры Willow Cove (процессоры Tiger Lake) она вырастет на 10-20%, что тоже очень много. 

Правда, как известно, такие CPU получат только до восьми больших ядер и до восьми маленьких. Так что пока совершенно неясно, как такие гибридные 16-ядерные модели смогут конкурировать с полноценными 16-ядерными монстрами AMD. К тому же в 2022 году AMD вполне может ещё больше нарастить количество ядер в настольных CPU. 

Что касается конфигураций, источник говорит о следующих: 

  • Core i9 — 8/16+8 (8 больших ядер с поддержкой Hyper-Threadgin плюс восемь маленьких) 
  • Core i7 — 8/16+4 
  • Core i5 — 6/12+4 
  • Core i3 — 6/12+0 

Что интересно, даже такие необычные процессоры будут основаны на монолитных кристаллах, что вряд ли позволит Intel особо снижать цены. 

Что касается дальнейших планов Intel, о них известно намного меньше. После процессоров Adler Lake должны выйти CPU Meteor Lake, которые сохранят сокет LGA1700, перейдут на техпроцесс 7 нм и архитектуру Redwood Cove (название не подтверждено). Есть слухи, что Meteor Lake будут не просто новым поколением, а во многом первым. В них Intel откажется от некоторых старых технологий, их архитектура будет универсальной с точки зрения производства, то есть выпускать эти CPU смогут и другие компании.

 

После этих CPU в планах Intel значатся модели Lunar Lake, ожидающиеся в 2023-2024 году. О них пока подробностей нет.  

История развития десктопных процессоров Intel — i2HARD

История учит нас, что за большими свершениями часто стоят маленькие люди. Пользуясь интернетом, сложно было представить, что идея его зародилась у одного человека. А ещё сложней понять, что персональный компьютер ещё недавно был размером с комнату и даже не одну. И только спустя десятилетия, пройдя череду ошибок и неудач, мы получили одно из величайших достижений человечества — микропроцессор.

Данный материал будет посвящён пути одной из компании, чьи процессоры по сей день радуют своих покупателей — INTEL.

Глава 1. Начало

Человечество испокон веков пыталось облегчить себе труд, особенно в области вычислений, где нельзя было воспользоваться грубой силой и требовался особый подход. Начиная с палочек “Непера”, логарифмической линейки и арифмометра, механические вычислительные машины стали вытесняться более современными компьютерами на электровакуумных лампах, но всё изменилось с изобретением транзистора.

«Вероломная восьмерка» — эпитет, с которого ещё в далёком 1968 году и началась долгая история компании «Intel». Восемь сотрудников, а по существу инженеров, работающих с 1957 года в компании «Fairchild semiconductor» с кремниевыми транзисторами, решили уйти, а после основать свою собственную компанию. Хотя сразу после образования компания и называлась «NM Electroronics», прижиться названию не удалась. За привычное нам сокращение стоит поблагодарить Гордома Мура — одного из восьми основателей, который предложил использовать название «Integral Electronics», а после сокращения привычное нам «Intel».

Вскоре в команду добавился новый член — Энди Гроув, также бывший работник «Fairchild», разработчик, известный благодаря появлению метода OKR, используемого в менеджменте для управления проектами.

Компании не хватало денег, поэтому для получения кредита был написан бизнес-план размером всего в один печатный лист, который в дальнейшем и помог получить начальный капитал. Успех больших корпораций всегда начинается с малого. 


В первую очередь Гордон Эрл Мур известен как основатель корпорации «Intel», а также как «создатель» закона, названного в свою же честь. В 1965 году был опубликован первоначальный вариант “закона Мура”, который гласил, что количество транзисторов в кристалле микропроцессора будет удваиваться каждый год. Но уже в 1967 увеличил продолжительно его на каждые два года. Но и это был не последний вариант, далее он сократил его до 18 месяцев. Хотя в реальности развитие пошло по другому пути и в 2007 году Мур сообщил о невозможности его исполнений, что не помешало данному закону стать знаковым.

Работа закипела. Но началась она не с процессоров, а с полупроводниковой памяти, которая на то время была слишком дорогой. Разработчики массово пользовались дешевой памятью на магнитных сердечниках. Тогда же Роберт Нойс сказал: «Нам нужно снизить стоимость в сто раз и этим завоевать рынок». Этому и суждено было сбыться. Компания стала расти и уже насчитывала более ста сотрудников. Успех в данном направление был замечен японским производителем калькуляторов «Busicom», сделавшим заказ на изготовление микросхем. И в 1971 году свет увидела первая 4-хбитная микросхема «Intel» 4004, права на которую оставались у заказчика. Поняв что за этим будущее, компания решила выкупить их и заплатила огромные по тем временам деньги. В 1978 году был выпущен уже 16-битный микропроцессор со знакомой нам архитектурой x86, а в 1989 году был представлен «Intel» 80486, ставший первым процессором, который оборудован модулем для операций с плавающей точкой. На то время число сотрудников уже насчитывало более 15000 человек.

Для общего развития изучим строение материнской платы персонального компьютера тех времён. Это была печатная плата с набором микросхем, что в совокупности называют набором системной логики или чипсетом. Центральное место занимал процессорный сокет, с которым связь осуществлялась посредством системной шины (FSB). К ней же был подключен генератор тактовых импульсов, формирующий заданную частоту. Сам же чипсет представлял собой северный и южный мост, соединенный внутренней шиной. Первый из них служил для связи с видеокартой посредством высокоскоростной шины PCI-Express (в прошлом AGP) и слотами оперативной памяти. С южного моста была связана шина PCI, звуковой контроллер, сетевая карта и последовательный интерфейс. Так же к нему посредством шины LPC подключалась микросхема BIOS, хранившая набор микропрограмм для работы с аппаратурой компьютера, его устройствами и I/O controller hub (ICH) для работы периферийных устройств. Впоследствии северный мост и генератор тактовых импульсов переехали в процессор, а роль южного моста стал исполнять Platform Controller Hub.

Глава 2. Реклама — двигатель прогресса

Шёл 1993 год, стоимость процессора настолько снизилась, что персональный компьютер уже не казался роскошью. Вливание больших денег в программу «Intel Inside”, существующей и в наши дни, позволило добиться известности среди простых пользователей, а реклама стала появляться на телеэкране. Синий цвет букв на белом фоне с тех пор стал визитной карточкой компании. Но разработка не прекращалась. Появление линейки Pentium было омрачено аппаратной ошибкой, из-за которой пришлось поменять все бракованные процессоры на новые. Зато данная линейка была на основе новой суперскалярной архитектуры, возможностью которой стало выполнение нескольких инструкций за такт, что увеличивало производительность до пяти раз.

Следующим процессором стал Intel Pentium Pro P6, который запомнился появлением кэш памяти L2, расположенной на отдельном кристалле. Экспериментируя, компания выпускает Pentium II — новый вид процессоров с отдельным слотом, куда вставлялся кэш L2. Наконец в 1999 году компания выпускает Intel Pentium III. Из его особенностей можно выделить частоту до 1133 МГц (это был первый процессор, перешагнувший планку 1 ГГц), а также добавление набора инструкций SSE. Следом выходит Pentium 4, где была опробована технология Hyper-Threading, позволяющая одному ядру исполнять два потока данных. Она хоть и позволяла ускорить обработку данных, но работала в программах, которые были написаны под эту способность и оказалась почти бесполезной для простых пользователей.

Следующим этапом развития стал 2003, когда в процессоры добавляются наборы команд x86-64. Из-за трудностей их создания было решено лицензировать уже готовые 64-битные расширения команд, разработанные AMD. До этого момента процессоры для массового пользования были одноядерные, что ограничивало их производительность сложностью в наращивании частот. Поэтому в 2005 году с конвейеров сходит Intel Pentium D, прозванный в народе двухъядерным монстром из-за горячего нрава (очень горячий) и получивший два кристалла на одной подложке и 90-нм техпроцесс.

Глава 3. Тик-так, тик-так

На следующий 2006 год “Intel” представила стратегию «Тик-так», которая заключалась в делении разработки процессоров на две стадии. «Тик» означал уменьшение технологического процесса на текущий архитектуре, а «так» — выпуск новой архитектуры на прежнем техпроцессе.

Также была представлена архитектура “Intel Core» восьмого поколения процессоров, в котором уже два ядра смогли уместить на одном кристалле. Техпроцесс при этом был уже 65-нм, и компания сделала ставку на эффективность и увеличение ядер. На следующий год выходит уже четырехъядерный Core 2 Quad с увеличенным L2 кешем до 8 Мб. В 2008 выпущена новая архитектура Intel Nehalem уже на 45-нм, которая пусть и основана на прошлой, но имеет значительные изменения. Среди них — встроенный контроллер на 2 или 3 канала DDR3 памяти, добавление L3 кеша и видеоядра. Появилась последовательная шина Direct Media Interface (DMI) первого поколения, которая разработана собственными силами «Intel», позволяющая передавать данные со скоростью 1 Гб/с в обе стороны (но в реальности она была заметно ниже). Тогда же был представлен Platform Controller Hub ( PCH ) — набор микросхем, выполнявших роль южного моста, северный же с тех пор переехал в процессор.

 

Глава 4. Народный успех

Следующим заметным шагом в истории стал выпуск новой микроархитектуры “Sandy Bridge” («Так») уже на новом 32-нм технологическом процессе в 2011 году и сокета LGA 1155. Большим прогрессом стало увеличение до 20% роста IPC, что в купе с ростом частотного потенциала выливалось уже в 30-40% превосходства в разных задачах над “Nehalem”. Впервые появился L0 кеш, улучшена точность предсказателя переходов, введена поддержка AVX инструкций, а встроенное видеоядро получило технологию Quick Sync для ускорения видеообработки. Была представлена вторая версии шины DMI 2.0, служившая для соединения процессора с PCH микросхемой на скорости до 2 Гб/с в обе стороны. Интегрированный в процессор двухканальный контроллер памяти работал на частоте до 1333 МГц. Каждое ядро получило по 32 Кб первого, 256 Кб второго и до 8 Мб общего кэша третьего уровня.

Для требовательных пользователей компания выпустила серию процессоров под маркой Core i7, которые имели уже до 15 Мб L3 кэша и поддержку четырёх каналов памяти с частотой 1600 МГц. Теперь же процессоры могли разгонятся дополнительно сверх номинальных частот с помощью технологии Turbo Boost 2.0, которая отслеживала нагрузку и в зависимости от этого увеличивала частоту загруженных ядер. Тогда же появилось разделение на простых пользователей и энтузиастов, которые могли покупать особые версии с литерой “К”, имевшие разблокированный множитель, что позволяло с рабочих 3700 МГц на модели 2500К поднять до безумных на то время 5000 МГц при воздушном охлаждении. Такие возможности давала пайка теплораспредительной крышки к кристаллу, что в дальнейшем поменялось не в лучшую сторону. Просуществовав всего год, компания предложила на рынок улучшенную версию прежний архитектуры.

Глава 5. Закрепляй

В феврале 2012 года на рынке появляется “Ivy Bridge” (“Тик”) уже на 22-нм техпроцессе с применением новых трёхмерных FinFET-транзисторов, которые должны были снизить энергопотребление, но из-за снижения размера самого кристалла вызвало повышенный нагрев. Кроме этого значимых изменений архитектура не получила. Сокет при этом остался прежним, как и совместимость со всеми выпущенными ранее материнскими платами, требовалось только обновить BIOS, что порадовало покупателей. Кэш всех уровней остался прежним, а контроллер памяти стал поддерживать режим 1600 МГц, что положительно сказалось на производительности. Появилась поддержка PCI Express 2.0, удвоившая пропускную способность линии. Встроенное ядро обновилось до третьего поколения Quick Sync, ставшее до 70% быстрее, чем в Sandy Bridge.

Это давало увеличение производительности на 2-5% и до 12% в криптографических приложениях относительно все того же Sandy Bridge. Но главный недостаток пришёл откуда не ждали. Ради экономии было решено отказаться от бесфлюсовой пайки и перейти  на копеечную термопасту, которая еще долго оставалась под крышками процессоров “Интел”. Частота в бусте держалась на уровне 3.9 ГГц по всем ядрам. Разгон же процессоров с разблокированным множителем теперь стал более приземлённым и получение 4500-4600 МГц было уже успехом. Но даже более низкие частоты не могли компенсировать горячий нрав, что выливалось покупкой более дорогих систем охлаждения. 

В середине 2013 года выходит уже четвертое поколение “Intel Core” на архитектуре Haswell с использованием тех же транзисторов с трехмерным затвором. Техпроцесс не изменился и составил 22-нм, что было по плану разработки. Процессоры вышли на новый LGA 1150 сокет и принесли довольно значимые изменения. Среди них был полностью переработан дизайн кэша, улучшена выборка и ветка предсказаний, оптимизированы механизмы энергосбережения, а также добавлен набор инструкций AVX2. Контроллер памяти остался прежним и поддерживал два канала с частотой 1600 МГц. Но главной особенностью стало размещение на кристалле регулятора напряжения, что по мнению компании должно было в лучшую сторону отразится на энергопотреблении. Все эти изменения на бумаге должны были ускорить производительность до 30%, но по факту выливалось во все те же 2-5%. Одним из факторов столь низких результатов стал доставшийся по наследству от “Ivy Bridge” декодер x86-кода. Частотный потенциал тоже не изменился и держался на уровне 3.9 ГГц в турбобусте без ручного разгона.

Беда пришла откуда не ждали. Трудности перехода на новый техпроцесс вынудили компанию на следующий год выпустить по второму кругу прошлую линейку “Haswell Refresh”. Суть изменений полностью отражает название, ничего нового кроме увеличения на 100-200 МГц она не принесла. Сокет оставался прежним и для работы могло требоваться только обновление BIOS. Также была представлена топовая линейка “Devil’s Canyon” процессоров, имевших более высокие частотные показатели и державших частоту в бусте до 4.4 ГГц и пару новых чипсетов, основной сутью которых была поддержка следующего поколения.

Глава 6. Переходные трудности

Испытывая трудности с переходом на 14-нм техпроцесс, компания выпускает пятое поколение прцессоров “Broadwell”. Домашний сегмент компьютеров получает их в 2015 году, хотя мобильные версии вышли годом ранее. Сокет хоть и остался прежним, но для работы требовались материнские платы на чипсетах H97 и Z97, получившие улучшенную систему питания. Самым заметным изменением стал четвертый уровень L4 кэша на отдельном кристалле, который имел 128 Мб и делился между процессором и графическим ядром. Его пропускная способность могла достигать 102 Гб/с при 256-битной шине, что должно было положительно сказаться при обработке больших баз данных, но при этом L3 кэш пришлось урезать с 8 до 6 Мб, хотя каких-то заметных ухудшений это не принесло. Сама же архитектура получила увеличенное окно планировщика, скорость операций умножения и деления также возросла. Все это принесло до 5% повышения производительности по сравнению с Haswell на одной частоте. Хотя частота — это болезненная тема данного поколения, ведь теперь даже в турборежиме она не превышала 3.7 ГГц, а при ручном разгоне предел уже был 4.2 ГГц.

Спустя всего три месяца в том же 2015 году выходит уже шестое поколение Skylake на новом LGA1151 сокете, сохранившем 14-нм технологический процесс. Сама же архитектура подверглась глубоким изменениям и получила увеличенный внутренний буфер, был усовершенствован блок предсказаний переходов, скорость L2 и L3 кэша выросла при снижениях задержки, объем его при этом остался прежним , а также скорость кольцевой шины, связывающей процессорные ядра, была увеличена вдвое.

Теперь процессоры работали с новой DDR4 памятью с заявленной частотой 2133 МГц, хотя ещё и сохранялась возможность использования DDR3 памяти, но ограничивало её напряжение 1.35 V, так как более высокое могло повредить встроенный контроллер памяти. Частота подросла и авторазгон держал уже 4.2 ГГц, хотя это и было меньше, чем в линейке “Devil’s Canyon”. Шина DMI получила версию 3.0, что принесло почти двукратное увеличение производительности до 3.9 Гб/с в обоих направлениях. Выросла и PCI Express 3.0, также получившая двухкратное увеличение скорости, при этом сохранившая совместимость с предыдущими версиями. Серьезные изменения позволили ускорить Skylake до 8% по сравнению с поколением Haswell на такт. Надо отметить, что небольшая часть процессоров имела аппаратную ошибку, приводящую к зависанию при сложных вычислениях, но оперативно была исправлена выпуском обновления микрокода BIOS.

Самое интересное заключалось в том, что на платформе 1151 официально была возвращена возможность изменения тактовой частоты генератора, о чем только можно было мечтать с 2011 года, когда разгон процессоров без индекса “К” был невозможен. Теперь любой процессор можно было подвергнуть разгону, даже если изначально для этого он не подходил. Хотя по началу “Intel” и заблокировала данную способность, но производители материнских плат быстро выпустили прошивки, разблокировавшие эту технологию для всех. Как мы знаем, частота процессора строится из умножения двух параметров: множителя и базовой частоты (BCLK). В прошлых поколениях эта частота была привязана ко многим другим шинам системы, что делало её нестабильной даже при увеличении на 2-3 такта. В “Skylake” инженеры отвязали её, оставив только подвязанными ядра, кэш и встроенную графику, что позволило добиться стабильности, хотя и не без минусов. Во-первых, перестала отслеживаться температура ядер и все функции энергосбережений, также перестали работать технологии разгона. Под раздачу попадет и графическое ядро с невозможностью установить драйвера. И не столь существенные для геймеров AVX/AVX2 инструкции начинают работать в полсилы. Теперь даже самый дешёвый процессор можно было разогнать до 4.5 ГГц при хорошей системе охлаждения.

Глава 7. Перевыпускай

Выход следующего поколения оказался не таким радужным для компании. Испытывая сложности с переходом на более низкий 10-нм техпроцесс и застой у конкурентов, было решено отказаться от текущей системы разработки “тик-так”. В 2017 году выходит Kaby Lake на том же 14+ нм техпроцессе — плюс в названии показывает обновление, направленное на внутреннюю компоновку, включая увеличение рёбер транзисторов и расстояния между ними. Хотя это и уменьшало токи утечки, частота выросла на пару сотен мегагерц и в бусте держалась на отметке 4.5 Ггц, а при ручном разгоне —  все 4.8 ГГц. Хотя контроллер памяти и стал поддерживать уже частоту 2400 МГц, сами же процессоры обошлись без серьёзных изменений и предлагали ту же производительность на такт.

Для энтузиастов ещё оставался разгон по шине, хотя и давал куда меньшие частоты. И пока основная масса процессоров «Intel» для домашнего сегмента была четырехъядерная, рынок уже стал наполняться шести- и более ядерными процессорами. Следуя новым тенденциям, компания делает первые шаги в этом направлении.

Уже зимой того же 2017 года появляется “Coffee Lake” — восьмое поколение процессоров, работающих на новом Z370 чипсете. Оправданием перехода стало увеличение требований для системы питания. Хотя сокет и оставался прежним, но в народе получил обозначение 1151v2 из-за несовместимости с прошлой линейкой процессоров для 1151. Традиционно техпроцесс остаётся без изменений и это всё те же 14++нм. Второй плюс появился за счет оптимизации полупроводников кристалла, что дало улучшение тепловых и частотных показателей, хотя технологический процесс оставался прежним. Контроллер памяти стал работать уже на DDR4-2667 частоте. 

Теперь для массового сегмента компания представляет шестиядерные процессоры, работающие на частоте 4.7 ГГц в бусте, а с разгоном вручную — все 5.0 ГГц. Увеличение коснулось и L3 кэша, которого стало на 2 Мб больше за каждое ядро и в сумме давало 12 Мб. Дополнительные ядра заметно ускорили производительность, хотя на такт она осталась прежней со времён “Skylake”. Заметным прогрессом стало увеличение количества ядер при том же тепловом пакете. Для ценителей была выпущена модель 8086K, которая уже из коробки работала на частоте 5.0 Ггц, что делало её первым процессором, который достиг таких высот без ручного разгона. 

Всё шло замечательно, пока в 2018 не грянул гром. Специалисты по безопасности из нескольких IT компаний обнаружили, что процессоры «Intel» имеют аппаратную уязвимость, которая позволяла злоумышленникам получить несанкционированный доступ на чтение памяти, используемой ядром операционной системы пользователя, названную “Meltdown”. Как мы знаем, беда не приходит одна, и тут же ими была представлена “Spectre” уязвимость, которой теперь была не нужна память ядра, она сама с помощью ветвления предсказаний читала данные атакуемого приложения, через которое получала доступ к произвольным местам памяти других приложений или проникала из одного приложения в другое, обходя изоляцию памяти между ними. Также имелась возможность с помощью JavaScript-программы получить доступ к памяти браузера, что позволяло получить данные, сохранённые в нём.

Для борьбы с данными эксплойтами на операционные системы выходят обновления, частично убирающие лазейки в них, а для программного обеспечения — новый компилятор с заменой уязвимого кода. Сам же «Intel» выпускает обновление BIOS, направленное на исправление уязвимости и сообщает, что следующая линейка процессоров будет полностью лишена их.

Хотя данные меры и были направлены на исправления ситуации, результат оказался не таким радужным. Были представлены публичные тесты, где скорость обработки после данных исправлений падала до 15%, а некоторых случаях приходилось отключать hyper-threading, что почти в половину замедляло процессор. Из хороших новостей стало известно, что игровая производительность почти не пострадала из-за этого.

Под конец 2018 года был представлен “Coffee Lake Refresh” — третья вариация на тему архитектуры Skylake. Хотя глобальных изменений она и не получила, но прибавила в частотах. А самое важное стало возвращение бесфлюсового припоя под теплораспределительную крышку. И хотя это было сделано только для процессоров с индексом “К”, общественность приняла данную инициативу на ура. Это должно было уменьшить температуру и поднять разгонный потенциал на том же 14++нм техпроцессе. Теперь уже флагманский чип обладал не шестью, а восемью ядрами, способными работать на частоте 5.0 ГГц. Для любителей разгона хороших новостей было мало, дальнейший рост требовал повышения напряжения, приводящего к перегреву и огромному энергопотреблению, что делало данный процесс нецелесообразным.

Глава.8 Наши дни

Спустя два года в 2020 году выходит линейка “Comet Lake”. Это последнее поколение на 14++нм техпроцессе, которое уже изрядно надоело и в последнее время предлагало только увеличение численности ядер без заметных улучшений архитектуры. Производительность на такт уже третье поколение не менялось и весь прогресс был в наращивание ядер. Самым важным изменением стало появление Hyper-Threading почти на всех процессорах.

Топовый сегмент получил новую систему авторазгона Thermal Velocity Boost (TVB), которая ещё больше, чем Turbo Boost 3.0 повышала частоту процессора, если температура его не превышала 70 градусов. Теперь обладатели более дорогих систем охлаждения получали не только низкую температуру работы, но и более высокую частоту, а это — немалые 5.3 ГГц, которые процессор может удерживать при работе одного ядра или 4.9 ГГц для всех. Частоту памяти установили на уровне DDR4-2933 для i9/i7, остальные довольствовались только 2666, но и это лучше чем 2400 для i3, как было в прошлом поколении. Кэш L3 остался 2 Мб на ядро и достигал 20 Мб для десятиядерных процессоров. Для сдерживания роста температур компания продолжила использование припоя и увеличила толщину теплораспределительной крышки. Любителям разгона дали возможность индивидуального отключения Hyper-Threading для каждого из ядер. Оверклокерам предложили воспользоваться страховкой, дающей право один раз поменять процессор со свободным множителем, который вышел из строя, доплатив всего 20$ к его стоимости.

Глава без цифры

Подводя итог написанному, можно заметить как бурный технологический рост в начале сменился застоем последнего времени. Быстрая смена техпроцессов переросла в оптимизацию и наращивание многоядерности без серьёзных изменений архитектуры. Сохраняя лидерство многие годы, компания переставала вносить какие-либо серьёзные изменения и занималась перевыпуском процессоров под новыми названиями, начиная с долгоживущих сокетов, как например 775, который на протяжение пяти лет (с 2004 по 2008 год) оставался актуальным и не требовал смены материнской платы. С 2009 года все последующие сокеты были актуальны уже не более трех лет. Рассматривая промежуток между 2011 годом архитектуры Sandy Bridge и 2020 годом на Comet Lake, можно заметить, что увеличение производительности на такт выросло только до 18% в приложениях, не использующих технологии AVX, и только наращивание количества ядер дало ощутимый буст, которой без этого можно было и не заметить. Предложение повторного выпуска процессоров без заметных изменений, но требующих замену сокета и покупки новых материнских плат, только раздражало и вызывало недоумения покупателей. Сложности с уменьшением технологического процесса вынуждают компанию долгие годы оставаться на 14-нм литографии. Замена галлиевого припоя на более дешевую термопасту, вынудила энтузиастов заниматься скальпированием процессоров для замены термоинтерфейса на жидкий металл, позволяя отыграть не один десяток градусов. Это показывало хороший потанцевал процессоров, который был перечеркнут ради копеечной экономии. Нельзя забыть и скандал с уязвимостями, когда в экстренной мере пришлось закрывать дыры, снижая при этом производительность. Хотя она и падала не столь существенно, но всё же это отражалась на репутации. И теперь, спустя многие годы, компания стала исправлять допущенные ошибки прежних лет. Так, под теплораспределительную крышку вернулся припой, а технология Hyper-Threading появилась на всей линейке процессоров. Уже следующее поколение обещают перевести на новый 10-нм техпроцесс с обновлением архитектуры, что так долго ждали пользователи. Всё это позволяет с оптимизмом смотреть на будущее компания. Мне только остаётся пожелать ей успехов на поприще высоких технологий.

архитектура процессоров Intel Core одиннадцатого поколения / Процессоры и память

В начале сентября компания Intel представила одиннадцатое поколение мобильных процессоров Intel® Core™, которое до этого было известно под именем Tiger Lake. И этот анонс стал очень важной вехой для компании, поскольку в этих процессорах нашла воплощение критическая масса инноваций. Проще говоря, Tiger Lake представляют собой нечто большее, чем простое добавление дополнительных ядер или увеличение тактовых частот. В этом поколении Intel сделала существенные шаги сразу по многим направлениям, которые затронули и микроархитектуру, и техпроцесс.

Глобальная задача, которую компания хотела решить выпуском Tiger Lake, была очень проста: она хотела сделать процессор, который стал бы следующим после Ice Lake шагом в развитии 10-нм продуктов. Однако с учётом того, что к моменту выхода Tiger Lake в распоряжении Intel появился улучшенный 10-нм техпроцесс, эта задача решилась автоматически. Поэтому попутно перед инженерами были поставлены некоторые дополнительные и более сложные цели. И конечном итоге Tiger Lake стал не просто обновлённым Ice Lake, в котором проведена работа над ошибками. Фактически у Intel получилось сделать новый процессорный дизайн и провести в нём довольно масштабные нововведения.

В текущей реализации Tiger Lake собрано четыре ядра с кодовым именем Willow Cove и графическое ядро на базе 96 исполнительных устройств с архитектурой Xe-LP. Всё это выпускается с применением улучшенных 10-нм технологических норм, которые получили собственное название SuperFin. При этом, в отличие от предшественника, Tiger Lake нацелен на то, чтобы охватить все классы мобильных процессоров с тепловым пакетом от 7 до 65 Вт, а кроме того, он способен предложить заметно лучшую удельную производительность в пересчёте на ватт и к тому же приносит новые мультимедийные и ИИ-возможности.

Рассказать про это всё в двух словах вряд ли возможно, поскольку перемены слишком значительны, поэтому в рамках партнёрского проекта с Intel мы решили сделать отдельную статью, где ключевые улучшения будет описываться максимально подробно.

⇡#Техпроцесс 10 нм SuperFin

Технологический процесс с 10-нм нормами компания Intel эксплуатирует уже довольно давно, но в основном для производства чипов, ориентированных на мобильный сегмент (помимо мобильных процессоров по 10-нм техпроцессу выпускаются также ПЛИС семейства Intel Agilex™). При этом применяемая технология непрерывно развивается и уже достигла определённой зрелости. Именно оптимизация 10-нм техпроцесса и служит базисом дизайна Tiger Lake: появление на свет данного чипа – во многом результат внедрения технологии, которая у Intel называется термином 10 нм SuperFin. Речь идёт о новой версии 10-нм техпроцесса первого поколения, но Intel утверждает, что обновление довольно существенно и эффект от него сродни переходу на следующую ступень производственных норм. Чтобы наглядно проиллюстрировать это утверждение, Intel указывает, что по сравнению с прошлой версией 10-нм техпроцесса SuperFin обеспечивает рост производительности транзисторов примерно на 17-18 %. А это, в свою очередь, сравнимо с тем эффектом, который был получен за четыре последовательных обновления 14-нм техпроцесса (традиционно обозначаемых плюсами) в течение последних нескольких лет. В конечном итоге появление добавки SuperFin в названии 10-нм техпроцесса выливается в более широкий диапазон тактовых частот и напряжений, а также потенциально лучшую плотность расположения транзисторов на кристалле, которая достигается с применением того же самого производственного оборудования.

Все улучшения, которые даёт SuperFin, основываются на двух принципиальных изменениях в дизайне полупроводникового кристалла – они сделаны в слоях металлических соединений и в конструкции самих транзисторов.

Что касается металлических соединений, то на более низких уровнях Intel ввела в обиход новый барьерный материал, который позволил сократить толщину изолирующего слоя и протяжённость межслойных проводников, что в конечном итоге снизило их сопротивление примерно на 30 % и позволило нарастить скорость и точность передачи сигналов между металлическими слоями, а новая конструкция затворов транзисторов позволяет носителям заряда перемещаться быстрее.

На верхних уровнях Intel перешла на использование новых конденсаторов SuperMIM (металл — изолятор — металл), которые за счёт изменений в составе диэлектрика получили пятикратное увеличение ёмкости по сравнению с ранее применяемыми конденсаторами без изменения занимаемой ими площади. Это стало важным улучшением для оптимизации схем питания, в которых стало возможным использовать более низкие напряжения и менять их с большей точностью и частотой. Данный технологический прорыв Intel объясняет внедрением новых методов осаждения диэлектриков с высокой диэлектрической проницаемостью, позволяющих получать слои с толщиной менее 0,1 нм и комбинировать различные материалы между собой.

Попутно в самих транзисторах нашёл применение улучшенный FinFET-дизайн третьего поколения, характеризующийся увеличенным шагом между затворами и некими усовершенствованиями в техпроцессе, за счёт которых произошло снижение сопротивления канала открытого транзистора. Имея в виду именно эти изменения, Intel говорит об увеличении производительности транзисторов на 17-18 %.

Техпроцесс 10 нм SuperFin мог бы получить название 10 нм++, однако в последний момент Intel решила отказаться от этой терминологии во избежание путаницы, так как в какой-то момент она стала употреблять обозначение 10 нм+, имея при этом в виду всё те же нормы 10 нм++. Теперь же схема наименований упростилась. «Чистокровный» 10-нм техпроцесс – это тот процесс, по которому производится Ice Lake; 10 нм SuperFin – это улучшенный техпроцесс для Tiger Lake; а процессоры Cannon Lake, по всей видимости, следует считать выпущенными по предварительной «бета»-версии 10-нм технологии. Кстати говоря, Intel уже успела анонсировать и следующую после 10 нм SuperFin версию техпроцесса – она будет называться 10 нм Enhanced SuperFin.

⇡#Микроархитектура ядер Willow Cove

Новая микроархитектура вычислительных ядер процессоров Tiger Lake получила название Willow Cove. Она является дальнейшим развитием микроархитектуры Sunny Cove, которая впервые появилась в мобильных процессорах Ice Lake. Intel утверждает, что по сравнению с прошлыми ядрами новые вычислительные ядра могут обеспечить прирост производительности на 10-20 %, однако это утверждение, по всей видимости, относится не к показателю IPC (числу исполняемых за такт инструкций), а к обобщённой интегральной производительности, на которую оказывает влияние, в частности, и рост тактовой частоты.

В действительности же похоже, что микроархитектурных различий между Willow Cove и Sunny Cove не так много. По крайней мере, сама Intel указывает лишь на улучшения, связанные с изменением подсистемы кеш-памяти. В остальном перемены сводятся к появлению новых технологий обеспечения безопасности, а также к минорным изменениям в наборе поддерживаемых векторных инструкций. А это значит, что в программных алгоритмах, которые не чувствительны к латентности и объёму кеш-памяти второго и третьего уровня, каких-то заметных невооружённым глазом различий в производительности при одинаковой тактовой частоте у Willow Cove и Sunny Cove нет.

Однако это не должно стать поводом для разочарования. Появившаяся в процессорах Ice Lake чуть более года назад микроархитектура Sunny Cove стала очень серьёзным шагом вперёд по сравнению с Skylake – она одномоментно подняла удельную производительность ядер Intel на величину порядка 18 %. И это значит, что подобное серьёзное преимущество перед микроархитектурой Skylake унаследовано и в Willow Cove.

Среднее преимущество Sunny Cove перед Skylake на одинаковой тактовой частоте – 18 %

В Sunny Cove улучшения затронули все части исполнительного конвейера, но тем не менее этот дизайн скорее похож на усовершенствованную версию Skylake, чем на кардинальную переработку прошлой микроархитектуры. Во входной части конвейера Sunny Cove улучшения затронули алгоритмы предварительной выборки инструкций и предсказания ветвлений, которые были перебалансированы с прицелом на нагрузки, свойственные ПК. Вместе с тем увеличился в объёме кеш микроопераций, объём которого вырос с 1500 до 2250 записей. Кроме того, обновлённый кеш микроопераций теперь получил возможность выдавать в очередь на исполнение по шесть микроопераций за такт, в то время как классические декодеры в Sunny Cove работают с тем же темпом, что и ранее, – по пять микроопераций за такт.

Далее, более чем в полтора раза была увеличена глубина очереди переупорядочивания инструкций, что должно поспособствовать более эффективной загрузке исполнительных устройств. А сам исполнительный домен Sunny Cove получил два дополнительных порта, что сделало возможным отправлять на исполнение по десять микроопераций за такт вместо восьми в микроархитектуре Skylake. Благодаря этому в Sunny Cove стало больше на один блок генерации адресов и на один блок сохранения данных, и в конечном итоге это конвертируется в удвоение пропускной способности L1-кеша данных при записи, который к тому же в новых ядрах вырос в объёме в полтора раза.

Хотя, как было сказано выше, никаких качественных изменений в микроархитектуре при переходе от Sunny Cove к более новому дизайну Willow Cove не произошло, для наращивания производительности были задействованы другие ресурсы, которые всё равно положительно повлияли на интегральный показатель производительности процессоров Tiger Lake. В первую очередь ускорение было достигнуто теми средствами, которые предоставил усовершенствованный техпроцесс 10 нм SuperFin.

Благодаря улучшению свойств транзисторов и применению при проектировании полупроводникового кристалла новых библиотек, Intel смогла увеличить эффективность дизайна ядер Willow Cove. Это вылилось, с одной стороны, в снижение тепловыделения, а с другой – в увеличение частотного диапазона. И то и другое отлично прослеживается при знакомстве с составом модельного ряда. Если процессоры Ice Lake, производимые по прошлой версии 10-нм техпроцесса, были ограничены максимальной частотой 4,1 ГГц, то представители нового семейства Tiger Lake оказались способны брать в турборежиме частоты вплоть до 4,8 ГГц. Подобный рост прослеживается и в базовых частотах: например, у чипов с тепловым пакетом 28 Вт они выросли с 2,3 до 3,0 ГГц. Причём, вероятно, потолок ещё не достигнут. Intel планирует расширять модельный ряд своих передовых мобильных процессоров, и, скорее всего, вместе с расширением рамок теплового пакета позднее будут достигнуты и более высокие частотные рубежи.

В пользу повышения производительности новых процессоров играет не только тактовая частота, но и новая схема кеш-памяти, изменения в которой на самом деле очень значительны. Кеш второго уровня в Tiger Lake увеличился по сравнению с Ice Lake в два с половиной раза, и его объём теперь достиг 1,25 Мбайт на ядро. В процессорах Skylake, напомним, объём L2-кеша составлял всего 256 Кбайт на ядро. Такое расширение кеш-памяти существенно поднимает вероятность нахождения необходимых данных в непосредственной близости от процессора. Правда, обычно в росте ёмкости кеша есть и обратная сторона – у него возрастают задержки. Но если судить по той информации, которую обнародовала компания Intel, латентность L2-кеша Tiger Lake составляет 14 тактов, и это лишь на один такт больше латентности L2-кеша в процессорах предыдущего поколения и всего на два такта превышает латентность L2-кеша Skylake. Выглядит такое очень впечатляюще: кратное увеличение объёма кеша сопровождается ростом задержки всего на единицы процентов. И более того, вместе с этим кеш второго уровня в Tiger Lake стал не инклюзивным.

Претерпела значительные изменения в Tiger Lake и кеш-память третьего уровня. Её объём вырос в полтора раза, и теперь на каждое ядро выделяется не по 2, а по 3 Мбайт L3-кеша. Однако при этом у нового кеша снизилась ассоциативность. Четырёхъядерный Ice Lake обладал L3-кешем объёмом до 8 Мбайт с 16-кратной ассоциативностью, в то время как в четырёхъядерном Tiger Lake кеш третьего уровня имеет объём 12 Мбайт со степенью ассоциативности 12. Эти два изменения работают разнонаправленно в смысле вероятности нахождения нужных процессору данных в кеш-памяти, но зато дают существенный выигрыш в энергопотреблении, плюс позволяют увеличенному кешу работать с довольно небольшой латентностью. В конечном итоге Intel считает, что L3-кеш Tiger Lake, который также является не инклюзивным, в рабочих нагрузках должен проявлять себя лучше по сравнению с кеш-памятью Ice Lake.

 SkylakeSunny CoveWillow Cove
L1D-кеш, Кбайт324848
L2-кеш, Кбайт2565121280
L3-кеш, Мбайт на ядро223

Для большинства пользователей размеры кеш-памяти обычно не являются той характеристикой, на которую обращают пристальное внимание, хотя AMD своим примером и подводит общественность к мнению, что большой кеш хорош для игровых нагрузок. Тем не менее Intel парирует, что изменение структуры, алгоритмов и размеров кеш-памяти – скорее технологический вопрос. По крайней мере, при изменении структуры кеш-памяти в Tiger Lake на первом месте стояла не погоня за дополнительными процентами производительности, а оптимизация дизайна полупроводникового кристалла с точки зрения компоновки для улучшения рассеивания тепловой мощности. Впрочем, Intel при работе над новыми микроархитектурами всегда проводит тщательный анализ в том числе и производительности при различных сценариях нагрузки, поэтому логично ожидать, что подсистема кеш-памяти с каждой новой итерацией дизайна становится лучше и эффективнее.

⇡#Ускорение алгоритмов ИИ

Одним из ключевых нововведений в микроархитектуре Ice Lake стало добавление поддержки расширений системы команд AVX-512 и в первую очередь подмножества инструкций AVX512 VNNI, направленного на ускорение работы нейронных сетей и алгоритмов глубокого обучения. В процессорах Tiger Lake эта функциональность полностью сохранилась, плюс добавилась поддержка некоторого количества новых команд из этого множества.

Стоит напомнить, что процессоры, нацеленные на серверные системы и HEDT, поддерживают команды AVX-512 уже несколько лет. Но теперь Intel решила начать широкомасштабное внедрение этих инструкций и в массовом сегменте тоже. Пока количество реальных программ, которые интересны массовому пользователю и способны использовать AVX-512, исчисляется единицами. Но в то же время среди них уже начали появляться реально интересные для обычных пользователей инструменты. В качестве примера можно привести программные продукты Topaz AI, предназначенные для ретуширования и улучшения качества видео и фотографий, – они работают на процессорах с поддержкой AVX-512 несоизмеримо лучше.

Примеры приложений, использующих ИИ

К инструкциям AVX-512 существует разное отношение в сообществе. Например, создатель Linux Линус Торвальдс (Linus Torvalds) недавно говорил, что AVX-512 достойны мучительной смерти, поскольку их исполнение приводит к снижению частоты ядра, а реализация их поддержки бессмысленно транжирит транзисторный бюджет, который в действительности мог быть пущен на более полезные вещи. Однако стратегия Intel остаётся неизменной. Компания считает, что пользователи любых платформ должны в конечном итоге получать доступ к единому набору команд, и инструкции AVX-512 уже отлично зарекомендовали себя в высокопроизводительных вычислениях. Поэтому массовые мобильные системы в конечном итоге должны обрести поддержку AVX-512, несмотря на то, что их присутствие в процессорах класса Tiger Lake пока не приносит явных преимуществ.

В конце концов, за ИИ-алгоритмами будущее, и они постепенно будут распространяться всё шире и шире, а поддержка AVX-512 рано или поздно станет ощутимым козырем и для мобильных систем. Руководствуясь этой логикой, Intel, начиная с Ice Lake, вдобавок к AVX-512 развивает в своих мобильных процессорах отдельный дополнительный ИИ-блок – GNA (Gaussian Neural Accelerator), предназначенный для решения фоновых задач вроде шумоподавления или распознавания речи при крайне невысоком энергопотреблении. В процессоры Tiger Lake попала уже вторая версия этого блока, которая может выполнять 1 млрд операций вывода в секунду при потреблении 1 мВт или до 38 млрд операций в секунду при потреблении до 38 мВт.

Для взаимодействия со всеми специфическими ИИ-инструментами, имеющимися в процессорах Ice Lake и Tiger Lake, Intel предлагает разработчикам ПО специальные библиотеки – Intel DL Boost или более универсальную модель OneAPI. Тем самым сегодняшняя ситуация в корне отличается от того, как происходило внедрение AVX/AVX2, поскольку сейчас Intel побеспокоилась не только об аппаратной реализации, но и о лёгкости задействования новых возможностей разработчиками программ. Это должно ускорить переход на использование AVX-512 и GNA в общеупотребительном ПО.

⇡#Технология Control-Flow Enforcement Technology

Нашумевшая история с уязвимостями, которые дают возможность проводить результативные атаки на процессоры Intel по побочному каналу, заставила компанию пересмотреть подходы к средствам безопасности, которые имеются в современных процессорах. Результаты этого пересмотра воплотились в Tiger Lake в добавлении в микроархитектуре технологии CET (Control-Flow Enforcement Technology), которая трассирует команды передачи управления (вызовы функций, возвраты и переходы) и не допускает запуска исполнения нежелательного кода. В состав CET входит две методики: Shadow Stacks (теневые стеки) и Indirect Branch Tracking (косвенное отслеживание ветвлений).

В рамках методики теневых стеков процессор отслеживает возвраты из функций, для чего создаёт в каком-то месте памяти второй, «теневой» стек адресов возврата и сверяет адреса каждый раз, когда происходит переход по команде выхода из подпрограммы. В случае несовпадения адресов выявляется атака и предпринимаются действия по её нейтрализации. Эта методика может работать без внесения каких-либо изменений в исходный код, однако требует от программиста предусмотреть обработку исключений, возникающих, когда адреса возврата не сходятся друг с другом.

Вторая методология – косвенное отслеживание ветвлений – несколько сложнее в реализации, но и решает другую задачу – проверяет правильность переходов при выполнении соответствующих команд и вызовах функций. В данном случае программист должен предварительно расставить в коде специальные маркеры возможных мест, куда может происходить передача управления, и, если процессор не увидит эти маркеры при исполнении кода после взятия перехода, сработает защита.

⇡#Графическое ядро Xe-LP

Графика – это, вероятно, та сфера, в которой Tiger Lake получил наиболее серьёзные улучшения. Ещё бы, ведь он стал первым процессором на рынке, в который попало принципиально новое графическое ядро двенадцатого поколения, известное по собирательному названию Xe. Более того, это ядро к тому же получило весьма значительный вычислительный ресурс. В то время как GPU процессоров Ice Lake состоял из 64 исполнительных блоков одиннадцатого поколения, в Tiger Lake число исполнительных блоков выросло до 96 штук. К этому нужно прибавить повышенные частоты, которые новая графика смогла получить благодаря новым транзисторам 10 нм SuperFin. В то время как GPU в процессорах Ice Lake работал на частоте 1100 МГц, в имеющихся на рынке версиях Tiger Lake частота графики достигла отметки 1350 МГц. А в будущих моделях процессоров с ослабленными ограничениями по тепловому пакету эта частота имеет шанс стать ещё выше. По крайней мере, в дискретной видеокарте Iris Xe MAX с аналогичной архитектурой частота GPU достигла величины 1650 МГц.

Исполнительные блоки графических ядер Intel в своей основе используют ALU (Arithmetic Logic Units – «арифметически-логические устройства»). Такие устройства предназначены для выполнения фиксированного набора математических операций над целыми числами или числами с плавающей запятой, а также для вычислений некоторых сложных функций, например тригонометрических. В графических ядрах одиннадцатого поколения, которые использовались в процессорах Ice Lake, каждый из 64 исполнительных блоков содержал внутри себя по восемь ALU, четыре из которых предназначались для целочисленной и вещественной арифметики, а другие четыре – для вещественной арифметики и сложных функций.

В графической архитектуре Xe-LP эта схема поменялась. В новой версии GPU каждый исполнительный блок имеет в своём составе по десять ALU. Восемь из них – устройства для арифметических операций с целыми числами и числами с плавающей запятой, а оставшиеся два – для сложных функций. Кроме того, новые исполнительные блоки научились спариваться для решения комплексных задач, что позволяет бросать на выполнение каких-то вычислительных потоков удвоенный набор ALU. Также стоит отметить, что в арифметических устройствах в архитектуре Xe-LP добавилась поддержка восьмибитных целых чисел и набора инструкций DP4a для работы с ними, что востребовано в задачах ИИ.

Отдельный шаг, направленный на повышение скорости работы графики, касается реализации в Tiger Lake собственного L3-кеша объёмом 3,8 Мбайт для GPU, который подключён к общей внутрипроцессорной кольцевой шине. Причём, так как мощное графическое ядро нуждается в более интенсивном потоке данных, разработчики попутно расширили саму кольцевую шину, которая используется процессором. Фактически речь идёт об удвоении её пропускной способности за счёт совмещения двух колец, которые в сумме поддерживают двунаправленную пересылку двух пар 32 байт данных каждый такт.

Intel утверждает, что по скорости графики Tiger Lake превосходит предшественника где-то вдвое. Этот прирост складывается из нескольких частей. Увеличение количества исполнительных блоков с 64 до 96 штук даёт примерно полуторакратное увеличение производительности, рост частоты добавляет ещё примерно 25 %. Оставшиеся проценты производительности приносит L3-кеш и увеличение числа ALU внутри вычислительного блока. Иными словами, внедрение в мобильных процессорах графического ядра Xe-LP – действительно очень большой шаг вперёд, который ставит Tiger Lake на одну ступень с лучшими в отрасли образцами встроенных GPU.

Но в дополнение к сказанному стоит упомянуть и про другие нововведения в графике Tiger Lake, которые касаются медиадвижка – здесь Xe-LP тоже есть чем похвастать. Во-первых, в Tiger Lake появилась аппаратная поддержка декодирования видео в формате AV1. Во-вторых, Intel удвоила пропускную способность аппаратного кодирования и декодирования всех популярных форматов видео. Это стало возможно благодаря реализации 12-битного видеоконвейера, который к тому же получил полноценную поддержку HDR и видео в разрешении 8K60.

Попутно расширились и возможности графического ядра по поддержке дисплеев, в котором появилось четыре независимых дисплейных порта с поддержкой разрешений 4K. Благодаря этому Tiger Lake сможет обеспечить подключение мониторов по DisplayPort 1.4, HDMI 2.0, Thunderbolt™ 4 и USB4 Type-C, причём одновременно, если у пользователя действительно возникнет желание или потребность работать с четырьмя дисплеями. При этом каждый конвейер отображения поддерживает HDR10, 12-битную глубину цвета и может обеспечить работу дисплеев с частотой обновления вплоть до 360 Гц.

⇡#Поддержка LPDDR5-5400, PCI Express 4.0 и Thunderbolt 4

Наряду с изменениями в микроархитектуре вычислительных и графического ядер, улучшения были внесены и в ту часть Tiger Lake, которая называется SoC и по сути представляет собой логику северного моста чипсета, интегрированную внутрь процессора. И в первую очередь здесь следует отметить появление поддержки более быстрых типов памяти. В то время как в процессорах Ice Lake контроллер памяти мог работать лишь с LPDDR4-3733, в Tiger Lake появилась поддержка LPDDR4X-4266, которой может быть установлено до 32 Гбайт. Совместимость процессора с DDR4-3200 при этом сохранилась, и в этом случае поддерживается до 64 Гбайт памяти.

Попутно Intel отмечает, что в контроллер памяти уже заложена поддержка LPDDR5, однако на данный момент такие модули памяти не прошли валидацию, поэтому реальных устройств на базе Tiger Lake с этой разновидностью памяти пока не будет. Однако это не значит, что они не появятся в будущем. И судя по всему, к их появлению уже всё готово, и память класса LPDDR5-5400 может заработать даже совместно с существующей версией кремния Tiger Lake.

Говоря о контроллере памяти нового мобильного процессора Intel, нельзя не упомянуть, что в нём Intel реализовала технологию TME (Total Memory Encryption). Благодаря ей мобильное устройство может хранить все данные в памяти в зашифрованном виде, что обеспечивает аппаратную защиту от многих видов атак. Подобные защитные механизмы становятся всё более популярны, особенно с учётом того, что их применение почти не влияет на производительность. Однако возможно в устройствах на базе Tiger Lake технология TME будет применяться исключительно совместно с vPro® – набором средств безопасности платформ Intel, которые обычно реализуются в компьютерах для бизнес-сегмента.

Вместе с улучшенным контроллером памяти Tiger Lake получил контроллер PCI Express 4.0, став таким образом первым мобильным процессором с поддержкой этого скоростного интерфейса. Использовать шину PCIe 4.0 разработчик предлагает для подключения высокоскоростных NVMe SSD — для этой цели в процессоре имеется четыре выделенных линии, так что системы, построенные на Tiger Lake, вполне могут сопрягаться с новейшими высокопроизводительными накопителями класса Samsung 980 PRO или WD Black SN850. В то же время некоторые производители мобильных систем при желании смогут задействовать эту скоростную шину для подключения дискретных графических ускорителей как самой Intel, так и сторонних производителей.

Также нельзя не упомянуть, что Tiger Lake стал первой точкой внедрения интерфейса Thunderbolt 4. Фактически Thunderbolt 4 является расширением стандарта USB4, поэтому в новых мобильных процессорах поддерживаются и USB4-порты. Возможности Tiger Lake позволяют реализовать в мобильной системе до четырёх портов с пропускной способностью 40 Гбит/с. Как предполагается самой Intel, один из таких портов должен подходить, в частности, и для быстрой зарядки аккумулятора мобильного устройства.

⇡#Модельный ряд Tiger Lake

В настоящее время модельный ряд процессоров Tiger Lake включает в себя процессоры с числом вычислительных ядер не более четырех, которые рассчитаны на работу в рамках тепловых пакетов 15 или 28 Вт.

Но это далеко не всё. В соответствии с изначально обозначенным планом множество этих процессоров будет расширяться за счёт более мощных процессоров. Ожидается как минимум ещё два группы CPU: процессоры с 35-Вт тепловым пакетом, ориентированные на более высокие частоты, и процессоры с 45-Вт пакетом, которые получат шести- и восьмиядерные конфигурации. Их анонс ожидается в ближайшее время.

⇡#От Tiger Lake к Rocket Lake

Одиннадцатое поколение процессоров Core – это не только мобильные Tiger Lake. Вскоре на рынке появятся также и настольные процессоры Core с таким же номером поколения, но это будут уже не представители семейства Tiger Lake, а несколько иные чипы, которые известны под кодовым именем Rocket Lake. Однако в действительности между Tiger Lake и Rocket Lake существует довольно близкое родство, и, скорее всего, к одному поколению они отнесены не просто так. И на этом нужно остановиться несколько подробнее.

Но вначале напомним, что десктопные Core одиннадцатого поколения должны появиться на рынке в течение первого квартала наступающего года, они придут на смену имеющимся процессорам Comet Lake, но сохранят совместимость с разъёмом LGA1200 и материнскими платами, в которых сейчас работают процессоры Core десятого поколения (Comet Lake).

Микроархитектура вычислительных ядер процессоров Rocket Lake названа Cypress Cove, и это – ещё одно имя, которое добавляется к ряду Sunny Cove и Willow Cove. Однако в действительности Cypress Cove – не совсем шаг вперёд, а, скорее, наоборот, потому что эта микроархитектура будет представлять собой портированную на старый 14-нм техпроцесс архитектуру Sunny Cove, которая в мобильном сегменте соответствует процессорам Ice Lake. Но в то же время процессоры Rocket Lake всё-таки ближе к Tiger Lake, потому что в них найдёт применение графическая архитектура Xe-LP, которая является принадлежностью наиболее современных мобильных процессоров. Для десктопной реализации она так же, как и Cypress Cove, будет перенесена на 14-нм технологические рельсы, но сути это не меняет – Rocket Lake вполне можно считать десктопным переложением Tiger Lake, адаптированным под 14-нм техпроцесс.

С выпуском Rocket Lake компания Intel рассчитывает заметно увеличить производительность своих предложений в настольном сегменте. В секторе мобильных решений переход на микроархитектуру Sunny Cove в своё время поднял показатель IPC процессоров Ice Lake на 18 % по сравнению с предшественниками. Примерно такой же прирост производительности произойдёт, очевидно, и при переходе от Comet Lake к Rocket Lake. Кроме того, отдельным плюсом внедрения ядер Cypress Cove в десктопах станет появление поддержки набора инструкций AVX-512 в массовых настольных системах, ведь это позволит получить дополнительный и весьма весомый прирост производительности в задачах, задействующих ИИ-алгоритмы и использующих набор технологий Deep Learning Boost.

С учётом сложности ядер Sunny Cove и из-за увеличения необходимого для их реализации транзисторного бюджета в сравнении с обычными для десктопов ядрами Skylake максимальные версии Rocket Lake смогут получить лишь восемь вычислительных ядер. И в этом отношении десктопные процессоры не смогут превзойти Tiger Lake, в семействе которых вскоре тоже появятся восьмиядерники. Однако в отличие от мобильных собратьев энергетическая эффективность, к сожалению, не станет козырем Rocket Lake – их тепловой пакет прогнозируется на уровне уже обычной для десктопной платформы Intel величины 125 Вт.

Зато встроенный в ожидаемые настольные процессоры северный мост получит все необходимые для современного процессора интерфейсы. Контроллер памяти сможет официально поддерживать модули DDR4-3200, в то время как контроллер PCI Express будет наделён совместимостью с PCIe 4.0. Попутно Intel добавит ему линий, что позволит подключать напрямую к CPU не только графический ускоритель, но и твердотельный накопитель, для которого будет выделено четыре собственных линии. Таким образом, суммарное число поддерживаемых процессором линий PCIe 4.0 достигнет 20.

Что касается встроенного графического ядра, то переход в Rocket Lake на графическую архитектуру Xe-LP с применяемой сейчас в десктопных процессорах Comet Lake графики поколения 9.5 должен обеспечить качественный скачок в производительности. По всей видимости, в графическом ядре настольных CPU будут использоваться графические ядра с 32 исполнительными блоками, но этого окажется достаточно для роста производительности встроенного GPU по сравнению с существующими десктопными процессорами как минимум в полтора раза. Кроме того, не следует забывать о поддержке в Xe-LP аппаратного кодирования и декодирования более широкого набора форматов видео, о 12-битном цвете и прочих достоинствах. Также встроенным в Rocket Lake графическим ядром должны поддерживаться трёхмониторные конфигурации с разрешением 4K60 или пары дисплеев с разрешением 5K60 и подключением через DisplayPort 1.4a (с HBR3) или HDMI 2.0b.

⇡#Вместо заключения: что будет дальше

В настоящее время положение Intel на рынке выглядит далеко не таким выигрышным, каким оно было несколько лет тому назад. Компании пришлось столкнуться с ожесточённой конкуренцией со стороны AMD, плюс некоторые крупные партнёры Intel начинают поглядывать в сторону архитектуры ARM. На всё это накладываются производственные трудности и задержки с освоением тонких технологических процессов. И даже передовые процессоры Tiger Lake, о которых шла речь в этом материале, хотя и являются во многом революционными, на самом деле попадают в сложную конкурентную среду, в которой их успех отнюдь не очевиден. Однако у Intel есть вполне конкретный план, каким образом она может ответить на все вызовы, с которой ей пришлось столкнуться.

Самое главное: Intel твёрдо уверена, что сможет отстоять свои позиции на производственном фронте. Компания не намерена уходить от своей привычной модели бизнеса и собирается и дальше оставаться производителем чипов полного цикла – от проекта до воплощения в кремнии и серийного производства. Intel готова признать, что временно лидерство в освоении новейших техпроцессов было утрачено, но фундаментальные усовершенствования в строении транзисторов, такие как SuperFin, в сочетании с новыми технологиями упаковки чипов, которые компания активно разрабатывает в последнее время, должны дать ей возможность в будущем предлагать продукты, не уступающие решениям конкурентов. И в скором времени мы должны увидеть, как сочетание этих методик преобразит предложения компании.

Основополагающая стратегия, которой Intel собирается придерживаться впредь, базируется на двух столпах. Первый в компании называют дезагрегацией, то есть декомпозицией крупных монолитных полупроводниковых конструкций на множество мелких чиплетов, соединённых в одно целое с помощью высокоскоростных каналов связи и упакованных в единый чип с применением различных технологий. Второй обозначается как xPU и представляет собой диверсификацию архитектур чипов с широким применением специализированных кремниевых конструкций.

В течение последних месяцев Intel устами своих руководителей высшего звена последовательно рассказывает о преимуществах дезагрегированного дизайна. Его основным плюсом выступает то, что он даёт большую гибкость для смешивания различных чиплетов в одной упаковке. А ещё он позволяет перейти к полупроводниковым кристаллам с меньшей площадью, производить которые и проще, и выгоднее. Кроме того, распределение функций по чиплетам даёт Intel разнообразные варианты по привлечению сторонних подрядчиков для выпуска тех или иных компонентов процессоров, на что компании, судя по всему, придётся опираться в течение ближайших лет, пока она в полной мере не отладит собственные технологические процессы.

Intel, несомненно, продолжит фокусироваться на разработке и производстве центральных процессоров, однако попутно значительные усилия начнут пригласиться и в смежных областях: в разработке графических процессоров с архитектурой Xe, в создании различных специализированных ускорителей ИИ, а заодно и в развитии модельного ряда ПЛИС. И хотя все эти решения интересны сами по себе, Intel считает, что в перспективе на рынке возникнет потребность в каких-то объединённых решениях, где идеологически различные аппаратные вычислительные ресурсы могли бы комбинироваться в единое целое. Даже сейчас процессоры Tiger Lake уже содержат в себе классические вычислительные ядра, графическое ядро и специализированный ускоритель GNA. И дальше подобные составные решения будут становиться сложнее и функциональнее, причём для их создания как раз и начнёт применяться дезагрегированный многочиплетный подход.

Но настоящая магия подобных решений создаётся за счёт использования специализированного программного обеспечения Intel oneAPI. За этим названием скрывается открытая и унифицированная модель программирования, которая должна] облегчить разработчикам написание программного кода, использующего преимущества различных чипов Intel. Основная идея oneAPI состоит в том, что разработчики программных продуктов должны абстрагироваться от аппаратного уровня, доверив задачу выбора подходящих ускорителей и оптимизации кода под них на заранее созданные Intel универсальные инструменты. Иными словами, Intel хочет воплотить в жизнь дезагрегированный подход вместе со сменой всей парадигмы разработки и оптимизации ПО, и это – весьма амбициозный план, за выполнением которого следить будет как минимум нескучно.

Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Изучаем архитектуру процессоров Intel Core последних поколений

В августе 2017 года компания Intel порадовала нас анонсом процессоров Intel Core 8 поколения. Пользователи, скорее всего уже давно перестали ориентироваться в отличиях одних поколений от других, их особенностях, а главное, преимуществах. Ведь маркировка у них более-менее одинаковая. Так есть ли смысл в переходе с одного поколения на другое?

Несколько лет назад мы опубликовали статью, которая покрывала вопросы развития архитектуры процессоров Intel. Там мы рассказали о том, что развитие архитектур ядер подчиняется двухэтапной концепции «Тик-Так»: развитие каждый тик — это появление нового техпроцесса и выпуск процессоров на нем, используя имеющуюся архитектуру, а каждый так — это появление новой архитектуры (второе поколение, если хотите). Весь цикл длится примерно 2 года, по году на каждую стадию.

Существующая нумерация поколений процессоров Core начинается с 2009 года, когда было представлено ядро Westmere, пришедшая на смену Nahalem.

  • 1-е поколение «Westmere» и 2-е поколение «Sandy Bridge» (2011 г.). Технологический процесс в этом случае был идентичным — 32 нм, а вот изменения в плане архитектуры чипа существенные — северный мост материнской платы и встроенный графический ускоритель перенесены в ядро CPU.
  • 3-е поколение «Ivy Bridge» (2012 г.) и 4-е поколение «Haswell» (2013 г.) — техпроцесс 22 нм. Уменьшено энергопотребление процессоров на 30-50% благодаря внедрению множества новых технологических особенностей в производство, таких как 3D трехзатворные транзисторы, повышены тактовые частоты чипов, при этом производмтельность возросла незначительно. Процессоры Haswell потребовали переход на новый сокет в связи с изменением системной шины и новой шины памяти.
  • 5-е поколение «Broadwell» (2014 г.) и 6-е поколение «Skylake» (2015 г.) – техпроцесс 14 нм. Снова повышены частота, еще более улучшено энергопотребление (улучшение автономной работы на 10-30%) и добавлены несколько новых инструкций, которые улучшают быстродействие. Однако, 5-е поколение подкупает не только автономной работой. Помимо этого, такие процессоры способны укладывать загрузку в не более чем 3 секунды, проводить конвертацию видео до 8 раз быстрей, а также работать с некоторыми 3D играми в 12 раз эффективней своих предшественников Haswell. Также новые процессоры поддерживают самые последние технологии, среди которых особенно хочется выделить 4К, беспроводной экран Wi-Di и встроенную опцию безопасности с возможностью быстрого шифрования передаваемых данных.
    А вот Skylake стал самым серьезным обновлением микроархитектуры за последние 10 лет: выделим поддержку DDR4 и одновременно DDR3L с пониженным напряжением питания памяти, USB3.1 первого поколения, беспроводной зарядки и работу с Thunderbolt 3. Однако, стоит обратить внимание, что здесь поддержка Thunderbolt 3 требует отдельного Thunderbolt контроллера, который по умолчанию не входит в состав чипсета. Помимо этого в ядро интегрировали достаточно мощное графическое ядро Intel HD 520/530. Надо сказать, что процессор стал удачным маркетинговым решениям, предлагая не только привычное небольшое увлечение производительности за счет оптимизации архитектуры, но и привнес поддержку ряда технологических решений. Это привело к необходимости редизайна материнских плат и переписывая BIOS для поддержки новых возможностей. По признанию HP, их ноутбуки Elitebook имели массу проблем со стабильностью именно из-за включения множества новых необкатанных технологий, включая Thunderbolt 3. Пропатченные версии BIOS сменяли один другого каждый месяц.

 

7 поколение Core — наше настоящее

Седьмое поколение, носящее кодовое наименование «Kaby Lake», было представлено в 2016 году, а устройства на нем выпускаются до сих пор. Эта платформа удивила использование техпроцесса 14 нм. Да, на этом ядре традиционный цикл обновления ядер Intel сломался – перехода на техпроцесс 10 нм не произошло. Не хватило времени для технологической подготовки к еще большему увеличению плотности чипов за счет уменьшения транзисторов. Kaby Lake — это всего лишь «доработанная» версия Skylake, но она приносит с собой некоторые важные новые функции:

  1. Новый встроенный видеоадаптер Intel HD 630, обеспечивающий производительность на целых 30% в синтетических тестах выше по сравнению с предыдущим Intel HD 620.
  2. В новой микроархитектуре существенно улучшено энергопотребление, составляющее 7.5 Вт у Kaby Lake, чего не скажешь о Skylake с его 15-ти ваттным потреблением.
  3. В Kaby Lake была реализована нативная поддержка портов USB 3.1 в отличие от Skylake, где для этого требовались дополнительные контроллеры на материнской плате.

Поддержка чипсетов

Важный момент заключается в том, что Kaby Lake используют тот же разъем LGA 1151, поэтому вы можете использовать Kaby Lake на материнской плате, на которой был установлен чип Skylake. Однако, материнские платы для Skylake 100-й серии не поддерживают ряд новых функций, поэтому рекомендуется переход на чипсеты 200-й серии. Изменилась системная шина, связывающая процессор и чипсет. Несмотря на то, что оба поколения процессоров имеют 6 PCIe 3.0 линий от CPU, Kaby Lake использует 24 линии PCIe линиями от PCH (Platform Controller Hub), в то время как Skylake обладает только 20-ю линиями.

Я напомню, что процессоры на сокете LGA1150 использовали системную шину DMI 2.0, в то время как начиная со Skylake с разъема LGA1150 стала применяться шина DMI 3.0, имеющая пропускную способность 8 Гигатранзакций в секунду (32 Гбит/с или 4 ГБ/с в каждом направлении). DMI 3.0, по сути, является эквивалентом четырем линиями PCIe 3.0. Все данные с интерфейсов ввода-вывода, включая USB флеш-накопители, SATA SSD и гигабитную сеть Ethernet, проходят сначала через PCH, и уже потом через DMI попадают в системную память, после чего достигают ЦП. Строго говоря, шина DMI 3.0 никогда не загружается на полную, однако при наличии большого числа быстрой периферии типа массива SSD, она имеет смысл. Интересно, что бюджетные чипсеты как 100-го, так и 200-го семейства (например, h210 и С226) использовали DMI 2.0, в то время как более производительные чипсеты в то же время используют DMI 3.0.

Топовый чипсет 100-го семейства Z170 имеет в общей сложности 26 линий шины HSIO (High-Speed Input-Output), шесть из которых выделены под шесть постоянных портов USB 3.0. Таким образом, на чипсете остается 20 конфигурируемых линий HSIO, которые можно назначить для работы с тем или иным устройством или шиной. Каждый порт SATA также использует линию HSIO, если он не подключен через сторонний контроллер (хотя контроллеру также нужна, по крайней мере, одна линия для связи с PCH). На схеме видно, что контроллеры GbE и SSD с интерфейсом PCIe также используют доступные линии HSIO.

 

 

А вот скромный чипсет h210 начального уровня использует только 14 линий HSIO. Lkя интересующихся тонкостями того, как производитель вводит нас в заблуждение, я приведу сводную таблицу, описывающую реальное число линий, которые позволяют подключить то или иное число периферии. Именно с этим числом может играть производитель материнских плат, устанавливая то или иное количество нужным ему интерфейсов.

 

 

Так выглядит структурная схема топового чипсета Intel Z270:

 

 

Kaby Lake процессоры также обладают широким диапазоном требований по теплоотводу, варьирующимся от 3.5Вт и до 95 Вт. Среди общих характеристик, можно выделить поддержку до 4-х ядер в главных процессорах, кеш-память L4 от 64 до 128 Мб. Это самая масштабируемая линейка процессоров за 10 лет, отсюда и множественные индексы в названиях процессоров – Y (ультранизкое энергопотребление 4,5 Вт), U (15 Вт), H и S (десктопные процессоры).

 

 

С точки зрения главных фишек для пользователя наиболее значительно, что обновленный графический чип поддерживает аппаратное кодирование и декодирование 4K видео. Для этого применяется кодек HEVC (High Efficiency Video Coding – H.265). Кодек HEVC при высоком качестве изображения позволяет менять на ходу и уменьшить битрейт, а соответственно, и размер файла. Экономия места в сравнении со стандартом H.264 может достигать 25-50% при сохранении качества, кроме того он поддерживает параллельное кодирование! Вычисления на себя берет GPU, что разгружает основное ядро, чем страдал Skylake. Это же привело и к увеличению времени автономной работы.

В целом же производительность во всех остальных приложениях осталось почти прежней: прирост составил несколько процентов за счет увеличения базовой частоты моделей на 100 МГц. Здесь также слегка обновлена технология Turbo Boost.

Turbo Boost — технология компании Intel для автоматического увеличения тактовой частоты процессора свыше номинальной, если при этом не превышаются ограничения мощности, температуры и тока в составе расчетной мощности (TDP). Это приводит к увеличению производительности однопоточных и многопоточных приложений. Фактически, это технология «саморазгона» процессора. Доступность технологии Turbo Boost зависит от наличия одного или нескольких ядер, работающих с мощностью ниже расчетной. Время работы системы в режиме Turbo Boost зависит от рабочей нагрузки. Включается и выключается эта опция через BIOS.

Так вот, Turbo Boost в Kaby Lake усовершенствована за счет более быстрого переключения между частотами ядер.

В 7-ом поколении Intel решила поменять названия моделей процессоров, и если в линейке Skylake у нас были три модели с именами m3, m5 и m7, то Kaby Lake назвала свои модели m3, i5 и i7. Теперь, чтобы не ввести себя в заблуждение, и разобраться, какие перед вами i5 и i7 процессоры – маломощные Kaby Lake или же более мощные Skylake — придется обращать внимание на полное название процессора. Модели «m» содержат букву «Y» в своем названии, тогда как у более мощных процессоров вместо нее будет присутствовать буква «U».

Thunderbolt 3 – раскат грома в платформостроении

Внедрение Thunderbolt 3 на уровне чипсета в Kaby Lake стало важной вехой в развитии интересов и платформостроении. Это до сих пор пока еще странная и малопонятная вещь, которая имеет большие перспективы на рынке. Это универсальный интерфейс, который в себе объединяет совершенно различные порты в одно единое целое. В основе его лежит шина PCI Express, которая и позволяет перекоммутировать все современные последовательные интерфейсы между собой.

Контроллер Thunderbolt 3 обеспечивает подключение со скоростью до 40 Гбит, удвоив скорость предыдущего поколения, он же поддерживает USB 3.1 второго поколения (Gen2) на 10 Гб/с (а не 5 Гб/с как у Skylake) и DisplayPort 1.2, HDMI 2.0, что позволяет подключить два 4К дисплея, выводить видео и аудио сигналы одновременно. Кроме того, Thunderbolt 3 обратно совместим с Thunderbolt 2. Сам же интерфейс Thunderbolt 3 использует разъем на базе USB Type-C как основной.

Вы, наверное, обратили внимание, что многие ноутбуки с 2016 года имеют многие из этих интерфейсов сразу на борту, а заявленная поддержка USB 3.1 как раз реализована новыми портами USB Type-C. Через этот порт, например, происходит, и зарядка планшетных компьютеров, и подключение док-станций, имеющих и видео, и аудио интерфейсы в одном. Так, например, таблетка HP Elite x2 1012 имеет два порта USB-C, к которым подключается док Elite USB-C dock, а все дисплеи, локальная сеть и аудиоустройства уже подключаются к доку. USB Type-C позволяет заряжать ваши устройства до 100 Вт, которых достаточно для зарядки большинства ноутбуков. Это значит, что вы можете использовать один кабель с разъемом USB Type-C для передачи данных в тот момент, когда вы заряжаете его.

 

 

На USB Type-C перешла и компания Apple, оставив только такие порты на своих MacBook. Кстати, MacBook 2016 года как раз целиком выполнен на Kaby Lake. Помимо ноутбков MacBook Pro, многие ноутбуки ведущих брендов поддерживают Thunderbolt 3: ASUS Transformer 3 и Transformer 3 Pro, Alienware 13, Dell XPS 13, HP Elite X2 и Folio, HP Spectre и Spectre x360, Razer Blade Stealth, Lenovo ThinkPad Y900, а также ещё несколько десятков других с портами Thunderbolt 3.

Однако нужно понимать, что не все USB Type-C порты поддерживают Thunderbolt 3 – это могут быть и обычные контроллеры USB 3.1. Электрически они совместимы, но функции Thunderbolt контроллера работать не будут. Это означает, что Thunderbolt устройство можно подключить в обычный порт USB-C и наоборот, работать они будут только как обычный USB порт для передачи данных.

Thunderbolt 3 также поддерживает функции безопасности портов, защищая от подключения неавторизованных устройств. Эти функции заложены в прошивке BIOS, однако их можно отключить. Можно настроить различные политики безопасности портов – блокировать порты, спрашивать пользователя при подключении нового устройства, или же подключать без лишних вопросов.

Подводя итоги тому, что мы сейчас имеем на рынке – это весьма удачные с точки зрения графического ядра и тепловыделения процессоры Kaby Lake, можно сказать, идеальные для ноутбуков различного класса, но не сильно отличающиеся по производительности от предшественников. В целом, для тех, кому все перечисленные выше фишки не нужны, и кто пользуется внешней видеокартой, данная покупка в плане апгрейда не имеет смысла.

8 поколение – Озеро Кофе

Текущий 2017 год получился очень насыщенным в процессорном мире. AMD выпустила очень удачные процессоры Ryzen и Threadripper, которые наконец пришлись ко двору, так сказать, в нужное время и за нужную цену, отчего они стали так популярны среди простых покупателей. Intel же, выпустила Core X с 14, 16 и даже 18 ядрами так сказать, с прицелом на будущее. Но мы ждем чуда – реализации продолжения закона Мура, то есть перехода на 10 нанометровый техпроцесс. И это опять не произошло.

Хорошо это или плохо? Наверное, с маркетинговой точки зрения, это грамотный шаг, оставить новый техпроцесс про запас, на вырост. Но что-то же надо выпустить. И Intel выстрелила – наконец, впервые, последовав идеологии AMD, пошли на увеличение числа ядер. И теперь у Core i7 6 ядер/12 потоков, у Core i5 их также 6, а у i3 теперь 4 полноценных ядра, теперь он вообще как целый i5 раньше!

Итак, новый топовый Intel Core i7-8700 имеет в два раза больше ядер на одном кристалле, что стало возможным за счет очередной оптимизации компоновки ядра, более равномерного расположения транзисторов по кристаллу. Площадь кристалла увеличилась на 16% до 150 мм2. Чуть-чуть вырос кэш L1, кэш L2 стал 1,5 Мбайт, а L3 – 12 Мбайт. Эти изменения логичны для обслуживания вычислительной работы ядер. Однако, это все меньше, чем у Ryzen, у которых 4 и 16 Мбайт кэши второго и третьего уровня соответственно при значительно меньшей цене. Хотя это ни о чем напрямую не говорит, ведь эффективность работы с кэшем зависит от длины конвейера и точности попадания при ветвлениях. Но потенциально это проигрыш.

Новый процессор теперь поддерживает только память DDR4, а встроенный контроллер памяти увеличил частот до 2666 МГц, что является рекордом работы с памятью. Уровень TDP увеличился с 91 до 95 Вт в режиме без разгона и до 145 Вт в турборежиме, что потребует очень хорошей системы охлаждения. Частота поднята за счет высокого множителя – максимальный множительный частоты шины – 43x.

Несмотря на то, что количество потоков увеличилось до 12 за счет Hyper-Threading, количество инструкций выполняемых за такт (IPC) осталось таким же, как и у Skylake и Kaby Lake. А это означает, что архитектура вычислительного устройства (ALU), конвейера и блока предвыборки инструкций не изменилась. Иначе говоря, это та же архитектура с тем же набором инструкций.

Графическое ядро не изменилось — Intel UHD Graphics 630, однако слегка увеличена частота GPU. Структурно там все также 24 вычислительных блока. Графика занимает примерно треть всего кристалла.

Что стало неприятной, но ожидаемой новостью – это то, что новые процессоры не смогут работать со старыми чипсетами. И дело даже не разъеме – будет использоваться прежний LGA1151. Дело в том, что из-за новой компоновки ядра, изменится и обвязка питания кристалла, что приводит к иной распиновке выводов. Появилось большее число выводов Vcc (питание) и Vss (заземление). Как результат, Intel следом представила и 300-е семейство чипсетов, топовая модель которого – Z370. На удивление, Z370 ничем не отличается от предшественника Z270, даже имея USB 3.1 первого поколения. Все это в купе создает не слишком приятное впечатление о новинке.

 

 

Пожалуй, самая лучшая новость заключается в том, что некогда младшенький Core i3 стал, наконец, полноценным четырехядерным процессором. Вероятнее всего, он и получит наибольшую популярность в своем сегменте.

Говоря о производительности, можно констатировать, что отличия по сравнению с предыдущим поколением по большей части будут заметны только при работе с видео (особенно 4К до 30%), графикой (в Adobe Photoshop до 60%) и играх (до 25%). Средневзвешенная производительность увеличится не более чем на 15%.

[Посещений: 4 175, из них сегодня: 1]
CPUCoffee lake, intel, Kaby Lake, LGA1151, Skylake, TDP, Thunderbolt, USB-C, Z370, архитектура, чипы, ядра

Понравилась публикация? Почему нет? Оставь коммент ниже или подпишись на feed и получай список новых статей автоматически через feeder.

Новейшие настольные процессоры Intel построены на старой архитектуре, хотя у компании уже есть новая

, Текст: Эльяс Касми

Новая линейка процессоров Intel, Rocket Lake-S, будет построена на архитектуре Cypress Cove, тогда как в распоряжении компании уже есть более современная Willow Cove. Также для этих CPU она избрала морально устаревший техпроцесс 14 нм, не объяснив причины своего решения.

Не совсем новые процессоры

Компания Intel раскрыла подробности о новых процессорах Rocket Lake-S для настольного сегмента, дебют которых ожидается в I квартале 2021 г. Отличительной чертой этих чипов станет наличие старой архитектуры и древнего техпроцесса, от которого AMD и подавляющее большинство чипмейкеров давно отказались.

Rocket Lake-S – это 11 поколение настольных процессоров Core. В их основе будет лежать архитектура Cypress Cove, базирующаяся на ядрах Sunny Cove – их Intel применяет в процессорах серии Ice Lake. Эту линейку она впервые показала во второй половине 2019 г. Для сравнения, в сентябре 2020 г. Intel продемонстрировала новое семейство мобильных чипов Tiger Lake с более современной архитектурой Willow Cove и с 10-нанометровым, самым новым для Intel, техпроцессом.

Таким образом, Rocket Lake-S получат более старую микроархитектуру, но их недостатки этим не ограничиваются. Для их производства Intel выбрала техпроцесс 14 нм, который развивает с 2013 г. К примеру, AMD выпускает все свои чипы на 7 нанометрах и в ближайшие пару лет перейдет на 5 нм.

Логотип у Intel новый, но процессоры пока старые

Количество процессоров в линейке и их стоимость на момент публикации материала Intel держала в тайне. Когда именно в I квартале 2020 г. начнется их реализация, тоже пока не установлено.

Основные возможносчти Rocket Lake-S

Сообщив об использовании в новых процессорах Rocket Lake-S старых технологий, Intel заверила, они все же смогут продемонстрировать «значительный» прирост производительности. Она сравнила Rocket Lake-S с семейством Comet Lake-S и уточнила, что производительность вырастет за счет наращивания IPC (числа инструкций, исполняемых за один такт), внесенных доработок в микроархитектуру и повышения тактовой частоты.

Самые выдающиеся возможности новых Rocket Lake-S

Документация, предоставленная Intel, гласит, что старшие представители Rocket Lake-S с высокой степенью вероятности получат по восемь вычислительных ядер с поддержкой Hyper Threading, то есть с удвоенным количеством потоков. Топовые чипы отличаются средним уровнем тепловыделения (TDP) – в пределах 125 Вт, что исключает необходимость установки гигантского воздушного охлаждения или затрат на покупку водяного. Параметры младших представителей серии Intel пока не раскрывает.

Intel также модернизировала и видеоподсистему новых процессоров. Она переехала на архитектуру Xe Graphics и, по заявлениям чипмейкера теперь демонстрирует почти в два раза более высокие результаты производительности на фоне Comet Lake-S. Видеоядро получило поддержку кодирования 12-битного 4K60-видео в форматах HEVC и VP9 на аппаратном уровне и возможность одновременного подключения трех 4К-мониторов с частотой обновления 120 Гц

Дополнительные характеристики

По словам представителей компании, в Rocket Lake-S появится поддержка инструкций AVX-512 VNNI для ускорения работы алгоритмов машинного обучения, а вместе с ней и новый контролер памяти, который сможет работать с модулями DDR4-3200. Не менее важным станет и появление долгожданной поддержки PCI-Express 4.0, с которой Intel долго тянула – в процессорах AMD соответствующий контроллер используется как минимум с 2019 г.

Сами процессоры Intel не показала, ограничившись лишь инфографикой

Число линий PCI-E 4.0 в новых Rocket Lake-S увеличится до 20, однако чтобы оценить все преимущества такого прироста, придется дополнительно потратиться на приобретение материнской платы с чипсетом новой 500-й линейки. Сами же процессоры сделаны под существующий сокет LGA1200 – городить новый разъем подключения Intel на этот раз не стала.

Почему Intel так зависит от старого техпроцесса

Intel, как сообщал CNews, никак не может полностью отказаться от 14-нанометровой топологии. По словам ее гендиректора Роберта Свона (Robert Swan), это связано с финансами – оборудование 14 нм давно себя окупило, тогда как 10-нанометровый техпроцесс, переход на который компания начала в августе 2019 г., все еще требует значительных вложений.

DSaaS: почему анализ данных как услуга набирает обороты

Новое в СХД

В то же время Intel начинает задумываться о переходе на 7 нм. По предварительным данным, первые чипы компании с таким техпроцессом ожидаются никак не раньше 2022 г., а то и в 2023 г.

Отставание Intel в техническом плане от своего основного конкурента, AMD, сказывается на финансовой стабильности компании. По итогам III квартала 2020 г., завершившегося 30 сентября, выручка компании сократилась на 4% год к году – до $18,3 млрд. Норма прибыли снизилась на 5,7 процентных пунктов – до 53,1 %. Операционная прибыль компании тоже показала отрицательную динамику – она упала сразу на 22 % до $5,1 млрд, тогда как чистая прибыль показала еще более стремительное падение в сравнении с III кварталом 2019 г. Она снизилась на 29%, оказавшись на уровне $4,3 млрд. И даже смена логотипа, состоявшаяся в сентябре 2020 г. впервые за 14 лет, Intel пока не помогает.



Процессоры 64-битные, 32-битные. Архитектура процессора

Вопрос: Архитектура процессора — что это?
Ответ: Термин «архитектура процессора» в настоящее время не имеет однозначного толкования. С точки зрения программистов, под архитектурой процессора подразумевается его способность исполнять определенный набор машинных кодов. Большинство современных десктопных CPU относятся к семейству x86, или Intel-совместимых процессоров архитектуры IA32 (архитектура 32-битных процессоров Intel). Ее основа была заложена компанией Intel в процессоре i80386, однако в последующих поколениях процессоров она была дополнена и расширена как самой Intel (введены новые наборы команд MMX, SSE, SSE2 и SSE3), так и сторонними производителями (наборы команд EMMX, 3DNow! и Extended 3DNow!, разработанные компанией AMD). Однако разработчики компьютерного железа вкладывают в понятие «архитектура процессора» (иногда, чтобы окончательно не запутаться, используется термин «микроархитектура») несколько иной смысл. С их точки зрения, архитектура процессора отражает основные принципы внутренней организации конкретных семейств процессоров. Например, архитектура процессоров Intel Pentium обозначалась как Р5, процессоров Pentium II и Pentium III — Р6, а популярные в недавнем прошлом Pentium 4 относились к архитектуре NetBurst. После того, как компания Intel закрыла архитектуру Р5 для сторонних производителей, ее основной конкурент — компания AMD была вынуждена разработать собственную архитектуру — К7 для процессоров Athlon и Athlon XP, и К8 для Athlon 64.

Вопрос: Какие процессоры лучше, 64-битные или 32-битные? И почему?
Ответ: Достаточно удачное 64-битное расширение классической 32-битной архитектуры IA32 было предложено в 2002 году компанией AMD (первоначально называлось x86-64, сейчас — AMD64) в процессорах семейства К8. Спустя некоторое время компанией Intel было предложено собственное обозначение — EM64T (Extended Memory 64-bit Technology). Но, независимо от названия, суть новой архитектуры одна и та же: разрядность основных внутренних регистров 64-битных процессоров удвоилась (с 32 до 64 бит), а 32-битные команды x86-кода получили 64-битные аналоги. Кроме того, за счет расширения разрядности шины адресов объем адресуемой процессором памяти существенно увеличился.

И… все. Так что те, кто ожидает от 64-битных CPU сколь-нибудь существенного прироста производительности, будут разочарованы — их производительность в подавляющем большинстве современных приложений (которые в массе своей заточены под IA32 и вряд ли в обозримом будущем будут перекомпилированы под AMD64/EM64T) практически та же, что и у старых добрых 32-битных процессоров. Весь потенциал 64-битной архитектуры может раскрыться лишь в отдаленном будущем, когда в массовых количествах появятся (а может, и не появятся) приложения, оптимизированные под новую архитектуру. В любом случае, наиболее эффективен переход на 64-бита будет для программ, работающих с базами данных, программ класса CAD/CAE, а также программ для работы с цифровым контентом.

Вопрос: Что такое процессорное ядро?
Ответ: В рамках одной и той же архитектуры различные процессоры могут достаточно сильно отличаться друг от друга. И различия эти воплощаются в разнообразных процессорных ядрах, обладающих определенным набором строго обусловленных характеристик. Чаще всего эти отличия воплощаются в различных частотах системной шины (FSB), размерах кэша второго уровня, поддержке тех или иных новых систем команд или технологических процессах, по которым изготавливаются процессоры. Нередко смена ядра в одном и том же семействе процессоров влечет за собой замену процессорного разъема, из чего вытекают вопросы дальнейшей совместимости материнских плат. Однако в процессе совершенствования ядра, производителям приходится вносить в него незначительные изменения, которые не могут претендовать на «имя собственное». Такие изменения называются ревизиями ядра и, чаще всего, обозначаются цифробуквенными комбинациями. Однако в новых ревизиях одного и того же ядра могут встречаться достаточно заметные нововведения. Так, компания Intel ввела поддержку 64-битной архитектуры EM64T в отдельные процессоры семейства Pentium 4 именно в процессе изменения ревизии.

Вопрос: В чем заключается преимущество двухъядерных процессоров перед одноядерными?
Ответ: Самым значимым событием 2005 года стало появление двухъядерных процессоров. К этому времени классические одноядерные CPU практически полностью исчерпали резервы роста производительности за счет повышения рабочей частоты. Камнем преткновения стало не только слишком высокое тепловыделение процессоров, работающих на высоких частотах, но и проблемы с их стабильностью. Так что экстенсивный путь развития процессоров на ближайшие годы был заказан, и их производителям волей-неволей пришлось осваивать новый, интенсивный путь повышения производительности продукции. Самой расторопной на рынке десктопных CPU, как всегда, оказалась Intel, первой анонсировавшая двухъядерные процессоры Intel Pentium D и Intel Extreme Edition. Впрочем, AMD с Athlon64 X2 отстала от конкурента буквально на считанные дни. Несомненным достоинством двухъядерников первого поколения, к которым относятся вышеназванные процессоры, является их полная совместимость с существующими системными платами (естественно, достаточно современными, на которых придется только обновить BIOS). Второе поколение двухъядерных процессоров, в частности, Intel Core 2 Duo, «требует» специально разработанных для них чипсетов и со старыми материнскими платами не работает.

Не следует забывать, что, на сегодняшний день для работы с двухъядерными процессорами более или менее оптимизировано в основном только профессиональное ПО (включая работу c графикой, аудио- и видео данными), тогда как для офисного или домашнего пользователя второе процессорное ядро иногда приносит пользу, но гораздо чаще является мертвым грузом. Польза от двухъядерных процессоров в этом случае видна невооруженным взглядом только тогда, когда на компьютере запущены какие-либо фоновые задачи (проверка на вирусы, программный файервол и т.п.). Что касается прироста производительности в существующих играх, то он минимальный, хотя уже появились первые игры популярных жанров, полноценно использующие преимущества от использования второго ядра.

Впрочем, если сегодня стоит вопрос выбора процессора для игрового ПК среднего или верхнего ценового диапазона, то, в любом случае, лучше предпочесть двухъядерный, а то и 4-ядерный процессор чуть более высокочастотному одноядерному аналогу, так как рынок неуклонно движется в сторону мультиядерных систем и оптимизированных параллельных вычислений. Такая тенденция будет господствующей в ближайшие годы, так что доля ПО, оптимизированного под несколько ядер, будет неуклонно возрастать, и очень скоро может наступить момент, когда мультиядерность станет насущной необходимостью.

Вопрос: Что такое кэш?
Ответ: Во всех современных процессорах имеется кэш (по-английски — cache) — массив сверхскоростной оперативной памяти, являющейся буфером между контроллером сравнительно медленной системной памяти и процессором. В этом буфере хранятся блоки данных, с которыми CPU работает в текущий момент, благодаря чему существенно уменьшается количество обращений процессора к чрезвычайно медленной (по сравнению со скоростью работы процессора) системной памяти. Тем самым заметно увеличивается общая производительность процессора.

При этом в современных процессорах кэш давно не является единым массивом памяти, как раньше, а разделен на несколько уровней. Наиболее быстрый, но относительно небольшой по объему кэш первого уровня (обозначаемый как L1), с которым работает ядро процессора, чаще всего делится на две половины — кэш инструкций и кэш данных. С кэшем L1 взаимодействует кэш второго уровня — L2, который, как правило, гораздо больше по объему и является смешанным, без разделения на кэш команд и кэш данных. Некоторые десктопные процессоры, по примеру серверных процессоров, также порой обзаводятся кэшем третьего уровня L3. Кэш L3 обычно еще больше по размеру, хотя и несколько медленнее, чем L2 (за счет того, что шина между L2 и L3 более узкая, чем шина между L1 и L2), однако его скорость, в любом случае, несоизмеримо выше, чем скорость системной памяти.

Кэш бывает двух типов: эксклюзивный и не эксклюзивный кэш. В первом случае информация в кэшах всех уровней четко разграничена — в каждом из них содержится исключительно оригинальная, тогда как в случае не эксклюзивного кэша информация может дублироваться на всех уровнях кэширования. Сегодня трудно сказать, какая из этих двух схем более правильная — и в той, и в другой имеются как минусы, так и плюсы. Эксклюзивная схема кэширования используется в процессорах AMD, тогда как не эксклюзивная — в процессорах Intel.

Вопрос: Что такое процессорная шина?
Ответ: Процессорная (иначе — системная) шина, которую чаще всего называют FSB (Front Side Bus), представляет собой совокупность сигнальных линий, объединенных по своему назначению (данные, адреса, управление), которые имеют определенные электрические характеристики и протоколы передачи информации. Таким образом, FSB выступает в качестве магистрального канала между процессором (или процессорами) и всеми остальными устройствами в компьютере: памятью, видеокартой, жестким диском и так далее. Непосредственно к системной шине подключен только CPU, остальные устройства подсоединяются к ней через специальные контроллеры, сосредоточенные в основном в северном мосте набора системной логики (чипсета) материнской платы. Хотя могут быть и исключения — так, в процессорах AMD семейства К8 контроллер памяти интегрирован непосредственно в процессор, обеспечивая, тем самым, гораздо более эффективный интерфейс память-CPU, чем решения от Intel, сохраняющие верность классическим канонам организации внешнего интерфейса процессора. Основные параметры FSB некоторых процессоров приведены в табл

Процессор частота FSB, МГц Тип FSB Теоретическая пропускная способность FSB, Мб/с
Intel Pentium III 100/133 AGTL+ 800/1066
Intel Pentium 4 100/133/200 QPB 3200/4266/6400
Intel Pentium D 133/200 QPB 4266/6400
Intel Pentium 4 EE 200/266 QPB 6400/8533
Intel Core 133/166 QPB 4266/5333
Intel Core 2 200/266 QPB 6400/8533
AMD Athlon 100/133 EV6 1600/2133
AMD Athlon XP 133/166/200 EV6 2133/2666/3200
AMD Sempron 800 HyperTransport <6400
AMD Athlon 64 800/1000 HyperTransport 6400/8000

Процессоры компании Intel используют системную шину QPB (Quad Pumped Bus), передающую данные четыре раза за такт, тогда как системная шина EV6 процессоров AMD Athlon и Athlon XP передает данные два раза за такт (Double Data Rate). В архитектуре AMD64, используемой компанией AMD в процессорах линеек Athlon 64/FX/Opteron, применен новый подход к организации интерфейса CPU — здесь вместо процессорной шины FSB и для сообщения с другими процессорами используются: высокоскоростная последовательная (пакетная) шина HyperTransport, построенная по схеме Peer-to-Peer (точка-точка), обеспечивающая высокую скорость обмена данными при сравнительно низкой латентности.

Источник: 3dnews.ru

x86 — Национальная библиотека им. Н. Э. Баумана

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 13:30, 12 января 2019.

x86
Дизайнер Intel, AMD
Биты 16-bit, 32-bit and 64-bit
Представлен 1978 (16-bit), 1985 (32-bit), 2003 (64-bit)
Дизайн CISC
Тип Register-memory
Кодирование Variable (1 to 15 bytes)
Разветвление Status register
Порядок байтов Little
Размер страницы 8086–i286: None
i386, i486: 4 KB pages
P5 Pentium: added 4 MB pages
(Legacy PAE: 4 KB→2 MB)
x86-64: added 1 GB pages
Расширения x87, IA-32, MMX, SSE, SSE2, x86-64, SSE3, SSSE3, SSE4, SSE5, AVX
Открыто Partly. For some advanced features, x86 may require license from Intel; x86-64 may require an additional license from AMD. The 80486 processor has been on the market for more than 20 years[1] and so cannot be subject to patent claims. The pre-586 subset of the x86 architecture is therefore fully open.
Регистры
Общее назначение
  • 16-bit: six semi-dedicated registers, BP and SP are not general-purpose
  • 32-bit: eight GPRs, including EBP and ESP
  • 64-bit: 16 GPRs, including RBP and RSP
FPU (Floating Point Unit)
  • 16-bit: optional separate x87 FPU
  • 32-bit: optional separate or integrated x87 FPU, integrated SSE2 units in later processors
  • 64-bit: integrated x87 and SSE2 units

x86 (англ. Intel 80×86) — архитектура процессора c одноимённым набором команд, впервые реализованная в процессорах компании Intel. Название образовано от двух цифр, которыми заканчивались названия процессоров Intel ранних моделей — 8086, 80186, 80286 (i286), 80386 (i386), 80486 (i486). За время своего существования набор команд постоянно расширялся, сохраняя совместимость с предыдущими поколениями. Помимо Intel архитектура также была реализована в процессорах других производителей: AMD, VIA, Transmeta, IDT и др.

История

x86 — это CISC-архитектура. Доступ к памяти происходит по «словам». «Слова» размещаются по принципу little-endian, известному также как Intel-формат. Современные процессоры включают в себя декодеры команд x86 для преобразования их в упрощённый внутренний формат с последующим их выполнением.

Архитектура x86 в 1978 году с первым 16-разрядным процессором Intel, 8086, представила старые 8-разрядные процессоры 8080 и 8085 предназначенные для замены. Хотя 8086 не был изначально очень успешен, была поставлена IBM в 1981 году на первый компьютер. Из-за огромного успеха IBM PC и его многочисленных клонов, называемых IBM совместимыми персональными компьютерами, архитектура x86 была в течение нескольких лет одной из самых успешных архитектур процессоров в мире, и осталась таковой и в наши дни.

Процессоры

Процессоры Intel

Поколение Первый процессор Преемник Год запуска
1. Intel 8086 1978
1a. Обновление первого поколения, Intel 80186 1982
2. Intel 80286 1982
3. Intel 80386 1985
4. Intel 80486 1989
5. Pentium Nx586, Cyrix 5×86, WinChip, mP6, AMD K5 1993
6. Pentium Pro Pentium II, Celeron (PII), Xeon (PII), Pentium III, Pentium M, Intel Core) Cyrix 6×86, AMD K6, K6-2, K6-III, VIA C3, Transmeta Crusoe 1995
7. Athlon (K7) Pentium 4 , C7, Efficeon 1999
8. Opteron (K8) Athlon 64) Xeon (Core) Core 2 2003
9. Intel Core i-Serie 2008
Рис. 2. Intel 8086 в корпусе DIP 40.
8086

16-разрядный процессор Intel 8086, был создан в июне 1978 года. Сначала работал на частотах 4,77 МГц, затем на 8 и 10 МГц. Изготавливался по технологии 3 мкм и имел 29 000 транзисторов. (см. Рис 2)

8088

Чуть позже, в 1979 году, был разработан Intel 8088, который работал на тех же частотах, что и Intel 8086, но использовал 8-разрядную шину данных (внутренняя шина процессора осталась 16-разрядной) для обеспечения большей совместимости с имевшейся в то время в ходу периферией. Благодаря более низкой цене, широко использовался в ранних системах IBM PC вместо 8086. (см. Рис 3)

80386 (i386)

Первый 32-разрядный процессор, работал на частотах 16-40 МГц. Появился в 1985 году. Знаменовал собой революцию в мире процессоров x86. Основные принципы, заложенные в этом чипе, без кардинальных изменений дожили и до наших дней (за всё это время изменения касались, в основном, повышения производительности, расширения набора команд, увеличения разрядности). Первые 386 процессоры содержали серьёзную ошибку, приводящую к невозможности функционирования в защищенном режиме. Исправленная версия называлась 386DX.

Также выпускались более дешевые процессоры i386SX с урезанной до 16 бит внешней шиной данных и 24-битной шиной адреса. Для встроенного применения выпускался и выпускается процессор i386EX. Он имеет на кристалле последовательные порты, программируемые таймеры (совместимые с Intel 8254), контроллеры приоритетных прерываний (совместимые с Intel 8259A) и контроллеры прямого доступа к памяти (совместимые с Intel 8237A). i386 — первый процессор, который мог использовать кэш-память (расположенную на внешнем чипе).

Рис. 4. Intel 80486 (i486) DX2.
80486 (i486)

Процессор i486 (1989 год) является усовершенствованным 386 процессором и первым скалярным процессором Intel (ряд операций выполнялись за один такт). Имел встроенный FPU (Floating Point Unit — блок вычислений с плавающей запятой) и впервые — встроенную кэш-память (8 Кбайт). 80486 — первый процессор Intel, для которого была применена технология умножения частоты шины FSB (в моделях DX2-50, DX2-66, DX4-75 и DX4-100). (см. Рис. 4) Для ноутбуков и встраиваемых систем в начале 1990-х была выпущена «облегченная» модификация i486SX без встроенного блока FPU. Существовала также модификация для встроенных применений — i486GX. Она представляла собой низковольтный 486SX с шиной данных, урезанной до 16-ти бит. Корпусировка i486GX — TQFP-176, частоты — от 16 МГц при Vcore = 2,0 В до 33 МГц при 2,7 В.

Pentium (i586)

Pentium (1993 год. Intel отказалась от номерных названий типа 8086, 80286 и др., потому что не могла запатентовать числа) — первый суперскалярный и суперконвейерный процессор Intel. Суперскалярность — означает, что процессор позволяет выполнять более одной операции за один такт. Суперконвейерность означает, что процессор имеет несколько вычислительных конвейеров. У Pentium их два, что позволяет ему при одинаковых частотах в идеале быть вдвое производительней 486, выполняя сразу 2 инструкции за такт. Кроме того, особенностью процессора Pentium являлся полностью переработанный и очень мощный на то время блок FPU, производительность которого оставалась недостижимой для конкурентов вплоть до конца 1990-х годов.

Pentium II (i686)

Pentium II (май 1997 года) — модификация ядра Pentium Pro с целью сделать его более доступным. Интегрированный кэш и тег кэша были вынесены на отдельные микросхемы с пониженной в два раза частотой. Это упростило и удешевило процессор, хотя и сделало его более медленным, чем Pentium Pro. Первые процессоры Pentium II выпускались с кэш-памятью второго уровня емкостью 256 Кбайт, затем её объём был увеличен до 512 Кбайт. Новая конструкция процессора потребовала размещения элементов на печатной плате, что, в свою очередь, привело к изменению конструктива процессора. Данные ЦПУ выпускались в виде картриджей SECC, устанавливающихся в специальный разъём на плате (Slot 1). Кроме того, в ядро Pentium II был добавлен блок MMX.

Рис. 5. Intel Celeron.
Celeron

Celeron — упрощённая модификация процессоров Pentium II / III / IV / Core / Core 2 для построения недорогих компьютеров. Первый Celeron (ядро Covington, частоты 266/300 МГц) представлял собой Pentium II, лишенный кеша второго уровня и пластикового картриджа. Печатная плата также была упрощена. Такая упаковка получила название SEPP (Single Edge Processor Package). В результате эти процессоры демонстрировали удручающе низкую производительность, хотя стоили очень недорого и легко прибавляли до 50 % частоты при разгоне. Все последующие варианты этого процессора имели интегрированный полночастотный кеш второго уровня. Основные отличия процессоров Celeron в объёме этого кэша и частоте шины, а также часто в увеличенной латентности доступа к кэш-памяти по отношению к оригинальному процессору (см. Рис 5).

Вторая модификация Celeron (ядро Mendocino, частоты 300…533 МГц) на многих задачах демонстрировала более высокую производительность, чем равночастотный Pentium II. Это объяснялось тем, что маленький (128 Кбайт) кеш Mendocino располагался на одном кристалле с ядром и работал на частоте ядра, в то время как большой (512 Кбайт) кеш Pentium II находился достаточно далеко от ядра и работал на половинной частоте. Больше таких промашек фирма Intel не допускала, и все последующие Celeron гарантированно медленнее полноценных процессоров того же поколения.

Pentium III (i686)

Pentium III, изготовленный изначально по технологическому процессу 0,18 мкм, отличается от P2 главным образом добавлением инструкций SSE. Поздние процессоры этой серии изготавливались по технологическому процессу 0,13 мкм, получили интегрированную в кристалл ядра полночастотную кэш-память (сначала 256 Кбайт, затем — 512 Кбайт) и послужили прообразом процессоров архитектуры Pentium M. Выпускались в конструктивах как SECC/SECC2 (Slot 1), так и FCPGA-370 (PGA-370).

Рис. 6. Intel Pentium 4.
Pentium 4

Pentium 4 — принципиально новый процессор с гиперконвейеризацией (hyperpipelining) — с конвейером, состоящим из 20 ступеней. Согласно заявлениям Intel, процессоры, основанные на данной технологии, позволяют добиться увеличения частоты примерно на 40 % относительно семейства P6 при одинаковом технологическом процессе (при «правильной» загрузке процессора). На практике же, первое поколение процессоров работало даже медленнее, чем Pentium III. Позже были дополнены поддержкой Hyper-threading и 64-битного кода (см. Рис. 6).

Рис. 7. Intel Core 2 Duo.
Core / Core 2

После провала последнего поколения процессоров Pentium 4 на ядре Tejas, было решено обратиться к другой ветви продукции. В основе новых процессоров лежит переработанное ядро Pentium M. Таким образом, ядро P6, использованное ещё в процессорах Pentium Pro, продолжило свою эволюцию, нарастив частоту со 150 МГц до 3,2 ГГц и обзаведясь новой системной шиной, поддержкой многоядерности, мультимедийных инструкций (см. Рис. 7). Процессоры Core — решение для ноутбуков, одно- и двухъядерное, исполняющее 32-битный код. Процессоры Core 2 — выпускаются как в настольном, так и мобильном исполнении, включают ряд микроархитектурных улучшений и способны исполнять 64-битный код. Количество ядер варьируется от одного до четырёх.

Core i7/Core i5/Core i3

Дальнейшее развитие идей, заложенных в процессорах Core 2. Сохранив основную конструкцию процессорных ядер, появившийся первым Core i7 получил модульную структуру, позволяющую легко варьировать их количество, встроенный контроллер памяти (трёхканальной DDR3 в высшем сегменте и двухканальной DDR3 в массовом) и новую шину, соединяющую процессор с чипсетом. Микроархитектурные улучшения позволяют Core i7 показывать повышенную производительность в сравнении с Core 2 на равных частотах. Большое внимание было уделено вопросу энергоэффективности нового процессора. Позже появились более дешевые Core i5/i7 с двухканальным контроллером памяти и четырьмя ядрами, затем — Core i3/i5 с двумя ядрами и встроенным видеоядром. В секторе наиболее производительных решений выпускаются также процессоры Core i7 с трехканальным контроллером памяти и шестью ядрами. Благодаря использованию технологии Hyper-threading эти процессоры способны одновременно исполнять до 12 потоков команд. Также в ассортименте компании Intel есть особо производительные процессоры для домашних ПК: Core i7 с трехканальным контроллером памяти и восемью ядрами. Количество потоков возросло до 16.

Xeon

Семейство процессоров, ориентированных на серверы и многопоточные вычисления. Первый представитель этого семейства базировался на архитектуре Pentium II, представлял собой картдридж с печатной платой, на которой монтировались ядро, кэш-память второго уровня и тег кэша. Монтировался в гнездо Slot 2. Современные Xeon базируются на архитектуре Core 2/Core i7.

Процессоры AMD

Am8086 / Am8088 / Am186 / Am286 / Am386 / Am486

Клоны соответствующих процессоров от Intel. Обычно выпускались с максимальной частотой на ступеньку выше, чем у оригинала. Так, Am386DX выпускался с максимальной частотой 40 МГц, тогда как i386DX — 33 МГц. Вплоть до 486DX2-66 других различий между процессорами не было. Программно отличить эти процессоры было невозможно. 5×86 Клон i486. В то время, как Intel для i486 остановился на частоте 100 МГц, AMD выпускала процессоры с частотами до 133 МГц. Также они отличались увеличенным объёмом кэша первого уровня (16 Кбайт) и множителем (×4). (см. Рис. 8)

K6

Принципиально новый процессор AMD (апрель 1997 года), основанный на ядре, приобретённом у NexGen. Данный процессор имел конструктив пятого поколения, однако относился к шестому поколению и позиционировался как конкурент Pentium II. Включал в себя блок MMX и несколько переработанный блок FPU. Однако данные блоки всё равно работали на 15-20 % медленнее, чем у аналогичных по частоте процессоров Intel. Процессор имел 64 Кбайт кэша первого уровня. В целом, сравнимая с Pentium II производительность, совместимость со старыми материнскими платами и более ранний старт (AMD представила К6 на месяц раньше, чем Intel представила P-II) и более низкая цена сделали его достаточно популярным, однако проблемы с производством у AMD значительно испортили репутацию данного процессора.

Athlon

Очень успешный процессор, благодаря которому фирма AMD сумела восстановить почти утраченные позиции на рынке микропроцессоров. Кэш первого уровня — 128 Кбайт. Первоначально процессор выпускался в картридже с размещением кэша второго уровня (512 Кбайт) на плате и устанавливался в разъём Slot A (который механически, но не электрически совместим со Slot 1 от Intel). Затем перешёл на разъём Socket A и имел 256 Кбайт кэша второго уровня в ядре. По быстродействию — примерный аналог Pentium III. Duron Урезанная версия Athlon, отличается от родителя объёмом кэша второго уровня (всего 64 Кбайт, зато интегрированным в кристалл и работавшем на частоте ядра). Конкурент Celeron поколений Pentium III / Pentium 4. Производительность заметно выше, чем у аналогичных Celeron, и при выполнении многих задач соответствует Pentium III.

Athlon 64

Первый несерверный процессор, поддерживающий архитектуру x86-64.

Рис. 9. Amd Athlon 64 X2.
Athlon 64 X2

Продолжение архитектуры Athlon 64, имеет 2 вычислительных ядра. (см. Рис. 9)

Phenom

Дальнейшее развитие архитектуры Athlon 64, выпускается в вариантах с двумя (Athlon 64 X2 Kuma), тремя (Phenom X3 Toliman) и четырьмя (Phenom X4 Agena) ядрами.

Phenom II

Модификация Phenom. Небольшие архитектурные изменения, переход на более тонкий технологический процесс и добавление кэша L3 объёмом от 4 до 6 Мбайт позволили нарастить производительность этих процессоров на 10-20 % по сравнению с предшественниками. Выпускаются в конструктивах Socket AM2+ и Socket AM3. При этом первые могут работать только с памятью DDR2, а вторые — как с DDR2, так и с DDR3. Максимальное число ядер выросло до шести.

Athlon II

Phenom II без кеша L3 и количеством ядер не более четырёх.

Рис. 10. МЦСТ R1000.

Процессоры, выпускавшиеся в СССР и России

КР1810ВМ86

КР1834ВМ86/ЭКР1834ВМ86 — аналог 8086. К1810ВМ88 — аналог 8088. КФ1847ВМ286 (позднее ЭКФ1847ВМ2) — аналог 80286. Опытные образцы выпускались заводом имени Дзержинского (разработчик НТЦ «Белмикросистемы») НПО «Интеграл».

Процессоры МЦСТ

Компанией ЗАО МЦСТ выпущена серия микропроцессоров «Эльбрус», позволяющих работать в режиме двоичной совместимости с архитектурой x86. Совместимость обеспечивается за счёт программной динамической трансляции x86-кодов с использованием аппаратной поддержки, заложенной в архитектуру микропроцессора «Эльбрус». (см. Рис. 10)

Сведения общего характера

Понятие архитектуры

Архитектура как совместимость с кодом

Наверняка вы часто встречались с термином «x86», или «Intel-совместимый процессор» (или «IBM PC compatible» — но это уже по отношению к компьютеру). Иногда также встречается термин «Pentium-совместимый» (почему именно Pentium — вы поймете сами чуть позже). Что за всеми этими названиями скрывается на самом деле? На данный момент наиболее корректно с точки зрения автора выглядит следующая простая формулировка: современный x86-процессор — это процессор, способный корректно исполнять машинный код архитектуры IA32 (архитектура 32-битных процессоров Intel). В первом приближении это код, исполняемый процессором i80386 (известным в народе как «386-й»), окончательно же основной набор команд IA32 сформировался с выходом процессора Intel Pentium Pro. Что означает «основной набор» и какие есть еще? Для начала ответим на первую часть вопроса. «Основной» в данном случае означает то, что с помощью исключительно этого набора команд, может быть написана любая программа, которая вообще может быть написана для процессора архитектуры x86 (или IA32, если вам так больше нравится).

Кроме того, у архитектуры IA32 существуют «официальные» расширения (дополнительные наборы команд) от разработчика самой архитектуры, компании Intel: MMX, SSE, SSE2 и SSE3. Также существуют «неофициальные» (не от Intel) расширенные наборы команд: EMMX, 3DNow! и Extended 3DNow! — их разработала компания AMD. Впрочем, «официальность» и «неофициальность» в данном случае понятие относительное — де-факто все сводится к тому, что некоторые расширения набора команд Intel как разработчик изначального набора признает, а некоторые — нет, разработчики же программного обеспечения используют то, что им лучше всего подходит. В отношении расширенных наборов команд существует одно простое правило хорошего тона: прежде чем их использовать, программа должна проверить, поддерживает ли их процессор. Иногда отступления от этого правила встречаются (и могут приводить к неправильному функционированию программ), но объективно это является проблемой некорректно написанного программного обеспечения, а не процессора.

Для чего предназначены дополнительные наборы команд? В первую очередь — для увеличения быстродействия при выполнении некоторых операций. Одна команда из дополнительного набора, как правило, выполняет действие, для которого понадобилась бы небольшая программа, состоящая из команд основного набора. Опять-таки, как правило, одна команда выполняется процессором быстрее, чем заменяющая ее последовательность. Однако в 99% случаев, ничего такого, чего нельзя было бы сделать с помощью основных команд, с помощью команд из дополнительного набора сделать нельзя.

Таким образом, упомянутая выше проверка программой поддержки дополнительных наборов команд процессором, должна выполнять очень простую функцию: если, например, процессор поддерживает SSE — значит, считать будем быстро и с помощью команд из набора SSE. Если нет — будем считать медленнее, с помощью команд из основного набора. Корректно написанная программа обязана действовать именно так. Впрочем, сейчас практически никто не проверяет у процессора наличие поддержки MMX, так как все CPU, вышедшие за последние 5 лет, этот набор поддерживают гарантированно. Для справки приведем табличку, на которой обобщена информация о поддержке различных расширенных наборов команд различными десктопными (предназначенными для настольных ПК) процессорами.

Различия между ядрами одной микроархитектуры

«Процессорное ядро» (как правило, для краткости его называют просто «ядро») — это конкретное воплощение [микро]архитектуры (т.е. «архитектуры в аппаратном смысле этого слова»), являющееся стандартом для целой серии процессоров. Например, NetBurst — это микроархитектура, которая лежит в основе многих сегодняшних процессоров Intel: Celeron, Pentium 4, Xeon. Микроархитектура задает общие принципы: длинный конвейер, использование определенной разновидности кэша кода первого уровня (Trace cache), прочие «глобальные» особенности. Ядро — более конкретное воплощение. Например, процессоры микроархитектуры NetBurst с шиной 400 МГц, кэшем второго уровня 256 килобайт, и без поддержки Hyper-Threading — это более-менее полное описание ядра Willamette. А вот ядро Northwood имеет кэш второго уровня уже 512 килобайт, хотя также основано на NetBurst. Ядро AMD Thunderbird основано на микроархитектуре K7, но не поддерживает набор команд SSE, а вот ядро Palomino — уже поддерживает. Таким образом, можно сказать что «ядро» – это конкретное воплощение определенной микроархитектуры «в кремнии», обладающее (в отличие от самой микроархитектуры) определенным набором строго обусловленных характеристик. Микроархитектура — аморфна, она описывает общие принципы построения процессора. Ядро — конкретно, это микроархитектура, «обросшая» всевозможными параметрами и характеристиками. Чрезвычайно редки случаи, когда процессоры сменяли микроархитектуру, сохраняя название. И, наоборот, практически любое наименование процессора хотя бы несколько раз за время своего существования «меняло» ядро. Например, общее название серии процессоров AMD — «Athlon XP» — это одна микроархитектура (K7), но целых четыре ядра (Palomino, Thoroughbred, Barton, Thorton). Разные ядра, построенные на одной микроархитектуре, могут иметь, в том числе разное быстродействие.

Частота работы ядра

Как правило, именно этот параметр в просторечии именуют «частотой процессора». Хотя в общем случае определение «частота работы ядра» всё же более корректно, так как совершенно не обязательно все составляющие CPU функционируют на той же частоте, что и ядро (наиболее частым примером обратного являлись старые «слотовые» x86 CPU — Intel Pentium II и Pentium III для Slot 1, AMD Athlon для Slot A — у них L2-кэш функционировал на 1/2, и даже иногда на 1/3 частоты работы ядра). Ещё одним распространённым заблуждением является уверенность в том, что частота работы ядра однозначным образом определяет производительность. На самом деле это дважды не так: во-первых, каждое конкретное процессорное ядро (в зависимости от того, как оно спроектировано, сколько содержит исполняющих блоков различных типов, и т.д. и т.п.) может исполнять различное количество команд за один такт, частота же — это всего лишь количество таких тактов в секунду. Таким образом (приведенное далее сравнение, разумеется, очень сильно упрощено и поэтому весьма условно) процессор, ядро которого исполняет 3 инструкции за такт, может иметь на треть меньшую частоту, чем процессор, исполняющий 2 инструкции за такт — и при этом обладать полностью аналогичным быстродействием.

Во-вторых, даже в рамках одного и того же ядра, увеличение частоты вовсе не всегда приводит к пропорциональному увеличению быстродействия.. Дело в том, что скорость исполнения команд ядром процессора — это вовсе не единственный показатель, влияющий на скорость выполнения программы. Не менее важна скорость поступления команд и данных на CPU. Представим себе чисто теоретически такую систему: быстродействие процессора — 10’000 команд в секунду, скорость работы памяти — 1000 байт в секунду. Таким образом, следует понимать: невозможно непрерывно наращивать одну только частоту ядра, не ускоряя одновременно подсистему памяти, так как в этом случае начиная с определённого этапа, увеличение частоты CPU перестанет сказываться на увеличении быстродействия системы в целом.

Кодирование инструкций

Префиксы (каждый из них опционален):

  • Однобайтовый префикс смены режима адресации AddressSize (значение 67h (положим, что h — это обозначение шестнадцатиричной записи, здесь и далее)).
  • Однобайтовый префикс изменения сегмента Segment (значения 26h, 2Eh, 36h, 3Eh, 64h и 65h).
  • Однобайтовый префикс BranchHint для указания предпочтительной ветки перехода (значения 2Eh и 3Eh).
  • Двухбайтовый или трёхбайтовый сложноструктурированный префикс Vex (первый байт всегда имеет значение C4h для двухбайтового варианта или C5h для трёхбайтового).
  • Однобайтовый префикс Lock для запрета модификации памяти другими процессорами или ядрами (значение F0h).
  • Однобайтовый префикс OperandsSize для изменения размера операнда (значение 66h).
  • Однобайтовый префикс Mandatory для уточнения инструкции (значения F2h и F3h).
  • Однобайтовый префикс Repeat означает повторение (значения F2h и F3h).
  • Однобайтовый структурированный префикс Rex нужен для указания 64-битных или расширенных регистров (имеет значения 40h..4Fh).
  • Префикс Escape. Всегда состоит как минимум из одного байта 0Fh. За этим байтом опционально идёт байт 38h или 3Ah. Предназначен для уточнения инструкции.

Встроенные в инструкцию данные (опциональны):

  • Смещение или адрес в памяти (Displacement). Целое число со знаком размером 8, 16, 32 или 64 бита.
  • Первый или единственный непосредственный операнд (Immediate). Может быть размером 8, 16, 32 или 64 бита.
  • Второй непосредственный операнд (Immediate2). Если присутствует, то обычно имеет размер в 8 бит.

В списке выше и далее для технических имён принято наименование «только латиница, арабские цифры» и знак минуса «-» со знаком подчёкивания «_», а регистр — CamelCase (любое слово начинается с прописной, а далее только строчные даже если аббревиатура: «UTF-8» → «Utf8» — все слова вместе). Префиксы AddressSize, Segment, BranchHint, Lock, OperandsSize и Repeat могут перемешаны между собой. Остальные элементы должны идти именно в указанном порядке. И видно что байтовые значения некоторых префиксов совпадают. Их назначение и наличие определяет уже сама инструкция. Префиксы переопределения сегмента могут применяться с большинством инструкций, а префиксы BranchHint применяются только с инструкциями условного перехода. Аналогичная ситуация с префиксами Mandatory и Repeat — где-то они уточняют инструкцию, а где-то указывают на повторение. Префикс OperandSize вместе в префиксами Mandatory ещё относят к префиксам SIMD-инструкции. Отдельно следует сказать про префикс Vex. Он заменяет префиксы Rex, Mandatory, Escape и OperandsSize, компактизируя их в себе. С ним не допустимо использование префикса Lock. Сам же префикс Lock может добавляться когда приёмником является операнд в памяти.

Обзорный список всех интересующих режимов с точки зрения кодирования инструкций:

  • 16-битный («Real Mode», реальный режим с сегментной адресацией).
  • 32-битный («Protected Mode», защищённый режим с плоской моделью памяти).
  • 64-битный («Long Mode», как 32-битный защищённый с плоской моделью памяти, но адреса уже 64-битные).

В скобках английские названия режимов соответствуют официальным. Ещё есть синтетические режимы на вроде нереального (Unreal x86 Mode), но они все вытекают из этих трёх (по сути это гибриды, которые отличаются лишь размером адреса, операндов и прочим). В каждом из них используется «родной» режим адресации, но его можно сменить на альтернативный префиксом OperandsSize. В 16-битном режиме включится 32-битный режим адресации, в 32-битном режиме — 16-битный, а в 64-битном — 32-битный. Но если это делать, то адрес расширяется с дополнением нулями (если он меньше) или же его старшие биты сбрасываются (если он больше).

Дизайн

Архитектура x86 использует CISC набор команд с переменной длиной инструкции. Доступ к памяти по размеру слова также могут не выровнено по границе слова адреса памяти. Слова в Little Endian хранящегося направлении. Easy портативность Intel 8085 на ассемблере код был движущей силой развития архитектуры. Это вызвало некоторые неоптимальные и проблематичные в ретроспективе проектных решений.

Современные x86 процессоры гибридные процессоры CISC/RISC, так как они переводят инструкции x86 установить первый в RISC — инструкции -Mikro постоянной длины, могут быть применены к современным микроархитектуры оптимизаций. Передача изначально к так называемым резервировании, то есть для малых буферов, выше по потоку от различных вычислительных устройств. Первый гибридный процессор x86 был Pentium Pro.

64 бита

Примерно в 2002 году, расширение памяти современных x86 машин достиг вызвано 32-битного адресного ограничения размера адресации в инструкции x86 архитектуру набора 4 Гб. Хотя Intel имел Pentium Pro представила способ решения более 4 Гб оперативной памяти, но ее использование программно трудоемким и процесс в доступной памяти остался так до сих пор ограничен до 4 Гб.

Intel изначально хотел сделать скачок до 64 бит с новой архитектурой процессора под названием IA-64, однако, удалось установить их только в качестве продукта ниши в сегменте рынка серверов и рабочих станций. AMD, с другой стороны продлили 32-битную архитектуру процессора до 64 бит и назвал это расширение AMD64 . Позже Intel взяла на себя большую часть этого расширения под названием EM64T, а затем, наконец, под широко используется сегодня в продуктах Intel название Intel 64 .

Для 64-разрядных процессоров, которые основаны на архитектуре x86, термин x86-64 или вскоре x64 используется.

Виртуализация

Несмотря на то, виртуализации процессоров x86 усложняется из — за полной архитектуры, есть несколько продуктов, которые обеспечивают виртуальный процессор x86 доступны, в том числе VMware, Hyper-V и Virtual PC или с открытым исходным кодом программного обеспечения, таких как Xen или VirtualBox. Виртуализация аппаратная сторона также доступна в качестве расширения, он будет на Intel » Intel VT » (для технологии виртуализации), с AMD » AMD Virtualization».

Режимы работы

Реальный режим

В реальном режиме при вычислении линейного адреса, по которому процессор собирается читать содержимое памяти или писать в неё, сегментная часть адреса умножается на 16 (или, то же самое, что и сдвиг влево на 4 бита) и суммируется со смещением (если процессору передаётся не полный адрес из двух 16-битных значений — сегмента и смещения, — а только 16-битное смещение, то сегмент берётся из одного из сегментных регистров). Таким образом, адреса 0400h:0001h и 0000h:4001h ссылаются на один и тот же физический адрес, так как 400h×16+1 = 0×16+4001h.

Такой способ вычисления физического адреса позволяет адресовать 1 Мб + 64 Кб − 16 байт памяти (диапазон адресов 0000h…10FFEFh). Однако в процессорах 8086/8088 всего 20 адресных линий, поэтому реально доступен только 1 мегабайт (диапазон адресов 0000h…FFFFFh), а при адресации выше (в диапазоне 100000h…10FFEFh) происходит «заворот» — старший единичный бит адреса игнорируется и происходит обращение к 64 килобайтам в начальных адресах (0000h…FFEFh).

Процессор 80286 имеет 24-битную адресную шину (возможна адресация 224 = 16 Мб памяти), поэтому в них переполнения не происходит. Компьютеры IBM PC/AT построены на процессоре Intel 80286, но, из соображений совместимости с IBM PC и IBM PC/XT, построенных на Intel 808x, в них был введён логический элемент (вентиль), управляющий работой 21-го адресного провода (A20). Этот логический элемент, получивший название «Gate A20», по умолчанию отключен, что соответствует режиму совместимости, но управляется через контроллер клавиатуры (микросхема Intel 8042).

Рис. 11. Схема образования линейного адресного пространства
Линейная адресация памяти

Линейная адресация памяти — схема адресации памяти компьютера в защищённом режиме (начиная с Intel 80386 и других совместимых x86-процессорах). Используется большинством современных многозадачных ОС. (см. Рис. 11)

Благодаря механизму линейной адресации можно создавать любое (ограниченное только размерами оперативной памяти) количество независимых виртуальных адресных пространств. Причём каждая страница линейного адресного пространства может находиться по любому физическому адресу или даже быть выгруженной на диск.

При использовании линейной адресации 32-битный логический адрес делится на три части:

  • Номер записи в каталоге страниц (номер таблицы страниц) — биты 31-22 (10 бит). Одна запись из каталога страниц определяет отображение 4 МБайт адресного пространства.
  • Номер записи в таблице страниц (номер страницы в таблице страниц) — биты 21-12 (10 бит). Одна запись из таблицы страниц определяет отображение 4 КБайт адресного пространства.
  • Смещение в рамках страницы — биты 11-0 (12 бит).
Защищенный режим

В дополнение к реальному режиме Intel 80286 поддерживает защищенный режим, расширение адресацией физической памяти до 16 МБ и адресуемой виртуальной памяти до 1 Гб, а также предоставление защищенной памяти, которая предотвращает программы от разлагающего друг от друга. Это делается с помощью сегментных регистров только для хранения индекса в таблице дескрипторов, которая хранится в памяти. Есть две такие таблицы, тем Глобальная таблица дескрипторов (GDT) и таблица дескрипторов Local (LDT), каждая из которых содержит до 8192 дескрипторов сегментов, каждый сегмент дает доступ к 64 Кбайт памяти. В 80286, дескриптор сегмента обеспечивает 24-битную в базовый адрес , и этот базовый адрес добавляется к 16-битным смещением , чтобы создать абсолютный адрес. Базовый адрес из таблицы выполняет ту же роль , что буквальное значение регистра сегмента выполняет в режиме реального времени; сегментные регистры были преобразованы из прямых регистров косвенных регистров. Каждый сегмент может быть назначен один из четырех кольцевых уровней , используемых для аппаратной компьютерной безопасности . Каждый дескриптор сегмента содержит также предельное поле сегмента, который определяет максимальное смещение , которое может быть использовано с сегментом. Поскольку Смещения 16 бит, сегменты по — прежнему ограничены до 64 Кбайт каждый в 80286 защищенном режиме.

Суть защищённого режима в следующем: программист и разрабатываемые им программы используют логическое адресное пространство, размер которого может составлять 1 гигабайт. Логический адрес преобразуется в физический адрес автоматически с помощью схемы управления памятью (MMU). При этом содержимое сегментного регистра не связано напрямую с физическим адресом, а является номером сегмента в соответствующей таблице. Благодаря защищённому режиму, в памяти может храниться только та часть программы, которая необходима в данный момент, а остальная часть может храниться во внешней памяти (например, на жёстком диске). В случае обращения к той части программы, которой нет в памяти в данный момент, операционная система может приостановить программу, загрузить требуемую секцию кода из внешней памяти и возобновить выполнение программы. Следовательно, становятся допустимыми программы, размер которых больше объёма имеющейся памяти, и пользователю кажется, что он работает с большей памятью, чем на самом деле.

Физический адрес формируется следующим образом. В сегментных регистрах хранится селектор, содержащий индекс дескриптора в таблице дескрипторов (13 бит), 1 бит, определяющий к какой таблице дескрипторов будет производиться обращение (к локальной или к глобальной) и 2 бита запрашиваемого уровня привилегий. Далее происходит обращение к соответствующей таблице дескрипторов и соответствующему дескриптору, который содержит начальный 24-битный адрес сегмента, размер сегмента и права доступа, после чего вычисляется необходимый физический адрес путём сложения адреса сегмента со смещением из 16-разрядного регистра.

Режим виртуального 8086

Существует также суб-режим работы в защищенном режиме 32-бит (так называемый 80386 защищенный режим) называется виртуальный режим 8086 , также известный как режим V86. Это в основном специальный гибрид рабочий режим, позволяющий программам реального режима и операционные системы для запуска в то время как под контролем супервизора операционной системы защищенном режиме. Это позволяет большую гибкость в управлении как программы для защищенного режима и программ реального режима одновременно. Этот режим предназначен исключительно для 32-разрядной версии защищенного режима; она не существует в 16-битной версии защищенного режима, или в длительном режиме.

Примечания

  1. Pryce, Dave (May 11, 1989). «80486 32-bit CPU breaks new ground in chip density and operating performance. (Intel Corp.) (product announcement) EDN» (Press release). 

Источники

  1. Intel Architecture Software Developer’s Manual, Volume 1: Basic Architecture
  2. AMD64 Architecture Programmer’s Manual Volume 3: General-Purpose and System Instructions
  3. http://www.x86-guide.com/
  4. http://www.intel.com/content/www/us/en/history/historic-timeline.html

Архитектура Intel® лидирует в области инноваций в области микроархитектуры

Всегда делать больше с меньшими затратами

Достижения в области микроархитектуры облегчают создание более компактных и высокопроизводительных устройств.Они также являются движущей силой бизнес-модели и успеха Intel. Благодаря своей приверженности интеллектуальному дизайну и интеллектуальным технологическим процессам Intel продолжает лидировать в отрасли в направлении создания транзисторов все меньшего размера, что приводит к созданию более энергоэффективных и высокопроизводительных процессорных ядер.

Что такое микроархитектура?

Микроархитектура — это план элементов микросхемы. Этот план в сочетании с передовыми нанотехнологиями позволяет вычислительным устройствам быть более производительными и энергоэффективными.Команда разработчиков микроархитектуры Intel продолжает делать гигантские скачки в инновациях и недавно представила первые в мире 3D-транзисторы, изготовленные на 22 нм.

Откройте для себя последние

Откройте для себя преимущества новой микроархитектуры Intel®, поддерживающей более быстрые и небольшие платформы, улучшенную графику HD, большую безопасность, более быстрый отклик и лучшую мобильность с автоматическими беспроводными соединениями.

Узнайте о новейшей микроархитектуре Intel® ›

Дорожная карта процессоров Intel

: все «озера» с 14 до 7 нм

Отслеживать все, что происходит в мире высоких технологий, может быть сложно.Возьмем, к примеру, процессоры. Даже если вы неукоснительно следите за новостями о лучших процессорах для игр, отслеживать десятки платформ и кодовых имен продуктов Intel может быть сложно, особенно с учетом того, что новые имена постоянно появляются в просочившихся дорожных картах. Для непосвященных эти кодовые имена могут быть запутанными и загадочными, поэтому я составил эту шпаргалку по кодовым именам ЦП.

Я собираюсь включить все прошлые и нынешние процессоры «Lake» в репертуар Intel, хотя я пропускаю большинство серверных проектов, таких как Cascade Lake, а также разработки, производные от Atom (N / E / Процессоры серии M / Z), поскольку они не подходят для энтузиастов компьютерных игр.Итак, вот не такой уж краткий обзор, отсортированный по дате запуска.

Пластина Intel Kaby Lake, изображение любезно предоставлено Intel

Семейства процессоров Intel Lake до наших дней: с 6 по 9 поколения

Skylake (SKL, 14-нм, 6-го поколения Core, август 2015 г.): Первый из «Озерные» процессоры Skylake подверглись серьезной переработке архитектуры ЦП. Intel перешла от 4-разрядной конструкции (что означает выборка, декодирование и выполнение до четырех инструкций за такт) к конструкции с 6-ю шириной. Это был второй из 14-нм процессоров Intel — «тик» по сравнению с «тиком» Бродвелла, хотя, конечно, Intel вскоре отказалась от Tick-Tock.Настольные и мобильные варианты были двухъядерными или четырехъядерными, с Hyper-Threading или без него (также известный как SMT, Symmetric Multi-Threading) в зависимости от семейства. Skylake также послужил введением для графической технологии Intel Gen9 с улучшенной производительностью и функциями.

[Более крупные варианты Skylake-X (сокет LGA2066) были представлены в 2017 году и варьируются от 6-ядерных / 12-потоковых до 18-ядерных / 36-потоковых конструкций, и они являются частью семейств ядер 7-го или 9-го поколения. И это последнее, что я скажу о HEDT (high-end desktop) в этой статье.]

Kaby Lake (KBL, 14nm +, 7th Gen Core, август 2016): Kaby Lake представлял собой официальный конец Tick-Tock, хотя технически Devil’s Canyon (оптимизированный 22-нм 4-го поколения Haswell) уже все испортил. По сути, Kaby Lake имеет ту же архитектуру, что и Skylake, но производственный процесс был усовершенствован — отсюда и знак «+» на 14 нм +. Изменения состоят из модифицированного профиля ребер и напряженного кремния, а также усовершенствований в производстве, которые естественным образом происходят по мере развития процесса.

Варианты для настольных ПК и мобильных устройств имели те же 2- и 4-ядерные конструкции, что и SKL, и впервые в процессорах марки Pentium была реализована технология Hyper-Threading (я не считаю исходный Pentium 4 Hyper-Threading).Kaby Lake также обновила графическое ядро ​​до Gen9.5, основные изменения коснулись поддержки декодирования видео 4K HEVC / VP9.

Пластина Intel Coffee Lake крупным планом.

Coffee Lake (CFL, 14 нм ++, 8-е поколение Core, октябрь 2017 г.): Coffee Lake не было в первоначальных планах Intel — оно, вероятно, было введено в противовес архитектуре AMD Zen, которая обещала до 8 ядер / 16 потоков дизайн по основным ценам. Coffee Lake также положило конец планам Intel «Оптимизация архитектуры процессов», поскольку это был второй этап оптимизации.CFL сохраняет графику Gen9.5.

14 нм ++ увеличил шаг затвора транзистора для более низкой плотности тока и большей утечки транзисторов. Это, в свою очередь, позволяет использовать более высокие частоты, хотя и с большими размерами кристаллов и повышенным потреблением энергии в режиме холостого хода. Самым большим изменением стал основной дизайн настольных ПК с 6 ядрами / 12 потоками для Core i7, 6 ядер / 6 потоков для Core i5 и 4 ядра / 4 потока для Core i3. Мобильные модели также впервые получили 6-ядерные процессоры мощностью 45 Вт.

Cannon Lake (CNL, 10 нм, ядро ​​8-го поколения, май 2018 г.): Ах да, эфемерное озеро Cannon Lake, первый 10-нм процессор Intel.Есть , так что много можно сказать об этом, так что терпите меня.

Первоначально предназначенный для запуска в 2016 году, впервые продемонстрированный в 2017 году и впервые поставленный в ограниченном количестве очень в мае 2018 года, у Cannon Lake было несколько проблем. Страница Intel Cannon Lake (на которую ссылается Core i3-8121U, единственный процессор Cannon Lake, насколько нам известно) даже не существует. Но процессор действительно был отправлен, и вы не осмеливаетесь говорить иначе! (Это ставит CNL на шаг впереди Tejas, последней версии NetBurst, которая вышла из строя, но так и не увидела свет.)

Стейси Смит из Intel с пластиной Cannon Lake в 2017 году, изображение любезно предоставлено Intel

Насколько плохой был первый удар Intel по 10-нм техпроцессу? Компания преуменьшает количество проблем, но давайте посмотрим на факты. Intel выпустила 2-ядерный / 4-поточный «мобильный» дизайн с отключенной графической частью чипа. Для новых технологических узлов обычно используется чип меньшего размера, но отключение встроенного графического процессора в мобильном продукте говорит о многом. Вероятно, было необходимо увеличить количество функциональных чипов, которые могла получить Intel, что предполагает невероятно низкую доходность.И даже тогда производительность и мощность выглядели не очень хорошо.

Cannon Lake включает поддержку инструкций AVX512, которая может помочь в некоторых конкретных случаях, но все остальное в основном плохо. Мощность, задержка памяти и другие элементы были хуже, чем у существующих 14-нанометровых мобильных устройств. Оглядываясь назад, можно сказать, что трудности, вызванные всеми улучшениями, изначально заложенными в 10-нм техпроцесс Intel, намного перевешивали потенциальные преимущества. Предполагалось, что в Cannon Lake также будет представлена ​​графика Intel Gen10, но поскольку графический процессор был отключен, Gen10 фактически превратился в парное ПО.

Whiskey Lake (WHL, 14 нм ++, 8-е поколение Core, август 2018 г.): Менее известная ветвь из основной линейки процессоров Intel, Whiskey Lake появилась примерно в то же время, что и Coffee Lake Refresh, но ориентирована исключительно на мобильные процессоры. Он включает в себя те же аппаратные средства защиты от Meltdown / Spectre (многие из которых все еще реализованы в прошивке). Существует всего несколько процессоров Whiskey Lake, состоящих в основном из 4-ядерных / 8-поточных моделей i5 и i7, а также по одному для 2-ядерных / 4-поточных Core i3 и Pentium и 2-ядерных / 2-поточных. Celeron.

Intel Coffee Lake Refresh и 8-ядерный i9-9900K

Coffee Lake Refresh (CFL-R, 14 нм ++, ядро ​​9-го поколения, октябрь 2018 г.): Если первые компоненты Coffee Lake не закончились «Процесс -Архитектура-Оптимизация «, конечно, обновление. По-прежнему используя тот же процесс 14 нм ++, процессоры Core 9-го поколения добавили фирменный знак Core i9 с 8-ядерным / 16-поточным i9-9900K, а также более высокие тактовые частоты — до 5 ГГц впервые на ЦП Intel. Coffee Lake Refresh также добавляет определенные аппаратные средства защиты от уязвимостей Meltdown / Spectre.

Это то место, где Intel находится сегодня: в ближайшее время планируется прибыть еще несколько моделей Core 9-го поколения, включая первые в истории ноутбуки с 8-ядерным процессором мощностью 45 Вт, которые также способны работать с турбо-тактовой частотой 5,0 ГГц на топовой модели. Опять же, стоит отметить, что Intel в настоящее время использует свое пятое поколение основных 14-нм продуктов (Broadwell, Skylake, Kaby Lake, Coffee Lake и CFL-R).

Предстоящие и будущие разработки Intel: 10-е поколение и последующие

С этого момента все ориентируются на грядущие процессоры.Планы, вероятно, изменятся, и чем дальше мы продвинемся, тем менее надежными становятся какие-либо данные. Хрустальные шары всегда кажутся очень мутными.

Грегори Брайан из Intel с чипом Ice Lake на выставке CES 2019, изображение любезно предоставлено Intel

Ice Lake (ICL, 10 нм +, ядро ​​10-го поколения, 2019/2020): После ошибки Cannon Lake и его первого 10-нм процесса технологии, Intel нажимает кнопку сброса — поэтому она получает знак плюса. Ice Lake будет производиться объемом 10 нм + и потенциально станет преемником Coffee Lake, Whisky Lake и Cannon Lake.Мы вкратце рассказали о некоторых просочившихся данных о названиях процессоров 10-го поколения, и Ice Lake в настоящее время планируется запустить сначала на мобильных платформах, даже в этом году. Тем не менее, в текущих дорожных картах реализации Ice Lake для настольных ПК нет упоминания, хотя ранее говорилось о Ice Lake для серверов.

В основе Ice Lake лежит новая микроархитектура Sunny Cove с двух- и четырехъядерными мобильными устройствами. Это сделало бы ICL более истинным преемником нынешнего WHL, а не CFL. Ice Lake также будет иметь графику Gen11 и будет иметь стандартный дизайн 64 EU, что сделает его первым графическим процессором Intel класса TFLOPS.В Ice Lake также может появиться поддержка PCIe Gen4, хотя изначально она была указана как серверная функция, поэтому она может быть реализована или не реализована в мобильных чипах.

Intel Comet Lake несет 14-нм фонарик после Coffee Lake Refresh

Comet Lake (CML, 14 нм ++, 10-е поколение Core, 2020): Это новое дополнение к плану развития клиентских процессоров Intel (спасибо, Tom’s Hardware) , и, очевидно, мы настроены на еще один возврат к 14 нм ++ от Intel (или сейчас это 14 нм +++? Кажется, я сбился с пути).Это будет пятый этап «оптимизации» Intel для 14 нм (если вы не сгруппируете CFL и CFL-R под одним обновлением). Излишне говорить, что это не повышает уверенность в развертывании 10-нанометрового стандарта Intel, поскольку, похоже, Comet Lake возьмет на себя задачу обновления основной настольной платформы Intel в следующем году. Ой.

Подобно тому, как CFL-R добавила еще два ядра в Coffee Lake, последние утечки показывают, что Comet Lake расширяет основные процессоры Intel, добавляя до 10-ядерных / 20-потоковых конструкций.Это, вероятно, необходимо, если Intel надеется предотвратить конкуренцию со стороны грядущих частей AMD Ryzen 3000, которые должны предоставить 16-ядерные / 32-поточные компоненты для сокета AM4. Однако даже если Comet Lake улучшит количество ядер и производительность, чтобы идти в ногу с AMD, это произойдет с опозданием на шесть месяцев.

Будет ли Comet Lake работать с существующими материнскими платами на чипсетах LGA1151 серии 300 или потребуется новая платформа, пока неизвестно. Comet Lake также будет использоваться для мобильных частей серий H / U / Y (2/4/6-ядерные).

Tiger Lake (TGL, 10 нм ++, 11th Gen Core ?, 2020?): Следующим за Ice Lake является Tiger Lake, в котором предполагается использовать 10-нм техпроцесс Intel третьего поколения. Об архитектуре известно немного, кроме того, что изначально планировалось перейти на графику Gen12. В зависимости от того, что происходит с ICL, TGL может либо двигаться вперед, либо отбрасываться назад. Набег Intel на более производительные графические компоненты в 2020 году также может повлиять на будущие разработки графических процессоров.

Изображение предоставлено Pexels.com

Rocket Lake (RCL, 14nm ++++ ?, 11th Gen Core ?, 2021?): Еще одно недавнее добавление в определенные дорожные карты — Rocket Lake, которое выходит на 14 нм в седьмом раунде. Да, семь: BDW, SKL, KBL, CFL, CFL-R, CML, а теперь и RCL. Rocket Lake пока не отображается на многих дорожных картах, и все источники, похоже, указывают на Tweakers и предполагаемую утечку слайдов через Dell. Он находится на «коммерческой» дорожной карте, так что это может быть реализация Comet Lake для конкретного бизнеса, а не новый дизайн. Я бы не стал слишком много думать о его существовании, поскольку выпуск нового 14-нм дизайна в 2021 году кажется нелепым.С другой стороны, случались и более странные вещи (* кашель * Кэннон-Лейк * кашель *).

Олдер Лейк (ADL, 10 нм?, 12-е поколение, 2021?): Сейчас мы глубоко неизвестны, и все, что у нас сейчас есть, — это базовые кодовые имена. По некоторым слухам и утечкам, после Тигрового озера следует Олдерское озеро. Это как минимум два года назад, возможно, это будет четвертая итерация 10-нм, и еще мало что известно.

Meteor Lake (MTL, 7-нм, 13-е поколение, 2022?): И последнее, но не менее важное: планы Intel по выпуску 7-нм компонента первого поколения уже существуют, по крайней мере, в бумажной и именной форме.Деталь будет называться Meteor Lake и должна выйти в 2022 году. Если ничего не изменится, что, судя по Cannon Lake и 10-нанометровому переходу, вполне возможно.

Имейте в виду, что хотя AMD (TSMC) уже производит 7-нм детали, физические характеристики 7-нм техпроцесса TSMC, похоже, больше соответствуют планам Intel по 10-нм техпроцессу, поэтому Intel не обязательно на три года позади. Тем не менее, это огромное изменение на по сравнению с 22-нанометровым запуском, когда Intel фактически на три года опережала конкурентов по технологическим процессам.

Прототип Intel Lakefield, изображение любезно предоставлено Intel

Вот и все, что касается процессоров Intel Lake — или, по крайней мере, всех основных настольных и мобильных вариантов. Я пропустил низкопроизводительные конструкции с низким энергопотреблением, такие как Apollo Lake, Gemini Lak, Lakefield, Skyhawk Lake и Elkhart Lake, а также конструкции только для серверов. Даже без них у Intel все еще есть целая дюжина различных озер для ЦП для вашего удовольствия от плавания.

Возможно, еще более шокирующим является то, что большинство из пяти поколений процессоров Intel работают по единому техпроцессу: 14-нм.Однако подробное рассмотрение различных технологических процессов — это тема для другого дня. Может быть, на следующей неделе.

Intel в настоящее время ломает голову над 10-нанометровым барабаном и заявляет, что в этом году мы увидим массовые поставки, но похоже, что большая часть этих массовых поставок будет для ультрапортативных ноутбуков. Это не обязательно плохо — более половины всех проданных ПК сейчас составляют ноутбуки, хотя в этой цифре явно преобладают бизнес-пользователи. Но когда дело доходит до компьютерных игр, все еще трудно переживать скачок цены, если смотреть на настольный ПК среднего уровня по сравнению с ноутбуком сопоставимой производительности.

Тем временем AMD пытается добиться превосходства процессоров Intel, и все указывает на то, что у нее есть 7-нм компоненты Ryzen 3000, готовые к развертыванию в следующем месяце. Это похоже на неспокойные времена для Intel и ее дорожных карт процессоров, но даже с 10-нанометровыми задержками Intel все еще держится за корону производительности в расчете на количество ядер. Однако это может измениться в ближайшие месяцы, и не удивляйтесь, если это, в свою очередь, приведет к изменениям в планах Intel на будущее.

Процессор Intel

— обзор

2.2.3 Выполнение вне очереди

Как обсуждалось в разделе 2.1.1, до 80486 процессор обрабатывал по одной инструкции за раз. В результате ресурсы процессора оставались бездействующими, в то время как выполняемая в данный момент инструкция не использовала их. С введением конвейерной обработки конвейер был разделен, чтобы несколько инструкций могли сосуществовать одновременно. Следовательно, когда текущая выполняемая инструкция завершила использование некоторых ресурсов процессора, следующая инструкция могла бы начать использовать их до того, как первая инструкция полностью завершила бы выполнение.Введение μops значительно расширило эту концепцию, разделив выполнение инструкций на более мелкие шаги.

Каждый тип μop имеет соответствующий тип исполнительного блока. Pentium Pro имеет пять исполнительных блоков: два для обработки целых чисел мкопс , два для обработки чисел с плавающей запятой мкопс и один для обработки памяти мкопс . Следовательно, до пяти мкопов могут выполняться параллельно. Команда, разделенная на одну или несколько мкопов , не выполняется до тех пор, пока не будут выполнены все соответствующие ей мкопс .Очевидно, что мкопов, одной и той же инструкции зависят друг от друга, поэтому они не могут выполняться одновременно. Следовательно, в исполнительные блоки отправляются мкопов из нескольких инструкций.

Воспользовавшись преимуществом мелкой гранулярности мкопс , выполнение вне очереди значительно улучшает использование исполнительных блоков. Вплоть до Pentium Pro процессоры Intel выполнялись по порядку, то есть инструкции выполнялись в той же последовательности, в которой они были организованы в памяти.При выполнении вне очереди μops, планируются на основе доступных ресурсов, а не их упорядочивания. По мере выборки и декодирования инструкций полученные мкопов сохраняются в буфере переупорядочения . Когда исполнительные блоки и другие ресурсы становятся доступными, Станция резервирования отправляет соответствующие μop одному из исполнительных блоков. После завершения работы μop результат сохраняется обратно в буфер переупорядочения.После того, как все μops, , связанные с инструкцией, завершили выполнение, μops удаляют , то есть они удаляются из буфера переупорядочения, а любые результаты или побочные эффекты становятся видимыми для остальной системы. Хотя инструкции могут выполняться в любом порядке, инструкции всегда удаляются по порядку, гарантируя, что программисту не нужно беспокоиться об обработке выполнения вне очереди.

Чтобы проиллюстрировать проблему с исполнением по порядку и преимущества исполнения вне очереди, рассмотрим следующую гипотетическую ситуацию.Предположим, что у процессора есть два исполнительных блока, способных обрабатывать целые числа мкопс , и один, способный обрабатывать мкопс с плавающей запятой. При упорядоченном планировании наиболее эффективным использованием этого процессора было бы смешивание целочисленных инструкций и инструкций с плавающей запятой в соответствии с соотношением два к одному. Это будет включать в себя тщательное планирование инструкций на основе их задержек инструкций, наряду с задержками для выборки любых ресурсов памяти, чтобы гарантировать, что, когда исполнительный блок станет доступным, следующие μop в очереди будут выполняться с этим блоком.

Например, рассмотрим четыре инструкции, запланированные на этом примере процессора, три целочисленных инструкции, за которыми следует инструкция с плавающей запятой. Предположим, что каждая инструкция соответствует одному μop , что эти инструкции не имеют взаимозависимостей и что в настоящее время доступны все три исполнительных модуля. Первые две целочисленные инструкции будут отправлены двум доступным целочисленным исполнительным модулям, но команда с плавающей запятой не будет отправлена, даже если исполнительный модуль с плавающей запятой будет доступен.Это связано с тем, что третья целочисленная инструкция, ожидающая, пока станет доступной одна из двух целочисленных исполнительных единиц, должна быть выполнена первой. Это не позволяет использовать ресурсы процессора. При выполнении вне очереди первые две целочисленные инструкции и инструкция с плавающей запятой будут отправлены вместе.

Другими словами, выполнение вне очереди улучшает использование ресурсов процессора. Кроме того, поскольку μOps планируются на основе доступных ресурсов, некоторые задержки выполнения инструкций, такие как дорогостоящая загрузка из памяти, могут быть частично или полностью замаскированы, если вместо этого можно запланировать другую работу.

Переименование регистров

С точки зрения набора команд процессоры Intel имеют восемь регистров общего назначения в 32-битном режиме и шестнадцать регистров общего назначения в 64-битном режиме, однако с точки зрения внутреннего оборудования процессоры Intel имеют гораздо больше регистров. . Например, Pentium Pro имеет сорок регистров, организованных в структуру, называемую файлом физических регистров .

Хотя такое количество дополнительных регистров может показаться преимуществом для производительности, особенно если читатель знаком с приростом производительности, полученным от восьми дополнительных регистров в 64-битном режиме, эти регистры служат для другой цели.Вместо того, чтобы предоставлять процессу больше регистров, эти дополнительные регистры служат для обработки зависимостей данных в механизме выполнения вне очереди.

Когда значение сохраняется в регистре, назначается новая запись файла регистра, содержащая это значение. Как только другое значение сохраняется в этом регистре, назначается другая запись файла регистра, содержащая это новое значение. Внутри ядра процессора каждая зависимость данных от первого значения будет ссылаться на первую запись, а каждая зависимость данных от второго значения будет ссылаться на вторую запись.Следовательно, механизм нарушения порядка может выполнять инструкции в порядке, который в противном случае был бы невозможен из-за ложных зависимостей данных.

Архитектура процессоров и платформ Intel (обучение)

Позвольте MindShare воплотить в жизнь «процессор Intel ® (Ice Lake и Cascade Lake) и архитектуру платформы»

Каждое поколение процессоров и наборов микросхем предоставляет новые возможности, сохраняя при этом обратную совместимость с более ранними платформами.Новые архитектуры ЦП 9-го и 10-го поколения предлагают значительные улучшения в пропускной способности инструкций, энергосбережении, интегрированной графике, безопасности, вариантах упаковки системы на кристалле (SOC) и т. Д. Этот 5-дневный курс знакомит с архитектурой набора команд x86 (ISA). ) и описывает аппаратные функции новейших процессоров Intel Core и Xeon, поддерживающих его. Кроме того, в курсе представлен обзор памяти, логики концентратора контроллера платформы (PCH) и интерфейсов ввода-вывода, которые могут использоваться при реализации общих типов систем.

Полное понимание аппаратной платформы Intel x86 включает в себя знание возможностей CPU / PCH, настройку BIOS / OS, программируемых функций платформы, а также динамическое состояние системы в отношении температурных событий и ошибок и т. Д. Интегрированные демонстрации MindShare Arbor В этом курсе представлено декодированное представление о настройке регистров, состоянии системы и устройства, а также согласованное резюме информации о платформе, сообщаемой при выполнении инструкции CPUID. Студенты могут использовать программное обеспечение Arbor для сканирования локальных систем в реальном времени, чтения / изменения определенных регистров и даже сохранения результатов сканирования Arbor для последующего обмена и просмотра в автономном режиме.

Этот курс обновляется как можно чаще с целью предоставить «моментальный снимок» текущих компонентов платформ Intel Core и Xeon x86 и реализаций системы. Контент основан на общедоступных документах.

Курсы по MindShare, связанные с процессорами и платформами Intel:

Все учебные и виртуальные учебные курсы MindShare можно настроить в соответствии с потребностями вашей группы.


Информация о курсе по архитектуре процессоров и платформ Intel

Вы узнаете:

  • Процессор Intel x86 и эволюция набора микросхем
  • Текущие процессоры Core и Xeon: Ice Lake, Cascade Lake, а также варианты «Refresh»
  • Архитектура набора команд x86 (ISA) и режимы работы ЦП
  • Различия в микроархитектуре ЦП Core и Xeon
  • Тайники
  • Обращение к платформе
  • Основная память DRAM
  • Межкомпонентное соединение Ultra Path (UPI)
  • Встроенная графика ЦП
  • ЦП Интегрированный ввод-вывод (IIO)
  • Обработка прерываний
  • Поддержка аппаратной виртуализации
  • Концентратор контроллера платформы
  • (PCH) Характеристики
  • Управление питанием и температурой
  • Мониторинг производительности ЦП

Продолжительность курса: 5 дней (но можно настроить до 4 дней)

Краткое содержание курса

  • Intel x86 Core и фон платформы Xeon
    • Линия процессоров Intel 64 и IA-32
      • 80386 до Ледяного озера / Каскадного озера
      • Процессоры Core
      • и Xeon ожидаются в следующем году
    • Примеры платформ Ice Lake / Cascade Lake
      • Игровой настольный компьютер
      • Ноутбук 2-в-1
      • Масштабируемый сервер ЦП Xeon
  • Архитектура набора команд x86 (ISA)
    • Роль выборки / декодирования / выполнения ядра процессора
    • x86 Основы работы с инструкциями
    • Обзор набора команд
      • Инструкции общего назначения
      • Инструкции с плавающей запятой и SIMD
      • Инструкции по выполнению программы
      • Инструкции по аппаратному обеспечению
    • Обзор набора регистров
    • x86
      • Регистры общего назначения (GPR)
      • Регистры X87 / MMX
      • Регистры XMM / YMM / ZMM
      • Регистры сегментации
      • Регистры управления
      • Регистры отладки
      • Регистры, зависящие от модели (MSR)
    • Режимы работы ЦП
    • x86
      • Реальный режим
      • Защищенный режим
      • Режим Virtual-8086
      • Режим управления системой (SMM)
      • IA32e (длинный) режим
  • Адресация платформы
    • Введение в адресные пространства x86
      • Память (DRAM и MMIO Space)
      • IO (фиксированные и перемещаемые устаревшие регистры)
      • PCI (соединение периферийных компонентов) Пространство
    • Типы трафика платформы
      • Программируемый ввод-вывод (PIO)
      • DMA (прямой доступ к памяти)
      • Одноранговая
    • Сегментация памяти
    • Реальный режим
      • Защищенный режим
      • Пейджинг памяти
    • Пейджинг
      • Роль альтернативного буфера трансляции (TLB)
      • Режимы пейджинга x86: базовый пейджинг 4K, PSE, PAE, пейджинг в режиме IA32e
  • Микроархитектура процессора
  • Core (Ice Lake 10-го поколения)
    • Обзор внутренней архитектуры ЦП
    • Конвейер инструкций процессора и исполнительные блоки
    • Последствия HyperThreading
  • Архитектурные различия: масштабируемый ЦП Cascade Lake Xeon vs.Процессор Ice Lake Core
    • Максимальное количество сердечников / потоков = 28/56
    • Ресурсы расширенного блока выполнения AVX
    • 32 КБ кэша кода / данных L1, унифицированный кэш L2 1 МБ
    • Не включающий кэш L3 с межсоединением 2D Mesh
    • Распределенное кэширование / домашний агент L3 Cache Slice (CHA)
    • ECC DRAM и поддержка модулей PMDIMM с постоянной памятью (Optane)
  • Темы кэша
    • Основы кеширования
      • Пять типов областей карты памяти: UC, WC, WB, WT, WP
      • Управление политикой кэширования: MTRR и структуры подкачки
    • Работа ЦП в пяти областях памяти
    • Архитектура оборудования кэш-памяти
    • QoS кэш-памяти / памяти и технология Intel Resource Director (RDT)
      • Технология мониторинга кэша (CMT)
      • Технология распределения кэша (CAT)
      • Приоритет кода и данных (CDP)
      • Мониторинг пропускной способности памяти (МБМ)
    • Другие темы кэша
      • PAT Характеристика
      • Программная инструкция предварительной загрузки
      • Вневременные данные
      • Данные прямого ввода-вывода (DDIO)
  • Ключевые интерфейсы платформы
    • Обзор интерфейса CPU и PCH
    • Основная память DRAM
    • Межсоединение Intel Ultra Path (UPI)
    • PCI Экспресс (PCIe)
    • Универсальная последовательная шина (USB)
  • Пространство конфигурации PCI
    • Основы обнаружения и перечисления
    • Примеры топологии PCI клиентского и серверного компьютера
    • Заголовки PCI, совместимое пространство конфигурации, расширенное пространство конфигурации
    • Доступ к пространству конфигурации PCI
    • Просмотр программного обеспечения Arbor пространства конфигурации PCI
  • Обработка прерываний платформы
    • IOAPIC
    • Локальные APIC
    • Основы прерывания с сообщением (MSI / MSI-X)
  • Управление питанием платформы
    • Обзор ACPI
    • Функции управления питанием ЦП
    • Управление питанием PCH
    • Управление питанием IMC и DRAM
  • Управление температурным режимом платформы
    • Обзор управления температурой процессора
    • Управление температурой PCH
    • Управление температурой DRAM
  • Режим управления системой (SMM)
  • Архитектура машинной проверки (MCA)
  • Другие темы (охват зависит от уровня интереса и доступного времени)
  • Обзор виртуализации

Рекомендуемые предварительные требования:

Полезно базовое понимание архитектуры компьютера

Поставляемые материалы:

1) Презентация курса PDF

2) Электронная книга MindShare «Архитектура набора команд x86» Тома Шенли

3) Дополнительное дополнение: инструмент обучения / тестирования / отладки MindShare Arbor Software

4) Дополнительное дополнение: курс электронного обучения процессорам и платформам Intel

Intel рассказала об архитектуре процессора 11-го поколения для настольных ПК — ЦП — Новости

Intel поделилась обзором производительности и улучшений функций, которые будут предоставлены с архитектурой процессора 11-го поколения (Rocket Lake-S).Наиболее интересными новостями о грядущих процессорах Intel для настольных ПК является то, что они будут работать максимум на восьми ядрах Cypress Cove, обеспечивая увеличение производительности IPC на «двузначных процентов в процентах», они будут оснащены графической архитектурой Intel Xe, и они прибудут в 1 квартал 2021 г.

В своем новостном сообщении о грядущих 14-нм процессорах FinFET +++ Rocket Lake-S Intel заполняет большую часть своей колонки, подчеркивая, чем Rocket Lake-S понравится геймерам.Он напоминает читателям о важности высоких тактовых частот для обеспечения высокой частоты кадров и уменьшения задержки. Кроме того, в нем говорится, что он расширяет границы с помощью IPC, что пойдет на пользу геймерам, создателям контента и всем, кто регулярно занимается многозадачностью.

Слайд, посвященный ключевым характеристикам платформы, дает отличный обзор того, чего ожидать от новых процессоров для настольных ПК. Вы можете быстро увидеть, что максимальная конфигурация ядра будет 8C / 16T. В то время как ядра Cypress Cove обеспечивают двузначные улучшения IPC, графика Xe может быть на 50 процентов быстрее, чем iGPU предыдущего поколения (Gen9).В упомянутом выше «разговоре геймеров» Intel подчеркивает важность частоты, но, к сожалению, не дает никаких указаний на то, чего нам следует ожидать в этом отношении. Текущие 10 процессоров Intel -го поколения работают с тактовой частотой до 5,3 ГГц.

Другими важными изменениями архитектуры являются новый контроллер памяти для поддержки до DDR4-3200, добавляющий поддержку до четырех линий PCIe Gen 4, в общей сложности 20 от ЦП (будет поддерживать как SSD, так и графический процессор PCIe 4.0 одновременно). В другом месте Intel может похвастаться поддержкой нового медиакодека с высоким разрешением, увеличенным разрешением дисплея с помощью встроенного графического процессора и улучшенной производительностью DL Boost для обработки задач AI.

Приведенное выше объявление стало немного неожиданностью с очень краткой презентацией слайдов (оба основных слайда воспроизведены выше, остальные были титульными страницами и сносками). Рекламируемый выпуск Intel в первом квартале 2021 года может произойти через пять месяцев. Что касается новых процессоров для настольных ПК, AMD собирается выпустить свои процессоры серии Ryzen 5000 (Zen 3) 5 ноября — всего через неделю.

Intel повторно нанимает главного архитектора Nehalem для создания нового высокопроизводительного процессора

Этот сайт может получать партнерские комиссионные за использование ссылок на этой странице.Условия эксплуатации.

Новый генеральный директор Intel уже накладывает свой отпечаток на компанию, даже если он официально не придет к власти до 15 февраля. Сегодня появились новости о том, что Intel повторно наймет бывшего старшего научного сотрудника Intel Гленна Хинтона для работы над «захватывающим высокопроизводительным процессором». проект.”

Хинтон проработал 35 лет в Intel и руководил разработкой микроархитектуры Pentium Pro (P6), микроархитектуры Pentium 4 и Nehalem. Он также работал над проектом Intel i960. Нехалем — это то, чем он больше всего известен.

Немного истории: Nehalem был продолжением Intel семейства Core 2 Duo. Он дебютировал в конце 2008 года (я просмотрел его, если вам интересно), незадолго до выпуска 45-нанометрового процессора AMD Phenom II. Микроархитектура Nehalem была скромным обновлением Penryn с улучшениями в предсказании ветвлений, слиянии макроопераций и обнаружении петлевых потоков.Это был первый процессор Intel, оснащенный встроенным контроллером памяти, и он вновь представил Hyper-Threading в верхней части стека продуктов.

Наконец, запуск Nehalem означал некоторые серьезные изменения в стеке продуктов Intel. Вплоть до выпуска первых Core i7 Intel по-прежнему продавала много высокопроизводительных двухъядерных процессоров, предназначенных для рынка энтузиастов. В Nehalem Intel стандартизировала идею о том, что ЦП 4C / 8T будет высокопроизводительной игровой платформой для настольных ПК в будущем, а ЦП 4C / 4T позиционируется как часть среднего и верхнего среднего уровня.Intel ранее поставляла четырехъядерные процессоры на потребительский рынок, но разделила пространство между двухъядерными и четырехъядерными чипами.

Возвращение Хинтона после выхода на пенсию для работы над новой производительной архитектурой — немалое объявление. Не похоже, чтобы он вернулся только для того, чтобы довести дело до финиша над тем проектом, над которым работал Джим Келлер. Это означает, что мы, вероятно, рассматриваем новые возможности. Если так, то результаты этой работы мы увидим через 3-5 лет. У AMD ушло около 4.5 лет с момента найма Джима Келлера до получения дохода от Ryzen. Apple купила PA Semi в 2008 году и поставила свой первый заказной процессор на архитектуре ARM в 2012 году. Когда Intel построила Atom, она начала проектирование в 2004 году и запустила его в апреле 2008 года.

Ничто из этого не следует понимать как то, что процессоры Intel победили. не будет продолжать улучшаться в течение следующих 3-5 лет. Возможно, компании потребовались годы, чтобы преодолеть 10-нм затор, но Tiger Lake значительно повысил производительность процессора. Решение AMD заморозить разработку высокопроизводительных процессоров во время Piledriver было необычным, и с тех пор компания также вернулась к тому, чтобы держать в разработке несколько микросхем.

Сейчас прочитано :

Архитектура процессора нового поколения Intel будет «значительно больше», чем Sunny Cove

.

Intel работает над поколением архитектуры ЦП, которая обещает быть «значительно больше… и ближе к линейной кривой производительности», чем ее нынешний дизайн Sunny Cove. Предположительно, это будет означать, что процессор будет основан на увеличении количества транзисторов, но при этом будет предлагать более высокий прирост производительности поколения, чем мы наблюдаем сейчас.

На данный момент новый процессор Intel, Sunny Cove, создан для обеспечения того, что в настоящее время рассматривается как серьезный скачок в количестве инструкций за такт (IPC). Но гуру процессоров Джим Келлер сказал, что он работает над следующим поколением архитектуры, которое сможет лучше использовать преимущества разрекламированного 50-кратного увеличения транзисторов, которые его команда планирует выпустить в течение следующих нескольких лет.

Повышение IPC на 15–18%, которое Sunny Cove обеспечило ядрам Ice Lake по сравнению с ядрами Coffee Lake, работающими на такой же скорости, рассматривается как значительный прогресс.И это несмотря на то, что мы ожидаем увеличения количества транзисторов на ядро ​​примерно на 38% от поколения к поколению. По оценкам Coffee Lake содержит 217 миллионов 14-нм транзисторов на ядро, а Келлер заявил, что Ice Lake содержит 300 миллионов 10-нм транзисторов. Если бы следующее поколение процессоров могло приблизиться к линейному увеличению IPC по сравнению с увеличением транзисторов, это было бы серьезно впечатляюще.

Выступая недавно в Беркли, во время своего турне «Закон Мура не мертв», Джим Келлер рассказал об эволюции микроархитектур, от Intel 8080 до новейшей разработки Sunny Cove, на которой работают процессоры Ice Lake.И, говоря о новой архитектуре, он говорит о ее сложном составе … и немного о ее возможном преемнике.

«[Sunny Cove имеет] окно 800 инструкций, поддерживает от 3 до 6 инструкций x86 за такт, — говорит Келлер, — массивные предсказатели данных, массивные предсказатели ветвлений … Мы работаем над поколением, которое значительно больше этого и ближе к линейная кривая производительности. Это действительно серьезное изменение мышления ».

Большое изменение мышления, которое не обязательно разделяют современники и бывший работодатель Келлера, AMD.Когда она выступала с одним из двух выступлений HotChips, генеральный директор AMD д-р Лиза Су говорила об ограничениях масштабирования процессоров в будущем.

«Чистая вычислительная часть на самом деле не так уж велика, — говорит доктор Су, — чистая мощность, используемая при вычислениях, составляет около трети общей мощности процессора. И вы в конечном итоге тратите много энергии на ввод-вывод и интерфейсы, и действительно получаете все как на чипе, так и вне его. И это одна из причин, по которой мы не получаем такой большой пользы от масштабирования по мере продвижения вперед.”

Но это обещанные Intel инновации в во всех различных областях, которые, по словам Келлера, принесут те успехи, о которых он говорит.

«Многие люди думают:« Ну, мы достигли какого-то предела ». Я действительно в этом сомневаюсь», — говорит он. «У нас есть план по увеличению количества транзисторов в 50 раз и огромные шаги, которые необходимо сделать для каждой отдельной части стека.

«Помните, что компьютеры — это , созданные большим количеством людей, но на самом деле очень, очень многими небольшими командами.Лучшее прогнозирование, лучший набор инструкций, архитектура, лучшая оптимизация, лучшие инструменты САПР, лучшие библиотеки. Количество различных мест, где мы внедряем инновации, действительно очень велико ».

В следующий раз, когда Intel пообещает снова взглянуть на IPC, это будет с ядром Golden Cove, с ядром Willow Cove, расположенным между ним и текущей микроархитектурой Sunny Cove, обеспечивающей меньший выигрыш.

Но это, вероятно, еще далеко, Intel все еще нужно найти способ внедрить Sunny Cove в наши настольные процессоры, потому что мы, похоже, на данный момент застряли на 14-нм производных Skylake, даже с предстоящим Comet Lake.

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *