Нейропроцессоры, ускорители и древние (без ИИ) ЧИПы

Сколько лет теперь Intel будет догонять этот процессор? Появились тесты 96-ядерного Ryzen Threadripper Pro 7995WX
Он почти в полтора раза быстрее самого лучшего CPU Intel


Мы уже ознакомились с тестами 64-ядерного Threadripper 7980X, который порой показывает какую-то невозможную производительность относительно предшественника. Но у AMD есть ещё более впечатляющее решение: 96-ядерный Threadripper Pro 7995WX. И его полноценный обзор пока вышел только у Phoronix, причём при использовании под управлением Linux.

AMD-THREADRIPPER-7000-HERO-1-1200x624_large.jpg

Тестов у источника очень много, так что для полноты картины лучше ознакомиться с оригинальной статьёй, мы же выделим самые показательные.

Screenshot_1_2_large.jpg
Screenshot_2_0_large.jpg
Screenshot_3_0_large.jpg


К сожалению, у источника не было Threadripper 5995WX для полноты сравнения, но зато были Xeon Platinum и Xeon Max.

Screenshot_4_0_large.jpg
Screenshot_5_0_large.jpg
Screenshot_6_0_large.jpg


Как можно видеть, в большинстве тестов новые CPU AMD на голову превосходят современные процессоры Intel. Причём по среднему показателю даже 64-ядерный Threadripper 7980X смотрится намного лучше Xeon Platinum 8480+, а ничего лучше у Intel попросту нет. Ну а 96-ядерный Threadripper Pro 7995WX быстрее флагмана Intel чуть ли не в полтора раза.

Screenshot_13_large.jpg
AAAAAA_large.jpg


По энергопотреблению AMD также лучше. Средний показатель 96-ядерного составляет 294 Вт, что максимально близко к 288 Вт у 64-ядерного Threadripper 7980X. Процессоры Intel потребляют примерно столько же при намного меньшей производительности.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
MediaTek представила субфлагманский мобильный процессор Dimensity 8300 с мощным ИИ-движком

MediaTek анонсировала однокристальную платформу Dimensity 8300, предназначенную смартфонов субфлагманского уровня. Он предлагает производительный центральный и мощный графический процессор, ускоритель для алгоритмов искусственного интеллекта, а также поддержку современной скоростной памяти и актуальных беспроводных протоколов. При этом новинка отличается повышенной энергоэффективностью.

mediatek.jpg

Источник изображения: mediatek.com

MediaTek Dimensity 8300 оснащён 8-ядерным процессором с четырьмя ядрами Arm Cortex-A715 и четырьмя Cortex-A510 на новейшей архитектуре Arm v9 — по сравнению с чипом предыдущего поколения это позволяет добиться повышения производительности на 20 % и энергоэффективности — на 30 %. Обновлённый графический процессор Mali-G615 MC6 обещает повышение производительности на 60 % и рост энергоэффективности на 55 % по сравнению с предшественником. Поддерживаются оперативная память LPDDR5x до 8533 Мбит/с и UFS4.0 MCQ — они соответственно на 33 % и 100 % быстрее, чем решения, поддерживаемые мобильным процессором прошлого поколения, уверяет MediaTek.

Важнейшим нововведением Dimensity 8300 стал интегрированный ИИ-ускоритель APU 780, с поддержкой моделей класса Stable Diffusion и больших языковых моделей с числом параметров до 10 млрд. Производительность ускорителя в 3,3 раза выше, чем у чипа Dimensity 8200. Присутствует 14-битный процессор обработки изображения MediaTek HDR-ISP Imagiq 980, позволяющий вести съёмку 4K-видео с частотой 60 кадров в секунду и поддержкой HDR.

Высокая производительность в играх не означает, что аккумулятор будет садиться быстрее: технология MediaTek HyperEngine оптимизирует использование вычислительных ресурсов платформы, контролируя при этом расход энергии. В результате смартфон не перегревается, производительность остаётся на высоком уровне, батарея демонстрирует продолжительное время автономной работы, а пользователь наслаждается высокой частотой кадров, низкой задержкой и плавными движениями на экране.

Встроенный 5G-модем отвечает требованиям стандарта 3GPP Release-16, направленным на стабильную работу в сети в условиях слабого сигнала — оптимизация ресурсов помогает повысить скорость подключения и дальность действия для диапазона ниже 6 ГГц; максимальная скорость на входящем канале достигает 5,17 Гбит/с. Технология MediaTek 5G UltraSave 3.0+ помогает снизить потребление энергии на 20 % по сравнению с чипом предыдущего поколения. Поддерживаются стандарт Wi-Fi 6E с полосой 160 МГц и гибридный формат параллельного подключения Wi-Fi и Bluetooth, который обеспечивает бесперебойную совместную работу наушников, беспроводных геймпадов и других периферийных устройств.

Источник: Для просмотра ссылки Войди или Зарегистрируйся
 
NVIDIA представила сетевой ускоритель SuperNIC для гипермасштабируемых ИИ-нагрузок

Компания NVIDIA анонсировала аппаратное решение SuperNIC — это сетевой ускоритель нового типа, предназначенный для гипермасштабируемых рабочих нагрузок ИИ в системах на базе Ethernet. Устройство обеспечивает скорость передачи данных до 400 Гбит/с с использованием удаленного прямого доступа к памяти (RDMA) посредством RoCE.

Новинка выполнена на основе DPU BlueField-3: это часть сетевой 400G/800G-платформы Spectrum-X, которая предусматривает использование коммутаторов на базе ASIC NVIDIA Spectrum-4 (51,2 Тбит/с).

bluefield-supernic.jpg

Источник изображения: NVIDIA

Отмечается, что сообща BlueField-3 SuperNIC и Spectrum-4 составляют основу вычислительной системы, специально разработанной для ускорения ИИ-нагрузок. При этом платформа Spectrum-X обеспечивает высокую эффективность сети, превосходя по производительности традиционные среды Ethernet. По заявления NVIDIA, DPU предоставляет множество расширенных функций, таких как высокая пропускная способность, подключение с небольшой задержкой и пр.

Среди ключевых особенностей SuperNIC называются: высокоскоростное переупорядочение пакетов; расширенный контроль перегрузок с использованием данных в реальном времени и специализированных сетевых алгоритмов; возможность программирования ввода-вывода (I/O); энергоэффективный низкопрофильный дизайн; полная оптимизация ИИ (включая вычисления, сети, хранилище, системное ПО, коммуникационные библиотеки).

В одной системе могут быть задействованы до восьми ускорителей SuperNIC, что позволяет добиться соотношения 1:1 с GPU. А это даёт возможность максимизировать производительность при выполнении сложных задач ИИ.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
Nvidia больше не компания по производству игровых видеокарт? Компания отчиталась о рекордной выручке и росте прибыли более чем на порядок, и всё благодаря ИИ
Ускорителям для ИИ


Компания Nvidia опубликовала отчёт по итогам третьего квартала 2024 финансового года. Ожидаемо, очередной квартал для компании был очень успешным.

NVIDIA-Ampere-A800-GPU-China-US_0_large.png


Выручка выросла до рекордных для компании 18,12 млрд долларов, что втрое больше, чем год назад! Операционная прибыль и вовсе выросла на 1633%, до 10,4 млрд долларов, а рост чистой прибыли составил 1259%, тогда как сама чистая прибыль равна 9,24 млрд долларов.

Само собой, такой рывок обусловлен практически полностью только ускорителями вычислений. Это хорошо видно по отчёту: подразделение Data Center принесло компании 14,5 млрд долларов, тогда как игровое направление — всего 2,9 млрд.

NVIDIA-Q3-FY24-Earnings-Breakdown-1920x1067_large.png


Более того, выручка от продаж игровых решений за год, конечно, отлично выросла, но всё же речь о 55%, тогда как подразделение DC показало рост почти в четыре раза.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
Samsung сосредоточит контрактное производство на серверных чипах и ИИ-ускорителях

Южнокорейская компания Samsung Electronics давно является крупнейшим производителем чипов в мире в целом, а также одним из крупнейших контрактных производителей чипов после TSMC. Теперь Samsung поделилась планами по развитию контрактного полупроводникового бизнеса. Компания рассчитывает к 2028 году до 32 % выручки на этом направлении получать от выпуска чипов для серверных решений, включая и системы искусственного интеллекта.

samsung_semi.jpg

Источник изображения: Samsung Electronics

Сейчас, как поясняет Business Korea, структура выручки профильного подразделения Samsung демонстрирует заметный перевес в сторону мобильных чипов, на долю которых приходится 54 % выручки. Высокопроизводительные компоненты для серверных систем и центров обработки данных обеспечивают не более 19 % контрактной выручки Samsung, а автомобильный сегмент даёт ещё 11 %. К последнему относятся и выпускаемые Samsung по заказу сторонних клиентов чипы для систем активной помощи водителям.

К 2028 году, если верить знакомым с намерениями Samsung источникам, компания рассчитывает как минимум удвоить количество сторонних клиентов на контрактном направлении. К тому времени доля мобильных компонентов в структуре выручки контрактного подразделения должна снизиться до уровня чуть выше 30 %, а доля высокопроизводительных решений должна вырасти до 32 %. Автомобильный сегмент подрастёт до 14 %.

Сейчас крупнейшими клиентами контрактного подразделения Samsung как раз являются Samsung LSI и Qualcomm, и они в совокупности с рядом более мелких клиентов в целом обеспечивают 54 % выручки именно за счёт заказов на выпуск мобильных компонентов. Ситуация начинает меняться, как поясняют тайваньские СМИ. Компания AMD якобы готова доверить Samsung выпуск 4-нм компонентов для своих центральных серверных процессоров EPYC следующего поколения. В рамках этих технологических норм уровень выхода годной продукции Samsung достиг вполне конкурентоспособных 70 %. Корейский гигант теперь может побороться за клиентов с TSMC.

Microsoft свои первые процессоры для облачных систем будет получать от TSMC, которая будет использовать для их выпуска 5-нм технологию, но в дальнейшем и она может заинтересоваться услугами Samsung. Наличие альтернативного подрядчика всегда позволяет разработчикам рассчитывать на снижение цен на их услуги. К 2026 году Samsung собирается выпускать автомобильные и высокопроизводительные компоненты по 2-нм технологии, а к 2027 году освоить 1,4-нм техпроцесс.

Источник: Для просмотра ссылки Войди или Зарегистрируйся
 
384-ядерный китайский процессор в 2,5 раза быстрее самого мощного серверного CPU AMD. Раскрыты параметры Sunway SW26010 Pro

На его основе уже существует суперкомпьютер

Китай довольно активно развивает собственные процессоры, причём для разных сегментов. Sunway SW26010 Pro, вероятно, один из самых впечатляющих.

OIG_3_large.jpg

создано DALL-E
Это серверный процессор, который является старшим братом для CPU Sunway SW26010, вышедшего ещё в 2016 году.

Как и предшественник, новый процессор опирается на архитектуру RISC. И если у старого процессора было 260 ядер, то у нового их уже 384! Более того, создателям CPU удалось кратно повысить производительность при вычислениях с двойной точностью (FP64). Стоит сказать, что на самом деле эти процессоры появились ещё в 2021 году, причём уже тогда на их основе построили суперкомпьютер, да ещё и один из самых мощных в мире. Но лишь сейчас разработчики продемонстрировали сами CPU и раскрыли больше характеристик.

SW26010 Pro включает шесть групп ядер (CG) и блок обработки протоколов (PPU). Каждый CG объединяет 64 элемента вычислительной обработки (CPE) с 512-битным векторным движком, а также 256 КБ быстрой кеш-памяти для данных и 16 КБ — для инструкций; один элемент обработки управления (MPE), который представляет собой суперскалярное ядро внеочередного действия с векторным механизмом, 32 КБ кеша инструкций и стольк же кеша L1, 256 КБ кеша L2 и 128-битный интерфейс памяти DDR4-3200.

new_sunway_chip.jpg

Всё это работает на частоте 2,5 ГГц против 1,45 ГГц у предшественника. Техпроцесс и энергопотребление неизвестны.

Возвращаясь к производительности, она достигает 27,6 TFLOPS (FP32) и 13,8 TFLOPS (FP64). Для сравнения, у новейшего 96-ядерного Epyc 9654 речь о 5,4 TFLOPS при двойной точности.

К слову, в 2016 году рейтинг суперкомпьютеров Top500 возглавила система Sunway TaihuLight как раз на основе процессоров SW26010. Тогда самый мощный суперкомпьютер в мире предлагал производительность в 93 PFLOPS. Прошло всего семь лет, и самый мощный суперкомпьютер в мире более чем на порядок превосходит этот показатель, Sunway TaihuLight же опустился на 11 место.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
Arm представила Cortex-M52 — компактное ИИ-ядро для Интернета вещей

Компания Arm анонсировала Cortex-M52 — своё самое компактное и энергоэффективное ядро, поддерживающее работу с векторными расширениями Helium. Новинка предназначена для использования в небольших и недорогих устройствах Интернета вещей (IoT), наделённых ИИ-функциями.

Изделие выполнено на архитектуре Armv8.1-M. Реализованы 32-битные шины AMBA 5 AXI, AMBA 5 AHB для периферии и AMBA 5 AHB TCM (Tightly Coupled Memory). За безопасность отвечают средства Arm TrustZone. Поддерживаются 32-битные расширения DSP/SIMD.

arm1.jpg

Источник изображений: Arm

В перечень опций входит FPU-блок с возможностью выполнения операций FP16, FP32 и FP64. Для Cortex-M52 предусмотрено использование по 64 Кбайт кеша инструкций и данных с поддержкой ECC (опционально), а также до 16 Мбайт Instruction TCM (ITCM) и Data TCM (DTCM).

По заявлениям Arm, производительность Cortex-M52 на операциях машинного обучения в 5,6 раза превышает показатель у решений предыдущего поколения, таких как Cortex-M33, причём без необходимости использования специального нейронного блока (NPU). Эффективность достигает 4,3 CoreMark/МГц и 1,6 DMIPS/МГц.

arm2.jpg


Среди ключевых вариантов использования Cortex-M52 названы энергоэффективные микроконтроллеры для потребительских устройств с батарейным питанием, носимые гаджеты со средствами машинного обучения и интеллектуальные промышленные датчики. В плане программной части новое ядро полностью совместимо с Cortex-M55 и Cortex-M85. Говорится, что благодаря Cortex-M52 клиенты смогут внедрять интеллектуальные функции в приложения и устройства на периферии при гораздо меньших затратах, чем это возможно в настоящее время.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
В КНР официально представлен собственный процессор нового поколения

processor-loongson-3a6000.jpg


Китай официально представил компьютерный процессор нового поколения Loongson 3A6000, пишет во вторник politicallore.com со ссылкой на сообщение Центрального телевидения (ЦТ) КНР.

Набор команд и архитектура 3A6000 разработаны в КНР, производитель не зависит от американских лицензий. Это значит, что США не смогут помешать компании выпускать продукцию, как в случае с Huawei, которая вынуждена была отказаться от собственных процессоров Kirin из-за санкций.

«Демонстрация [чипа] свидетельствует о том, что независимо разработанные КНР центральные процессоры достигли новых высот в вопросах автоматического контроля и выполнения задач, при этом эксплуатационные качества достигли уровня ведущих иностранных продуктов», – цитирует издание сообщение китайского ЦТ.

По информации wccftech.com, 3A6000 сопоставим по рабочим характеристикам с процессорами Intel Core i3 10-ого поколения. Предыдущий процессор семейства Loongson, 3A5000, поставляется в Россию.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
Nvidia продаёт по полмиллиона ускорителей H100 и A100 за квартал, а ждать поставок придётся до года
Крупнейшие клиенты купили по 150 000 адаптеров H100

Последние месяцы мы видели немало новостей о том, как Nvidia направо и налево продаёт свои ускорители для ИИ, особенно самые мощные H100. Но лишь сейчас стало известно, сколько же действительно было продано таких адаптеров.

hopper-h100-grace-hopper-2c50-d@2x_large.jpg

Фото: Nvidia

Согласно данным Omdia, только за третий квартал Nvidia удалось продать почти полмиллиона ускорителей H100 и A100. Данных о соотношении этих моделей в продажах нет, но, вероятно, основной упор сейчас идёт именно на H100.

В текущем квартале аналитики ожидают, что Nvidia удастся продать уже более полумиллиона таких ускорителей. Если же посмотреть на диаграмму только для H100, то можно видеть, что по итогам всего текущего года, как ожидается, Nvidia поставит только крупнейшим клиентам около 650 000 таких адаптеров.

y2ayQDxPYF8n5xmV3C2qM8_large.jpg

фото: Omdia

При этом спрос настолько велик, что сейчас сроки ожидания поставок достигают 52 недель, то есть целого года!

Также можно видеть, что крупнейшими покупателями H100 являются компании Microsoft и Meta*, каждая из которых закупила примерно втрое больше ускорителей, чем ближайшие конкуренты в виде Google, Amazon, Oracle и Tencent.

* Компания Meta признана в России экстремистской и запрещена.

Источник Для просмотра ссылки Войди или Зарегистрируйся
 
Amazon представила мощные ускорители Trainium2 для обучения больших ИИ-моделей, а также Arm-процессоры Graviton4

Рост спроса на генеративный искусственный интеллект, который зачастую обучается и запускается на специализированных ускорителях на графических процессорах (GPU), во всём мире наблюдается дефицит таких ускорителей. На этом фоне облачные гиганты создают свои чипы. И Amazon сегодня на ежегодной конференции re:Invent продемонстрировала новейшие собственные ускорители для обучения нейросетей — Trainium2. А ещё были представлены серверные процессоры Graviton4.

sm.Amazon.800.png

Источник изображения: Unsplash

Первый из двух представленных чипов, AWS Trainium2, способен обеспечить в четыре раза более высокую производительность и в два раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Trainium2 будет доступен клиентам Amazon Web Services в инстансах EC Trn2 в кластерах из 16-ти чипов. В решении AWS EC2 UltraCluster клиенты смогут получить в своё распоряжении до 100 000 чипов Trainium2 для обучения больших языковых моделей. К сожалению, Amazon не уточнила, когда Trainium2 станут доступны клиентам AWS, предположив лишь, что это произойдёт «где-то в следующем году».

По заявлению Amazon, 100 000 чипов Trainium2 обеспечат теоретическую вычислительную мощность в 65 Эфлопс (квинтиллионов операций в секунду), что в пересчёте на одно ядро составляет 650 Тфлопс (триллионов операций). Конечно, это лишь теоретические показатели, и стоит брать во внимание факторы, усложняющие расчёты. Однако, если предположить, что одно ядро Trainium2 сможет обеспечивать реальную производительность около 200 Тфлопс, то это значительно превысит возможности чипов того же Google для обучения моделей ИИ.

В Amazon также подчеркнули, что кластер из 100 000 чипов Trainium2 способен обучить большую языковую модель ИИ (LLM – large language model) с 300 миллиардами параметров всего за несколько недель. Раньше на такие задачи уходили месяцы обучения. Отметим, что параметры в парадигме LLM — это элементы модели, полученные на обучающих датасетах и, по сути, определяющие мастерство модели в решении той или иной задачи, к примеру, генерации текста или кода. 300 миллиардов параметров — это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI.

«Чипы лежат в основе всех рабочих нагрузок клиентов, что делает их критически важной областью инноваций для AWS, — отметил в пресс-релизе вице-президент AWS по вычислениям и сетям Дэвид Браун (David Brown). — Учитывая всплеск интереса к генеративному ИИ, Trainium2 поможет клиентам обучать их ML-модели быстрее, по более приемлемой цене и с большей энергоэффективностью».

AWS_Graviton4_and_AWS_Trainium2_prototype.jpg

Слева — процессор Graviton4, справа — ускоритель Trainium2. Источник изображения: Amazon

Второй чип, анонсированный Amazon сегодня — Arm-процессор Graviton4. Amazon утверждает, что он обеспечивает на 30 % более высокую производительность, на 50 % больше ядер и на 75 % более высокую пропускную способность памяти, чем процессор предыдущего поколения Graviton3 (но не более современный Graviton3E), работающий применяемый в облаке Amazon EC2. Таким образом Graviton4 предложат до 96 ядер (но будут и другие конфигурации) и поддержку до 12 каналов оперативной памяти DDR5-5600.

Ещё один апгрейд по сравнению с Graviton3 состоит в том, что все физические аппаратные интерфейсы Graviton4 зашифрованы. По заявлению Amazon, это должно надёжнее защищать рабочие нагрузки клиентов по обучению ИИ и клиентские данные с повышенными требованиями к конфиденциальности.

«Graviton4 — это четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, когда-либо созданный нами для широкого спектра рабочих нагрузок, — говорится в заявлении Дэвида Брауна. — Затачивая наши чипы на реальные рабочие нагрузки, которые очень важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».

Graviton4 будет доступен в массивах Amazon EC2 R8g, которые уже сегодня открыты для пользователей в предварительной версии.

Источник: Для просмотра ссылки Войди или Зарегистрируйся
 
Назад
Сверху