Серия графических процессоров AMD Instinct становится популярной в компьютерном сообществе и сообществе искусственного интеллекта. Вот почему.
Нет никаких сомнений в том, что NVIDIA продолжает доминировать в области параллельных вычислений благодаря различным популярным сериям графических процессоров. Но благодаря ускорителям искусственного интеллекта AMD Instinct на двух новейших и крупнейших суперкомпьютерах (Frontier и El Capitan) и растущая поддержка сообществом их платформы ROCm с открытым исходным кодом, NVIDIA, возможно, уже нашла своего самого большого соперника.
Так что же такое ускорители AMD Instinct AI? Что делает их мощными и как они соотносятся с графическими процессорами NVIDIA Tensor?
Что такое процессор AMD Instinct?
Процессоры AMD Instinct — это оборудование корпоративного уровня, используемое для высокопроизводительных вычислений (HPC) и обработки с ускорением ИИ. В отличие от обычных графических процессоров потребительского уровня, графические процессоры Instinct предназначены для более эффективного обучения ИИ и других высокопроизводительных задач благодаря программным и аппаратным инновациям.
Серия графических процессоров AMD Instinct использовалась для питания первого суперкомпьютера, который преодолел барьер экзафлопс, выполняя 1,1 EFLOP при операциях с двойной точностью в секунду. Суперкомпьютеры, использующие графические процессоры Instinct, в настоящее время используются для исследования методов лечения рака, устойчивой энергетики и изменения климата.
Как процессоры Instinct ускоряют работу ИИ и высокопроизводительных вычислений
Для самые мощные в мире основные серверы и суперкомпьютеры для достижения обработки уровня Exascale ускорители AMD Instinct должны были быть оснащены несколькими технологическими обновлениями и инновациями.
Давайте обсудим некоторые из новых и обновленных технологий, используемых в графических процессорах AMD Instinct.
1. Вычислить ДНК (CDNA)
Последние ускорители AMD Instinct (начиная с MI100) используют архитектуру CDNA компании.
CDNA в первую очередь фокусируется на таких функциях, как параллельная обработка, иерархия памяти и оптимизированная производительность вычислений с помощью технологии Matrix Core. Даже высокопроизводительные вычисления, искусственный интеллект или машинное обучение, работающие на отдельных серверах, могут поддерживаться CDNA, а также огромными компьютерами Exascale.
Технология AMD Matrix Core ускоряет обучение ИИ, поддерживая операции со смешанной точностью. Возможность вычислений с различной точностью позволяет графическим процессорам Instinct эффективно выполнять матричные операции в зависимости от необходимого уровня точности.
Наиболее популярные форматы точности вычислений включают FP64, FP32, FP16, BF16 и INT8. FP обозначает плавающую точку, BF — мозговую плавающую точку, а INT — целое число. Чем выше число, соответствующее формату, тем точнее вычисление. Работа в 64-битном режиме называется двойной точностью. Для 32-битной версии используется одинарная точность, для 16-битной — половинная точность и т. д.
Поскольку большая часть обучения моделей глубокого обучения не требует большой точности, возможность вычисления матрицы операции с половинной или даже четвертной точностью для логического вывода значительно снижают рабочую нагрузку, тем самым ускоряя ИИ обучение.
2. Память с высокой пропускной способностью (HBM)
Каждый ускоритель AMD Instinct AI включает до 880 матричных ядер. С процессорами AMD Matrix Core, способными выполнять 383 TFLOP вычислений с половинной точностью, необходима сверхбыстрая память. Последние предложения AMD Instinct оснащены памятью с высокой пропускной способностью (HBM) вместо обычной оперативной памяти DDR4 или DDR5.
В отличие от обычной памяти, HBM использует так называемую многоуровневую трехмерную архитектуру. Этот тип архитектуры относится к подходу к проектированию, при котором кристаллы DRAM располагаются друг над другом вертикально. Это позволяет укладывать матрицы как по вертикальной, так и по горизонтальной оси, отсюда и термин «3D-укладка».
С помощью этой технологии трехмерного стекирования объем физической памяти HBM может достигать нескольких сотен гигабайт на модуль, в то время как DRR5 может работать только с десятками гигабайт на модуль. Известно, что помимо емкости, HBM обладают более высокой производительностью с точки зрения скорости передачи данных и лучшей энергоэффективностью, чем обычная память DDR.
3. Бесконечная ткань
Еще одна инновация, включенная в графические процессоры Instinct, — это технология AMD Infinity Fabric. Infinity Fabric — это тип системы межсоединений, которая динамически связывает центральные и графические процессоры. Это позволяет компонентам эффективно взаимодействовать друг с другом.
Благодаря Infinity Fabric компоненты теперь соединяются не с помощью обычной шины, а в ячеистой сети, пропускная способность которой может достигать нескольких сотен гигабайт в секунду.
Помимо межсоединения, похожего на сетку, Infinity Fabric также использует датчики, встроенные в каждую матрицу, для динамического контролировать частоту, скорость передачи данных и другие адаптивные функции, оптимизируя производительность и сводя к минимуму задержка.
4. Платформа разработки ROCm
NVIDIA CUDA (архитектура унифицированных вычислительных устройств) — наиболее широко используемая платформа разработки для обучения моделей ИИ. Проблема с CUDA в том, что он работает только с графическими процессорами NVIDIA. Это одна из основных причин, по которой NVIDIA занимает подавляющее большинство рыночных долей ускорителей HPC и AI GPU.
Поскольку AMD хотела получить больший кусок рынка высокопроизводительных вычислений и искусственного интеллекта, им пришлось разработать собственную платформу ROCm (Radeon Open Compute). ROCm — это программная платформа с открытым исходным кодом, которая позволяет использовать графические процессоры Instinct в качестве ускорителей искусственного интеллекта.
Хотя ROCm не обязательно является частью аппаратного обеспечения Instinct, он имеет основополагающее значение, когда речь идет о выживании линейки графических процессоров Instinct. С ROCm, разработчиками и исследователи получают инструменты ROCm, компилятор, драйверы ядра, целый ряд библиотек и доступ к таким средам, как TensorFlow и PyTorch, для разработки с помощью своих предпочтительный Язык программирования ИИ.
Чем ускорители искусственного интеллекта Instinct отличаются от ускорителей искусственного интеллекта Radeon GPU?
AMD предлагает линейку графических процессоров Instinct для предприятий и графических процессоров Radeon для обычных потребителей. Как обсуждалось ранее, Instinct GPU использует архитектуру AMD CDNA, HBM и межсоединение Infinity Fabric. И наоборот, Radeon использует архитектуру AMD RDNA, память DDR6 и кэш-память Infinity.
Несмотря на меньшие возможности, серия ускорителей искусственного интеллекта Radeon по-прежнему обладает мощным потенциалом, реализуя одно или два ядра ускорителя искусственного интеллекта на вычислительную единицу. Последний Графический процессор Radeon RX7900 XT имеет два ядра ускорителя искусственного интеллекта на вычислительную единицу, что позволяет выполнять 103 терафлопс пиковых вычислений половинной точности и 52 терафлопс пиковых вычислений одинарной точности.
В то время как серия графических процессоров Instinct лучше подходит для LLM и высокопроизводительных вычислений, ускорители Radeon AI можно использовать для тонкой настройки предварительно обученных моделей, логических выводов и задач с интенсивным использованием графики.
AMD Инстинкт против. Тензор NVIDIA
Согласно Опрос TrendForce, у NVIDA 80% рынка серверных графических процессоров, а у AMD всего 20%. Столь ошеломляющий успех NVIDIA обусловлен тем, что эта компания специализируется на разработке и сборке графических процессоров. Это позволяет им разрабатывать значительно более производительные графические процессоры, не имеющие аналогов в других предложениях.
Давайте сравним AMD Instinct MI205X и NVIDIA H100SXM5, используя спецификации из официальный сайт АМД и собственное техническое описание NVIDIA:
Модель графического процессора |
FP64 (TFLOPS) |
FP32 (TFLOPS) |
FP16 (TFLOPS) |
INT8 (TFLOPS) |
---|---|---|---|---|
AMD Инстинкт MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Как видно из таблицы, процессор AMD MI250X лучше работает с двойной и половинной точностью. вычислений, в то время как NVIDIA H100SXMS намного лучше с точки зрения матрицы половинной и четвертной точности расчеты. Это делает AMD MI250X более подходящим для высокопроизводительных вычислений, а NVIDIA H100SXMS — для обучения и вывода ИИ.
Будущее процессоров AMD Instinct
Хотя последнее предложение AMD, MI250X, предназначено для высокопроизводительных вычислений, их грядущий MI300 больше ориентирован на обучение искусственному интеллекту. Объявлено, что этот ускоритель искусственного интеллекта представляет собой APU, объединяющий GPU и CPU в одном корпусе. Это позволяет MI300 использовать архитектуру CNDA3 Unified Memory APU, в которой GPU и CPU будут использовать только одну память, повышая эффективность и снижая цену.
Хотя сегодня AMD не будет конкурировать с NVIDIA на рынке ускорителей искусственного интеллекта, как только выйдет MI300 и ROCm станет отшлифованной, серия AMD Instinct может быть достаточно хороша, чтобы отобрать значительную часть рынка ускорителей искусственного интеллекта у NVIDIA.