1. 29 августа 2024 года компания NVIDIA объявила о наилучших результатах в бенчмарке MLPerf Inference v4.1. Платформа Blackwell показала вчетверо большую производительность по сравнению с H100 на Llama 2 70B благодаря Transformer Engine второго поколения и FP4 инференсу на Tensor ядрах. Ускоритель NVIDIA H200 доступен в облаке CoreWeave, ASUS, Dell, HPE, QTC и Supermicro.Thank you for reading this post, don't forget to subscribe!
2. Он показал наилучшие результаты во всех тестах категории ЦОД, включая LLM Mixtral 8x7B с общим количеством параметров 46,7 млрд и 12,9 млрд активных параметров на токен, использующую архитектуру Mixture of Experts (MoE).
3. МоE приобрела популярность как способ привнести большую универсальность в LLM, поскольку позволяет отвечать на широкий спектр вопросов. Архитектура также более эффективна, поскольку активируются только несколько экспертов на инференс. NVIDIA отмечает, что NVLink и NVSwitch в поколении Hopper предоставляют преимущества для экономичного инференса LLM в реальном времени. Платформа Blackwell расширит возможности NVLink, позволив объединить до 72 ускорителей.
4. Ускорители NVIDIA H200 показали на 27% большую производительность инференса генеративного ИИ по сравнению с предыдущим раундом. Triton Inference Server продемонстрировал почти такую же производительность, как и у bare metal платформ. Jetson AGX Orin достигла более чем 6,2 кратного улучшения пропускной способности и 2,5 кратного улучшения задержки по сравнению с предыдущим раундом на рабочей нагрузке GPT J LLM.
5. Jetson способен локально обрабатывать любую модель трансформер. Консорциум MLCommons проводит независимые тестирования для сравнения производительности оборудования центров обработки данных. NVIDIA стабильно демонстрирует повышение производительности в разных итерациях Hopper, достигая 30% за несколько месяцев. Модели MoE (Mixture of Experts) становятся все более популярны, объединяя сильные стороны отдельных ИИ для решения сложных задач.
6. MLPerf Inference 4.1 представил бенчмарки для MoE с акцентом на NVIDIA H100, H200 и GH200. AMD Instinct MI300X впервые представлен в сравнении с решениями NVIDIA H100 и H200. NVIDIA B200 (Blackwell) демонстрирует многообещающие результаты, но пока доступен только для инференса на CPU Emerald Rapids против Granite Rapids.
7. Intel расширяет линейку Xeon 6, включая модели с производительными ядрами Granite Rapids. Первые результаты новых процессоров показывают удвоение производительности по сравнению с предшественником Emerald Rapids. Google TPU v6e (Trillium) показал в три раза большую производительность, чем TPU v5e.
8. Рынок ускорителей для ИИ стремительно развивается. NVIDIA продолжает лидировать, AMD стремится сократить отставание, а Google предлагает своё собственное решение TPU.
DIA снова на высоте: новые рекорды производительности в MLPerf Inference v4.1
29 августа NVIDIA объявила о впечатляющих результатах в бенчмарке MLPerf Inference v4.1. Компания смогла превзойти собственные достижения и показать, что её технологии остаются лидерами в сфере ускорителей для искусственного интеллекта.
Новинка, платформа Blackwell с ускорителем H200 на борту, доказала свою силу. В сравнении с платформой H100 она показала **четыре раза** большую производительность при работе с моделью Llama 2 70B. Секрет успеха – северное поколение Transformer Engine и использование FP4 инференса на Tensor ядрах. Этот подход позволил достичь невероятных скоростей обработки данных. H200 уже доступен в облаках от ведущих провайдеров, таких как CoreWeave, ASUS, Dell, HPE, QTC и Supermicro.
NVIDIA не останавливается на достигнутом: платформа Blackwell расширит возможности NVLink, позволяя объединить до **72 ускорителей**, что открывает новые горизонты для масштабируемых решений в области ИИ.
Ускорители H200 показали лучшие результаты во всех темах категории ЦОД MLPerf Inference v4.1, включая LLM Mixtral 8x7B с общим количеством параметров 46,7 млрд и 12,9 млрд активных параметров на токен. Mixtral использует архитектуру Mixture of Experts (MoE), которая завоевывает всё большую популярность благодаря своей универсальности.
MoE позволяет моделям LLM отвечать на широкий спектр запросов и решать более сложные задачи. Эта архитектура также экономит ресурсы, активируя лишь несколько экспертов при обработке информации.
NVIDIA уделяет особое внимание NVLink и NVSwitch в поколении Hopper как ключевым элементам для эффективного инференса LLM в реальном времени. Triton Inference Server на базе H200 продемонстрировал почти такую же производительность, как и bare metal платформы, что открывает возможности для разработки высокопроизводительных приложений на основе ИИ.
Jetson AGX Orin показал невероятный прогресс – более чем **шесть раз** большую пропускную способность и **2.5 раза** меньше задержки по сравнению с предыдущим поколением в тестах на рабочей нагрузке GPT J LLM. Это открывает двери для новых возможностей в обработке ИИ на локальном уровне, где Jetson способен обрабатывать любые модели трансформеров прямо на устройстве.
Консорциум MLCommons проводит независимые тестирования MLPerf Inference для сравнения производительности оборудования ЦОД, и NVIDIA стабильно демонстрирует рост мощностей. За несколько месяцев компания добилась **30%** увеличения производительности по сравнению с прошлым поколением Hopper.
MLPerf Inference v4.1 представил новые бенчмарки для MoE с акцентом на решениях от NVIDIA H100, H200 и GH200. AMD Instinct MI300X впервые сравнивается с решениями NVIDIA, а NVIDIA B200 (Blackwell) пока демонстрирует многообещающие результаты в тестах инференса на CPU Emerald Rapids против Granite Rapids. Intel расширяет линейку Xeon 6, включая модели с производительными ядрами Granite Rapids, которые уже сейчас показывают **удвоение** производительности по сравнению с предшественником Emerald Rapids. Google TPU v6e (Trillium) показал в три раза большую производительность, чем TPU v5e.
Рынок ускорителей для ИИ развивается стремительно. NVIDIA продолжает лидировать, AMD борется за сокращение отставания, а Google предлагает свое решение – TPU. Будущее этой отрасли обещает быть ещё более динамичным и инновационным.