No title | Tim Pro Home Labs

Сжатая новость, но тут информации больше

1. 29 августа 2024 года компания NVIDIA объявила о наилучших результатах в бенчмарке MLPerf Inference v4.1. Платформа Blackwell показала вчетверо большую производительность по сравнению с H100 на Llama 2 70B благодаря Transformer Engine второго поколения и FP4 инференсу на Tensor ядрах. Ускоритель NVIDIA H200 доступен в облаке CoreWeave, ASUS, Dell, HPE, QTC и Supermicro.

Thank you for reading this post, don't forget to subscribe!

2. Он показал наилучшие результаты во всех тестах категории ЦОД, включая LLM Mixtral 8x7B с общим количеством параметров 46,7 млрд и 12,9 млрд активных параметров на токен, использующую архитектуру Mixture of Experts (MoE).

3. МоE приобрела популярность как способ привнести большую универсальность в LLM, поскольку позволяет отвечать на широкий спектр вопросов. Архитектура также более эффективна, поскольку активируются только несколько экспертов на инференс. NVIDIA отмечает, что NVLink и NVSwitch в поколении Hopper предоставляют преимущества для экономичного инференса LLM в реальном времени. Платформа Blackwell расширит возможности NVLink, позволив объединить до 72 ускорителей.

4. Ускорители NVIDIA H200 показали на 27% большую производительность инференса генеративного ИИ по сравнению с предыдущим раундом. Triton Inference Server продемонстрировал почти такую же производительность, как и у bare metal платформ. Jetson AGX Orin достигла более чем 6,2 кратного улучшения пропускной способности и 2,5 кратного улучшения задержки по сравнению с предыдущим раундом на рабочей нагрузке GPT J LLM.

5. Jetson способен локально обрабатывать любую модель трансформер. Консорциум MLCommons проводит независимые тестирования для сравнения производительности оборудования центров обработки данных. NVIDIA стабильно демонстрирует повышение производительности в разных итерациях Hopper, достигая 30% за несколько месяцев. Модели MoE (Mixture of Experts) становятся все более популярны, объединяя сильные стороны отдельных ИИ для решения сложных задач.

6. MLPerf Inference 4.1 представил бенчмарки для MoE с акцентом на NVIDIA H100, H200 и GH200. AMD Instinct MI300X впервые представлен в сравнении с решениями NVIDIA H100 и H200. NVIDIA B200 (Blackwell) демонстрирует многообещающие результаты, но пока доступен только для инференса на CPU Emerald Rapids против Granite Rapids.

7. Intel расширяет линейку Xeon 6, включая модели с производительными ядрами Granite Rapids. Первые результаты новых процессоров показывают удвоение производительности по сравнению с предшественником Emerald Rapids. Google TPU v6e (Trillium) показал в три раза большую производительность, чем TPU v5e.

8. Рынок ускорителей для ИИ стремительно развивается. NVIDIA продолжает лидировать, AMD стремится сократить отставание, а Google предлагает своё собственное решение TPU.

DIA снова на высоте: новые рекорды производительности в MLPerf Inference v4.1

29 августа NVIDIA объявила о впечатляющих результатах в бенчмарке MLPerf Inference v4.1. Компания смогла превзойти собственные достижения и показать, что её технологии остаются лидерами в сфере ускорителей для искусственного интеллекта.

Новинка, платформа Blackwell с ускорителем H200 на борту, доказала свою силу. В сравнении с платформой H100 она показала **четыре раза** большую производительность при работе с моделью Llama 2 70B. Секрет успеха – северное поколение Transformer Engine и использование FP4 инференса на Tensor ядрах. Этот подход позволил достичь невероятных скоростей обработки данных. H200 уже доступен в облаках от ведущих провайдеров, таких как CoreWeave, ASUS, Dell, HPE, QTC и Supermicro.

NVIDIA не останавливается на достигнутом: платформа Blackwell расширит возможности NVLink, позволяя объединить до **72 ускорителей**, что открывает новые горизонты для масштабируемых решений в области ИИ.

Ускорители H200 показали лучшие результаты во всех темах категории ЦОД MLPerf Inference v4.1, включая LLM Mixtral 8x7B с общим количеством параметров 46,7 млрд и 12,9 млрд активных параметров на токен. Mixtral использует архитектуру Mixture of Experts (MoE), которая завоевывает всё большую популярность благодаря своей универсальности.

MoE позволяет моделям LLM отвечать на широкий спектр запросов и решать более сложные задачи. Эта архитектура также экономит ресурсы, активируя лишь несколько экспертов при обработке информации.

NVIDIA уделяет особое внимание NVLink и NVSwitch в поколении Hopper как ключевым элементам для эффективного инференса LLM в реальном времени. Triton Inference Server на базе H200 продемонстрировал почти такую же производительность, как и bare metal платформы, что открывает возможности для разработки высокопроизводительных приложений на основе ИИ.

Jetson AGX Orin показал невероятный прогресс – более чем **шесть раз** большую пропускную способность и **2.5 раза** меньше задержки по сравнению с предыдущим поколением в тестах на рабочей нагрузке GPT J LLM. Это открывает двери для новых возможностей в обработке ИИ на локальном уровне, где Jetson способен обрабатывать любые модели трансформеров прямо на устройстве.

Консорциум MLCommons проводит независимые тестирования MLPerf Inference для сравнения производительности оборудования ЦОД, и NVIDIA стабильно демонстрирует рост мощностей. За несколько месяцев компания добилась **30%** увеличения производительности по сравнению с прошлым поколением Hopper.

MLPerf Inference v4.1 представил новые бенчмарки для MoE с акцентом на решениях от NVIDIA H100, H200 и GH200. AMD Instinct MI300X впервые сравнивается с решениями NVIDIA, а NVIDIA B200 (Blackwell) пока демонстрирует многообещающие результаты в тестах инференса на CPU Emerald Rapids против Granite Rapids. Intel расширяет линейку Xeon 6, включая модели с производительными ядрами Granite Rapids, которые уже сейчас показывают **удвоение** производительности по сравнению с предшественником Emerald Rapids. Google TPU v6e (Trillium) показал в три раза большую производительность, чем TPU v5e.

Рынок ускорителей для ИИ развивается стремительно. NVIDIA продолжает лидировать, AMD борется за сокращение отставания, а Google предлагает свое решение – TPU. Будущее этой отрасли обещает быть ещё более динамичным и инновационным.