immers·cloud добавил MoE-модель от Google и «прокачал» серверы до H200 с NVLink

Подпишитесь на нас:

Пока одни обсуждают, сколько параметров «достаточно», в immers·cloud решили не спорить, а просто расширить каталог моделей и заодно обновить железо. Провайдер объявил о добавлении новой нейросети Gemma-4-26B-A4B-it, а также о запуске конфигураций серверов на базе NVIDIA H200 с поддержкой NVLink. В итоге облако стало немного «умнее» и заметно «тяжелее» — в хорошем смысле этого слова.

MoE без лишних затрат: что представляет собой Gemma-4

В каталоге immers·cloud появилась Gemma-4-26B-A4B-it — первая открытая модель Google из линейки Gemma, построенная на архитектуре Mixture-of-Experts. При общем объёме в 25,2 млрд параметров она активирует лишь около 3,8–4 млрд на каждый токен. Такой подход выглядит как компромисс между амбициями и здравым смыслом: ресурсы экономятся, а качество почти не страдает.

По оценкам разработчиков, модель достигает примерно 97% качества плотной версии на 31 млрд параметров, но требует заметно меньше вычислительных мощностей. Для тех, кто привык считать GPU-часы, это звучит как редкий случай, когда «почти так же хорошо» означает «намного дешевле».

Архитектурно модель включает 30 слоёв и использует гибридный механизм внимания со скользящим окном на 1024 токена при общем контексте до 256K. Она поддерживает мультимодальность, уверенно работает с текстом и изображениями, а также ориентирована на агентные сценарии — те самые, где системе нужно не только отвечать, но и действовать.

На практике это делает модель интересной для разработчиков автономных агентов, специалистов по автоматизации, а также стартапов и исследователей, которые не готовы строить инфраструктуру уровня крупного дата-центра, но всё же хотят получать вменяемые результаты.

NVLink и H200: когда GPU начинают «разговаривать» быстрее

На стороне инфраструктуры immers·cloud сделал шаг в сторону более серьёзных вычислений. Новые конфигурации с NVIDIA H200 получили поддержку NVLink — технологии, которая превращает несколько GPU в нечто более связанное, чем просто набор отдельных устройств.

В стандартных конфигурациях GPU обмениваются данными через более медленные интерфейсы, что часто становится узким местом. NVLink эту проблему решает: пропускная способность достигает до 900 ГБ/с между парой ускорителей. В зависимости от топологии, обмен данными может идти на скорости до 300 ГБ/с (NV6) или до 900 ГБ/с (NV18).

В таких конфигурациях используются две или четыре GPU, объединённые в единую систему. В сочетании с архитектурой Hopper, тензорными ядрами четвёртого поколения, поддержкой FP8 и пропускной способностью памяти HBM3e до 4,8 ТБ/с сервер перестаёт выглядеть как обычная машина и начинает напоминать специализированную платформу для работы с тяжёлыми моделями.

Если раньше ограничения чаще упирались в память или скорость обмена между ускорителями, то теперь эти вопросы отодвигаются чуть дальше. Не исчезают, конечно, но хотя бы перестают быть первым пунктом в списке проблем.

Когда модель и железо встречаются в одном месте

Комбинация новой MoE-модели и обновлённой инфраструктуры выглядит как попытка закрыть сразу два типичных запроса: «где взять нормальную модель» и «на чём её вообще запускать». immers·cloud, похоже, решил, что проще ответить на оба вопроса одновременно.

В результате пользователи получают доступ к более эффективным моделям и инфраструктуре, которая не начинает нервничать при первой же серьёзной нагрузке. А индустрия, в свою очередь, получает ещё один пример того, как облачные платформы постепенно превращаются в полноценные среды для работы с ИИ, а не просто в место, где «что-то можно запустить».