CAPEX (единоразовые расходы)
| Статья | USD | RUB |
|---|---|---|
| Итого CAPEX |
OPEX (ежегодные расходы)
| Статья | USD/год | RUB/год |
|---|---|---|
| Итого OPEX/год |
Кумулятивный TCO по годам
Распределение GPU по моделям
| Модель | VRAM (GB) | GPU | % трафика | tok/s |
|---|
Формула расчёта (5 шагов)
Память под веса модели
Веса модели — это обученные параметры (числа), хранящиеся в памяти GPU. Каждый параметр занимает определённое количество байт в зависимости от точности представления:
| Точность | Байт/параметр | Описание |
|---|---|---|
| FP32 | 4 | Полная точность, редко для инференса |
| FP16 / BF16 | 2 | Стандартная для обучения и инференса |
| FP8 | 1 | Новый формат, отличный баланс качество/скорость |
| INT8 | 1 | Целочисленное квантование |
| INT4 | 0.5 | Агрессивное квантование, экономит память |
| Переменная | Значение |
|---|---|
P | Количество параметров (в миллиардах) |
b | Байт на параметр (зависит от квантования) |
VRAM = 72.7 × 0.5 = 36.35 ГБ
VRAM = 671 × 1 = 671 ГБ
Хотя активных только 37B параметров за один токен, все 671B эксперты загружены в память.
Влияние: Размер весов определяет минимальное количество VRAM, а значит — минимальное количество GPU для обслуживания модели.
KV-кэш (Key-Value Cache)
В архитектуре Transformer механизм внимания (attention) использует три матрицы: Query, Key и Value. При генерации каждого нового токена необходимо заново вычислять attention со всеми предыдущими токенами. Для ускорения Key и Value кэшируются.
KV-кэш растёт линейно с длиной контекста и количеством одновременных запросов (batch size). Технология GQA (Grouped Query Attention) использует меньше KV-голов, чем голов запросов, что сокращает кэш.
| Переменная | Описание |
|---|---|
L | Количество слоёв (layers) трансформера |
Hkv | Количество KV-голов (при GQA меньше, чем Q-голов) |
dh | Размерность каждой головы (head dimension) |
T | Длина контекста (в токенах) |
B | Batch size (число параллельных запросов) |
bkv | Байт на элемент (обычно 2 для FP16) |
80 слоёв × 8 KV-голов × 128 dim × 8192 токенов × 32 batch × 2 байта × 2 (K+V) ≈ ~80 ГБ
Для моделей с PagedAttention (vLLM) кэш выделяется динамически блоками, что повышает утилизацию памяти на 60-80%.
Общий VRAM
Полный объём видеопамяти, необходимый для обслуживания модели, складывается из трёх компонентов:
Компоненты накладных расходов (Overhead)
| Компонент | Размер |
|---|---|
| CUDA workspace | ~0.5 ГБ |
| Активации (activations) | Зависит от batch size, ~1-5 ГБ |
| Буферы фреймворка (vLLM, TGI) | ~1-3 ГБ |
| Временные тензоры | ~0.5-2 ГБ |
На практике overhead составляет 10-20% от суммы весов и KV-кэша.
Тензорный параллелизм
Если общий VRAM превышает объём одного GPU, модель разделяется между несколькими GPU (tensor parallelism). Степень TP обычно равна числу GPU: TP=2 для 2 GPU, TP=4 для 4 и т.д. При этом требуется быстрая связь NVLink/NVSwitch между GPU.
От пользователей к GPU (5 шагов)
Пошаговый расчёт количества GPU на основе числа пользователей:
Шаг 1: Одновременные пользователи
Шаг 2: Активные запросы
Не все одновременные пользователи активно генерируют запросы. Коэффициент активности ~40% учитывает время на чтение, обдумывание, ввод.
Шаг 3: Требуемая пропускная способность
Средние выходные токены зависят от use case: чат ~200 токенов, анализ документов ~500, код ~400, отчёты ~800.
Шаг 4: Количество GPU
Буфер 1.3× обеспечивает запас для пиковых нагрузок и деградации при высокой утилизации. Итоговое значение — максимум из расчёта по throughput и минимума по VRAM.
Шаг 5: Серверы
Пропускная способность GPU
Инференс LLM является memory-bound задачей: скорость генерации ограничена пропускной способностью памяти, а не вычислительной мощностью.
Для H100 SXM: пропускная способность памяти = 3.35 ТБ/с, для A100 = 2.0 ТБ/с.
Бенчмарки (данные исследований)
| Модель | GPU | Одиночный (tok/s) | Batch (tok/s) |
|---|---|---|---|
| 8B FP16 | 1×H100 | 60-80 | ~8 000 |
| 70B INT4 | 1×H100 | ~96 | ~2 000 |
| 70B FP16 | 2×H100 | 30-40 | 250-300 |
| 405B FP8 | 8×H100 | 6-15 | 292-700 |
| 671B MoE FP8 | 8×H100 | ~30 | ~800 |
В калькуляторе используется агрегатный throughput с учётом batching, что даёт реалистичную оценку для корпоративных нагрузок.
TCO и стоимость владения
Оборудование составляет лишь ~35% от 5-летнего TCO. Основные расходы — эксплуатация:
Структура OPEX на сервер в год
| Статья | Диапазон USD |
|---|---|
| Электроэнергия + охлаждение | $15 000 – $25 000 |
| Колокация / дата-центр | $36 000 – $96 000 |
| Обслуживание (8% CAPEX) | $20 000 – $50 000 |
| Программное обеспечение | $10 000 – $28 000 |
| Персонал (ML Ops) | $30 000 – $60 000 |
| Итого OPEX/год | $120 000 – $288 000 |
Формула электроэнергии
Санкционная наценка (Россия)
NVIDIA GPU (H100, A100) запрещены к прямому экспорту в Россию. Наценка на параллельный импорт составляет 30-100%, в среднем ~65%. Для Huawei Ascend наценка минимальна.
Окупаемость vs облако
Self-hosted инфраструктура обычно окупается за 12-24 месяца по сравнению с облачными API при постоянной нагрузке >50% утилизации.
Кривая внедрения (30-60-90)
Типичная динамика корпоративного внедрения ИИ следует S-образной кривой:
Месяцы 1-3: Пилотный проект
5-10% пользователей, 20% пиковой нагрузки. Тестирование на выбранных отделах, сбор обратной связи, настройка промптов.
Месяцы 3-6: Масштабирование
20-40% пользователей, 50% мощности. Подключение новых отделов, обучение, интеграция в рабочие процессы.
Месяцы 6-12: Зрелость
50-70% пользователей, приближение к полной нагрузке. Оптимизация, fine-tuning моделей, развитие RAG-пайплайнов.
12+ месяцев: Стабилизация
60-80% устойчивого состояния, 20-30% рост в год. Обновление моделей, расширение use cases.
Корпоративные сценарии
Потребление токенов по задачам
| Задача | Вход (токены) | Выход (токены) | Запросов/день |
|---|---|---|---|
| Простой чат | 50-200 | 100-300 | 10-30 |
| Анализ документов | 2 000-10 000 | 300-800 | 5-15 |
| Код-ассистент | 500-3 000 | 200-500 | 20-50 |
| Генерация отчётов | 1 000-5 000 | 500-2 000 | 3-10 |
| Перевод | 200-2 000 | 200-2 000 | 5-20 |
| RAG (поиск + ответ) | 1 000-4 000 | 200-500 | 10-30 |
RAG: нюансы
Чанкинг: типичный размер 256-512 токенов с перекрытием 10-20%. Каждый запрос RAG подаёт 3-10 чанков в контекст модели.
Отраслевая специфика (нефтегаз)
| Направление | Доля |
|---|---|
| Подготовка документации | 35% |
| Исследования | 25% |
| Аналитика / data analysis | 20% |
| Предиктивная аналитика | 10% |
| Прочее | 10% |
GigaChat Enterprise
GigaChat Enterprise — лицензионное решение от Сбера для корпоративного развёртывания на собственных серверах заказчика.
Основные характеристики
| Параметр | Значение |
|---|---|
| Стоимость лицензии | ~₽140 млн/год (~$1.55 млн) |
| Модель Ultra | 702B MoE, 36B активных параметров |
| Модель Lightning | 10B MoE, 1.8B активных параметров |
| Контекст | до 128K (Ultra), до 256K (Lightning) |
| Бенчмарк MERA | #1 среди российских моделей |
Сравнение вариантов
| GigaChat Enterprise | Self-hosted (Huawei) | Self-hosted (NVIDIA) | |
|---|---|---|---|
| CAPEX | Нет (лицензия) | ₽80-200 млн | ₽100-400 млн |
| OPEX/год | ₽140 млн | ₽30-60 млн | ₽30-60 млн |
| Выбор моделей | Только GigaChat | Любые (с ограничениями) | Любые |
| Fine-tuning | Ограничен | Полный | Полный |
| Русский язык | Отличный | Зависит от модели | Зависит от модели |
| Санкционный риск | Нет | Низкий | Высокий |
Когда GigaChat лучше
>5000 пользователей, критичен русский язык, требования по сертификации и compliance, нет команды ML Ops.
Когда self-hosted лучше
<3000 пользователей, нужна гибкость выбора моделей, fine-tuning, долгосрочное планирование (>3 года).
База моделей
Полный каталог моделей, доступных для self-hosted развёртывания:
| Модель | Параметры | Тип | Активные | Контекст | Риск РФ | Русский | Min GPU |
|---|---|---|---|---|---|---|---|
| GigaChat Ultra | 702B | MoE | 36B | 128K | Нет | Отл. | 16×H100 |
| GigaChat Lightning | 10B | MoE | 1.8B | 256K | Нет | Отл. | 1×L40S |
| Qwen 3 235B | 235B | MoE | 22B | 128K | Средн. | Хор. | 4×H100 |
| Kimi K2.5 | 1T | MoE | 32B | 256K | Средн. | Хор. | 8×H100 |
| DeepSeek R1 | 671B | MoE | 37B | 128K | Средн. | Хор. | 4×H100 |
| DeepSeek V3 | 671B | MoE | 37B | 128K | Средн. | Хор. | 4×H100 |
| Qwen 2.5 72B | 72.7B | Dense | 72.7B | 128K | Средн. | Хор. | 2×H100 |
| Qwen 2.5 14B | 14.7B | Dense | 14.7B | 32K | Средн. | Средн. | 1×A100 |
| Qwen 2.5 7B | 7.6B | Dense | 7.6B | 32K | Средн. | Средн. | 1×L40S |
| Llama 3.1 405B | 405B | Dense | 405B | 128K | Низкий | Средн. | 8×H100 |
| Llama 3.1 70B | 70B | Dense | 70B | 128K | Низкий | Средн. | 2×H100 |
| Llama 3.1 8B | 8B | Dense | 8B | 128K | Низкий | Базов. | 1×L40S |
| Mistral 7B | 7B | Dense | 7B | 32K | Низкий | Базов. | 1×L40S |
| Mixtral 8×7B | 47B | MoE | ~13B | 32K | Низкий | Средн. | 1×A100 |
| Gemma 2 27B | 27B | Dense | 27B | 8K | Низкий | Базов. | 1×A100 |
| GLM-4.5 | ~60B | MoE | 30B | 128K | Средн. | Хор. | 2×H100 |
| Phi-3 14B | 14B | Dense | 14B | 128K | Низкий | Средн. | 1×L40S |
| InternLM 2.5 7B | 7B | Dense | 7B | 32K | Средн. | Средн. | 1×L40S |
Источники
- NVIDIA DGX H100 Technical Documentation (2024)
- DeepSeek V3 / R1 Technical Reports (2024-2025)
- Qwen 2.5 / Qwen 3 Technical Reports (Alibaba, 2024-2025)
- Meta Llama 3.1 Model Card (2024)
- GigaChat Enterprise: Коммерческое предложение Сбера (2025)
- vLLM Benchmark Suite (2024-2025)
- Uptime Institute: Global Data Center Survey (2024)
- Stanford HAI: AI Index Report (2025)
- MERA Russian Language Model Evaluation (2025)
- Huawei Ascend 910B Product Specifications (2024)