Калькулятор стоимости ИИ-инфраструктуры v3

🏢 Раздел 1: Организация

Количество сотрудников

1 000

% сотрудников с доступом к ИИ

30%

Распределение пользователей (авто)

Варианты использования

Пиковый параллелизм %

10%

🤖 Раздел 2: Модели (мульти-модель)

💻 Раздел 3: Оборудование

Тип GPU

Российский рынок (санкционная наценка +65%)

GPU на сервер

Горизонт планирования

📈 Раздел 4: GigaChat Enterprise (сравнение)

Включить сравнение с GigaChat Enterprise

📊 Раздел 5: Результаты

Всего GPU

Серверов

5-летний TCO

₽0

На пользователя/мес

₽0

CAPEX (единоразовые расходы)

Статья	USD	RUB
Итого CAPEX

OPEX (ежегодные расходы)

Статья	USD/год	RUB/год
Итого OPEX/год

Кумулятивный TCO по годам

Распределение GPU по моделям

Модель	VRAM (GB)	GPU	% трафика	tok/s

Формула расчёта (5 шагов)

1. Память

2. KV-кэш

3. VRAM

4. Расчёт

5. Throughput

6. TCO

7. Внедрение

8. Сценарии

9. GigaChat

10. Модели

Память под веса модели

Веса модели — это обученные параметры (числа), хранящиеся в памяти GPU. Каждый параметр занимает определённое количество байт в зависимости от точности представления:

Точность	Байт/параметр	Описание
FP32	4	Полная точность, редко для инференса
FP16 / BF16	2	Стандартная для обучения и инференса
FP8	1	Новый формат, отличный баланс качество/скорость
INT8	1	Целочисленное квантование
INT4	0.5	Агрессивное квантование, экономит память

Переменная	Значение
`P`	Количество параметров (в миллиардах)
`b`	Байт на параметр (зависит от квантования)

Пример: Qwen 2.5 72B в INT4:
VRAM = 72.7 × 0.5 = 36.35 ГБ

Пример: DeepSeek V3 (MoE 671B) в FP8:
VRAM = 671 × 1 = 671 ГБ
Хотя активных только 37B параметров за один токен, все 671B эксперты загружены в память.

Для MoE-моделей: все эксперты хранятся в VRAM, даже если при обработке каждого токена активируется только часть. Это ключевое отличие от dense-моделей.

Влияние: Размер весов определяет минимальное количество VRAM, а значит — минимальное количество GPU для обслуживания модели.

KV-кэш (Key-Value Cache)

В архитектуре Transformer механизм внимания (attention) использует три матрицы: Query, Key и Value. При генерации каждого нового токена необходимо заново вычислять attention со всеми предыдущими токенами. Для ускорения Key и Value кэшируются.

KV-кэш растёт линейно с длиной контекста и количеством одновременных запросов (batch size). Технология GQA (Grouped Query Attention) использует меньше KV-голов, чем голов запросов, что сокращает кэш.

Переменная	Описание
`L`	Количество слоёв (layers) трансформера
`H_kv`	Количество KV-голов (при GQA меньше, чем Q-голов)
`d_h`	Размерность каждой головы (head dimension)
`T`	Длина контекста (в токенах)
`B`	Batch size (число параллельных запросов)
`b_kv`	Байт на элемент (обычно 2 для FP16)

Пример: Llama 3 70B, контекст 8K, 32 пользователя:
80 слоёв × 8 KV-голов × 128 dim × 8192 токенов × 32 batch × 2 байта × 2 (K+V) ≈ ~80 ГБ

Совет: Контекст 128K потребует в 16 раз больше KV-кэша, чем 8K. Именно поэтому длинный контекст так дорог в обслуживании.

Для моделей с PagedAttention (vLLM) кэш выделяется динамически блоками, что повышает утилизацию памяти на 60-80%.

Общий VRAM

Полный объём видеопамяти, необходимый для обслуживания модели, складывается из трёх компонентов:

Компоненты накладных расходов (Overhead)

Компонент	Размер
CUDA workspace	~0.5 ГБ
Активации (activations)	Зависит от batch size, ~1-5 ГБ
Буферы фреймворка (vLLM, TGI)	~1-3 ГБ
Временные тензоры	~0.5-2 ГБ

На практике overhead составляет 10-20% от суммы весов и KV-кэша.

Пример: Qwen 72B INT4: весов 37 ГБ + KV ~10 ГБ + overhead ~7 ГБ = ~54 ГБ → нужно 1×H100 (80 ГБ)

Тензорный параллелизм

Если общий VRAM превышает объём одного GPU, модель разделяется между несколькими GPU (tensor parallelism). Степень TP обычно равна числу GPU: TP=2 для 2 GPU, TP=4 для 4 и т.д. При этом требуется быстрая связь NVLink/NVSwitch между GPU.

Правило: Для TP необходимо, чтобы GPU были в одном сервере с NVLink. Между серверами используется Pipeline Parallelism, что менее эффективно.

От пользователей к GPU (5 шагов)

Пошаговый расчёт количества GPU на основе числа пользователей:

Шаг 1: Одновременные пользователи

1000 сотрудников × 30% AI-доступ × 10% пик = 30 одновременных

Шаг 2: Активные запросы

Не все одновременные пользователи активно генерируют запросы. Коэффициент активности ~40% учитывает время на чтение, обдумывание, ввод.

30 × 40% = 12 активных запросов

Шаг 3: Требуемая пропускная способность

Средние выходные токены зависят от use case: чат ~200 токенов, анализ документов ~500, код ~400, отчёты ~800.

12 × 300 токенов / 5 секунд = 720 tok/s

Шаг 4: Количество GPU

Буфер 1.3× обеспечивает запас для пиковых нагрузок и деградации при высокой утилизации. Итоговое значение — максимум из расчёта по throughput и минимума по VRAM.

720 / 96 × 1.3 = 9.75 → 10 GPU (мин. по VRAM: 2)

Шаг 5: Серверы

ceil(10 / 8) = 2 сервера

Пропускная способность GPU

Инференс LLM является memory-bound задачей: скорость генерации ограничена пропускной способностью памяти, а не вычислительной мощностью.

Для H100 SXM: пропускная способность памяти = 3.35 ТБ/с, для A100 = 2.0 ТБ/с.

Бенчмарки (данные исследований)

Модель	GPU	Одиночный (tok/s)	Batch (tok/s)
8B FP16	1×H100	60-80	~8 000
70B INT4	1×H100	~96	~2 000
70B FP16	2×H100	30-40	250-300
405B FP8	8×H100	6-15	292-700
671B MoE FP8	8×H100	~30	~800

Continuous batching (vLLM, TGI) позволяет обрабатывать новые запросы, не дожидаясь завершения текущих. Это увеличивает совокупный throughput в 5-30 раз по сравнению с последовательной обработкой.

В калькуляторе используется агрегатный throughput с учётом batching, что даёт реалистичную оценку для корпоративных нагрузок.

TCO и стоимость владения

Оборудование составляет лишь ~35% от 5-летнего TCO. Основные расходы — эксплуатация:

Структура OPEX на сервер в год

Статья	Диапазон USD
Электроэнергия + охлаждение	$15 000 – $25 000
Колокация / дата-центр	$36 000 – $96 000
Обслуживание (8% CAPEX)	$20 000 – $50 000
Программное обеспечение	$10 000 – $28 000
Персонал (ML Ops)	$30 000 – $60 000
Итого OPEX/год	$120 000 – $288 000

Формула электроэнергии

Санкционная наценка (Россия)

NVIDIA GPU (H100, A100) запрещены к прямому экспорту в Россию. Наценка на параллельный импорт составляет 30-100%, в среднем ~65%. Для Huawei Ascend наценка минимальна.

Окупаемость vs облако

Self-hosted инфраструктура обычно окупается за 12-24 месяца по сравнению с облачными API при постоянной нагрузке >50% утилизации.

Кривая внедрения (30-60-90)

Типичная динамика корпоративного внедрения ИИ следует S-образной кривой:

Месяцы 1-3: Пилотный проект

5-10% пользователей, 20% пиковой нагрузки. Тестирование на выбранных отделах, сбор обратной связи, настройка промптов.

Месяцы 3-6: Масштабирование

20-40% пользователей, 50% мощности. Подключение новых отделов, обучение, интеграция в рабочие процессы.

Месяцы 6-12: Зрелость

50-70% пользователей, приближение к полной нагрузке. Оптимизация, fine-tuning моделей, развитие RAG-пайплайнов.

12+ месяцев: Стабилизация

60-80% устойчивого состояния, 20-30% рост в год. Обновление моделей, расширение use cases.

Рекомендация: Закупайте оборудование на 50-60% от целевой нагрузки. Остаток добавляйте на месяцах 6-9 по результатам пилота.

Корпоративные сценарии

Потребление токенов по задачам

Задача	Вход (токены)	Выход (токены)	Запросов/день
Простой чат	50-200	100-300	10-30
Анализ документов	2 000-10 000	300-800	5-15
Код-ассистент	500-3 000	200-500	20-50
Генерация отчётов	1 000-5 000	500-2 000	3-10
Перевод	200-2 000	200-2 000	5-20
RAG (поиск + ответ)	1 000-4 000	200-500	10-30

Разброс 100×: Между простым чатом (50 входных) и анализом документов (10 000 входных) разница в потреблении ресурсов может достигать 100 раз.

RAG: нюансы

Чанкинг: типичный размер 256-512 токенов с перекрытием 10-20%. Каждый запрос RAG подаёт 3-10 чанков в контекст модели.

Отраслевая специфика (нефтегаз)

Направление	Доля
Подготовка документации	35%
Исследования	25%
Аналитика / data analysis	20%
Предиктивная аналитика	10%
Прочее	10%

GigaChat Enterprise

GigaChat Enterprise — лицензионное решение от Сбера для корпоративного развёртывания на собственных серверах заказчика.

Основные характеристики

Параметр	Значение
Стоимость лицензии	~₽140 млн/год (~$1.55 млн)
Модель Ultra	702B MoE, 36B активных параметров
Модель Lightning	10B MoE, 1.8B активных параметров
Контекст	до 128K (Ultra), до 256K (Lightning)
Бенчмарк MERA	#1 среди российских моделей

Сравнение вариантов

	GigaChat Enterprise	Self-hosted (Huawei)	Self-hosted (NVIDIA)
CAPEX	Нет (лицензия)	₽80-200 млн	₽100-400 млн
OPEX/год	₽140 млн	₽30-60 млн	₽30-60 млн
Выбор моделей	Только GigaChat	Любые (с ограничениями)	Любые
Fine-tuning	Ограничен	Полный	Полный
Русский язык	Отличный	Зависит от модели	Зависит от модели
Санкционный риск	Нет	Низкий	Высокий

Когда GigaChat лучше

>5000 пользователей, критичен русский язык, требования по сертификации и compliance, нет команды ML Ops.

Когда self-hosted лучше

<3000 пользователей, нужна гибкость выбора моделей, fine-tuning, долгосрочное планирование (>3 года).

База моделей

Полный каталог моделей, доступных для self-hosted развёртывания:

Модель	Параметры	Тип	Активные	Контекст	Риск РФ	Русский	Min GPU
GigaChat Ultra	702B	MoE	36B	128K	Нет	Отл.	16×H100
GigaChat Lightning	10B	MoE	1.8B	256K	Нет	Отл.	1×L40S
Qwen 3 235B	235B	MoE	22B	128K	Средн.	Хор.	4×H100
Kimi K2.5	1T	MoE	32B	256K	Средн.	Хор.	8×H100
DeepSeek R1	671B	MoE	37B	128K	Средн.	Хор.	4×H100
DeepSeek V3	671B	MoE	37B	128K	Средн.	Хор.	4×H100
Qwen 2.5 72B	72.7B	Dense	72.7B	128K	Средн.	Хор.	2×H100
Qwen 2.5 14B	14.7B	Dense	14.7B	32K	Средн.	Средн.	1×A100
Qwen 2.5 7B	7.6B	Dense	7.6B	32K	Средн.	Средн.	1×L40S
Llama 3.1 405B	405B	Dense	405B	128K	Низкий	Средн.	8×H100
Llama 3.1 70B	70B	Dense	70B	128K	Низкий	Средн.	2×H100
Llama 3.1 8B	8B	Dense	8B	128K	Низкий	Базов.	1×L40S
Mistral 7B	7B	Dense	7B	32K	Низкий	Базов.	1×L40S
Mixtral 8×7B	47B	MoE	~13B	32K	Низкий	Средн.	1×A100
Gemma 2 27B	27B	Dense	27B	8K	Низкий	Базов.	1×A100
GLM-4.5	~60B	MoE	30B	128K	Средн.	Хор.	2×H100
Phi-3 14B	14B	Dense	14B	128K	Низкий	Средн.	1×L40S
InternLM 2.5 7B	7B	Dense	7B	32K	Средн.	Средн.	1×L40S

Рекомендация: Для русского языка лучшие результаты у GigaChat, Qwen 3 235B и DeepSeek R1. Llama хорошо работает после fine-tuning на русских данных.

Источники

NVIDIA DGX H100 Technical Documentation (2024)
DeepSeek V3 / R1 Technical Reports (2024-2025)
Qwen 2.5 / Qwen 3 Technical Reports (Alibaba, 2024-2025)
Meta Llama 3.1 Model Card (2024)
GigaChat Enterprise: Коммерческое предложение Сбера (2025)
vLLM Benchmark Suite (2024-2025)
Uptime Institute: Global Data Center Survey (2024)
Stanford HAI: AI Index Report (2025)
MERA Russian Language Model Evaluation (2025)
Huawei Ascend 910B Product Specifications (2024)

Калькулятор стоимости ИИ-инфраструктуры