← Вернуться на skryabin-tech.ru

Калькулятор стоимости ИИ-инфраструктуры

Расчёт TCO для self-hosted LLM | Мульти-модельные конфигурации | Сравнение с GigaChat Enterprise
v3.0 · 2026
🏢 Раздел 1: Организация
Количество сотрудников
1 000
% сотрудников с доступом к ИИ
30%
Распределение пользователей (авто)
Варианты использования
Пиковый параллелизм %
10%
🤖 Раздел 2: Модели (мульти-модель)
💻 Раздел 3: Оборудование
Тип GPU
Российский рынок (санкционная наценка +65%)
GPU на сервер
Горизонт планирования
📈 Раздел 4: GigaChat Enterprise (сравнение)
Включить сравнение с GigaChat Enterprise
📊 Раздел 5: Результаты
Всего GPU
0
Серверов
0
5-летний TCO
₽0
На пользователя/мес
₽0

CAPEX (единоразовые расходы)

СтатьяUSDRUB
Итого CAPEX

OPEX (ежегодные расходы)

СтатьяUSD/годRUB/год
Итого OPEX/год

Кумулятивный TCO по годам

Распределение GPU по моделям

МодельVRAM (GB)GPU% трафикаtok/s

Формула расчёта (5 шагов)

1. Память
2. KV-кэш
3. VRAM
4. Расчёт
5. Throughput
6. TCO
7. Внедрение
8. Сценарии
9. GigaChat
10. Модели

Память под веса модели

Веса модели — это обученные параметры (числа), хранящиеся в памяти GPU. Каждый параметр занимает определённое количество байт в зависимости от точности представления:

ТочностьБайт/параметрОписание
FP324Полная точность, редко для инференса
FP16 / BF162Стандартная для обучения и инференса
FP81Новый формат, отличный баланс качество/скорость
INT81Целочисленное квантование
INT40.5Агрессивное квантование, экономит память
ПеременнаяЗначение
PКоличество параметров (в миллиардах)
bБайт на параметр (зависит от квантования)
Пример: Qwen 2.5 72B в INT4:
VRAM = 72.7 × 0.5 = 36.35 ГБ
Пример: DeepSeek V3 (MoE 671B) в FP8:
VRAM = 671 × 1 = 671 ГБ
Хотя активных только 37B параметров за один токен, все 671B эксперты загружены в память.
Для MoE-моделей: все эксперты хранятся в VRAM, даже если при обработке каждого токена активируется только часть. Это ключевое отличие от dense-моделей.

Влияние: Размер весов определяет минимальное количество VRAM, а значит — минимальное количество GPU для обслуживания модели.

KV-кэш (Key-Value Cache)

В архитектуре Transformer механизм внимания (attention) использует три матрицы: Query, Key и Value. При генерации каждого нового токена необходимо заново вычислять attention со всеми предыдущими токенами. Для ускорения Key и Value кэшируются.

KV-кэш растёт линейно с длиной контекста и количеством одновременных запросов (batch size). Технология GQA (Grouped Query Attention) использует меньше KV-голов, чем голов запросов, что сокращает кэш.

ПеременнаяОписание
LКоличество слоёв (layers) трансформера
HkvКоличество KV-голов (при GQA меньше, чем Q-голов)
dhРазмерность каждой головы (head dimension)
TДлина контекста (в токенах)
BBatch size (число параллельных запросов)
bkvБайт на элемент (обычно 2 для FP16)
Пример: Llama 3 70B, контекст 8K, 32 пользователя:
80 слоёв × 8 KV-голов × 128 dim × 8192 токенов × 32 batch × 2 байта × 2 (K+V) ≈ ~80 ГБ
Совет: Контекст 128K потребует в 16 раз больше KV-кэша, чем 8K. Именно поэтому длинный контекст так дорог в обслуживании.

Для моделей с PagedAttention (vLLM) кэш выделяется динамически блоками, что повышает утилизацию памяти на 60-80%.

Общий VRAM

Полный объём видеопамяти, необходимый для обслуживания модели, складывается из трёх компонентов:

Компоненты накладных расходов (Overhead)

КомпонентРазмер
CUDA workspace~0.5 ГБ
Активации (activations)Зависит от batch size, ~1-5 ГБ
Буферы фреймворка (vLLM, TGI)~1-3 ГБ
Временные тензоры~0.5-2 ГБ

На практике overhead составляет 10-20% от суммы весов и KV-кэша.

Пример: Qwen 72B INT4: весов 37 ГБ + KV ~10 ГБ + overhead ~7 ГБ = ~54 ГБ → нужно 1×H100 (80 ГБ)

Тензорный параллелизм

Если общий VRAM превышает объём одного GPU, модель разделяется между несколькими GPU (tensor parallelism). Степень TP обычно равна числу GPU: TP=2 для 2 GPU, TP=4 для 4 и т.д. При этом требуется быстрая связь NVLink/NVSwitch между GPU.

Правило: Для TP необходимо, чтобы GPU были в одном сервере с NVLink. Между серверами используется Pipeline Parallelism, что менее эффективно.

От пользователей к GPU (5 шагов)

Пошаговый расчёт количества GPU на основе числа пользователей:

Шаг 1: Одновременные пользователи

1000 сотрудников × 30% AI-доступ × 10% пик = 30 одновременных

Шаг 2: Активные запросы

Не все одновременные пользователи активно генерируют запросы. Коэффициент активности ~40% учитывает время на чтение, обдумывание, ввод.

30 × 40% = 12 активных запросов

Шаг 3: Требуемая пропускная способность

Средние выходные токены зависят от use case: чат ~200 токенов, анализ документов ~500, код ~400, отчёты ~800.

12 × 300 токенов / 5 секунд = 720 tok/s

Шаг 4: Количество GPU

Буфер 1.3× обеспечивает запас для пиковых нагрузок и деградации при высокой утилизации. Итоговое значение — максимум из расчёта по throughput и минимума по VRAM.

720 / 96 × 1.3 = 9.75 → 10 GPU (мин. по VRAM: 2)

Шаг 5: Серверы

ceil(10 / 8) = 2 сервера

Пропускная способность GPU

Инференс LLM является memory-bound задачей: скорость генерации ограничена пропускной способностью памяти, а не вычислительной мощностью.

Для H100 SXM: пропускная способность памяти = 3.35 ТБ/с, для A100 = 2.0 ТБ/с.

Бенчмарки (данные исследований)

МодельGPUОдиночный (tok/s)Batch (tok/s)
8B FP161×H10060-80~8 000
70B INT41×H100~96~2 000
70B FP162×H10030-40250-300
405B FP88×H1006-15292-700
671B MoE FP88×H100~30~800
Continuous batching (vLLM, TGI) позволяет обрабатывать новые запросы, не дожидаясь завершения текущих. Это увеличивает совокупный throughput в 5-30 раз по сравнению с последовательной обработкой.

В калькуляторе используется агрегатный throughput с учётом batching, что даёт реалистичную оценку для корпоративных нагрузок.

TCO и стоимость владения

Оборудование составляет лишь ~35% от 5-летнего TCO. Основные расходы — эксплуатация:

Структура OPEX на сервер в год

СтатьяДиапазон USD
Электроэнергия + охлаждение$15 000 – $25 000
Колокация / дата-центр$36 000 – $96 000
Обслуживание (8% CAPEX)$20 000 – $50 000
Программное обеспечение$10 000 – $28 000
Персонал (ML Ops)$30 000 – $60 000
Итого OPEX/год$120 000 – $288 000

Формула электроэнергии

Санкционная наценка (Россия)

NVIDIA GPU (H100, A100) запрещены к прямому экспорту в Россию. Наценка на параллельный импорт составляет 30-100%, в среднем ~65%. Для Huawei Ascend наценка минимальна.

Окупаемость vs облако

Self-hosted инфраструктура обычно окупается за 12-24 месяца по сравнению с облачными API при постоянной нагрузке >50% утилизации.

Кривая внедрения (30-60-90)

Типичная динамика корпоративного внедрения ИИ следует S-образной кривой:

Месяцы 1-3: Пилотный проект

5-10% пользователей, 20% пиковой нагрузки. Тестирование на выбранных отделах, сбор обратной связи, настройка промптов.

Месяцы 3-6: Масштабирование

20-40% пользователей, 50% мощности. Подключение новых отделов, обучение, интеграция в рабочие процессы.

Месяцы 6-12: Зрелость

50-70% пользователей, приближение к полной нагрузке. Оптимизация, fine-tuning моделей, развитие RAG-пайплайнов.

12+ месяцев: Стабилизация

60-80% устойчивого состояния, 20-30% рост в год. Обновление моделей, расширение use cases.

Рекомендация: Закупайте оборудование на 50-60% от целевой нагрузки. Остаток добавляйте на месяцах 6-9 по результатам пилота.

Корпоративные сценарии

Потребление токенов по задачам

ЗадачаВход (токены)Выход (токены)Запросов/день
Простой чат50-200100-30010-30
Анализ документов2 000-10 000300-8005-15
Код-ассистент500-3 000200-50020-50
Генерация отчётов1 000-5 000500-2 0003-10
Перевод200-2 000200-2 0005-20
RAG (поиск + ответ)1 000-4 000200-50010-30
Разброс 100×: Между простым чатом (50 входных) и анализом документов (10 000 входных) разница в потреблении ресурсов может достигать 100 раз.

RAG: нюансы

Чанкинг: типичный размер 256-512 токенов с перекрытием 10-20%. Каждый запрос RAG подаёт 3-10 чанков в контекст модели.

Отраслевая специфика (нефтегаз)

НаправлениеДоля
Подготовка документации35%
Исследования25%
Аналитика / data analysis20%
Предиктивная аналитика10%
Прочее10%

GigaChat Enterprise

GigaChat Enterprise — лицензионное решение от Сбера для корпоративного развёртывания на собственных серверах заказчика.

Основные характеристики

ПараметрЗначение
Стоимость лицензии~₽140 млн/год (~$1.55 млн)
Модель Ultra702B MoE, 36B активных параметров
Модель Lightning10B MoE, 1.8B активных параметров
Контекстдо 128K (Ultra), до 256K (Lightning)
Бенчмарк MERA#1 среди российских моделей

Сравнение вариантов

GigaChat EnterpriseSelf-hosted (Huawei)Self-hosted (NVIDIA)
CAPEXНет (лицензия)₽80-200 млн₽100-400 млн
OPEX/год₽140 млн₽30-60 млн₽30-60 млн
Выбор моделейТолько GigaChatЛюбые (с ограничениями)Любые
Fine-tuningОграниченПолныйПолный
Русский языкОтличныйЗависит от моделиЗависит от модели
Санкционный рискНетНизкийВысокий

Когда GigaChat лучше

>5000 пользователей, критичен русский язык, требования по сертификации и compliance, нет команды ML Ops.

Когда self-hosted лучше

<3000 пользователей, нужна гибкость выбора моделей, fine-tuning, долгосрочное планирование (>3 года).

База моделей

Полный каталог моделей, доступных для self-hosted развёртывания:

МодельПараметрыТипАктивныеКонтекстРиск РФРусскийMin GPU
GigaChat Ultra702BMoE36B128KНетОтл.16×H100
GigaChat Lightning10BMoE1.8B256KНетОтл.1×L40S
Qwen 3 235B235BMoE22B128KСредн.Хор.4×H100
Kimi K2.51TMoE32B256KСредн.Хор.8×H100
DeepSeek R1671BMoE37B128KСредн.Хор.4×H100
DeepSeek V3671BMoE37B128KСредн.Хор.4×H100
Qwen 2.5 72B72.7BDense72.7B128KСредн.Хор.2×H100
Qwen 2.5 14B14.7BDense14.7B32KСредн.Средн.1×A100
Qwen 2.5 7B7.6BDense7.6B32KСредн.Средн.1×L40S
Llama 3.1 405B405BDense405B128KНизкийСредн.8×H100
Llama 3.1 70B70BDense70B128KНизкийСредн.2×H100
Llama 3.1 8B8BDense8B128KНизкийБазов.1×L40S
Mistral 7B7BDense7B32KНизкийБазов.1×L40S
Mixtral 8×7B47BMoE~13B32KНизкийСредн.1×A100
Gemma 2 27B27BDense27B8KНизкийБазов.1×A100
GLM-4.5~60BMoE30B128KСредн.Хор.2×H100
Phi-3 14B14BDense14B128KНизкийСредн.1×L40S
InternLM 2.5 7B7BDense7B32KСредн.Средн.1×L40S
Рекомендация: Для русского языка лучшие результаты у GigaChat, Qwen 3 235B и DeepSeek R1. Llama хорошо работает после fine-tuning на русских данных.

Источники

  1. NVIDIA DGX H100 Technical Documentation (2024)
  2. DeepSeek V3 / R1 Technical Reports (2024-2025)
  3. Qwen 2.5 / Qwen 3 Technical Reports (Alibaba, 2024-2025)
  4. Meta Llama 3.1 Model Card (2024)
  5. GigaChat Enterprise: Коммерческое предложение Сбера (2025)
  6. vLLM Benchmark Suite (2024-2025)
  7. Uptime Institute: Global Data Center Survey (2024)
  8. Stanford HAI: AI Index Report (2025)
  9. MERA Russian Language Model Evaluation (2025)
  10. Huawei Ascend 910B Product Specifications (2024)