Реальная стоимость владения GenAI в продакшене — почему дешёвые токены не спасают бюджет
Цена за токен выглядит как главный ориентир. На практике она покрывает лишь малую часть счета. При масштабе разрыв становится очевидным: миллионы уходят не на вызовы модели, а на инфраструктуру и людей.
GenAI в продакшене — это инфраструктура. К стоимости добавляются кластеры GPU, хранение, MLOps, наблюдаемость и безопасность. Эти расходы постоянные и растут вместе системой. Экономия на токенах не перекрывает их.
При 1 млн запросов в месяц разница между моделями — сотни тысяч рублей: Lite ≈ 300 000 ₽, DeepSeek ≈ 900 000 ₽, Pro ≈ 1 200 000 ₽. Но аренда кластера, хранение и команда быстро доводят бюджет до миллионов. Команда из 2–3 инженеров часто дороже, чем сами вызовы.
Отсюда вывод: сравнивать API и self‑hosting только по цене токена нельзя. Дальше разберём, из чего складывается TCO, где возникают риски и как выбирать архитектуру с учётом масштаба и требований к данным.
Почему выбор по цене токена ведёт к ошибкам
Частая логика: берём прайс на токены или аренду GPU и выбираем дешевле. Так сравнивают YandexGPT, DeepSeek и провайдеров инфраструктуры. Инфраструктуру считают вторичной.
В реальности стоимость владения GenAI в продакшене складывается иначе. Помимо вызов есть постоянные траты: инфраструктура, хранение, MLOps, наблюдаемость и безопасность. При миллионном трафике разница в токенах — сотни тысяч, а команда и кластеры добавляют миллионы.
Типичные просчёты: — Запускают дешёвый API без мониторинга. При росте нагрузки ловят ошибки и простои, затем срочно строят наблюдаемость и платят дважды. — Переходят на self‑hosting ради «экономии на токенах», но не учитывают кластер, хранение и on‑call. Фиксированные расходы съедают выгоду.
Итог для бизнеса: решения по цене токена создают скрытые издержки и риски. Дальше — о том, из чего реально складывается TCO и как его считать.

Из чего складывается TCO GenAI
Как устроена система
В продакшене GenAI — это цепочка, а не один вызов. Есть транспорт, предобработка, модель, постобработка, кэш, логирование и мониторинг. Между слоями — сеть, очереди и хранилище. Критичны границы интеграции: вход данных использование ответа в бизнес‑процессе.
Почему токены — лишь часть
Цена токена — переменная статья. Она покрывает вычисление модели и зависит от рынка. Но постоянные расходы живут отдельно и не уменьшаются вместе с токенами.
Ключевые постоянные статьи:
— инфраструктура: кластеры GPU и сеть;
— хранение моделей и данных;
— MLOps: деплой, обновления, пайплайны;
— наблюдаемость: логи, метрики, алерты;
— безопасность: контроль доступа и защита от prompt injection;
— команда: инженеры и on‑call.
Мини‑формула расчёта
TCO = токены (переменные) + инфраструктура + хранение + MLOps + наблюдаемость + безопасность + команда.
Такой разбор убирает иллюзию «дешёвых токенов». Даже при снижении цены вызов постоянные статьи остаются и растут системой.
К чему это приводит
Искажается принятие решений. Если считать только токены, недооценивается стоимость поддержки. Падает управляемость: без наблюдаемости не видны сбои в RAG, дрейф и атаки. Риски переходят в инциденты — утечки и ошибки в ответах.
Экономика становится непредсказуемой. Рынок и субсидии давят цены токенов вниз, но инфраструктура бесплатной не становится. LLM продаются как токены вычислительной мощности, но реальный счёт формируют постоянные расходы.
Что из этого следует
Модель — лишь компонент. Основной вес — у инфраструктуры, MLOps, безопасности и людей. Значит, сравнивать нужно не прайсы, а полный контур владения и критерии выбора архитектуры.

Три сценарии, где бюджет «ломается»
Дешёвый API и быстрый рост
Запустили фичу на самом дешёвом API. Пользователи пришли быстро. Затем выросли задержки и ошибки из‑за RAG и кэша.
Команда срочно строит мониторинг и чинит интеграцию. Время инженеров и требования к SLA растут. Экономия на старте превращается в постоянные доработки.
Суть: цена вызова — только вход. Основные расходы приходят с эксплуатацией.
Self‑hosting ради экономии
Отказались от API и арендовали A100. Получили контроль и отсутствие платы за токены.
Через месяц — счёт за кластер, хранение, деплой, обновления и on‑call. Появляются MLOps‑задачи и нагрузка на команду. Сумма превышает ожидаемую экономию.
Суть: вы меняете переменные расходы на фиксированные и добавляете сложность.
Безопасность «потом»
Смешали API и локальные решения без строгих политик. Произошёл prompt injection и утечка данных.
Наблюдаемость не даёт полной картины. Расследование затягивается, архитектуру переделывают. Потери — деньги и доверие.
Суть: безопасность и наблюдаемость — базовые статьи TCO, а не опции.
Статья затрат | Единица | Примерная месячная сумма | Примечание |
|---|---|---|---|
YandexGPT Lite (цена токенов) | 0,2 ₽ за 1000 вход./1000 исход. токенов | 300 000 ₽ при 1 млн запросов | Факт из источника — покрывает только вызовы модели |
YandexGPT Pro 5.1 (цена токенов) | 0,8 ₽ за 1000 вход./1000 исход. токенов | 1 200 000 ₽ при 1 млн запросов | Более высокая стоимость токенов при прочих равных |
DeepSeek V3.2 (цена токенов) | 0,5 ₽ вход. / 0,8 ₽ исход. за 1000 токенов | 900 000 ₽ при 1 млн запросов | Промежуточный вариант по стоимости вызов |
Аренда кластера 8× A100 (g2.8) | — | ~3 169 323 ₽ в месяц | Фиксированный ежемесячный ресурс для self‑hosting |
Аренда 1 GPU A100 (g2.1) | 550,22976 ₽ в час | — | Стоимость почасовой аренды одной GPU (факт) |
Хранение моделей в Yandex DataSphere | 13,08 ₽ за 1 ГБ в месяц | — | Плата за объём хранилища сверх лимитов |
ML Engineer (средняя зарплата, Россия) | — | 185 000 ₽ в месяц | Средняя по России, 2026 год (факт) |
ML Engineer (средняя зарплата, Москва) | — | 260 000 ₽ в месяц | Средняя по Москве, 2026 год (факт) |
Senior ML Engineer (диапазон) | — | 280 000—350 000 ₽ в месяц | Указан диапазон зарплаты (факт) |
Lead (диапазон) | — | 360 000—450 000 ₽ в месяц | Указан диапазон зарплаты (факт) |
Что это меняет в управлении
Цена токена — лишь часть бюджета. Основной вес дают инфраструктура, хранение и команда. Поэтому оптимизация только по токенам смещает расходы в эксплуатацию.
Практическое действие: считайте TCO по категориям и фиксируйте владельцев статей. Для каждого варианта (API и self‑hosting) заранее закладывайте MLOps, наблюдаемость и безопасность. Проверяйте, как решение ведёт себя при росте нагрузки и при инцидентах.
Результат — предсказуемые расходы и меньше аварийных доработок. Вы управляете системой, а не реагируете на её сбои.
Как выбирать между API и self‑hosting
Ошибка — сравнивать только цену токена или час GPU. Это даёт частичную картину и скрывает основные расходы.
Правильный подход — считать GenAI как инфраструктуру: включать MLOps, наблюдаемость, безопасность, хранение и команду. Платформенный слой внутри инфраструктуры клиента (как у АСПЕКТ) помогает держать данные под контролем и снижает скрытые издержки за счёт встроенных пайплайнов и быстрого восстановления.
Критерий выбора:
— API: нужен быстрый старт, умеренный трафик, нет жёстких требований к данным;
— self‑hosting: стабильный высокий трафик, строгий контроль данных, готовность нести фиксированные расходы и поддерживать команду.
Итог: реальная стоимость владения GenAI в продакшене — это полный TCO. Оценивайте систему целиком, а не цену вызова.










