Реальная стоимость владения GenAI в продакшене — почему дешёвые токены не спасают бюджет

Цена за токен выглядит как главный ориентир. На практике она покрывает лишь малую часть счета. При масштабе разрыв становится очевидным: миллионы уходят не на вызовы модели, а на инфраструктуру и людей.

GenAI в продакшене — это инфраструктура. К стоимости добавляются кластеры GPU, хранение, MLOps, наблюдаемость и безопасность. Эти расходы постоянные и растут вместе системой. Экономия на токенах не перекрывает их.

При 1 млн запросов в месяц разница между моделями — сотни тысяч рублей: Lite ≈ 300 000 ₽, DeepSeek ≈ 900 000 ₽, Pro ≈ 1 200 000 ₽. Но аренда кластера, хранение и команда быстро доводят бюджет до миллионов. Команда из 2–3 инженеров часто дороже, чем сами вызовы.

Отсюда вывод: сравнивать API и self‑hosting только по цене токена нельзя. Дальше разберём, из чего складывается TCO, где возникают риски и как выбирать архитектуру с учётом масштаба и требований к данным.

Почему выбор по цене токена ведёт к ошибкам

Частая логика: берём прайс на токены или аренду GPU и выбираем дешевле. Так сравнивают YandexGPT, DeepSeek и провайдеров инфраструктуры. Инфраструктуру считают вторичной.

В реальности стоимость владения GenAI в продакшене складывается иначе. Помимо вызов есть постоянные траты: инфраструктура, хранение, MLOps, наблюдаемость и безопасность. При миллионном трафике разница в токенах — сотни тысяч, а команда и кластеры добавляют миллионы.

Типичные просчёты: — Запускают дешёвый API без мониторинга. При росте нагрузки ловят ошибки и простои, затем срочно строят наблюдаемость и платят дважды. — Переходят на self‑hosting ради «экономии на токенах», но не учитывают кластер, хранение и on‑call. Фиксированные расходы съедают выгоду.

Итог для бизнеса: решения по цене токена создают скрытые издержки и риски. Дальше — о том, из чего реально складывается TCO и как его считать.

Featured image: genai true cost prod

Из чего складывается TCO GenAI

Как устроена система

В продакшене GenAI — это цепочка, а не один вызов. Есть транспорт, предобработка, модель, постобработка, кэш, логирование и мониторинг. Между слоями — сеть, очереди и хранилище. Критичны границы интеграции: вход данных использование ответа в бизнес‑процессе.

Почему токены — лишь часть

Цена токена — переменная статья. Она покрывает вычисление модели и зависит от рынка. Но постоянные расходы живут отдельно и не уменьшаются вместе с токенами.

Ключевые постоянные статьи:

— инфраструктура: кластеры GPU и сеть;

— хранение моделей и данных;

— MLOps: деплой, обновления, пайплайны;

— наблюдаемость: логи, метрики, алерты;

— безопасность: контроль доступа и защита от prompt injection;

— команда: инженеры и on‑call.

Мини‑формула расчёта

TCO = токены (переменные) + инфраструктура + хранение + MLOps + наблюдаемость + безопасность + команда.

Такой разбор убирает иллюзию «дешёвых токенов». Даже при снижении цены вызов постоянные статьи остаются и растут системой.

К чему это приводит

Искажается принятие решений. Если считать только токены, недооценивается стоимость поддержки. Падает управляемость: без наблюдаемости не видны сбои в RAG, дрейф и атаки. Риски переходят в инциденты — утечки и ошибки в ответах.

Экономика становится непредсказуемой. Рынок и субсидии давят цены токенов вниз, но инфраструктура бесплатной не становится. LLM продаются как токены вычислительной мощности, но реальный счёт формируют постоянные расходы.

Что из этого следует

Модель — лишь компонент. Основной вес — у инфраструктуры, MLOps, безопасности и людей. Значит, сравнивать нужно не прайсы, а полный контур владения и критерии выбора архитектуры.

Featured image: genai true cost prod

Три сценарии, где бюджет «ломается»

Дешёвый API и быстрый рост

Запустили фичу на самом дешёвом API. Пользователи пришли быстро. Затем выросли задержки и ошибки из‑за RAG и кэша.

Команда срочно строит мониторинг и чинит интеграцию. Время инженеров и требования к SLA растут. Экономия на старте превращается в постоянные доработки.

Суть: цена вызова — только вход. Основные расходы приходят с эксплуатацией.

Self‑hosting ради экономии

Отказались от API и арендовали A100. Получили контроль и отсутствие платы за токены.

Через месяц — счёт за кластер, хранение, деплой, обновления и on‑call. Появляются MLOps‑задачи и нагрузка на команду. Сумма превышает ожидаемую экономию.

Суть: вы меняете переменные расходы на фиксированные и добавляете сложность.

Безопасность «потом»

Смешали API и локальные решения без строгих политик. Произошёл prompt injection и утечка данных.

Наблюдаемость не даёт полной картины. Расследование затягивается, архитектуру переделывают. Потери — деньги и доверие.

Суть: безопасность и наблюдаемость — базовые статьи TCO, а не опции.

Статья затрат

Единица

Примерная месячная сумма

Примечание

YandexGPT Lite (цена токенов)

0,2 ₽ за 1000 вход./1000 исход. токенов

300 000 ₽ при 1 млн запросов

Факт из источника — покрывает только вызовы модели

YandexGPT Pro 5.1 (цена токенов)

0,8 ₽ за 1000 вход./1000 исход. токенов

1 200 000 ₽ при 1 млн запросов

Более высокая стоимость токенов при прочих равных

DeepSeek V3.2 (цена токенов)

0,5 ₽ вход. / 0,8 ₽ исход. за 1000 токенов

900 000 ₽ при 1 млн запросов

Промежуточный вариант по стоимости вызов

Аренда кластера 8× A100 (g2.8)

~3 169 323 ₽ в месяц

Фиксированный ежемесячный ресурс для self‑hosting

Аренда 1 GPU A100 (g2.1)

550,22976 ₽ в час

Стоимость почасовой аренды одной GPU (факт)

Хранение моделей в Yandex DataSphere

13,08 ₽ за 1 ГБ в месяц

Плата за объём хранилища сверх лимитов

ML Engineer (средняя зарплата, Россия)

185 000 ₽ в месяц

Средняя по России, 2026 год (факт)

ML Engineer (средняя зарплата, Москва)

260 000 ₽ в месяц

Средняя по Москве, 2026 год (факт)

Senior ML Engineer (диапазон)

280 000—350 000 ₽ в месяц

Указан диапазон зарплаты (факт)

Lead (диапазон)

360 000—450 000 ₽ в месяц

Указан диапазон зарплаты (факт)

Что это меняет в управлении

Цена токена — лишь часть бюджета. Основной вес дают инфраструктура, хранение и команда. Поэтому оптимизация только по токенам смещает расходы в эксплуатацию.

Практическое действие: считайте TCO по категориям и фиксируйте владельцев статей. Для каждого варианта (API и self‑hosting) заранее закладывайте MLOps, наблюдаемость и безопасность. Проверяйте, как решение ведёт себя при росте нагрузки и при инцидентах.

Результат — предсказуемые расходы и меньше аварийных доработок. Вы управляете системой, а не реагируете на её сбои.

Как выбирать между API и self‑hosting

Ошибка — сравнивать только цену токена или час GPU. Это даёт частичную картину и скрывает основные расходы.

Правильный подход — считать GenAI как инфраструктуру: включать MLOps, наблюдаемость, безопасность, хранение и команду. Платформенный слой внутри инфраструктуры клиента (как у АСПЕКТ) помогает держать данные под контролем и снижает скрытые издержки за счёт встроенных пайплайнов и быстрого восстановления.

Критерий выбора:

— API: нужен быстрый старт, умеренный трафик, нет жёстких требований к данным;

— self‑hosting: стабильный высокий трафик, строгий контроль данных, готовность нести фиксированные расходы и поддерживать команду.

Итог: реальная стоимость владения GenAI в продакшене — это полный TCO. Оценивайте систему целиком, а не цену вызова.

Вопросы по расчёту и выбору