%0 Conference Article
%T ИНФРАСТРУКТУРНЫЙ УРОВЕНЬ ОПТИМИЗАЦИИ ИНФЕРЕНСА НЕЙРОННЫХ СЕТЕЙ: ПЛАТФОРМЫ ОБСЛУЖИВАНИЯ МОДЕЛЕЙ И РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ
%A Мерзляков, Н.В.
%A Семкин, А.А.
%A Матвийчук, Б.С.
%A Седых, Д.А.
%A Дудник, С.П.
%A Вытовтов, П.Д.
%K инференс нейронных сетей, обслуживание моделей, Triton Inference Server, Ray Serve, vLLM, динамический батчинг, PagedAttention, автомасштабирование, Kubernetes, распределенные вычисления
%J МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ – 2026
%D 2026
%P 9
%I Воронежский государственный лесотехнический университет имени Г.Ф. Морозова