%0 Conference Article %T ИНФРАСТРУКТУРНЫЙ УРОВЕНЬ ОПТИМИЗАЦИИ ИНФЕРЕНСА НЕЙРОННЫХ СЕТЕЙ: ПЛАТФОРМЫ ОБСЛУЖИВАНИЯ МОДЕЛЕЙ И РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ %A Мерзляков, Н.В. %A Семкин, А.А. %A Матвийчук, Б.С. %A Седых, Д.А. %A Дудник, С.П. %A Вытовтов, П.Д. %K инференс нейронных сетей, обслуживание моделей, Triton Inference Server, Ray Serve, vLLM, динамический батчинг, PagedAttention, автомасштабирование, Kubernetes, распределенные вычисления %J МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ – 2026 %D 2026 %P 9 %I Воронежский государственный лесотехнический университет имени Г.Ф. Морозова