ИНФРАСТРУКТУРНЫЙ УРОВЕНЬ ОПТИМИЗАЦИИ ИНФЕРЕНСА НЕЙРОННЫХ СЕТЕЙ: ПЛАТФОРМЫ ОБСЛУЖИВАНИЯ МОДЕЛЕЙ И РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ

Мерзляков Н. В.; Семкин А. А.; Матвийчук Б. С.; Седых Д. А.; Дудник С. П.; Вытовтов П. Д.

doi:doi:10.58168/MIST2026_367-376

Главная / Конференции / МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ – 2026 / МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ – 2026 : Материалы Международной научно-практической конференции, посвященной 5-летию Факультета компьютерных наук и технологий, Воронеж, 30 марта 2026 г.

ИНФРАСТРУКТУРНЫЙ УРОВЕНЬ ОПТИМИЗАЦИИ ИНФЕРЕНСА НЕЙРОННЫХ СЕТЕЙ: ПЛАТФОРМЫ ОБСЛУЖИВАНИЯ МОДЕЛЕЙ И РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ

Отправить рукопись

Цитировать

ИНФРАСТРУКТУРНЫЙ УРОВЕНЬ ОПТИМИЗАЦИИ ИНФЕРЕНСА НЕЙРОННЫХ СЕТЕЙ: ПЛАТФОРМЫ ОБСЛУЖИВАНИЯ МОДЕЛЕЙ И РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ

Секция: СЕКЦИЯ 1. СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ, ОБРАБОТКА ИНФОРМАЦИИ

Сборник: МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ – 2026 : МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ, ПОСВЯЩЕННОЙ 5-ЛЕТИЮ ФАКУЛЬТЕТА КОМПЬЮТЕРНЫХ НАУК И ТЕХНОЛОГИЙ, ВОРОНЕЖ, 30 МАРТА 2026 Г.

УДК 004 Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем

Мерзляков Н. В. ¹

Семкин А. А. ²

Матвийчук Б. С. ³

Седых Д. А. ⁴

Дудник С. П. ⁵

Вытовтов П. Д. ⁶

Информация об авторах и публикации

Авторы:

1. Воронежский государственный лесотехнический университет им. Г.Ф. Морозова

2. Воронежский государственный лесотехнический университет им. Г.Ф. Морозова

3. Воронежский государственный лесотехнический университет имени Г. Ф. Морозова
Россия

4. Воронежский государственный лесотехнический университет им. Г.Ф. Морозова
Россия

5. Воронежский государственный лесотехнический университет им. Г.Ф. Морозова

6. Воронежский государственный лесотехнический университет им. Г.Ф. Морозова
Россия

Тип:

Статья конференции

DOI:

https://doi.org/10.58168/MIST2026_367-376

Страницы:

с 367 по 376

Опубликовано:

30.06.2026

Классификаторы:

УДК 004 Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем

Язык материала:

русский

Ключевые слова:

инференс нейронных сетей, обслуживание моделей, Triton Inference Server, Ray Serve, vLLM, динамический батчинг, PagedAttention, автомасштабирование, Kubernetes, распределенные вычисления

Аннотация и ключевые слова

Аннотация:
В статье рассматривается инфраструктурный уровень оптимизации инференса нейронных сетей, включающий платформы обслуживания моделей, механизмы масштабирования и распределенных вычислений. Также проведен сравнительный анализ ведущих систем: NVIDIA Triton Inference Server, Ray Serve, vLLM и BentoML. Рассмотрены механизмы повышения эффективности: динамический батчинг, непрерывная агрегация запросов, управление памятью с помощью PagedAttention, а также стратегии автономного масштабирования. В статье затронут момент интеграции инфраструктурных решений с Kubernetes.

Ключевые слова:
инференс нейронных сетей, обслуживание моделей, Triton Inference Server, Ray Serve, vLLM, динамический батчинг, PagedAttention, автомасштабирование, Kubernetes, распределенные вычисления

Список литературы

1. Мочалов, В. П. Алгоритм динамического распределения и балансировки нагрузки в распределённых облачных вычислениях / В. П. Мочалов, Н. Ю. Братченко, Д. В. Гостева // Моделирование систем и процессов. – 2024. – Т. 17, № 1. – С. 92-102. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-1-92-102. – EDN EWMPYM.

2. Зольников, В. К. Моделирование распределения канального ресурса корпоративной сети связи / В. К. Зольников, С. А. Сазонова, Е. А. Аникеев // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 28-44. – DOIhttps://doi.org/10.12737/2219-0767-2025-28-44.

3. Документация NVIDIA Triton Inference Server. URL: https://docs.nvidia.com/deeplearning/triton-inference-server/ (дата обращения: 10.02.2026).

4. Документация Ray Serve. URL: https://docs.ray.io/en/latest/serve/index.html (дата обращения: 10.02.2026).

5. Элмелиджи А. NVIDIA Triton Inference Server достигает выдающейся производительности в бенчмарках MLPerf Inference 4.1 // NVIDIA Developer Blog. 2024. URL: https://developer.nvidia.com/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/ (дата обращения: 10.02.2026).

6. Ачкасов, А. В. Применение нейронных сетей для оптимизации энергопотребления СБИС / А. В. Ачкасов, А. С. Ягодкин, Ф. В. Макаренко, Н. Ю. Заленская // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 7-16. – DOIhttps://doi.org/10.12737/2219-0767-2025-7-16.

7. Ачкасов, Д. А. Изучение и моделирование эвристических алгоритмов оптимизации / Д. А. Ачкасов, К. В. Зольников, Н. Н. Литвинов // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 17-28. – DOIhttps://doi.org/10.12737/2219-0767-2025-17-28.

8. Курипта, О. В. Архитектурное решение проектирования сервисов пространственно-временной навигации в образовательных учреждениях / О. В. Курипта, О. В. Минакова, И. В. Поцебнева // Моделирование систем и процессов. – 2024. – Т. 17, № 1. – С. 65-72. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-1-65-72. – EDN CNSEZA.

9. Бугаев, Ю. В. Анализ моделей и алгоритмов оптимизации раскроя одномерных лесоматериалов / Ю. В. Бугаев, Л. А. Коробова, И. Ю. Шурупова // Моделирование систем и процессов. – 2024. – Т. 17, № 4. – С. 23-31. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-4-23-31. – EDN MRHWHP.

10. Ray Summit 2025: Agenda. URL: https://www.anyscale.com/ray-summit/2025/agenda (дата обращения: 10.02.2026).

11. Квон В. и др. Эффективное управление памятью для подачи больших языковых моделей с помощью PagedAttention // Proc. SOSP. 2023.

12. vLLM: ретроспектива 2024 года и видение 2025 // vLLM Blog. 2025. URL: https://blog.vllm.ai/2025/01/10/vllm-2024-wrapped-2025-vision.html (дата обращения: 10.02.2026).

13. Документация vLLM. URL: https://docs.vllm.ai/en/latest/ (дата обращения: 10.02.2026).

14. Юрчишина, М. В. Алгоритмическая модель СППР «Оптимальный учебный план» / М. В. Юрчишина, К. И. Бушмелева // Моделирование систем и процессов. – 2024. – Т. 17, № 4. – С. 84-95. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-4-84-95. – EDN OJFBGD.

15. Бантюков, С. М. Создание интеллектуальной системы управления качеством предприятия «Эталон» в авиационной промышленности / С. М. Бантюков // Моделирование систем и процессов. – 2024. – Т. 17, № 2. – С. 15-23. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-2-15-23. – EDN YHXUPY.

16. Аль-Кахтани и др. Ускорение инференса глубокого обучения: сравнительный анализ современных фреймворков ускорения // Electronics. 2025. Т. 14, № 15. Ст. 2977. DOI:https://doi.org/10.3390/electronics14152977.

Отправить рукопись

Цитировать

Цитирований:

Подтверждение

Регистрация