Россия
Россия
Россия
В статье рассматривается инфраструктурный уровень оптимизации инференса нейронных сетей, включающий платформы обслуживания моделей, механизмы масштабирования и распределенных вычислений. Также проведен сравнительный анализ ведущих систем: NVIDIA Triton Inference Server, Ray Serve, vLLM и BentoML. Рассмотрены механизмы повышения эффективности: динамический батчинг, непрерывная агрегация запросов, управление памятью с помощью PagedAttention, а также стратегии автономного масштабирования. В статье затронут момент интеграции инфраструктурных решений с Kubernetes.
инференс нейронных сетей, обслуживание моделей, Triton Inference Server, Ray Serve, vLLM, динамический батчинг, PagedAttention, автомасштабирование, Kubernetes, распределенные вычисления
1. Мочалов, В. П. Алгоритм динамического распределения и балансировки нагрузки в распределённых облачных вычислениях / В. П. Мочалов, Н. Ю. Братченко, Д. В. Гостева // Моделирование систем и процессов. – 2024. – Т. 17, № 1. – С. 92-102. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-1-92-102. – EDN EWMPYM.
2. Зольников, В. К. Моделирование распределения канального ресурса корпоративной сети связи / В. К. Зольников, С. А. Сазонова, Е. А. Аникеев // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 28-44. – DOIhttps://doi.org/10.12737/2219-0767-2025-28-44.
3. Документация NVIDIA Triton Inference Server. URL: https://docs.nvidia.com/deeplearning/triton-inference-server/ (дата обращения: 10.02.2026).
4. Документация Ray Serve. URL: https://docs.ray.io/en/latest/serve/index.html (дата обращения: 10.02.2026).
5. Элмелиджи А. NVIDIA Triton Inference Server достигает выдающейся производительности в бенчмарках MLPerf Inference 4.1 // NVIDIA Developer Blog. 2024. URL: https://developer.nvidia.com/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/ (дата обращения: 10.02.2026).
6. Ачкасов, А. В. Применение нейронных сетей для оптимизации энергопотребления СБИС / А. В. Ачкасов, А. С. Ягодкин, Ф. В. Макаренко, Н. Ю. Заленская // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 7-16. – DOIhttps://doi.org/10.12737/2219-0767-2025-7-16.
7. Ачкасов, Д. А. Изучение и моделирование эвристических алгоритмов оптимизации / Д. А. Ачкасов, К. В. Зольников, Н. Н. Литвинов // Моделирование систем и процессов. – 2025. – Т. 18, № 1. – С. 17-28. – DOIhttps://doi.org/10.12737/2219-0767-2025-17-28.
8. Курипта, О. В. Архитектурное решение проектирования сервисов пространственно-временной навигации в образовательных учреждениях / О. В. Курипта, О. В. Минакова, И. В. Поцебнева // Моделирование систем и процессов. – 2024. – Т. 17, № 1. – С. 65-72. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-1-65-72. – EDN CNSEZA.
9. Бугаев, Ю. В. Анализ моделей и алгоритмов оптимизации раскроя одномерных лесоматериалов / Ю. В. Бугаев, Л. А. Коробова, И. Ю. Шурупова // Моделирование систем и процессов. – 2024. – Т. 17, № 4. – С. 23-31. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-4-23-31. – EDN MRHWHP.
10. Ray Summit 2025: Agenda. URL: https://www.anyscale.com/ray-summit/2025/agenda (дата обращения: 10.02.2026).
11. Квон В. и др. Эффективное управление памятью для подачи больших языковых моделей с помощью PagedAttention // Proc. SOSP. 2023.
12. vLLM: ретроспектива 2024 года и видение 2025 // vLLM Blog. 2025. URL: https://blog.vllm.ai/2025/01/10/vllm-2024-wrapped-2025-vision.html (дата обращения: 10.02.2026).
13. Документация vLLM. URL: https://docs.vllm.ai/en/latest/ (дата обращения: 10.02.2026).
14. Юрчишина, М. В. Алгоритмическая модель СППР «Оптимальный учебный план» / М. В. Юрчишина, К. И. Бушмелева // Моделирование систем и процессов. – 2024. – Т. 17, № 4. – С. 84-95. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-4-84-95. – EDN OJFBGD.
15. Бантюков, С. М. Создание интеллектуальной системы управления качеством предприятия «Эталон» в авиационной промышленности / С. М. Бантюков // Моделирование систем и процессов. – 2024. – Т. 17, № 2. – С. 15-23. – DOIhttps://doi.org/10.12737/2219-0767-2024-17-2-15-23. – EDN YHXUPY.
16. Аль-Кахтани и др. Ускорение инференса глубокого обучения: сравнительный анализ современных фреймворков ускорения // Electronics. 2025. Т. 14, № 15. Ст. 2977. DOI:https://doi.org/10.3390/electronics14152977.



