ОПТИМИЗАЦИЯ МАРШРУТОВ И УПРАВЛЕНИЯ ТРАЕКТОРИЯМИ БЕСПИЛОТНЫХ ЛЕТАТЕЛЬНЫХ АППАРАТОВ С ПОМОЩЬЮ АЛГОРИТМОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Аннотация и ключевые слова
Аннотация (русский):
В работе рассматриваются методы оптимизации алгоритмов управления полетом беспилотных летательных аппаратов (БПЛА) с использованием методов машинного обучения. В работе рассмотрены основные принципы функционирования БПЛА, а также проблемы, возникающие при управлении ими. Для решения задачи оптимизации алгоритмов управления предложен подход, основанный на использовании методов машинного обучения. Проведен анализ различных алгоритмов машинного обучения и определены наиболее эффективные для конкретных задач управления БПЛА.

Ключевые слова:
беспилотные летательные аппараты, управление полетом, алгоритмы управления беспилотными летательными аппаратами, анализ алгоритмов управления, оптимизация, машинное обучение
Текст
Текст (PDF): Читать Скачать

В настоящее время беспилотные летательные аппараты (БПЛА) широко распространены. И сейчас и в будущем, их роль будет только возрастать. БПЛА могут быть использованы для решения множества военных, научных, бизнес задач в различных областях, таких как экологический мониторинг, геологоразведка, метеорология, изучение климата, проведение аэрофотосъемки для лесоустроительных работ  и другое. Они могут проводить радиолокационную и радиационную разведку, контролировать транспортные и людские потоки, отслеживать движение морских судов, изменения метеоусловий и состояние льда на реках.

Машинное обучение играет ключевую роль в оптимизации алгоритмов управления и траекториями беспилотных летательных аппаратов (БПЛА), поскольку оно предоставляет мощные инструменты для анализа больших объемов данных и принятия решений на основе этих данных.

Обзор существующих алгоритмов управления беспилотными летательными аппаратами (БПЛА) и их применение в авиации.

БПЛА имеют ряд принципов работы и управления, которые нужны для

их корректного функционирования. Работа БПЛА состоит из трех основных фаз:

  • навигация (получение информации об окружающей среде);
  • координация (решение задач полета и маршрутизация);
  • отслеживание (оценка своего местоположения и корректировка маршрута).

Алгоритмы обработки навигационной информации

Определение координат спутника основывается на измерении расстояния между ним и приемником. Одновременное измерение расстояний до нескольких спутников позволяет, при условии знания их координат, вычислить координаты наблюдательного пункта с помощью метода пространственной линейной засечки. Эти координаты, в свою очередь, используются для определения разницы координат между пунктами, на которых установлены одновременно работающие спутниковые приемники, длины базисных линий, азимутальных направлений, а также ряда других вспомогательных параметров. Например, при установке приемника на подвижном объекте могут быть определены скорость и направление движения этого объекта.

Кроме измерений кодовых и фазовых, в спутниковых системах GPS и ГЛОНАСС используется метод, основанный на эффекте Доплера. Эффект Доплера проявляется, когда источник и приемник колебаний движутся относительно друг друга. Это типично для систем GPS и ГЛОНАСС, так как спутник, являющийся источником радиосигналов, непрерывно меняет свое положение относительно приемника на земле. Наблюдатель воспринимает эффект Доплера через изменение частоты принимаемых колебаний, вызванное взаимным перемещением спутника и приемника.В общем случае применительно к спутниковым измерениям характерное для доплеровского эффекта расхождение между передаваемой и принимаемой частотами описывается следующим соотношением [1]:

fпрfпер   = 1-vc  cosσ1-v2c2 ,                                                     (1.1)

где  fпр  и fпер  частоты передаваемых и принимаемых колебаний; υ  – орбитальный скорость движения спутника; с - скорость распространения электромагнитных волн; σ  — угол между направлением движения спутника и радиальным направлением, ориентированным на точку стояния приемника. 

Существуют различные способы регистрации фазовых сдвигов несущих колебаний при орбитальном движении спутника. Наиболее распространенным является метод регистрации целых чисел фазовых циклов

 ΔΦδ  = ΔN12  при переходе спутника S из точки, соответствующей моменту времени t2  в точку характерную для момента времени t2 . Обычно такие измерения выполняют на достаточно протяженном участке орбиты. При этом величину ΔN12  называют интегральным доплеровским счетом (или сокращенно интегральным Доплером). При использовании фазовых измерений применительно к эффекту Доплера следует иметь в виду, что для оценки фазовых сдвигов ΔΦδ  наряду с принимаемыми от спутника сигналами в измерениях участвуют и местные опорные колебания, частота которых, как правило, несколько отличается от частоты излучаемых спутником колебаний. 

Адаптивные алгоритмы управления

В условиях неопределенности особую значимость приобретают алгоритмы управления, способные достичь поставленной цели в ограниченный срок и быть устойчивыми к изменениям параметров и влиянию внешних факторов. Один из методов управления сложными объектами в неопределенных условиях – методы адаптивного управления. Адаптивные системы управления корректируют параметры регулятора, его структуру или настройки в процессе эксплуатации объекта для поддержания оптимального режима работы без участия человека. Существуют три класса адаптивных систем управления:

1) самонастраивающиеся системы – в них могут автоматически изменяться параметры управляющих устройств;

2) самоорганизующиеся системы – в них может автоматически изменяться структура управляющих устройств;

 3) самообучающиеся системы – это системы, в которых могут автоматически изменяться цели и критерии управления.

Задачи прикладной теории управления беспилотными летательными аппаратами (БПЛА) включают разработку методов и алгоритмов управления различными типами БПЛА при выполнении целевых задач. Однако не всегда возможно точно определить математическую модель объекта. Изменения условий окружающей среды могут влиять на параметры модели и её структуру. БПЛА меняют свои динамические характеристики в процессе работы.

В настоящее время алгоритмы адаптации достаточно развиты и могут использоваться как для линейных, так и для нелинейных моделей объектов управления. Это включает в себя алгоритмы скорости градиента и алгоритмы метода рекуррентных целевых неравенств. Возможность достижения цели управления отражается в различных формулировках условий достижимости цели управления.

Алгоритмы планирования и управления маршрутом полета, включая алгоритмы оптимальной траектории и алгоритмы избегания препятствий.

Схема автономного полета БПЛА включает в себя три основных этапа:

  • планирование полетного задания;
  • планирование маршрута;
  • автономный полет с помощью системы управления.

Под планированием маршрута полета понимается поиск оптимального маршрута от его известного начального положения S0  (начальная точка) до заданного конечного положения Sf   (место назначения) с учетом динамических характеристик БПЛА и задачи облета препятствий.

Расчет маршрута полета в реальном времени осуществляется с целью минимизации определенного показателя, будь то время полета, расход топлива и так далее. Предлагается следующий подход: разработать динамическую модель БПЛА; использовать время полета между соседними опорными точками для минимизации целевой функции; применить частично целочисленное линейное программирование (ЧЦЛП) для введения линейных ограничений со смешанными формами, состоящих из логических и непрерывных переменных, описывающих ограничения при облете препятствий. Если полный маршрут полета от начальной до целевой точки вычисляется однократно, объем вычислений будет значительным.

Оптимизация маршрутов и управление траекториями беспилотных летательных аппаратов с помощью алгоритмов искусственного интеллекта.

Рассмотрим два, наиболее часто используемых для непрерывных задач, алгоритма (основаны на концепции «Актор-Критик»):

  1. Deep Q-Network (DQN) - используется для обучения беспилотных летательных аппаратов принимать решения о маршруте и управлении на основе обучения с подкреплением.

Использование нейронных сетей в обучении с подкреплением имеет одну особенность: нет гарантии, что обучение будет успешным. Чтобы улучшить этот показатель, применяют метод, называемый повторением опыта. Он заключается в том, что последний опыт агента сохраняется в специальном хранилище - памяти воспроизведения. Размер этой памяти ограничен и равен N.

( st,at,rt,st+1, ), где  st – состояние объекта в момент времени t; at  – действие в момент времени t; rt  – награда, полученная за выполнение действия at  в момент времени t; st+1 – состояние объекта в момент времени t+1. При обучении используется случайная выборка определенного размера из памяти воспроизведения и применятся обновление Q-learning.

Пошаговый алгоритм следующий:

  1. . Инициализовать память воспроизведения размерностью N ([state, action, reward, next_state, done])
  2.  Инициализовать случайными весами функцию Q (s, a) (т. е. нейронную сеть)
  3. Повторять для каждой игры
  4. Инициализовать s
  5. Повторять для каждого шага
  6. Выбрать a по s (ε-жадную)
  7. Выполнить a, найти r, s’, done
  8. Занести в память воспроизведения [s, a, r, s’, done]
  9. Выбрать случайным образом из памяти воспроизведения коллекцию [s,a, r, s’, done]

yj  =rj, если done = truerj + γmaxaϱ(s',a) если done = false                                          (1.2)

  1. Выполнить градиентный спуск на (yj - Q(s,a))2
  2. S = S'
  1. Proximal Policy Optimization (PPO) - алгоритм обучения с подкреплением, который может использоваться для оптимизации маршрутов и управления беспилотными летательными аппаратами.

ProximalPolicyOptimization или сокращенно PPO. Алгоритм оптимизации (PPO) - это метод обучения с подкреплением, используемый в области машинного обучения для тренировки агентов выполнять определенные задачи в окружающей среде. Во время обучения, данные, генерируемые агентом, зависят от текущей политики и не опираются на заранее собранный набор данных, как это происходит при обучении под наблюдением. В процессе обучения, наблюдения агентов постоянно меняются, поскольку они узнают новые вещи после каждого действия.

ProximalPolicyOptimization относится к семейству методов, которые оптимизируют целевую функцию:

 J(πθ ) = Eτ~πθR(τ)                                                                                   (1.3)

Deep Q-Network (DQN) и Proximal Policy Optimization (PPO) - это два различных метода обучения с подкреплением, которые можно применять для оптимизации маршрутов и управления беспилотными летательными аппаратами.

Список литературы

1. Генике А.А., Побединский Г.Г. Глобальные спутниковые системы определения местоположения и их применение в геодезии. Изд. 2-е, перераб. и доп. -М.: Картгеоцентр, 2004. - 355 е.: ил. ISBN 5-86066-063-4

2. Тяпкин, В. Н. Алгоритмы определения местоположения (например, метод трех точек, метод доплеровского измерения, методы определения местоположения с помощью GPS и ГЛОНАСС).

3. А.А. Евсеенко, Д.О. Романников Применение алгоритмов DEEP Q-LEARNING и DOUBLE DEEP Q-LEARNING к задаче управления перевернутым маятником. Сборник научных трудов НГТУ. – 2020. – № 1–2 (97). – С. 7–25.

4. Тертерян А.С., Бровко А.В. Методы оптимизации в многокритериальных задачах с использованием локальной качественной важности критериев// Моделирование систем и процессов. – 2022. – Т. 15, № 1. – С. 107-114.

5. Полуэктов А.В., Макаренко Ф.В., Ягодкин А.С. Использование сторонних библиотек при написании программ для обработки статистических данных // Моделирование систем и процессов. – 2022. – Т. 15, № 2. – С. 33-41.

Войти или Создать
* Забыли пароль?