ROUTE OPTIMIZATION AND CONTROL OF DRONE TRAJECTORIES USING ARTIFICIAL INTELLIGENCE ALGORITHMS
Abstract and keywords
Abstract (English):
The paper considers methods of optimization and control of flight algorithms for unmanned aerial vehicles (UAVs) using machine learning techniques. The paper discusses the basic principles of UAV operation and the problems that arise when controlling them. To solve the problem of optimizing control algorithms, an approach based on the use of machine learning techniques is proposed. An analysis of various machine learning algorithms is carried out and the most effective ones for specific UAV control tasks are determined.

Keywords:
unmanned aerial vehicles, flight control, unmanned aerial vehicle control algorithms, analysis of control algorithms, optimization, machine learning
Text
Text (PDF): Read Download

В настоящее время беспилотные летательные аппараты (БПЛА) широко распространены. И сейчас и в будущем, их роль будет только возрастать. БПЛА могут быть использованы для решения множества военных, научных, бизнес задач в различных областях, таких как экологический мониторинг, геологоразведка, метеорология, изучение климата, проведение аэрофотосъемки для лесоустроительных работ  и другое. Они могут проводить радиолокационную и радиационную разведку, контролировать транспортные и людские потоки, отслеживать движение морских судов, изменения метеоусловий и состояние льда на реках.

Машинное обучение играет ключевую роль в оптимизации алгоритмов управления и траекториями беспилотных летательных аппаратов (БПЛА), поскольку оно предоставляет мощные инструменты для анализа больших объемов данных и принятия решений на основе этих данных.

Обзор существующих алгоритмов управления беспилотными летательными аппаратами (БПЛА) и их применение в авиации.

БПЛА имеют ряд принципов работы и управления, которые нужны для

их корректного функционирования. Работа БПЛА состоит из трех основных фаз:

  • навигация (получение информации об окружающей среде);
  • координация (решение задач полета и маршрутизация);
  • отслеживание (оценка своего местоположения и корректировка маршрута).

Алгоритмы обработки навигационной информации

Определение координат спутника основывается на измерении расстояния между ним и приемником. Одновременное измерение расстояний до нескольких спутников позволяет, при условии знания их координат, вычислить координаты наблюдательного пункта с помощью метода пространственной линейной засечки. Эти координаты, в свою очередь, используются для определения разницы координат между пунктами, на которых установлены одновременно работающие спутниковые приемники, длины базисных линий, азимутальных направлений, а также ряда других вспомогательных параметров. Например, при установке приемника на подвижном объекте могут быть определены скорость и направление движения этого объекта.

Кроме измерений кодовых и фазовых, в спутниковых системах GPS и ГЛОНАСС используется метод, основанный на эффекте Доплера. Эффект Доплера проявляется, когда источник и приемник колебаний движутся относительно друг друга. Это типично для систем GPS и ГЛОНАСС, так как спутник, являющийся источником радиосигналов, непрерывно меняет свое положение относительно приемника на земле. Наблюдатель воспринимает эффект Доплера через изменение частоты принимаемых колебаний, вызванное взаимным перемещением спутника и приемника.В общем случае применительно к спутниковым измерениям характерное для доплеровского эффекта расхождение между передаваемой и принимаемой частотами описывается следующим соотношением [1]:

fпрfпер   = 1-vc  cosσ1-v2c2 ,                                                     (1.1)

где  fпр  и fпер  частоты передаваемых и принимаемых колебаний; υ  – орбитальный скорость движения спутника; с - скорость распространения электромагнитных волн; σ  — угол между направлением движения спутника и радиальным направлением, ориентированным на точку стояния приемника. 

Существуют различные способы регистрации фазовых сдвигов несущих колебаний при орбитальном движении спутника. Наиболее распространенным является метод регистрации целых чисел фазовых циклов

 ΔΦδ  = ΔN12  при переходе спутника S из точки, соответствующей моменту времени t2  в точку характерную для момента времени t2 . Обычно такие измерения выполняют на достаточно протяженном участке орбиты. При этом величину ΔN12  называют интегральным доплеровским счетом (или сокращенно интегральным Доплером). При использовании фазовых измерений применительно к эффекту Доплера следует иметь в виду, что для оценки фазовых сдвигов ΔΦδ  наряду с принимаемыми от спутника сигналами в измерениях участвуют и местные опорные колебания, частота которых, как правило, несколько отличается от частоты излучаемых спутником колебаний. 

Адаптивные алгоритмы управления

В условиях неопределенности особую значимость приобретают алгоритмы управления, способные достичь поставленной цели в ограниченный срок и быть устойчивыми к изменениям параметров и влиянию внешних факторов. Один из методов управления сложными объектами в неопределенных условиях – методы адаптивного управления. Адаптивные системы управления корректируют параметры регулятора, его структуру или настройки в процессе эксплуатации объекта для поддержания оптимального режима работы без участия человека. Существуют три класса адаптивных систем управления:

1) самонастраивающиеся системы – в них могут автоматически изменяться параметры управляющих устройств;

2) самоорганизующиеся системы – в них может автоматически изменяться структура управляющих устройств;

 3) самообучающиеся системы – это системы, в которых могут автоматически изменяться цели и критерии управления.

Задачи прикладной теории управления беспилотными летательными аппаратами (БПЛА) включают разработку методов и алгоритмов управления различными типами БПЛА при выполнении целевых задач. Однако не всегда возможно точно определить математическую модель объекта. Изменения условий окружающей среды могут влиять на параметры модели и её структуру. БПЛА меняют свои динамические характеристики в процессе работы.

В настоящее время алгоритмы адаптации достаточно развиты и могут использоваться как для линейных, так и для нелинейных моделей объектов управления. Это включает в себя алгоритмы скорости градиента и алгоритмы метода рекуррентных целевых неравенств. Возможность достижения цели управления отражается в различных формулировках условий достижимости цели управления.

Алгоритмы планирования и управления маршрутом полета, включая алгоритмы оптимальной траектории и алгоритмы избегания препятствий.

Схема автономного полета БПЛА включает в себя три основных этапа:

  • планирование полетного задания;
  • планирование маршрута;
  • автономный полет с помощью системы управления.

Под планированием маршрута полета понимается поиск оптимального маршрута от его известного начального положения S0  (начальная точка) до заданного конечного положения Sf   (место назначения) с учетом динамических характеристик БПЛА и задачи облета препятствий.

Расчет маршрута полета в реальном времени осуществляется с целью минимизации определенного показателя, будь то время полета, расход топлива и так далее. Предлагается следующий подход: разработать динамическую модель БПЛА; использовать время полета между соседними опорными точками для минимизации целевой функции; применить частично целочисленное линейное программирование (ЧЦЛП) для введения линейных ограничений со смешанными формами, состоящих из логических и непрерывных переменных, описывающих ограничения при облете препятствий. Если полный маршрут полета от начальной до целевой точки вычисляется однократно, объем вычислений будет значительным.

Оптимизация маршрутов и управление траекториями беспилотных летательных аппаратов с помощью алгоритмов искусственного интеллекта.

Рассмотрим два, наиболее часто используемых для непрерывных задач, алгоритма (основаны на концепции «Актор-Критик»):

  1. Deep Q-Network (DQN) - используется для обучения беспилотных летательных аппаратов принимать решения о маршруте и управлении на основе обучения с подкреплением.

Использование нейронных сетей в обучении с подкреплением имеет одну особенность: нет гарантии, что обучение будет успешным. Чтобы улучшить этот показатель, применяют метод, называемый повторением опыта. Он заключается в том, что последний опыт агента сохраняется в специальном хранилище - памяти воспроизведения. Размер этой памяти ограничен и равен N.

( st,at,rt,st+1, ), где  st – состояние объекта в момент времени t; at  – действие в момент времени t; rt  – награда, полученная за выполнение действия at  в момент времени t; st+1 – состояние объекта в момент времени t+1. При обучении используется случайная выборка определенного размера из памяти воспроизведения и применятся обновление Q-learning.

Пошаговый алгоритм следующий:

  1. . Инициализовать память воспроизведения размерностью N ([state, action, reward, next_state, done])
  2.  Инициализовать случайными весами функцию Q (s, a) (т. е. нейронную сеть)
  3. Повторять для каждой игры
  4. Инициализовать s
  5. Повторять для каждого шага
  6. Выбрать a по s (ε-жадную)
  7. Выполнить a, найти r, s’, done
  8. Занести в память воспроизведения [s, a, r, s’, done]
  9. Выбрать случайным образом из памяти воспроизведения коллекцию [s,a, r, s’, done]

yj  =rj, если done = truerj + γmaxaϱ(s',a) если done = false                                          (1.2)

  1. Выполнить градиентный спуск на (yj - Q(s,a))2
  2. S = S'
  1. Proximal Policy Optimization (PPO) - алгоритм обучения с подкреплением, который может использоваться для оптимизации маршрутов и управления беспилотными летательными аппаратами.

ProximalPolicyOptimization или сокращенно PPO. Алгоритм оптимизации (PPO) - это метод обучения с подкреплением, используемый в области машинного обучения для тренировки агентов выполнять определенные задачи в окружающей среде. Во время обучения, данные, генерируемые агентом, зависят от текущей политики и не опираются на заранее собранный набор данных, как это происходит при обучении под наблюдением. В процессе обучения, наблюдения агентов постоянно меняются, поскольку они узнают новые вещи после каждого действия.

ProximalPolicyOptimization относится к семейству методов, которые оптимизируют целевую функцию:

 J(πθ ) = Eτ~πθR(τ)                                                                                   (1.3)

Deep Q-Network (DQN) и Proximal Policy Optimization (PPO) - это два различных метода обучения с подкреплением, которые можно применять для оптимизации маршрутов и управления беспилотными летательными аппаратами.

References

1. Genike A.A., Pobedinskiy G.G. Global'nye sputnikovye sistemy opredeleniya mestopolozheniya i ih primenenie v geodezii. Izd. 2-e, pererab. i dop. -M.: Kartgeocentr, 2004. - 355 e.: il. ISBN 5-86066-063-4

2. Tyapkin, V. N. Algoritmy opredeleniya mestopolozheniya (naprimer, metod treh tochek, metod doplerovskogo izmereniya, metody opredeleniya mestopolozheniya s pomosch'yu GPS i GLONASS).

3. A.A. Evseenko, D.O. Romannikov Primenenie algoritmov DEEP Q-LEARNING i DOUBLE DEEP Q-LEARNING k zadache upravleniya perevernutym mayatnikom. Sbornik nauchnyh trudov NGTU. – 2020. – № 1–2 (97). – S. 7–25.

4. Terteryan A.S., Brovko A.V. Metody optimizacii v mnogokriterial'nyh zadachah s ispol'zovaniem lokal'noy kachestvennoy vazhnosti kriteriev// Modelirovanie sistem i processov. – 2022. – T. 15, № 1. – S. 107-114.

5. Poluektov A.V., Makarenko F.V., Yagodkin A.S. Ispol'zovanie storonnih bibliotek pri napisanii programm dlya obrabotki statisticheskih dannyh // Modelirovanie sistem i processov. – 2022. – T. 15, № 2. – S. 33-41.

Login or Create
* Forgot password?