1.Многоэтапная задача группового ориентирования для перепланирования миссии БПЛА с помощью эффективного обучения с глубоким подкреплением(arXiv)

Автор:Дон Хо Ли, Джемён Ан

Аннотация. В этой статье мы изучаем задачу командного ориентирования с несколькими стартами (MSTOP), задачу перепланирования миссии, в которой транспортные средства изначально находятся вдали от депо и имеют разное количество топлива. Мы считаем/предполагаем, что цель нескольких транспортных средств состоит в том, чтобы путешествовать, чтобы максимизировать сумму собранной прибыли при ограничениях потребления ресурсов (например, времени, топлива). Такие проблемы перепланирования возникают в широком спектре интеллектуальных приложений БАС, когда изменения в среде миссии заставляют работу нескольких транспортных средств измениться по сравнению с первоначальным планом. Чтобы решить эту проблему с помощью глубокого обучения с подкреплением (RL), мы разрабатываем сеть политик с самостоятельным вниманием к каждому частичному туру и вниманием кодировщика-декодера между частичным туром и оставшимися узлами. Мы предлагаем модифицированный алгоритм REINFORCE, в котором базовый план жадного развертывания заменяется базовым планом локального мини-пакета, основанным на нескольких, возможно, не повторяющихся примерах развертывания. Создавая несколько образцов для каждого обучающего экземпляра, мы можем учиться быстрее и получать стабильную оценку градиента политики со значительно меньшим количеством экземпляров. Предлагаемый алгоритм обучения превосходит стандартный базовый уровень жадного развертывания даже в сочетании с целью максимальной энтропии.

2.Интеллектуальное управление трафиком O-RAN для URLLC с помощью глубокого обучения с подкреплением(arXiv)

Автор: Ибрагим Тамим, Сам Алейаде, Абдаллах Шами

Аннотация. Целью сетей следующего поколения является усовершенствование существующей сетевой парадигмы, особенно обеспечение более высоких скоростей передачи данных, задержек, близких к реальному времени, и почти идеального качества обслуживания. Однако существующим архитектурам сетей радиодоступа (RAN) не хватает гибкости и интеллектуальных возможностей для удовлетворения этих требований. Open RAN (O-RAN) — это многообещающая парадигма построения виртуализированной и интеллектуальной архитектуры RAN. В этом документе представлена ​​схема управления трафиком (TS) на основе машинного обучения (ML), позволяющая прогнозировать перегрузку сети, а затем активно управлять трафиком O-RAN, чтобы избежать его и уменьшить ожидаемую задержку в очереди. Для этого мы предлагаем оптимизированную настройку, ориентированную на защиту как задержки, так и надежности для обслуживания приложений URLLC. Предлагаемое решение состоит из двухуровневой стратегии машинного обучения, основанной на наивном байесовском классификаторе и глубоком Q-обучении. Наше решение оценивается по сравнению с традиционными подходами реактивного TS, которые предлагаются в виде xApps в O-RAN, и показывает снижение задержки в очереди в среднем на 15,81 % для всех развернутых SFC.