Здесь я поделюсь с вами введением в технику обучения с подкреплением.
Эта статья включает в себя:
1- что такое обучение с подкреплением?
2- каковы основные элементы обучения с подкреплением?
3- Как можно сформулировать задачу обучения с подкреплением?
4- Каковы различия между обучением с подкреплением и другими методами машинного обучения?
5- Каковы известные алгоритмы обучения с подкреплением?

Итак, начнем ..

1- что такое обучение с подкреплением?
обучение с подкреплением — это как контролируемое, так и неконтролируемое обучение, это метод машинного обучения.
оно состоит из учащегося и лица, принимающего решения, называемого агентвзаимодействует с средой, совершая действия, и среда дает ему вознаграждение и состояния , на их основе агент решает, какое действие он будет выполнять

2- каковы основные элементы обучения с подкреплением:
Обучение с подкреплением основано на 5 элементах:

Агент:
Он представляет собой основной элемент обучения с подкреплением. Совершая действия, агент может воспринимать или исследовать среду (взаимодействовать с ней)…

b- Среда:
Как агент, среда также представляет собой основной компонент обучения с подкреплением. Это ситуация, в которой агент присутствует или окружен .

c- Действия:
Есть движения или события, предпринимаемые агентом в среде.

d-вознаграждения:
Вознаграждение — это сигнал, подаваемый средой, который определяется как цель задачи обучения с подкреплением (обратная связь с окружающей средой).

e-состояния
Также называются наблюдениями, которые представляют собой ситуацию, возвращаемую средой после каждого действия, предпринятого агентом.​

3-Формализация задачи обучения с подкреплением: MDP
Марковский процесс принятия решений (MDP)
— это математическая основа для описания среды в обучении с подкреплением.​
Свойство Маркова: «Будущее не зависит от прошлого, данного настоящему».

Марковский процесс принятия решений представляет собой набор (S,A,R,P,γ), где:
S: набор состояний,
A: набор действий,
R: Функция вознаграждения
P: вероятность перехода состояния, она представляет вероятность того, в какое состояние s мы перейдем, когда выберем действие a. Это известно из policy
γ: коэффициент дисконтирования (определяет, насколько агенты обучения с подкреплением заботятся о вознаграждениях в отдаленном будущем по сравнению с вознаграждениями в ближайшем будущем).

4- разница между обучением с подкреплением и другими методами машинного обучения:
Как мы упоминали выше, обучение с подкреплением также является одним из методов машинного обучения. Но он отличается от других методов тем, что

  • Динамическое обучение: контролируемое и неконтролируемое обучение изучает закономерности в обучающих данных (статическое обучение), а обучение с подкреплением изучает разработку политики, которая сообщает агенту, какое действие следует выбирать на каждом этапе (динамическое обучение).
  • Нет явного правильного ответа: используя контролируемое и неконтролируемое обучение, мы можем получить явный правильный ответ. Но в обучении с подкреплением правильный ответ не является явным (только агент учится методом проб и ошибок).
  • Исследование: в то время как контролируемое обучение берет ответ непосредственно из обучающих данных, обучение с подкреплением использует компромисс между исследованием и эксплуатацией при взаимодействии с окружающей средой.
  • Множественный процесс принятия решений: при обучении с учителем у нас есть один экземпляр и мы получаем один прогноз . Напротив, в обучении с подкреплением у нас может быть цепочка принятия решений.

5- алгоритмы обучения с подкреплением:

  • Простое обучение с подкреплением:
    - Временная разница TD (Q-обучение и SARSA)
    - Монте-Карло MC (поиск по дереву Монте-Карло)
    - Динамическое программирование DP
    - Подогнанный Q
  • Глубокое обучение с подкреплением:
     — Глубокое Q-обучение/ Двойное глубокое Q-обучение
     – Актер-критик
     – Подкрепление
     – Составное Q-обучение

В этом посте я попытаюсь упомянуть только известные алгоритмы обучения с подкреплением.
Но в следующих постах я расскажу все подробности о каждом алгоритме.