Обучение с подкреплением: введение

Здесь я поделюсь с вами введением в технику обучения с подкреплением.
Эта статья включает в себя:
1- что такое обучение с подкреплением?
2- каковы основные элементы обучения с подкреплением?
3- Как можно сформулировать задачу обучения с подкреплением?
4- Каковы различия между обучением с подкреплением и другими методами машинного обучения?
5- Каковы известные алгоритмы обучения с подкреплением?

Итак, начнем ..

1- что такое обучение с подкреплением?
обучение с подкреплением — это как контролируемое, так и неконтролируемое обучение, это метод машинного обучения.
оно состоит из учащегося и лица, принимающего решения, называемого агентвзаимодействует с средой, совершая действия, и среда дает ему вознаграждение и состояния , на их основе агент решает, какое действие он будет выполнять

2- каковы основные элементы обучения с подкреплением:
Обучение с подкреплением основано на 5 элементах:

Агент:
Он представляет собой основной элемент обучения с подкреплением. Совершая действия, агент может воспринимать или исследовать среду (взаимодействовать с ней)…

b- Среда:
Как агент, среда также представляет собой основной компонент обучения с подкреплением. Это ситуация, в которой агент присутствует или окружен .

c- Действия:
Есть движения или события, предпринимаемые агентом в среде.

d-вознаграждения:
Вознаграждение — это сигнал, подаваемый средой, который определяется как цель задачи обучения с подкреплением (обратная связь с окружающей средой).

e-состояния
Также называются наблюдениями, которые представляют собой ситуацию, возвращаемую средой после каждого действия, предпринятого агентом.

3-Формализация задачи обучения с подкреплением: MDP
Марковский процесс принятия решений (MDP) — это математическая основа для описания среды в обучении с подкреплением.
Свойство Маркова: «Будущее не зависит от прошлого, данного настоящему».

Марковский процесс принятия решений представляет собой набор (S,A,R,P,γ), где:
S: набор состояний,
A: набор действий,
R: Функция вознаграждения
P: вероятность перехода состояния, она представляет вероятность того, в какое состояние s мы перейдем, когда выберем действие a. Это известно из policy
γ: коэффициент дисконтирования (определяет, насколько агенты обучения с подкреплением заботятся о вознаграждениях в отдаленном будущем по сравнению с вознаграждениями в ближайшем будущем).

4- разница между обучением с подкреплением и другими методами машинного обучения:
Как мы упоминали выше, обучение с подкреплением также является одним из методов машинного обучения. Но он отличается от других методов тем, что

Динамическое обучение: контролируемое и неконтролируемое обучение изучает закономерности в обучающих данных (статическое обучение), а обучение с подкреплением изучает разработку политики, которая сообщает агенту, какое действие следует выбирать на каждом этапе (динамическое обучение).
Нет явного правильного ответа: используя контролируемое и неконтролируемое обучение, мы можем получить явный правильный ответ. Но в обучении с подкреплением правильный ответ не является явным (только агент учится методом проб и ошибок).
Исследование: в то время как контролируемое обучение берет ответ непосредственно из обучающих данных, обучение с подкреплением использует компромисс между исследованием и эксплуатацией при взаимодействии с окружающей средой.
Множественный процесс принятия решений: при обучении с учителем у нас есть один экземпляр и мы получаем один прогноз . Напротив, в обучении с подкреплением у нас может быть цепочка принятия решений.
…

5- алгоритмы обучения с подкреплением:

Простое обучение с подкреплением:
- Временная разница TD (Q-обучение и SARSA)
- Монте-Карло MC (поиск по дереву Монте-Карло)
- Динамическое программирование DP
- Подогнанный Q
Глубокое обучение с подкреплением:
— Глубокое Q-обучение/ Двойное глубокое Q-обучение
– Актер-критик
– Подкрепление
– Составное Q-обучение

В этом посте я попытаюсь упомянуть только известные алгоритмы обучения с подкреплением.
Но в следующих постах я расскажу все подробности о каждом алгоритме.

Новые материалы

ИИ для общего блага, часть вторая

В нашем последнем блоге мы исследовали возможности ИИ для общего блага, указав на несколько инициатив по поиску действенных решений для продвижения справедливых и беспристрастных систем ИИ. По..

Время расцвета закончилось

Большую часть своей карьеры в индустрии программного обеспечения программисты работали с головой в песок. Успех в отрасли требует навыков презентации и обучения других. Ценность улучшенных..

Будущее сельского хозяйства: новый уровень производительности с современными технологиями

По мере роста населения мира растет и спрос на продукты питания. Фермеры сталкиваются с растущим давлением необходимости повышать урожайность и максимизировать производительность, манипулируя..

Состояние совместной фильтрации в 2022 году, часть 1

ResBeMF: Улучшение прогнозируемого охвата совместной фильтрации на основе классификации (arXiv) Автор: Анхель Гонсалес-Прието , Авраам Гутьеррес , Фернандо Ортега , Рауль Лара-Кабрера..

Зачем изучать PYTHON в 2022 году !

Python — востребованный, доступный язык программирования с активным, постоянно растущим сообществом пользователей. Для тех, кто хочет сменить профессию в мире технологий с помощью..

Решение капч с помощью Puppeteer

Это руководство предназначено для текстовых кодов, а не для reCAPTCHA Google (см. конец этого сообщения). Требования: Антикапча или любой другой сервис по разгадыванию капчи. Модуль..

7 встроенных библиотек Python, которые необходимо знать

7 встроенных библиотек Python, которые необходимо знать Стандартная библиотека Python значительно упрощает жизнь программистов, предоставляя широкий набор функций. Мы выбираем несколько..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI Software Engineering React Java Nodejs Front End Development Development Algorithms Typescript Tech Programming Languages Data Computer Science Reactjs NLP Learning Javascript Tips HTML CSS Computer Vision Code Productivity Golang Tutorial Neural Networks Startup ChatGPT Statistics Angular