СТОИМОСТЬ ФУНКЦИИ

Функция стоимости используется для визуализации параметров или весов уравнения линейной регрессии, чтобы определить, насколько наше прогнозируемое значение отличается от желаемого значения. Функция стоимости дает среднеквадратичную ошибку уравнения набора данных. Математически это можно записать как:

J(w)=

Здесь m - общее количество примеров в обучающем наборе, функция h (x), которая дает прогнозируемое значение соответствующего примера, а y - желаемое значение.

Функцию затрат также можно представить в виде графика относительно весов (w). Кривая имеет U-образную форму или параболу по своей природе.

Здесь наша основная цель - довести значение J (w) до минимума, что может быть достигнуто путем перехода к глобальным минимумам графа или локальным минимумам, которые одинаковы в этом случае. Существует множество методов, используемых для минимизации, из которых метода - алгоритм градиентного спуска.

Градиентный спуск

Алгоритм градиентного спуска - очень мощный инструмент для минимизации ошибки функции стоимости. Он дает метод, в котором мы приближаем начальный указатель к глобальным минимумам, делая небольшие шаги. Эти шаги могут быть разного размера, которые зависят от частной производной функции стоимости по весам (w) и скорости обучения. рассматривается как модель непрерывного обновления.

Математически формула градиентного спуска:

здесь альфа - скорость обучения

Здесь мы видим, что мы постоянно обновляем параметры, чтобы приблизиться к минимумам графика функции стоимости. Обычно альфа находится между (0,001–1).

На этом графике мы понимаем, как работает частная производная для достижения минимумов графика функции затрат. Частная производная дает наклон, который может быть как положительным, так и отрицательным. Если частная производная отрицательна, то член частной производной градиентного спуска становится положительным и это увеличило бы веса уравнения линейной регрессии, которое можно увидеть на первом графике. В то время как во втором случае наклон положительный, что делает частную производную отрицательной от градиентного спуска, что определенно уменьшает значение весов уравнения.

Таким образом, эта формула устраняет двусмысленность, заключающуюся в том, что она только уменьшит веса уравнения, а увеличение или уменьшение весов зависит исключительно от знака наклона члена частной производной.

Алгоритм градиентного спуска также можно разделить на три категории.

Пакетный градиентный спуск -. Мы обновляем значения параметров после каждой эпохи. Это становится медленнее, когда набор данных большой. В то же время он имеет более высокую точность.

Стохастический градиентный спуск - Мы обновляем значения параметров после каждого примера обучающего набора. Это относительно быстрее, чем другие типы, но его точность меньше.

Мини-пакетный градиентный спуск - В мини-пакетном режиме мы делим набор данных на определенное количество пакетов равного размера, чтобы мы могли обновлять параметры уравнения после завершения каждого из них. партия. Это имеет умеренную точность и требует времени.

здесь b - размер партии, а m - количество обучающих примеров