Простое объяснение одного из наиболее часто используемых статистических методов в машинном обучении.

Если у вас нет технического образования и вы пытаетесь понять концепции в технических областях, таких как ИТ или статистика; часто бывает трудно найти какие-то понятные и простые источники для их изучения или просто для того, чтобы иметь представление об интересующих вас понятиях. Эта статья написана с учетом этого.

В чем необходимость этого метода?

Вкратце, линейная регрессия помогает нам прогнозировать некоторую информацию на основе исторических данных. Например, вы можете предсказать показатели продаж вашей компании на следующий год, предсказать цену дома, предсказать завтрашнюю погоду и так далее. Важно вот что; вы прогнозируете число, такое как 100 000 долларов США, 23 градуса по Цельсию или 5,78, с помощью линейной регрессии. (Существуют и другие типы регрессий, в которых вы предсказываете не число, а категорию, такую ​​как самая продаваемая/нормальная продаваемая толстовка, вкусный/плохой кофе; но это будет темой другой статьи.)

Зависимые и независимые переменные

Линейная регрессия использует прошлые данные некоторых измеренных показателей, которые могут повлиять на показатель, который мы хотим предсказать в будущем. Примерами метрик являются рост человека, возраст ребенка, скорость автомобиля, вес багажа, прибыль компании, любая величина, которую вы можете измерить. В этом методе важны два понятия: зависимые и независимые переменные.

Зависимая переменная — это значение, которое мы готовы предсказать. Независимые переменные — это те значения (показатели), которые потенциально могут влиять на зависимую переменную. Итак, вначале мы исходим из предположения, что некоторые независимые переменные (метрики) влияют на интересующую нас зависимую переменную.

На рисунке ниже; оценки удовлетворенности сотрудников и клиентов, география деятельности бизнеса и доступность продуктов для покупателей потенциально влияют на выручку компании. В этом примере выручка компании называется «зависимой переменной», поскольку она потенциально зависит от независимых переменных. Другие переменные называются независимыми переменными.

Небольшое примечание о 2 типах независимых переменных здесь; они могут быть числами, такими как 345 или 2,45; или может быть такой категорией, как мужчина-женщина, пластик-металл-дерево, США-ЕС-Дальний Восток и т. д. (Мы не упоминаем здесь порядковый тип независимых переменных для простоты.) Еще раз, зависимая переменная число (числовой тип), которое мы пытаемся предсказать; это не категориальный тип в линейной регрессии.

Как производится расчет?

Существуют различные программы или способы проведения линейной регрессии. Программное обеспечение для статистических расчетов - это способ. Или в последнее время исследователи используют некоторые языки программирования, такие как R или Python, для проведения линейного регрессионного анализа. Самым простым способом проведения линейной регрессии может быть обучение использованию пакета статистического программного обеспечения. Если вы серьезно в этой области; тогда изучение языка программирования, такого как R или Python, будет для вас хорошей инвестицией.

Давайте посмотрим пример данных!

Пример поможет вам лучше понять основные понятия линейной регрессии (LR). Помните, мы сказали, что LR использует прошлые данные для прогнозирования будущего. Поэтому нам нужны данные, собранные перед запуском расчетов LR. См. простую таблицу ниже в качестве примера некоторой части собранных данных.

Предположим, что мы собрали эти данные для 1 млн домов после их продажи (в таблице будет 1 млн строк), и мы пытаемся спрогнозировать цену нового дома. Как только мы определяем, какое влияние оказывают «независимые переменные» на цену дома (зависимая переменная); затем мы можем предсказать цену дома, который планируется продать.

Подробнее о линейной регрессии

Давайте рассмотрим логику линейной регрессии немного глубже. Предположим, что цена дома зависит только от его размера. Таким образом, размер — единственная независимая переменная, а цена — зависимая переменная. А также предположим, что (хотя бы только для этого примера) каждый квадратный метр стоит 2000 долларов. Таким образом, дом площадью 100 квадратных метров стоит 200 000 долларов США. Если мы построим график, показывающий зависимость между размером дома и его ценой; у нас будет такой график, как показано ниже:

На графике размер 100 квадратных метров соответствует цене 200 000 долларов США. Точно так же, согласно этому примеру (в более технических терминах он называется моделью); если мы хотим узнать цену дома площадью 250 кв.м.; мы легко идентифицируем его как 500 000 долларов США (зеленый кружок).

В математических терминах мы можем записать это соотношение следующим образом:

цена (доллары США) = 2000 * площадь (кв. м)

Каждое увеличение квадратного метра на одну единицу увеличивает цену на 2000 долларов США. Это число 2000 называется «коэффициентом» в LR. Это также может быть отрицательное число, и оно показывает, какое влияние независимая переменная оказывает на зависимую переменную.

В предыдущем примере цены были ровно в 2000 раз больше размеров домов. В реальной жизни у нас редко бывают такие совершенные примеры, как в этом примере. См. график ниже:

Этот график показывает более реалистичную взаимосвязь между переменными размера и цены. Обратите внимание на красные круги, показывающие соотношение размера и цены. На этом графике красная линия не показывает «точные» отношения между переменными; это нарисовано только как контрольная линия; которую мы также можем назвать потенциальной линией регрессии.

Вы также можете заметить синие короткие линии между нашей красной контрольной линией и кругами. Они показывают расстояния от нашей опорной линии. Они называются ошибками в LR. Поскольку созданная нами модель, скорее всего, будет идеальной на 100%, вполне нормально, что наши прогнозы будут иметь некоторые ошибки. Это приемлемо в LR до некоторой степени.

Основная цель LR — свести к минимуму среднее значение этих ошибок, найдя лучшую опорную линию в модели. См. график ниже. Вы видите 3 контрольные линии на графике, а также различия между кругами и этими линиями в разных цветах.

Вопрос: Если суммировать общие различия этих трех строк; какой из них вы считаете самым маленьким; какое средство имеет наименьшую ошибку?

Суммарные расстояния кругов размера/цены различны для красных, синих и зеленых линий. Что делает линейная регрессия? он пытается минимизировать сумму этих расстояний*; какие ошибки. Таким образом, прогноз модели LR рассчитывается с наименьшей возможной ошибкой. Вернемся к нашему вопросу в последнем абзаце; красная линия, кажется, имеет наименьшую общую ошибку на графике; потому что разница между красной линией и кругами размера/цены меньше, чем другие расстояния. (*В реальных вычислениях делается попытка минимизировать термин, называемый среднеквадратичной ошибкой, однако попытка минимизировать общие расстояния, как в этом примере, также дает основную идею, лежащую в основе этих вычислений.)

Для модели с одной независимой и одной зависимой переменной некоторые возможные движения опорной линии (которая представляет нашу модель) показаны на графике ниже.

Чтобы представить наши данные с минимально возможной ошибкой; модельная линия может сделать пару движений, как показано на графике. После достижения минимальной ошибки; расчет останавливается на этом этапе и предоставляет исследователю пару важных значений. Одним из них является коэффициент(ы), о котором мы говорили ранее. Количество коэффициентов должно быть таким же, как и количество независимых переменных.

Точка, в которой линия нашей модели (регрессии) пересекает ось зависимой переменной, называется точкой пересечения. Вы заметите, что на левом графике выше точка пересечения находится чуть ниже значения 100 для нижней линии; а справа она (линия пересекает ось цены) пересекается со значением чуть выше 200. Наше уравнение регрессии записывается следующим образом после добавления концепции пересечения:

y = m x + b, где m – коэффициент, а b – точка пересечения.

Другое значение называется r-квадратом (r2) и представляет собой положительное число от 0 до 1. Оно показывает, насколько вариации зависимой переменной объясняются вариациями зависимых переменных. Например; значение r2 0,90 говорит об этом; 90 процентов изменений зависимой переменной объясняются независимыми переменными в модели. Это хороший показатель. Плохая оценка будет 0,30; что говорит о том, что только 30% вариации объясняется в модели независимыми переменными.

Время выполнения упражнения…

Для того, чтобы эта статья была простой; мы не погружаемся в подробности здесь. Но прежде чем мы закончим; давайте сделаем простое упражнение вместе. Согласно приведенному ниже уравнению, какова будет цена дома с 3 комнатами, площадью 200 квадратных метров и возрастом 10 лет?

Уравнение регрессии:

цена = (3000 x размер) + (50 000 x номер комнаты) — (20 000 x возраст) + 120 000

Что такое независимые переменные и зависимая переменная? Что такое коэффициенты и что такое перехват? ;)

Надеюсь, это была полезная статья для вас.

Спасибо за прочтение и до встречи в других статьях…

Тансу Б.