Я почти уверен, что за последние пять дней вы хотя бы раз слышали о машинном обучении или ИИ. Разве не удивительно, что люди могут сделать прямо сейчас, используя искусственный интеллект?
Вы видели те вычурные изображения, созданные алгоритмами искусственного интеллекта на основе фотографий? Или вы слышали о случае, когда ChatGPR сдал экзамен на юридическом факультете?

Хотя эти идеи ИИ могут показаться скорее интересными, чем полезными, моя цель — доказать, что мы можем использовать ИИ для чего-то большего, более широкого и лучшего.

Мое недавнее исследование возобновляемых источников энергии может продемонстрировать, как правительство и бизнес-сообщества могут использовать анализ данных для получения информации для принятия решений в будущем.

Я полагался на World Sustainability Dataset в качестве основного источника данных и применил несколько концепций машинного обучения для запуска регрессионного анализа. Целью исследования было выяснить зависимость между использованием возобновляемых источников энергии и соотношением городского и сельского населения в США.

Основными инструментами исследования были Python и его библиотеки анализа данных, Pandas и NumPy.

sns.regplot(data = subset_new, 
            y = 'Renewable energy consumption (% of total final energy consumption) - EG.FEC.RNEW.ZS', x = 'Rural population (% of total population) - SP.RUR.TOTL.ZS')

Сначала я провел регрессионный анализ, чтобы оценить зависимости между процентом потребления возобновляемой энергии и процентом сельского населения.

Интерпретация результатов:
В регрессионном анализе ясно видно, что чем выше процент сельского населения, тем ниже процент использования возобновляемых источников энергии.

Во второй части исследования я рассмотрел зависимость между использованием возобновляемой энергии и ВВП на душу населения.

sns.regplot(data = subset_new, 
            y = 'Renewable energy consumption (% of total final energy consumption) - EG.FEC.RNEW.ZS', x = 'GDP per capita (current US$) - NY.GDP.PCAP.CD')

Интерпретация результатов:
чем выше ВВП на душу населения, тем выше процент использования возобновляемых источников энергии.

Основная часть исследования знакомит с принципами машинного обучения. Я разделил свой набор данных на две части — тестовый набор и обучающий набор, чтобы выяснить прогнозы использования возобновляемых источников энергии в зависимости от ВВП на душу населения.

plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('GDP vs. % of renewable energy usage (Training Set)')
plt.ylabel('% of renewable energy usage (Training Set)')
plt.xlabel('GDP per capita')
plt.show()

plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('GDP vs. % of renewable energy usage (Test Set)')
plt.ylabel('% of renewable energy consumption (Test Set)')
plt.xlabel('GDP per capita')
plt.show()

Два графика дали мне представление о том, насколько хорошо обучены мои данные. Поскольку моя модель достаточно хорошо обучена, она дала мне возможность прогнозировать процент использования возобновляемой энергии в зависимости от ВВП на душу населения.

Например, если ВВП на душу населения составляет 80 000 долларов США, процент использования возобновляемых источников энергии составляет примерно 14%.

Кроме того, используя модель, мы можем получить больше информации из набора данных:

  • Если ВВП равен 0, % потребления возобновляемой энергии составляет ~ -4,1 (не имеет значения)
  • С каждым дополнительным долларом ВВП прирост возобновляемой энергии составляет 0,021%.
  • Оценка — это R2 — модель объясняет 91% вариаций в % потребления возобновляемой энергии.

Таким образом, машинное обучение может быть интересным и полезным одновременно. Однако мне бы хотелось, чтобы библиотеки Python могли помочь представить данные более причудливым образом. Но это обсуждение следующего поста в блоге.