Что такое анализ данных?

Анализ данных — это процесс проверки, преобразования, очистки и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений.

Пять шагов анализа данных:

Задавать вопросы
Обработка данных/предварительная обработка данных
Исследовательский анализ данных
Делать выводы
Сообщать результаты

1. Задавать вопросы:

В этом у нас есть два сценария: первый компания предоставляет данные и определяет вопросы, на которые они хотят, чтобы вы ответили, анализируя данные.

Во втором сценарии компания определяет только основную проблему, и вы должны найти решение этой проблемы путем анализа данных на основе ваших собственных вопросов.

Какие функции будут способствовать моему анализу?
Какие функции не важны для моего анализа?
Какие функции имеют сильную корреляцию?
Нужна ли мне предварительная обработка данных?
Какие функции требуется манипуляция/инженерия?

Чтобы задать лучший вопрос, задайте требуемые Экспертиза в предметной области и Опыт.

2. Обработка данных/предварительная обработка данных:

Это процесс преобразования и сопоставления данных из одного необработанного формата в другой формат данных с целью сделать их более подходящими и ценными для различных низкопоточных целей, таких как аналитика.

Если ваши данные не подходят для анализа данных, то процесс очистки данных называется обработкой данных.

Сбор данных
Доступ к данным — общий обзор данных
Очистка данных

Сбор данных: файлы CSV, API, анализ веб-страниц, база данных

Доступ к данным:форма данных, повторяющиеся данные, функция описания и информации

Очистка данных:отсутствующие данные (среднее), удаление повторяющихся данных (drop_duplicates), неправильный тип данных (astype), например время (от str до даты/времени)

3. Исследовательский анализ данных:

Изучение данных:

Нахождение корреляции и ковариации
Выполнение одномерного и многомерного анализа
Построение графика (визуализация данных)

Дополнение данных, также называемое Разработка функций.

Проверка выбросов с помощью boxplot
Объединение фреймов данных
Добавление нового столбца

4. Подведение итогов:

Применение машинного обучения
Инференциальная статистика
Описательный анализ аналитиком данных

5. Обмен результатами/рассказывание историй о данных:

Покажите данные с помощью PPT, постов в блогах, объясните их от человека к человеку и отправьте отчет.
Визуализация данных и навыки общения наиболее важны на этом этапе.

Эти шаги не являются линейными, вы можете переходить от одного шага к другому.