Сложность: ★ ★ ☆ ☆ ☆

Предложение: вам необходимо иметь представление и базовые знания о машинном обучении, а также знать, как реализовать жизненный цикл и конвейер. Надеюсь, вы сможете перечислить эти концепции MLOps в своих списках дел на 2023 год.

В этой статье будет представлена ​​информация о MLOps:

  1. Введение в MLOps: Мы кратко дадим определение MLOps в параграфе.
  2. Как построить сквозной пайплайн MLOps: Мы предоставим вам пайплайн про MLOps.
  3. Разные роли в концепции MLOps: в этой части мы поговорим о содержании разных должностей.
  4. Преимущества MLOps: в этом параграфе мы объясним, почему вам нужно использовать MLOps для вашего проекта ИИ.

Для тех, кто хочет узнать больше о MLOps, в этой статье мы предоставили шпаргалку и учебные ресурсы. .

Что такое МЛОпс?

MLOps — это конвейер между обучением, развертыванием и мониторингом моделей машинного обучения. Он расширяет методологию DevOps, включая ресурсы машинного обучения и обработки данных. Это позволяет организациям легко добавлять машинное обучение в свои процессы разработки и обеспечивать правильное развертывание и мониторинг моделей машинного обучения. MLOps может улучшить сотрудничество между специалистами по данным и другими ИТ-специалистами, автоматизировать процесс разработки и развертывания моделей и повысить общую эффективность проектов машинного обучения. Фонд непрерывной доставки (CDF) определяет его как расширение методологии DevOps, включающее активы машинного обучения и науки о данных в качестве первоклассных граждан в экологии DevOps.

MLOps содержит три вида вещей — данные, модель и код. Вы должны тщательно подготовить эти предметы. Если пользователю необходимо обучить новую модель, он должен потратить как можно меньше времени на обработку данных, обучение модели и оценку модели. Таким образом, контроль версий необходим для концепции MLOps.

Сквозной конвейер MLOps

В конвейере MLOps мы реализуем следующие этапы:

  1. Объем. Спланируйте и проверьте, подходит ли объем проекта или продукта для модели машинного обучения.
  2. Инженерия данных. Построение конвейера обработки данных, мы можем назвать его конвейером DataOps, включает следующий метод:
    E: Данные Eизвлечение — сбор данных
    - T: T преобразование данных в набор данных и маркировка набора данных.
    - L: Загрузить набор данных в базу данных или файловую систему.
    - P: проверить содержимое Pпрофилирования данных. Мы можем использовать панель мониторинга, чтобы показать анализ данных и изменить конвейер данных ETL.
    - A: Проверьте качество данных и Aстатус утверждения. Мы должны обещать, что реальная ситуация может представлять набор данных.
    InfuseAI предоставляет инструмент для утверждения и профилирования данных с открытым исходным кодом — Piperider, чтобы проверить набор инструментов для проверки качества данных для специалистов по данным. Подробнее смотрите здесь.
  3. Разработка модели. Вот несколько шагов по созданию конвейера моделирования.
    A. Построение модели. Запустите конвейер модели и метод обратного вызова.
    B Обучение модели: обучение данных с помощью модели машинного обучения или глубокого обучения. В то же время нам нужно определить измерение и отслеживать производительность модели. Например, методы матрицы путаницы или показатели точности.
    C. Оценка модели. Убедитесь, что модель готова к развертыванию. Например, если показатель точности превышает 0,95, мы можем перейти на новую модель.
    D. Реестр моделей: зарегистрируйте и поместите модель в производственную очередь.
  4. Модель Развертывание. Используйте метод Dockerize, чтобы упаковать модель и развернуть ее в облаке или на пограничных устройствах в качестве конечных точек. Метод пакета может быть сервером API или бессерверным способом.
  5. Мониторинг. Мониторинг производительности модельного сервиса, который состоит из двух частей:
    A. Мониторинг развертываемой нами инфраструктуры: например, нагрузка, использование, хранилище и работоспособность.
    B. Мониторинг. модель для ее производительности: производительность модели и данных, которую нам нужно переобучить.

Скачать Шпаргалку по MLOps можно здесь:

Различные роли в концепции MLOps

В этой части мы дадим предложения для разных ролей или групп пользователей. Они могут проверить наличие недостатков и довести их до полной прочности.

Для команды управления проектом

  1. Определение варианта использования в бизнесе: Увеличивайте показатели, сокращайте время и уменьшайте количество ошибок.
  2. Понимание области машинного обучения: вы должны убедиться, что область вашего проекта подходит для использования метода ML для решения проблемы.
  3. Поймите, где находятся данные. Нужно ли проекту собирать новые данные? Или нам нужно подготовить данные из базы данных?
  4. Необходимо пометить набор данных: имеют ли данные выходное значение? Или нам нужно найти экспертов в предметной области для маркировки данных?
  5. Стоимость и время проекта:
    А. Нужно ли нам использовать графический процессор для обучения данных?
    B. Есть ли у нас среда для обучения модели? или нам нужно использовать облачный сервис для обучения модели?
    C. Сколько человеческого рабочего времени нам нужно потратить?

Для команды инженеров данных

  1. Входная база данных: нам нужно спланировать, чтобы система базы данных состояния была готова к работе. Мы можем позволить себе требования, если пользователю нужно получить данные напрямую.
  2. Преобразование данных: нам нужно выполнить конвейер преобразования данных, чтобы знать, что данные можно использовать в конвейере машинного обучения.
  3. Профилирование данных: это отличный метод для обсуждения с руководителем проекта и специалистом по данным. Мы можем получить информацию на приборной панели и знаем, как настроить конвейер данных в соответствии с требованиями.
  4. Утверждение данных: когда мы создаем метод обработки данных, не забудьте создать правила утверждения для проверки вашего конвейера данных. Если пользователи хотят получить последний набор данных, вы можете использовать правила, чтобы понять, исправлены данные или нет.
    InfuseAI предоставляет инструмент с открытым исходным кодом — Piperider для проверки статуса качества данных. Вы можете проверить информацию здесь: https://www.piperider.io/.
  5. Выходное хранилище: когда конвейер преобразования данных завершен, вам нужно указать хранилище для размещения файлов. Облачное хранилище или хранилище nfs — лучший способ сохранить файлы данных.

Для команды специалистов по данным

  1. Выберите модель ML: важно использовать подходящую модель. Нам нужно выбрать правильный тип модели ML для проекта.
  2. Начальная среда обучения модели: использование метода докеров для создания среды необходимо для обучения модели повсюду. InfuseAI предоставляет программное обеспечение Crane с открытым исходным кодом для создания среды. Вы можете проверить информацию здесь: https://github.com/InfuseAI/crane.
  3. Обучение модели: начните обучение базовой модели. Если нам нужно использовать графический процессор для обучения модели, мы должны подготовить среду драйвера графического процессора.
    Если вы используете Google Colab для обучения модели, InfuseAI предоставляет инструмент с открытым исходным кодом colab-xterm для открытия терминал в ячейке. Вы можете проверить информацию здесь: https://github.com/InfuseAI/colab-xterm.
  4. Оценка и настройка модели: настройте режим и проверьте производительность и показатели модели. Если мы достигнем цели, то сможем сдать модель в эксплуатацию.
  5. Реестр моделей: Аналогичным образом мы отправляем код в репозиторий git. Если мы знаем, что модель можно использовать, мы можем записать модель как одну из готовых к производству моделей.
  6. Развертывание модели: если пользователю нужна служба API для прогнозирования результата, мы можем развернуть модель как службу модели. После развертывания модели мы можем попросить группу разработки приложений для ИТ или машинного обучения создать систему приложений.
    InfuseAI предоставляет платформу Kubernetes с открытым исходным кодом PrimeHub для создания сквозного конвейера машинного обучения и разверните модель как сервис. Вы можете проверить информацию здесь: https://www.infuseai.io/primehub-ai-platform.

Для команды разработчиков ИТ или машинного обучения

  1. Создайте службу приложения ML: инженеры должны знать, как использовать службу API модели, чтобы предсказать результат и использовать его в приложении.
  2. Создайте систему обратной связи с прогнозированием модели: если мы хотим обучить последнюю модель машинного обучения, нам нужно получить новую метку данных. Специалист по данным может использовать данные в системе обратной связи, чтобы представить новую модель машинного обучения.

Для команды IT DevOps

Управляйте службой машинного обучения и приложений: используйте инструменты мониторинга, чтобы узнать, работает ли служба. Кроме того, нам нужны специалисты по данным, которые дадут руководства по устранению неполадок, как решить проблему с неточной моделью.

Преимущество MLOps

MLOps дает инженерам много преимуществ и помогает нам быстро построить модель машинного обучения. В этой части подробно рассматриваются пять основных научно обоснованных преимуществ метода MLOps.

1. Производительность

Когда специалисты по данным хотят построить модель ML, жизненный цикл ML позволит им делать много повторяющихся вещей. Например, настройка среды и переобучение модели очень утомительны и занимают много времени. Поэтому нам необходимо повысить эффективность построения модели машинного обучения.
Конвейер MLOps может заменить стандартный метод построения и развертывания службы модели машинного обучения. Конвейер включает разработку данных, разработку моделей и другие этапы. Я думаю, что этот метод может принести рентабельную пользу и позволить пользователю более эффективно

2. Воспроизводимость

Когда мы получим окончательную модель, нам нужно заметить, что мы можем воспроизвести модель в будущем. Модель ML не работает постоянно, и нам нужно обновить ее, прежде чем мы обнаружим проблему с оценкой.
Помимо этого, мы должны сделать контроль версий данных, кода и модели. Контроль версий может помочь нам быстро вернуться к предыдущей версии. Если мы столкнемся с ошибкой обучения или оценки, мы можем получить упомянутые выше элементы и выполнить ту же работу.

3. Взаимодействие в команде

В предыдущем разделе мы говорили о роли разных команд. Проект машинного обучения требует большого количества членов команды для достижения цели. Поэтому помимо команды инженеров данных и специалиста по данным. В него входят команды IT и DevOps. После того, как все поймут ролевую задачу, мы сможем выполнять ее лучше и быстрее. Сокращение времени связи — лучший способ использовать решение MLOps.

4. Мониторинг

Предоставление наилучшего прогноза модели и мониторинг проблемы дрейфа модели или данных важны при мониторинге. MLOps говорят нам, что переобучение модели ML — лучший способ предоставить наилучшую модель. Когда служба мониторинга обнаружит проблему с дрейфом, мы сообщим специалисту по данным. Они могут проверить результат

5. Снижение затрат

Когда мы закончим создание стандартного пайплайна MLOps, мы сможем понять наши затраты. Мы можем рассчитать точные деньги и выручку, если нам нужно спланировать стоимость проекта. Это самая важная информация для менеджеров проектов и менеджеров по работе с клиентами, чтобы знать, как предоставлять проектные услуги. Кроме того, клиенты могут понять, что мы можем сэкономить их расходы.

Памятка MLOps

Я предоставляю шпаргалку MLOps и надеюсь, что вы сможете легко понять метод MLOps. Пожалуйста, смотрите изображение ниже для загрузки шпаргалки по MLOps.

Курс MLOps и учебный документ

Если вы хотите более подробно изучить технологию, вы можете использовать онлайн-курс или документ, чтобы восполнить недостаток. Здесь мы рекомендуем бесплатный онлайн-курс, который поможет вам понять MLOps:

Это бесплатный проект с открытым исходным кодом, который может полностью понять, как использовать инструменты для выполнения ваших работ MLOps. Они хотят, чтобы пользователь сосредоточился на первых принципах, а не просто погружался в инструменты/код. Проект выложен на GitHub и получает более 30 тысяч звезд. Я думаю, что это отличная возможность узнать больше о MLOps.

Дорожная карта MLOps 2022

Фонд непрерывной доставки (CDF) предоставляет пятилетнюю дорожную карту MLOps для будущих требований клиентов на веб-сайте GitHub. Они надеются, что советы, содержащиеся в документе, помогут улучшить общее состояние MLOps и что эта информация может быть полезной для всех. Пожалуйста, проверьте следующую запись и посмотрите план MLOps.



Заключение

MLOps может помочь вам использовать простой способ создания модели ML. Поэтому мы предоставляем полное руководство по технологии MLOps. Менеджер может использовать этот документ, чтобы проверить, каких способностей не хватает вашей команде, и попытаться компенсировать способности инженеров. Мы надеемся, что методы могут систематически помогать проектам машинного обучения идти по графику и приносить вам успех.

я Саймон

Привет, я Саймон, инженер по работе с клиентами в InfuseAI. Если вы считаете, что статья полезна для вас, пожалуйста, дайте мне аплодисменты. Добро пожаловать, чтобы внести некоторые предложения и обсудить со мной в InfuseAI Discord.
Linkedin: https://www.linkedin.com/in/simonliuyuwei/

Мы InfuseAI

InfuseAI предоставляет инструменты MLOps:

  1. PrimeHub — наша сквозная платформа MLOps — это весь жизненный цикл машинного обучения на одной платформе.
  2. Консультант по MLOps — сообщите пользователю, как использовать MLOps для создания конвейера машинного обучения.
  3. Piperider — инструментарий качества данных для специалистов по данным.

Присоединяйтесь к нашему сообществу машинного обучения, чтобы узнать больше: InfuseAI Discord