eConti - программирование в вопросах и ответах

Публикации по теме 'data-engineering'


Структурирование репозиториев Data Teams
Или что сработало на разных этапах команды данных из моего опыта Мы с контролем версий познакомились только в Wix, где я начинал как Data Engineer (позже Data Developer; сейчас, кажется, им вернули роль Data Engineer😅). Раньше я поступал как «настоящий профессионал» — сразу к продукту. С тех пор я увидел очень разные подходы и позже имел возможность попробовать свои теории на практике, поэтому я решил поделиться своими пятью центами по этому поводу. Помните, что весь мой опыт..

Предоставьте API для обученной модели прогнозирования
Почему? Это довольно ясно. Как специалист по данным, вы много работали. Вы получили данные, изучили их и определили важные особенности. Затем вы целыми днями блуждали в могучем пространстве гиперпараметров. В итоге вы обучили лучшую модель, которая теперь может стать частью производственной среды. Увы, для этого вам нужно превратить вашу модель во что-то более интерактивное. В этом посте вы узнаете, как начать работу с Flask и предоставить RESTful API, который может..

Создание системы обнаружения мошенничества в реальном времени
1. Введение Кредитные карты - это новая тенденция платежей для миллениалов, их использование составляет 86% по данным FICO. Рост тенденции также увеличивает риск мошенничества. США сообщили о 11 миллиардах долларов убытков от мошенничества с кредитными картами в 2017 году. Это растущая проблема для многих финансовых учреждений, ежегодно обходящаяся компаниям в миллиарды долларов. Проект направлен на обнаружение мошеннических действий и транзакций с помощью больших данных и машинного..

Визуализация многомерных данных с помощью t-sne (упрощенный)
Когда вы работаете над задачей классификации, визуализация набора данных становится наиболее важной частью исследовательского анализа данных. Если у вас есть только двумерные данные, вы поместите функцию 1 на ось x и функцию 2 на ось y. оси, но что, если у вас есть больше функций и много классов, реальные данные всегда будут иметь высокую размерность, поэтому важно понимать методы визуализации многомерных данных, один из самых популярных методов — это t-sne. Упрощенное объяснение: t-sne..

MapReduce на C с нуля с использованием потоков: карта
MapReduce от Hadoop - это не просто фреймворк, это также философия решения проблем. Используя функциональное программирование, команда MapReduce осознала, что множество различных проблем можно разделить на две общие операции: map и уменьшить . Шаги сопоставления и уменьшения можно выполнять параллельно . Это означало, что до тех пор, пока вы можете сформулировать свою проблему таким определенным образом, у нее будет решение, которое можно легко запустить параллельно...

Перспективы отрасли науки о данных в облаке
8 ИЮНЯ 2017 ГОДА В принципе, облако становится товаром. Такие корпорации, как Google и Amazon, пытаются превратить в товар почти все. Это также верно для инструментов сбора данных, хранения данных и преобразования данных. И в ближайшем будущем стоит ожидать, что проектирование платформы, которое сейчас слишком сложно, станет проще. Со стороны Data Engineering перспективы такого упрощения в ближайшем будущем не так очевидны. Причина в том, что сейчас у нас нет единого простого..

Обработка данных с помощью Pandas: с чего начать
pandas  – это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на основе языка программирования Python. Pandas – одна из самых популярных библиотек для работы с данными. Она предлагает аналогичную функциональность, но у R есть одно большое преимущество: это Python. Поскольку он написан на Python, преобразования могут быть интегрированы в приложения, где R больше подходит для создания документов. Самый..

Новые материалы

ИИ для общего блага, часть вторая
В нашем последнем блоге мы исследовали возможности ИИ для общего блага, указав на несколько инициатив по поиску действенных решений для продвижения справедливых и беспристрастных систем ИИ. По..

Время расцвета закончилось
Большую часть своей карьеры в индустрии программного обеспечения программисты работали с головой в песок. Успех в отрасли требует навыков презентации и обучения других. Ценность улучшенных..

Будущее сельского хозяйства: новый уровень производительности с современными технологиями
По мере роста населения мира растет и спрос на продукты питания. Фермеры сталкиваются с растущим давлением необходимости повышать урожайность и максимизировать производительность, манипулируя..

Состояние совместной фильтрации в 2022 году, часть 1
ResBeMF: Улучшение прогнозируемого охвата совместной фильтрации на основе классификации (arXiv) Автор: Анхель Гонсалес-Прието , Авраам Гутьеррес , Фернандо Ортега , Рауль Лара-Кабрера..

Зачем изучать PYTHON в 2022 году !
Python — востребованный, доступный язык программирования с активным, постоянно растущим сообществом пользователей. Для тех, кто хочет сменить профессию в мире технологий с помощью..

Решение капч с помощью Puppeteer
Это руководство предназначено для текстовых кодов, а не для reCAPTCHA Google (см. конец этого сообщения). Требования: Антикапча или любой другой сервис по разгадыванию капчи. Модуль..

7 встроенных библиотек Python, которые необходимо знать
7 встроенных библиотек Python, которые необходимо знать Стандартная библиотека Python значительно упрощает жизнь программистов, предоставляя широкий набор функций. Мы выбираем несколько..