Или что сработало на разных этапах команды данных из моего опыта

Мы с контролем версий познакомились только в Wix, где я начинал как Data Engineer (позже Data Developer; сейчас, кажется, им вернули роль Data Engineer😅). Раньше я поступал как «настоящий профессионал» — сразу к продукту.

С тех пор я увидел очень разные подходы и позже имел возможность попробовать свои теории на практике, поэтому я решил поделиться своими пятью центами по этому поводу.

Помните, что весь мой опыт оркестровки связан с Apache Airflow, поэтому структура и шаблоны, которые я использовал, будут основаны на этом. Кроме того, я фанат ДБТ. Следовательно, это также будет видно здесь (и да, я знаю, что у обоих инструментов есть некоторые недостатки, но это то, что есть).

Группа одного человека

Когда я присоединился к одной компании, у меня была возможность делать что-то с нуля. Поскольку я научился на некоторых ошибках в прошлом, я начал с довольно простого, но эффективного метода.

У нас есть монорепозиторий с одним проектом dbt, в котором выполняются все преобразования и разные папки для разных операций с Airflow.

Когда ты один, или команда совсем маленькая  — ориентироваться быстро, но иногда много копипаста (пока сам не заметишь. 🙃). Обычно, если вы начинаете в компании строить фундамент, вы быстро завалены кучей работы, и спонтанно кажется, что это можно сделать быстро и легко.

Повторение, повторение, повторение

По мере роста компании растут и данные, с которыми вам приходится иметь дело. Достаточно забавно то, что шаблоны становятся видимыми теперь, в зависимости от того, работаете ли вы все еще один или у вас есть коллеги, выполняющие dags, преобразования dbt, следующие шаги/подходы могут различаться, но результат более или менее одинаков.