О курсе подробнее
Data Engineer — это человек, который строит трубы для данных. Без него Data Scientist не получит чистых датасетов, а бизнес не увидит дашбордов. Спрос на инженеров данных вырос на 50% за последний год, и это одна из самых дефицитных ролей в IT. Мы учим собирать, хранить, обрабатывать и доставлять данные в масштабе терабайт и петабайт. Вы работаете с технологиями, на которых построены Яндекс, Google и Amazon — Hadoop, Spark, Kafka, Airflow. Это курс для бэкенд-разработчиков и аналитиков, которые хотят расти в инженерную сторону.
Вы начинаете с основ хранилищ данных: архитектура DWH (схема звезда, снежинка), измерение и факты, медленно меняющиеся измерения (SCD). Изучаете SQL на продвинутом уровне — оконные функции, CTE, оконные рамки, оптимизация запросов через explain и индексы. Затем переходите к пайплайнам — вы строите ETL-процессы на Python с использованием Airflow, пишете DAG-и, настраиваете зависимости задач, обработку ошибок и ретраи. Отдельный модуль — работа с очередями сообщений: Apache Kafka и RabbitMQ, вы настраиваете продюсеров и консьюмеров, обрабатываете потоки в реальном времени (Streaming).
Большой блок — большие данные (Big Data): вы устанавливаете Hadoop-кластер (HDFS, YARN), пишете MapReduce-задачи, но основной упор делаем на Apache Spark (PySpark) — вы учитесь читать паркеты, партиционировать данные, использовать RDD и DataFrames, оптимизировать shuffle-операции. Работаете с облачными DWH: Google BigQuery, Amazon Redshift, Snowflake — загружаете данные через Airflow в BigQuery и визуализируете в Looker Studio или Tableau. Финальный проект — полный пайплайн для обработки логов интернет-магазина: сбор из Kafka, очистка в Spark, загрузка в хранилище и построение дашборда с метриками за последнюю минуту. Вы получаете инженерный скилл, который ценят в каждой крупной компании.