Data engineering Pythonban Prefect használatával
Áttekintés
A tutorial során Google Colab környezetben fogunk megismerkedni a data pipeline-ok tervezési elveivel és fejlesztési lépéseivel. Ehhez a nyílt forráskódú Prefect könyvtárat fogjuk használni segitségként.
Az ütemezőként és általános keretrendszerként egyaránt használható Prefect segítségével könnyen lehet jó minőségű, robusztus data pipeline kódokat írni. Az előadás alatt megismerkedünk általánosságban tervezési alapelvekkel, a gyakorlatban fontos technikai követelményekkel, a kapcsolódó infrastruktúrális kihívásokkal, illetve több példán keresztül vesszük át a pipeline-ok fejlesztési lépéseit, tesztelését.
Szeretnénk felhívni a figyelmet arra , hogy a tutorial az adattranszformáció és adattisztítás témáival nem foglalkozik.
Előfeltételek
A részvételhez saját számítógépre és Google Colab regisztrációra lesz szükség.
Alapvető Python ismeretek és némi kódolási tapasztalat előfeltétele az anyag gyakorlati követésének.
Tematika
-
- Data pipeline tervezési kérdések
- A Prefect bemutatása
- Gyakorlati feladatok
- Taskok, ezek dependenciája, statikus-dinamikus generálás
- Egy teljes job felépítése
- ETL példa
- Logging, State kezelés, tesztelés
- Orchestratorok
Előadó
Hricz Máté
Data Engineer Consultant, Infinite Lambda
Hricz Máté azon Data Engineerek egyike, aki elmondhatja magáról, hogy bőséges project tapasztalattal rendelkezik a mai piac vezető orchestrátorokkal (Airflow, Prefect, Argo). Ezek közül többeknek contributora is. Rengeteg nemzetközi ügyfélnek segített a Data Platform stratégiájának kialakításában. Az elmúlt évek alatt rengeteg más tool-t is tesztelt ebben az iparágban, folyamatosan képzi magát a trendnek számító eszközökkel.
Lebonyolítási tudnivalók
Dátum: 2022. június 13, hétfő
Hossz: 80 perc
Formátum: csak személyes
Helyszín: Hotel Mercure Buda Caste Hill