Data engineering Pythonban open source keretrendszerekkel tutorial
LEÍRÁS
A tutorial során Google Colab környezetben fogunk megismerkedni a már egy ideje a piacon lévõ ám még mindig ùjdonságnak számító nyílt forráskódú keretrendszerekkel, amelyek gyakran használatosak data engineering projekteknél. A workshop célja, hogy egy áttekintést adjon a résztvevőknek a data engineering piacról, elméletrõl, és hasznos hands-on praktikákról.
Az ütemezőként és általános keretrendszerként egyaránt használható Prefect segítségével könnyen lehet jó minőségű, robusztus data pipeline kódokat írni. A Lux könyvtár segítségünkre lehet gyors adat felderítésre, vizualizáció által. Az adat tesztelés egy elengedhetetlen lépés a megbízható pipeline tervezése közben ehhez a Great Expectations nyújt egy elegáns megoldást. Az adattárolás témakörében pedig a Apache Parquet-val es DuckDB-vel fogunk megismerkedni.
Szeretnénk felhívni a figyelmet arra, hogy a tutorial az adattranszformáció és adattisztítás témáival nem foglalkozik.
ELŐFELTÉTELEK
A részvételhez saját számítógépre és Google Colab regisztrációra lesz szükség.
Alapvető Python ismeretek és némi kódolási tapasztalat előfeltétele az anyag gyakorlati követésének.
TEMATIKA
- Az Open Source jelentõsége
- A Prefect keretrendszer rövid bemutatása
- Adat vizualizáciò Lux segítségével
- Adat tesztelés Great Expectations használatával
- Adattárolás Apache Parquet és DuckDB használatával
- Gyakorlati feladatok
- Taskok, ezek dependenciája, statikus-dinamikus generálás
- Rövid adat feltérképezés, adat vizualizáció által
- Adat tesztelés és teszt riport
ELŐADÓK
Hricz MátéData Engineer Consultant
|
Máté azon Data Engineerek egyike, aki elmondhatja magáról, hogy bőséges project tapasztalattal rendelkezik a mai piac vezető orchestrátorokkal (Airflow, Prefect, Argo). Ezek közül többeknek contributora is. Rengeteg nemzetközi ügyfélnek segített a Data Platform stratégiájának kialakításában. Az elmúlt évek alatt rengeteg más tool-t is tesztelt ebben az iparágban, folyamatosan képzi magát a trendnek számító eszközökkel.
Turcsány ÁdámData Engineer Consultant
|
Ádám az Infinite Lambdánál töltött évei alatt, több iparágból érkező céggel dolgozott az adat alapú döntéshozatali platform elősegítésével, melyek során jelentős tapasztalatot szerzett a data engineering világ modern eszközeivel. Projektjei miatt nagy hangsúlyt fektetett a data ingestion toolokban való elmélyedésben, illetve a Google Cloud platform megismerésében.
LEBONYOLÍTÁSI TUDNIVALÓK
Dátum: 2023. június 5., hétfő
Hossz: Félnapos tutorial
Formátum: Személyes előadás
Nyelv: Magyar
Helyszín: Danubius Hotel Helia**** (Budapest, Kárpát u. 62-64.)