látogató számláló

Témák | Tutorial Nap

Data engineering Pythonban open source keretrendszerekkel tutorial

LEÍRÁS

A tutorial során Google Colab környezetben fogunk megismerkedni a már egy ideje a piacon lévõ ám még mindig ùjdonságnak számító nyílt forráskódú keretrendszerekkel, amelyek gyakran használatosak data engineering projekteknél. A workshop célja, hogy egy áttekintést adjon a résztvevőknek a data engineering piacról, elméletrõl, és hasznos hands-on praktikákról. 

Az ütemezőként és általános keretrendszerként egyaránt használható Prefect segítségével könnyen lehet jó minőségű, robusztus data pipeline kódokat írni. A Lux könyvtár segítségünkre lehet gyors adat felderítésre, vizualizáció által. Az adat tesztelés egy elengedhetetlen lépés a megbízható pipeline tervezése közben ehhez a Great Expectations nyújt egy elegáns megoldást. Az adattárolás témakörében pedig a Apache Parquet-val es DuckDB-vel fogunk megismerkedni.

Szeretnénk felhívni a figyelmet arra, hogy a tutorial az adattranszformáció és adattisztítás témáival nem foglalkozik.

ELŐFELTÉTELEK

A részvételhez saját számítógépre és Google Colab regisztrációra lesz szükség.
Alapvető Python ismeretek és némi kódolási tapasztalat előfeltétele az anyag gyakorlati követésének.

TEMATIKA

  • Az Open Source jelentõsége
  • A Prefect keretrendszer rövid bemutatása
  • Adat vizualizáciò Lux segítségével
  • Adat tesztelés Great Expectations használatával
  • Adattárolás Apache Parquet és DuckDB használatával
  • Gyakorlati feladatok
    • Taskok, ezek dependenciája, statikus-dinamikus generálás
    • Rövid adat feltérképezés, adat vizualizáció által
    • Adat tesztelés és teszt riport

ELŐADÓK

Hricz Máté

Data Engineer Consultant
Infinite Lambda
LinkedIn

Máté azon Data Engineerek egyike, aki elmondhatja magáról, hogy bőséges project tapasztalattal rendelkezik a mai piac vezető orchestrátorokkal (Airflow, Prefect, Argo). Ezek közül többeknek contributora is. Rengeteg nemzetközi ügyfélnek segített a Data Platform stratégiájának kialakításában. Az elmúlt évek alatt rengeteg más tool-t is tesztelt ebben az iparágban, folyamatosan képzi magát a trendnek számító eszközökkel.

Turcsány Ádám

Data Engineer Consultant
Infinite Lambda
LinkedIn

Ádám az Infinite Lambdánál töltött évei alatt, több iparágból érkező céggel dolgozott az adat alapú döntéshozatali platform elősegítésével, melyek során jelentős tapasztalatot szerzett a data engineering világ modern eszközeivel. Projektjei miatt nagy hangsúlyt fektetett a data ingestion toolokban való elmélyedésben, illetve a Google Cloud platform megismerésében.

LEBONYOLÍTÁSI TUDNIVALÓK

Dátum: 2023. június 5., hétfő
Hossz: Félnapos tutorial
Formátum: Személyes előadás
Nyelv: Magyar
Helyszín: Danubius Hotel Helia**** (Budapest, Kárpát u. 62-64.)