Databricks bevezető
Áttekintés
A bevezető célja, hogy az Apache Spark működésének legfontosabb koncepcióit bemutassa, és olyan gyakorlati ismereteket adjon, melyek rögtön használhatóak a napi munkavégzés során. A tutorial keretein belül Python nyelven írunk ETL műveleteket a Spark modern DataFrame API-ját használva.
Előfeltételek
A foglalkozás gyakorlati fókuszú az API megismeréséhez és kipróbálásához, saját laptopra lesz szükség. A szoftverkörnyezetként a Databricks Community Edition változatát használjuk, ehhez szükséges egy előzetes regisztráció, itt. (Segítség a regisztrációhoz, hogy a második lépésében, amely során felhőszolgáltatót kell választani, az apróbetűs szekcióban található a `Get started with Community Edition` link. A mellékelt képen kiemeltük.) A tutorial feltételezi az alapszintű Python ismereteket, és minimális rálátást az adatfeldolgozás alapvető műveleteire (select, where, group by, order by).
Tematika
- Bevezetés az elosztott rendszerek működésébe, a Spark példáján keresztül
- Dataframe API alapjai
- Adatok olvasása, írása
- Adattranszformációk, oszlopkifejezések
- Aggregáció
Előadó
Fülöp András
Solutions Architect, Datapao
A Datapao Kft. képzésekkel és tanácsadással segít a kis és nagyvállalatoknak elindítani, illetve fejleszteni adatfeldolgozó infrastruktúrájukat. Fő területük az online alkalmazások, és az ipari fejlesztések. András emellett a Databricks – az Apache Spark készítői cégének – oktatója. Ezt megelőzően az amerikai álláskeresési piac megreformálását megcélzó magyar startup, a Lensa Kft. Lab csapatában dolgozott, ahol Data Scientist-ként fő feladata a cég állásajánló rendszerének fejlesztése, illetve kapcsolódó elemzések és modellek készítése volt. Korábban a Debreceni Egyetem oktatója volt, jelenleg pedig a Széchenyi István Szakkollégium kitüntetett tanára. Szabadidejében legszívesebben videójáték-prototípusokat készít.
Lebonyolítási tudnivalók
Dátum: 2022. június 13, hétfő
Hossz: 80 perc
Formátum: csak személyes
Helyszín: Hotel Mercure Buda Caste Hill