English

Hadoop és SQL gyorsan és egyszerűen – betöltés, lekérdezés, optimalizáció

Az Apache Hive SQL alapú hozzáférést nyújt Hadoop-on tárolt adatokhoz. Fejlesztését 2007-ben a Facebook kezdte petabájtos nagyságrendű adathalmazaik batch jellegű feldolgozására. Mára a Hadoop ökoszisztéma egyik legelterjedtebb komponensévé nőtte ki magát. Az elmúlt hónapokban történt fejlesztések során az analitikai lekérdezésekben is jól használhatóvá vált.

Az SQL szabványnak való megfelelés és a rövid válaszidejű lekérdezések támogatása által BI, adatvizualizációs és analitikai eszközök adatkiszolgálására is alkalmas.

A workshop célja, hogy gyakorlati bevezetést nyújtson a Hive működésébe és használatába.

A résztvevőknek alapvető SQL ismeretekre és saját számítógépre lesz csak szükség.

Technikai tudnivalók

Hasznos,  ha egy általános SQL kliens van a gépen, a DBeaver a javasolt. (http://dbeaver.jkiss.org). A telepítéshez szükséges lehet Java  8 is. Bizonyos dolgok illusztrációjához hasznos lehet a putty ssh kliens  (http://www.putty.org)

Ha a szoftverek telepítésére nincs mód, akkor egy tetszőleges böngészővel is lehet majd dolgozni a workshopon, bár a fent említett szoftverek használata kényelmesebb(főleg a DBeaver).

Tematika:

  • Hive/Hadoop architektúra áttekintés
  • A Hortonworks Data Platform elemei, a Hive szerepe
  • Adatbetöltési lehetőségek
  • Lekérdezések készítése
  • Optimalizálás
  • Integráció BI eszközökkel

Zsolt Fekete
Engineering Manager, Hortonworks

Zsolt Engineering Manager-ként a Hortonworks Budapest csapatának a tagja. Fejlesztési Csoportvezető a Sustaining Engineering csapaton belül, mely az Apache Hive, Hbase és a HDP stack egyéb adatbázissal kapcsolatos komponenseinek támogatásáért felel.

Különböző mérnöki pozíciókban majd 9 évet töltött az MTA SZTAKI-nál, gyakorlatias technikai vezető, trükkök egész tárházával felszerelkezve. Doktori fokozattal bír alkalmazott matematikából, PhD minősítését kombinatórikus optimalizálás témakörben szerezte.

 

=> Vissza a Workshopokhoz