Datová jezera a cloud: výhody a nevýhody provozování analýzy velkých dat ve veřejném cloudu

 

Schmarzo
Bill Schmarzo

Otázka, kterou mi překvapivě ještě nikdo nepoložil, zní: „Co třeba umístit datové jezero do cloudu?“ Možná mi tuto otázku nikdo nepokládá, protože podniky dosud nemají jasno v tom, co je to datové jezero. Nebo mi možná tuto otázku nikdo nepokládá, jelikož všichni – kromě mě – znají odpověď?

Napadlo mě spojit se s mým velechytrým přítelem Brandonem Kaierem (Twitter: @bkaier), abychom společně především k mému prospěchu napsali příspěvek na blog (nikoli poprvé). Musím si ujasnit, čím by mohl být a čím by nebyl cloud přínosný pro datové jezero. Musí existovat nějaký průnik, protože obojí se týká ekonomického využití IT zdrojů a schopnosti uživatele k těmto zdrojům přistupovat.

Mám dojem, že existuje celá řada závažných faktorů a problémů, které je nutné při úvahách o umístění datového jezera do cloudu brát v potaz. Podle mého nesouvisí nejvážnější problémy s ukládáním a správou dat samotných. Myslím, že problémy souvisí spíše s poskytováním rychle reagujícího a rychle přizpůsobivého chráněného analytického prostředí, bezpečně, s mobilitou dat a analytických nástrojů, tedy vlastnostmi, jaké bychom čekali od cloudu. Rozeberme si to podrobněji.

Co je to datové jezero?

Existuje mnoho technických definic toho, co datové jezero je – můžete si je vygooglovat. Začněme ale raději tím, že si vysvětlíme, co datové jezero „dělá“ a jak podniku slouží. Nabízím shrnutí toho, co považuji za nejdůležitější vědět o datovém jezeru:

Datové jezero je JEDNOTNÉ úložiště pro uchovávání (fyzické nebo logické) veškerých dat podniku, včetně dat generovaných při interních transakcích i dat získaných od externích subjektů a z veřejně dostupných zdrojů. Preferovanou platformou pro datové jezero je Hadoop Distributed File System (HDFS). Ten poskytuje nákladově efektivní, výkonné, agilní, horizontálně škálovatelné prostředí pro shromažďování, přípravu, sjednocování, obohacování a analýzu rozmanitých strukturovaných a nestrukturovaných zdrojů dat.

Datové jezero nabízí následující výhody:

  • Rychlé vstřebání dat v původní podobě. Není nutné nejprve budovat schéma nebo data před přijetím transformovat
  • Dokáže ukládat strukturovaná (tabulky, s čárkou jako oddělovačem, RDBMS), částečně strukturovaná (protokoly, záznamy aktivity uživatelů, sociální média) a nestrukturovaná (text, video, fotografie, audio) data
  • Využívá nativně paralelní, horizontálně škálovatelné prostředí Hadoop k předávání ETL procesů z nákladného prostředí datových skladů
  • DVA NEJDŮLEŽITĚJŠÍ BODY! Zbavuje tým datových vědců závislosti na vysoce strukturovaném, méně agilním datové skladu a usnadňuje proces vývoje, testování a vylaďování modelu rychlého přijímání dat / rychlého zjištění chyby / rychlejšího učení. Umožňuje zkoumání dat pomocí více nástrojů zároveň. Spojení těchto dvou schopností umožňuje datovým vědcům pracovat simultánně a vzájemně propojovat svá snažení a dosahovat tak výrazně lepších výsledků.

Co je to cloud?

Cloud je obecný výraz pro poskytování hostovaných služeb přes internet. Cloud by měl podnikům umožňovat využití výpočetních zdrojů jako služby — podobně jako odebírají elektřinu — namísto budování a údržby vlastních výpočetních infrastruktur.

To většinou napadne posluchače – zejména ty z „byznysu“ – když zaslechnou výraz „cloud“.

Ale možná, že to lépe vystihl Jason Segel ve filmu „Sex Tape“:

Když lidé slyší o cloudu, okamžitě se jim vybaví veřejné cloudy Amazonu a Googlu jako levný způsob, jakým mohou podniky rychle získat výpočetní zdroje a související prostředí pro ukládání dat. Takové prostředí je doslova možné koupit na kreditní kartu a (víceméně) zaplatit pouze za skutečně využité výpočetní a ukládací kapacity. Jak bylo řečeno, takto cloud vnímají zejména lidé z byznysu.

Proč neumístit datové jezero do cloudu?

Poskytuje-li mi cloud zdroje jako službu, jeví se jako přirozená volba pro umístění datového jezera. Vždyť datové jezero samotné lze popsat jako účelový cloud. Ale není to tak jednoduché. Před přechodem na cloud je nutné zvážit některé důležité okolnosti, zejména jedná-li se o veřejný cloud. Co musí podniky brát v úvahu:

  • Osobní údaje, citlivé osobní údaje, zdravotní údaje a další důvěrné informace nelze umístit do veřejného cloudu. Na toto vše se vztahují předpisy a jejich porušení je citelně sankcionováno.
  • Důvěrné finanční údaje (např. prodej, objednávky, vratky, marže, výnosy) není příliš vhodné ukládat do veřejného cloudu. Pokud by se tento typ dat dostal do nesprávných rukou, mohlo by to způsobit závažné finanční a obchodní komplikace a případně i významnou ztrátu tržní hodnoty.
  • Svěřili byste bezpečí duševního vlastnictví vaší firmy kusu papíru? Datová věda a analytické modely se stále větší měrou stávají duševním vlastnictvím, na němž stojí obchodní procesy, modely nebo celý podnik. Jde o to, zda vzhledem k hodnotě vašeho duševního vlastnictví můžete věřit cizímu pojmu o bezpečnosti. Po přečtení zpráv z poslední doby by měl každý vystřízlivět. Potřeba chránit nehmotný majetek je tak zásadní, že některé podniky jdou tak daleko, že kupují podíly v technologických firmách, aby si zajistily, že dodavatelé, jejichž technologie u svých nových obchodních modelů využívají, neprovedou nežádoucí změny, které by tyto modely ohrozily.

Pro týmy datových vědců jsou největší problémy fyzického charakteru – je velmi složité přesouvat velké objemy dat mezi lokálním prostředím a veřejným cloudem (a pokud je to nutné provádět opakovaně, mohou raketově růst náklady). Ve světě datové vědy totiž potřebují výzkumníci pracovat s rozsáhlými soubory velmi podrobných dat, která se mohou často měnit.

Řekněme například, že chceme určit (předpovědět) potenciální hodnotu zákazníka pro podnik. Podnik by měl být schopen snadno spočítat (pokud nemají datová sila), jakou hodnotu má zákazník dnes, podle historie jeho nákupů, vracení zboží, plateb, marže, frekvence nákupů, časové posloupnosti nákupů a veškerých nákladů souvisejících s prodejem danému zákazníkovi a jeho obsluhou. Řekněme ale, že se snažíme předpovědět potenciální hodnotu daného zákazníka pro podnik, k čemuž budeme potřebovat i další zdroje dat, např.:

  • Data ze sociálních médií, pomocí nichž lze stanovit míru loajality zákazníků a pravděpodobnost, že svého dodavatele doporučí. Data ze sociálních médií lze také dolovat (s pomocí grafické analýzy) a zjistit, jaká je sociální síť zákazníka a jeho vliv na její členy (ukazatel loajality Net Promoter Score).
  • Údaje o chování zákazníka na webu, z nichž lze zjistit, jak často daný zákazník navštěvuje vaše stránky, zjišťuje informace o produktech, hledá podporu, nakupuje a provádí jiné aktivity.
  • Mobilní data, z nichž lze zjistit, jak často daný zákazník užívá mobilní aplikaci, co provádí, když ji spustí a zda významnou měrou sdílí informace s dalšími uživateli prostřednictvím mobilní aplikace nebo sociálních médií.

Všechny tyto zdroje dat jsou značně objemné. Integrace finančních a provozních dat podniku s daty ze sociálních sítí, daty o chování na webu a mobilními daty vyžaduje nesmírně velkou kapacitu k pouhému přesouvání dat do a z různých sandboxů, kde je datoví vědci zkoumají. Problém ještě zhoršuje mentalita „rychlého poučení z chyb“ u datově vědných procesů. Váš datový vědec právě nahrál dva extrémně objemné soubory dat do datového jezera, aby zjistil, že nejsou nikterak přínosné k řešení problémů na nichž pracuje, takže je chce opět odstranit. Přesunutím těchto dat do cloudu vznikly dodatečné náklady.

Existuje možnost přesouvat taková data do veřejného cloudu ekonomicky? Amazon nabízí řešení (které se jeví jako velmi úsporné) v podobě svého produktu, který nazývá „sněhová koule“ (Snowball). O co se jedná? O velké fyzické zařízení k ukládání dat, jehož stěhování zajišťuje kurýrní služba.

Jak se píše na internetových stránkách společnosti Amazon: „Službaidk-247x300 Snowball – import/export 1 PT dat týdně prostřednictvím úložného zařízení vlastněného společností Amazon.“ Technicky se nejedná o žádnou novinku – přenos dat na fyzických médiích se používá již desítky let. Může mít velice vysokou přenosovou kapacitu, ale neuvěřitelně dlouhou dobu prodlevy. Takto si nepředstavuji ideální podporu datové vědy a procesů vývoje, testování a vylaďování modelu na principu rychlého přijímání dat / rychlého zjištění chyby / rychlejšího učení.

Shrnutí

Problém datového jezera ve veřejném cloudu je problém fyzikální – pohyb dat zůstává v našem oboru největší bolestí. Musíme se s tím smířit, skutečný problém velkých dat spočívá v tom, že jsou velká a s velkými věcmi se těžko pohybuje. Vzhledem k tomu, že týmy datových vědců potřebují vyvíjet, testovat a vylaďovat své modely na principu rychlého přijímání dat / rychlého zjištění chyby / rychlejšího učení, nechápu, jak může veřejný cloud pomoci při práci s datovým jezerem jinak, než že poslouží u jednorázových, experimentálních či méně formálních projektů, kde po prokázání přínosu nedochází k přenosu zpět do místního cloudu.

Navzdory tomu má cloud rozhodně v širším ekosystému své místo. Dobrým příkladem využití může být globální implementace nebo přístup k výsledkům datového výzkumu. Mnoho podniků právě takto cloud využívá. Datový výzkum probíhá v místním prostředí, ale aplikace, které poskytují analytické výsledky (doporučení, skóre) běží v cloudu a umožňují k nim globální přístup.

Uniká mi snad něco?

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *