Flash (5): Deduplikace a komprese ve flash technologiích

Flash média jsou drahá. S tímto argumentem se často setkáváme u našich zákazníků a je to upřímně řečeno pravda. V přímém porovnání nákladů na prosté uložení dat samozřejmě neobstojí. Ale ani tradiční rotační harddisky by neobstály v přímém porovnání například s páskovými mechanikami – je proto zřejmé, že cena by měla být porovnávána společně se způsobem, s jakým se bude s daty zacházet.

Ale nejen to. Flashová média totiž v kombinaci s pokročilými softwarovými technikami umožňují uložení mnohem větší kapacity, než je fyzická velikost úložiště v bajtech. Techniky takového ukládání nejsou žádnou novinkou – jde o deduplikaci a kompresi. A zejména s druhou jmenovanou se setkáváme od prvopočátku digitalizace. Nicméně teprve použití ve vztahu k Flash „diskům“ umožňuje jejich využití takříkajíc naplno, a to zejména v nové kategorii diskových polí využívajících výhradně flash média – All Flash Arrays neboli AFA.

Ač je princip fungování komprese a deduplikace relativně podobný, odlišnosti se odehrávají zejména v oblasti velikosti vzorku, ve kterém se hledají už jednou uložená data – v případě komprese se jedná o jeden datový stream nebo soubor. Deduplikace naproti tomu vyhledává podobnosti v mnohem větším datovém objemu, a i přes to, že hledá vzorky relativně velké (řádově jednotky kB) tak dosahuje lepších poměrů ukládání unikátních dat. A tam začínají hrát klíčovou roli koncepční odlišnosti flashových médií, která díky absenci operace „seek“ (nalezení správné stopy a sektoru) umožňují využití zcela nových algoritmů, které by v tradičních úložištích nemohly fungovat.

V AFA diskových polí třídy EMC XtremIO jde dokonce technologie tak daleko, že se deduplikace stala integrální součástí adresace diskového prostoru a jde o nativní, nevypnutelnou funkci úložiště. Veškerá data jsou proto deduplikována – s jejich povahou se pak mění tzv. deduplikační poměr, tedy poměr množství dat fyzicky uložených a logicky poskytovanou kapacitou.

Deduplikace proto typicky funguje nejlépe a nejefektivněji v prostředích, kde jsou si data z definice podobná – klasickým případem jsou data virtuálních desktopů, nebo virtualizace obecně. Úložiště XtremIO jsou schopna v tomto prostředí poskytovat kapacitu několikanásobně vyšší než je nominálí hodnota instalovaných úložišť, a to v extrémních výkonových parametrech (o možnostech AFA diskových polí EMC pojednávají některé další díly tohoto seriálu). Čím dál častěji se ale tato technika také využívá v prostředí databází, kde umožňuje bez dodatečných nákladů vytvářet množství kopií databáze (klonů) bez byť minimálního dopadu na rychlost, jakou jsou data poskytována serverům.

Deduplikační poměr je dokonce možné otestovat na vzorových datech zákazníka dopředu – odpadne tak spekulativní (a ve většině případů neoprávněná) obava, že zrovna pro dotčená data se AFA pole nehodí.

A proto se mnohdy ukazuje, že jsou AFA pole nakonec levnější než tradiční úložiště obsahující rotační harddisky.

Luděk Šafář, Sr. Systems Engineer Manager

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *