Hadoop – startujemy!

Każdy z Was zapewne wie, że analityka jest częścią koncepcji Data Lake – włączając w to Isilon, ECS, IsilonSD, CloudPools oraz HDFS – obsługiwany jako protokół i używany przez klientów Hadoop w celu uzyskania dostępu do danych.

Przede wszystkim, HDFS jest rozproszonym systemem plików, więc cały klaster nie musi znajdować się w tym samym miejscu. Jeśli trzymasz serwery w różnych lokalizacjach, na przykład kilka w Nowym Jorku i kilka w Warszawie – jedyne czego potrzebujesz to połączenia internetowego między nimi.

Jeśli znany jest Tobie SQL lub No-SQL, HDFS działa podobnie czyli na przetwarzaniu wsadowym, ale pracuje w czasie bardziej rzeczywistym – tworzysz zapytania, a wyniki uzyskasz zdecydowanie szybciej. Utylizuje wszystkie wejścia, prowadzi obliczenia, zapisuje wyniki zanim da Ci odpowiedzi – dlatego napisałem “w czasie bardziej rzeczywistym”. Jeżeli szukasz rozwiązania , które pracuje w czasie rzeczywistym, jest ich kilka na rynku , które pracują na pamięć RAM do jeszcze szybszego uzyskania wyników.

I na koniec, Hadoop jest open-source, oparty na Javie, więc kod jest rozszerzalny. Możemy zapisać nową funkcję, dodać nowe moduły i cechy do Hadoop, ale nie musimy znać Javy, żeby z niego korzystać

Zacznijmy od pewnej historii o HDFS

Pierwsza wersja HDFS (1.0) wykazywała pewne niedoskonałości. Namenode był pojedynczym punktem awarii, YARN (menedżer zasobów) nie był dostępny a wszystkie procesy zasobów menedżera zostały wykonane za pomocą procesu map-reduce. W konsekwencji, klastry ucierpiały na skalowalności i wydajności.
W HDFS 2.0 Namenode może być redunantny a YARN ogromnie pomógł w procesach przetwarzania i zarządzania w przypadku większych klastrów

A teraz zerknijmy na architekturę

HDFS składa się z DataNode i NameNode. NameNode zachowuje się bardziej jak menedżer, a DataNode jest miejscem, gdzie możemy przechowywać swoje dane. Oba możemy mieć na Isilonie, są one rozciągnięte na całym klastrze i są używają mechanizmów zabezpieczeń dostarczanych przez OneFS czyli filesystem Isilona, ale o tym później.

Zobaczmy, jak to działa

Namenode, tak jak wspomniałem wcześniej, jest rodzajem menedżera i aranżera. Jeżeli dane wchodzą, Namenode potrzebuje indeksować te dane i posiadać informacje, gdzie są przechowywane w DataNode’ach. Wchodząc w szczegóły, ustawieniem domyślnym dla zabezpieczenia danych w HDFS jest trzykrotna replika danych – więc będziesz miał oryginał i dwie kolejne kopie danych, dlatego właśnie w standardowym środowisku HDFS przechowywanie danych jest dosyć mało efektywne.
Oczywiście, możemy ostatecznie zmienić zabezpieczenie danych i zmniejszyć je do dwóch czy nawet jednej dodatkowej kopii danych. Tu z pomocą przychodzą nam możliwości jakie daje OneFS Isilona

W systemie plików Isilon OneFS możesz użyć różnych ustawień ochrony danych dla każdego pliku, katalogu lub całego klastra. Dla filesystemu HDFS możesz użyć ochrony przed jedną do czterech awarii napędów a nawet jedną do czterech awarii całych węzłów/półek. To niesamowita różnica w porównaniu do standardowego zabezpieczenia HDFS i rozwiązaniem tolerancji błędów. Zdecydowanym plusem środowiska Isilona jest możliwość jednoczesnego użycia wielu protokołów plikowych udostępniających dane z poziomu określonego katalogu, dzięki czemu nie musimy przenosić określonych zasobów na filesystem Hadoopa , możemy bezpośrednio udostępnić dane , które znajdują się w katalogu udostępnionym protokołami typu CIFS czy NFS

Podsumowując część bezpieczeństwa – możesz używać dwóch albo nawet więcej kopii danych w standardzie środowiska HDFS albo możesz skorzystać z ochrony Isilon OneFS i zaoszczędzić bardzo dużo powierzchni jednocześnie nie migrując danych potrzebnych serwerom dla procesów map-reduce skracając tym samym czas całej operacji .

Na koniec podaję kilka szczegółów na temat różnic wdrożenia między OneFS i typowym wdrożeniem Hadoop.

  • Warstwy do obliczania i przechowywania są na oddzielnych klastrach, więc MapReduce i jego komponenty są zainstalowane tylko na klastrze obliczeniowym Hadoop.
  • Węzły w klastrze Isilon funkcjonują zarówno jako NameNode i DataNode
  • HDFS jest wdrażany na OneFS jako natywna warstwa protokołu lightway, więc klienci z klastra obliczeniowego Hadoop uwierzytelniają się w HDSF, żeby uzyskać dostęp do danych w klastrze Isilon.
  • Kierując się tym co powyżej, klienci klastra obliczeniowego Hadoop mogą łączyć się nad dowolnym protokołem Isilon, który jest wspierany przez OneFS, takim jak NFS, SMB, FTP, SWIFT

W następnych częściach dotyczących Hadoop’a będziemy mówić o „zwierzętach” i o całym Zoo. Bądźcie gotowi 🙂
Pozdrawiam
Daniel

ZOBACZ WIĘCEJ WPISÓW W JĘZYKU POLSKIM

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *