Hadoop

Apache Hadoop

Apache Hadoop jest otwartą platformą służącą do rozproszonego przechowywania i przetwarzania dużych zbiorów danych.

Główne zalety platformy Apache Hadoop to:

skalowalność

ponieważ jest to darmowa platforma oparta o architekturę klastrową, klaster Hadoop może być w łatwy sposób rozbudowywany o kolejne serwery w sposób przeźroczysty dla zapisanych już danych i zdefiniowanych procesów

elastyczność

mnogość narzędzi wchodzących w skład ekosystemu Hadoop sprawia, że umożliwia on przetwarzanie danych zarówno ustrukturyzowanych jak i nieustrukturyzowanych (z którymi najczęściej mamy do czynienia w Big Data)

odporność na awarie

dzięki replikacji danych i narzędziom umożliwiającym pracę klastra w trybie High Availability (HA) zapewniony jest spójny i ciągły dostęp do przechowywanych danych, mimo awarii któregokolwiek z serwerów

szybkość przetwarzania danych

przetwarzanie danych w sposób rozproszony sprawia, że przetwarzanie bardzo dużych wolumenów danych jest dużo szybsze niż w przypadku standardowych mechanizmów ETL i przetwarzania wsadowego

wydajne zarządzanie zasobami

zadania są odpowiednio dzielone pomiędzy maszyny, aby w pełni wykorzystać moc klastra.

Powyższe cechy sprawiają, że Apache Hadoop jest jednym z najczęściej wybieranych rozwiązań w budowaniu szkieletu kompleksowych rozwiązań związanych z Big Data.

Wśród firm wykorzystujących Apache Hadoop w swoich produktach można wymienić Adobe, Ebay, Facebook, Google, IBM, Spotify, Twitter, Yahoo i wiele innych znanych firm z branży IT.

Główne komponenty

Hadoop składa się z czterech podstawowych modułów:

Hadoop Common

zestaw bibliotek i narzędzi do obsługi pozostałych modułów

Hadoop Distributed File System (HDFS)

rozproszony system plików, który dzieli dane na mniejsze bloki i składuje je w rozproszony i równomierny sposób na węzłach klastra z odpowiednim poziomem replikacji

MapReduce

implementacja paradygmatu programistycznego, który umożliwia rozproszone przetwarzanie dużych ilości danych

YARN (Yet Another Resource Navigator)

platforma do zarządzania zasobami klastra.

Oprócz powyższych podstawowych modułów, w skład całego ekosystemu Hadoop wchodzi szeroki wachlarz aplikacji ułatwiających dostęp do danych w klastrze, a także ich przetwarzanie, monitoring usług, administrację klastrem oraz zarządzanie dostępami. Do najpopularniejszych narzędzi zaliczyć można:

• Hive
• HBase
• Pig
• Ambari
• Ranger
• Hue
• Spark
• Oozie
• Sqoop
• ZooKeeper
• Flume

Najpopularniejsze dystrybucje

Platforma Hadoop w opensource’owej formie jest rozwijana przez Apache Software Foundation. Jednak poza tym standardowym rozwiązaniem istnieje wiele firm oferujących swoje własne dystrybucje zbudowane w oparciu o Apache Hadoop, ale wzbogacone o dodatkowe narzędzia tworzące gotowy do użycia ekosystem Big Data. Dodatkową zaletą takich dystrybucji jest zapewnione wsparcie dla całego ekosystemu, a nie tylko jego poszczególnych modułów.

Do najpopularniejszych dystrybucji platformy Hadoop należą:

Cloudera Distribution Including Apache Hadoop (CDH)

Hortonworks Data Platform (HDP)

MapR Converged Data Platform

Doświadecznie BlueSoft z platformą Hadoop

BlueSoft stale poszerza swoje kompetencje w dziedzinie Big Data i czynnie uczestniczy w projektach realizowanych w oparciu o platformę Hadoop. Mamy doświadczenie zarówno w projektowaniu i wdrażaniu klastra Hadoop, tworzeniu aplikacji umożliwiających agregację i przetwarzanie danych jak również tworzeniu rozbudowanych modeli analitycznych .

Nasza firma posiada wiele udanych wdrożeń z tej dziedziny. Po więcej szczegółów na temat projektów jak i samej technologii oraz korzyści jakie może ona przynieść Państwa Firmie zapraszamy do bezpośredniego kontaktu z nami.

Zobacz inne technologie, z których korzystamy w tym obszarze

NoSQL / BigData
ZADZWOŃ:
+48 22 37 37 000
ZAPYTAJ:
Formularz