Apache Spark MLlib

Apache Spark MLlib

Można powiedzieć, że Apache Spark to platforma obliczeniowa ogólnego przeznaczenia, złożona z wielu elementów takich jak Spark Core, Spark SQL, Spark Streaming oraz właśnie Spark MLlib, który odpowiada za uczenie maszynowe.

Apache Spark jest środowiskiem Open Source, pozwalającym przetwarzać duże ilości danych przy wykorzystaniu pamięci operacyjnej. W efekcie pozwala uzyskać nawet 100-krotne przyspieszenie działania w porównaniu do technologii takich jak np. Hadoop. Jest systemem rozproszonym, przez co pozwala na łatwe skalowanie wraz z rosnącymi potrzebami biznesowymi.

Spark może być uruchomiony tam gdzie już działa Hadoop, Mesos, w zupełnie nowym środowisku oraz w chmurze. Może łączyć się z źródłami danych takimi jak: HDFS, Cassandra, HBase, S3 czy popularne bazy SQL – PostreSQL, Oracle, MySQL. Spark może działać w trybie „standalone” oraz w klastrze, a więc możliwości konfiguracji jest bardzo wiele i bardzo często da się go dopasować do już działającego w firmie środowiska IT.

Spark MLLib jest częścią frameworku Apache Spark i wykorzystuje wszystkie jego zalety. Pozwala aplikować uczenie maszynowe na dużych zbiorach danych, bez obawy o skalowalność. W system wbudowane jest mnóstwo algorytmów machine learning, które można zastosować w zależności od przypadku biznesowego. Są to m.in.:

Klasyfikacja: regresja logistyczna, naiwny klasyfikator bayesowski
Regresja: uogólniony model regresji liniowej, regresja izotoniczna
Drzewa decyzyjne: lasy losowe oraz drzewa wzmacniane gradientowo
Rekomendacje: metoda najmniejszych kwadratów (ALS)
Klastering: Algorytm centroidów, mieszaniny rozkładów Gaussa (GMMs)
Modelowanie tematyczne: rozkład Dirichleta z ukrytymi zmiennymi (LDA)
Transformacje atrybutów: standaryzacja, normalizacja, haszowanie
Ewaluacja modeli i optymalizacja hiper parametrów
Generowanie projektów uczenia maszynowego
Persystencja uczenia maszynowego: zachowywanie oraz ładowanie modeli i projektów
Analiza przetrwania: przyspieszony model niepowodzenia
Częste drążenie zbiorów elementów i wzorców sekwencyjnych: Wzrost FP, reguły kojarzenia, PrefixSpan
Rozproszona algebra liniowa: dekompozycja na wartości osobliwe (SVD), analiza głównych składowych (PCA)
Statystyka: miara rozkładu, weryfikacja hipotez statystycznych.

Niewątpliwą zaletą jest również to, że system działa na licencji Open Source i jest jednym z wyróżnionych projektów Apache Foundation, który jest rozwijany przez komercyjnych partnerów takich jak IBM, Facebook, Yahoo!, Intel, Cloudera, Hortonworks, Netflix i wiele innych. Pełna lista znajduje się tutaj. Użycie Spark’a w projektach komercyjnych jest możliwe dzięki licencji Apache.

Do czego służy?

Firmy używają Apache Spark MLLib do poprawy jakości operacyjnego działania i poprzez użycie algorytmów uczenia maszynowego, pozwala odkryć nowe informacje na temat działania organizacji. W efekcie możliwe jest usprawnienie procesów rządzących obsługą klienta, produkcją, dystrybucją czy samym User Experience produktów. Przykładami mogą być firmy działające w dziedzinie ubezpieczeń, technologii czy finansów. Poniżej znajduje się kilka przykładowych zastosowań:

Ubezpieczenia:

Optymalizacja sposobu obsługi klienta poprzez zastosowanie uczenia maszynowego do klasyfikacji zapytań od klientów ze względu na tematykę. Wiadomości są kierowane do odpowiednio wyspecjalizowanych pracowników, dzięki czemu klient od razu otrzymuje rzeczową odpowiedź

Ubezpieczenia, Finanse:

Optymalizacja modeli scoringowych dla klientów,

Finanse:

Używanie modeli predykcyjnych do przewidywania profilu kredytowego klientów dla specyficznych produktów bankowych,

Finanse:

Analiza danych giełdowych w czasie rzeczywistym, która pomaga przewidzieć przyszłe zachowania na giełdzie,

Instytucje publiczne:

Analiza wydawania środków w zależności od położenia, czasu, kategorii,

Ochrona zdrowia:

Analiza danych pacjentów, pozwalająca usprawnić diagnostykę

Spark MLlib pozwala również przewidywać opóźnienia samolotów w firmach z sektoru lotniczego, ceny mieszkań na różnych rynkach, wspomagać procesy marketingowe poprzez przeszukiwanie social media i wiele innych.

Nasze doświadczenie

BlueSoft używa technologii Apache Spark MLlib z powodzeniem u swoich klientów z branży finansowej, telekomunikacyjnej oraz life science, a nasza ekspertyza pozwala w pełni wykorzystać jej możliwości. Firma posiada szerokie doświadczenie z zakresu analizy biznesowej, dzięki czemu klienci mogą łatwo wybrać zagadnienia, dające się zoptymalizować za pomocą uczenia maszynowego, a dzięki doświadczonemu zespołowi Apache Spark może być wdrożony sprawnie i jednocześnie przy kontroli kosztów.

Spark jest platformą, która przy odpowiednim wykorzystaniu przynosi organizacją ogromne benefity, jednak niezbędna jest wiedza z dziedziny Data Science, aby z danych wyciągnąć jak największą wartość. Niewątpliwie jednak przy pomocy odpowiedniego zespołu i platformy Apache Spark możliwa jest optymalizacja działania organizacji i poprawa jakości produktów.

Zobacz inne technologie, z których korzystamy w tym obszarze

Machine Learning
Predictive analytics
NoSQL / BigData
ZADZWOŃ:
+48 22 37 37 000
ZAPYTAJ:
Formularz