Uczenie maszynowe - słownik pojęć

Supervised learning (uczenie nadzorowane)
Jedna z dwóch głównych koncepcji uczenia maszynowego. Jej celem jest znalezienie funkcji odwzorowującej dane wejściowe na dane wyjściowe na podstawie dostarczonych przez człowieka przykładowych par wejścia-wyjścia. Algorytmy zasilane są dużą ilością danych uczących. W uczeniu nadzorowanym każdy przykład to para składająca się z obiektu wejściowego i żądanej wartości wyjściowej (zwanej również sygnałem nadrzędnym). Algorytm uczący analizuje dane treningowe i generuje wynikową funkcję, którą można wykorzystać do mapowania nowych przykładów. Optymalny scenariusz pozwala algorytmowi prawidłowo określać etykiety klas obiektów dla niewidocznych wcześniej instancji. W skrócie, pozwala na analizowanie danych w sposób niezaprogramowany wprost przez człowieka. Uczenie nadzorowane wykorzystuje się głównie do modelowania procesów technicznych.

Autor: Kapitan Hack Data dodania: 14 lis 2018 12:18 6 min czytania

Unsupervised learning (uczenie bez nadzoru)
Druga koncepcja uczenia maszynowego, polegająca na znalezieniu funkcji opisującej strukturę danych nieetykietowanych, czyli takich które nie zostały wcześniej sklasyfikowane lub skategoryzowane. Główną cechą odróżniającą tę metodę od metody nadzorowanej jest to, że nie ma prostego sposobu oceny jakości algorytmu, ponieważ przykłady podawane jako dane wejściowe są nieoznakowane. Metoda ta zakłada brak obecności dokładnego lub nawet przybliżonego wyjścia w danych uczących. Wykorzystywana jest głównie do statystyki, do estymacji funkcji gęstości prawdopodobieństwa.

Klasyfikacja
W uczeniu maszynowym klasyfikacja jest problemem polegającym na określeniu do której z zestawów kategorii należy nowo obserwowana dana. Przydzielanie do kategorii odbywa się na podstawie dostarczonych wcześniej danych treningowych, których członkostwo w danej kategorii jest znane. Przykładem może być tutaj klasyfikowanie wiadomości e-mail, zaliczanie ich do klasy „spam” lub „ważne”. Klasyfikacja jest to więc przykład metody rozpoznawania wzorca, czyli uczenia maszynowego pod nadzorem. Odpowiednią do klasyfikacji metodą uczenia bez nadzoru jest klasteryzacja (ang. clustering).

Clustering (klasteryzacja)
Analiza klastrowa to zadanie grupowania zestawu obiektów w taki sposób, aby obiekty w tej samej grupie (zwanej klastrem) były w jakimś stopniu bardziej podobne do siebie nawzajem niż do obiektów w innych grupach. Jest jedną z metod klasyfikacji bez nadzoru. Podstawą grupowania w większości algorytmów klastrowych jest podobieństwo pomiędzy elementami wyrażone przy pomocy metryki podobieństwa. Metryki te, często nie są zdefinowane przez człowieka, algorytmy same znajdują w danych cechy, które umożliwają utworzenie grup i przydzielanie do nich obiektów. Główne cele klastrowania w uczeniu maszynowym to zredukowanie dużej liczby danych do kilku podstawowych kategorii, które mogą być traktowane jako przedmioty dalszej analizy oraz odkrywanie nowych, nieznanych struktur analizowanych danych.

Analiza regresyjna
Analiza regresyjna jest szeroko wykorzystywana do przewidywania i prognozowania zachowań. Jest zbiorem procesów statystycznych służących do szacowania zależności między zmiennymi. Dzięki regresji, w uczeniu maszynowym możliwe jest wychwytywanie trendów spowodowanych zmianami pewnych wartości zmiennych. Możliwe jest więc przewidywanie, które zmienne w dostarczanych danych są ze sobą powiązane i wpływają na przyszłe zachowanie całego systemu.

Detekcja anomali
To identyfikacja obiektów, zdarzeń lub obserwacji, które nie są zgodne z oczekiwanym wzorcem lub innymi elementami w zbiorze danych. Zazwyczaj anormalne zachowania będą wskazywały na jakiś problem w analizowanym środowisku. W machine learning detekcja anomali może być zaimplementowana jako uczenie nadzorowane lub uczenie bez nadzoru. Wykorzystywana w większości systemów IDS w celu wykrywania potencjalnych zagrożeń w sieci.

Drzewo decyzyjne
Jest to jedna z metod modelowania predykcyjnego stosowana w statystyce, eksploracji danych i uczeniu maszynowym. Pozwala na przejście od obserwacji na temat obiektu (konary drzewa) do wniosków dotyczących wartości docelowej obiektu (liście drzewa). Drzewo decyzyjne używane jest w analizie decyzyjnej i pozwala na proste zwizualizowanie i reprezentację podejmowanych decyzji.

Sieci neuronowe
Są to systemy uczące, inspirowane zachowaniem neuronów w ludzkim mózgu. Składają się z węzłów (neuronów) oraz powiązań między nimi (synaps). Każdy neuron może niezależnie przetwarzać oraz przesyłać informacje. Systemy takie uczą się wykonywania zadań biorąc pod uwagę dostarczone przykłady danych. Nie ma potrzeby programowania zachowań sieci neuronowej wprost. Wykorzystywane jako jedna z metod uczenia maszynowego bez nadzoru. Głębokie sieci, z dużą ilością warstw, dają bardzo zadowalające rezultaty w złożonych problemach machine learning, jednak wymagają dużej mocy obliczeniowej.

Sieci bayesowskie
Sieć Bayesa to acykliczny graf skierowany reprezentujący zbiór zmiennych i ich zależności. Każdy węzeł w sieci jest powiązany z funkcją prawdopodobieństwa, która przyjmuje jako dane wejściowe określony zestaw wartośći dla węzła, a jako wynik zwraca rozkład prawdopodobieństwa zmiennej reprezentowanej przez węzeł. Sieci Bayesa wykorzystywane są na przykład w diagnostyce chorób na podstawie występujących objawów.

Association rule learning (nauczanie poprzez kojarzenie reguł)
Metoda uczenia maszynowego oparta na regułach, pozwalająca odkryć interesujące zależności między zmiennymi w dużych bazach danych. Ma ona na celu określenie silnych reguł wykrytych w zbiorach danych i zostosowanie ich do podjęcia decyzji. Stosowana często jako podstawa do podejmowania decyzji marketingowych. Dla przykładu, jeśli klient kupił produkt A oraz produkt B to prawdopodobnie kupi również produkt C.