Menu dostępności

Uczenie maszynowe – słownik pojęć

Supervised learning (uczenie nadzorowane)
Jedna z dwóch głównych koncepcji uczenia maszynowego. Jej celem jest znalezienie funkcji odwzorowującej dane wejściowe na dane wyjściowe na podstawie dostarczonych przez człowieka przykładowych par wejścia-wyjścia. Algorytmy zasilane są dużą ilością danych uczących. W uczeniu nadzorowanym każdy przykład to para składająca się z obiektu wejściowego i żądanej wartości wyjściowej (zwanej również sygnałem nadrzędnym). Algorytm uczący analizuje dane treningowe i generuje wynikową funkcję, którą można wykorzystać do mapowania nowych przykładów. Optymalny scenariusz pozwala algorytmowi prawidłowo określać etykiety klas obiektów dla niewidocznych wcześniej instancji. W skrócie, pozwala na analizowanie danych w sposób niezaprogramowany wprost przez człowieka. Uczenie nadzorowane wykorzystuje się głównie do modelowania procesów technicznych.

Unsupervised learning (uczenie bez nadzoru)
Druga koncepcja uczenia maszynowego, polegająca na znalezieniu funkcji opisującej strukturę danych nieetykietowanych, czyli takich które nie zostały wcześniej sklasyfikowane lub skategoryzowane. Główną cechą odróżniającą tę metodę od metody nadzorowanej jest to, że nie ma prostego sposobu oceny jakości algorytmu, ponieważ przykłady podawane jako dane wejściowe są nieoznakowane. Metoda ta zakłada brak obecności dokładnego lub nawet przybliżonego wyjścia w danych uczących. Wykorzystywana jest głównie do statystyki, do estymacji funkcji gęstości prawdopodobieństwa.

Klasyfikacja
W uczeniu maszynowym klasyfikacja jest problemem polegającym na określeniu do której z zestawów kategorii należy nowo obserwowana dana. Przydzielanie do kategorii odbywa się na podstawie dostarczonych wcześniej danych treningowych, których członkostwo w danej kategorii jest znane. Przykładem może być tutaj klasyfikowanie wiadomości e-mail, zaliczanie ich do klasy „spam” lub „ważne”. Klasyfikacja jest to więc przykład metody rozpoznawania wzorca, czyli uczenia maszynowego pod nadzorem. Odpowiednią do klasyfikacji metodą uczenia bez nadzoru jest klasteryzacja (ang. clustering).

Clustering (klasteryzacja)
Analiza klastrowa to zadanie grupowania zestawu obiektów w taki sposób, aby obiekty w tej samej grupie (zwanej klastrem) były w jakimś stopniu bardziej podobne do siebie nawzajem niż do obiektów w innych grupach. Jest jedną z metod klasyfikacji bez nadzoru. Podstawą grupowania w większości algorytmów klastrowych jest podobieństwo pomiędzy elementami wyrażone przy pomocy metryki podobieństwa. Metryki te, często nie są zdefinowane przez człowieka, algorytmy same znajdują w danych cechy, które umożliwają utworzenie grup i przydzielanie do nich obiektów. Główne cele klastrowania w uczeniu maszynowym to zredukowanie dużej liczby danych do kilku podstawowych kategorii, które mogą być traktowane jako przedmioty dalszej analizy oraz odkrywanie nowych, nieznanych struktur analizowanych danych.

Analiza regresyjna
Analiza regresyjna jest szeroko wykorzystywana do przewidywania i prognozowania zachowań. Jest zbiorem procesów statystycznych służących do szacowania zależności między zmiennymi. Dzięki regresji, w uczeniu maszynowym możliwe jest wychwytywanie trendów spowodowanych zmianami pewnych wartości zmiennych. Możliwe jest więc przewidywanie, które zmienne w dostarczanych danych są ze sobą powiązane i wpływają na przyszłe zachowanie całego systemu.

Detekcja anomali
To identyfikacja obiektów, zdarzeń lub obserwacji, które nie są zgodne z oczekiwanym wzorcem lub innymi elementami w zbiorze danych. Zazwyczaj anormalne zachowania będą wskazywały na jakiś problem w analizowanym środowisku. W machine learning detekcja anomali może być zaimplementowana jako uczenie nadzorowane lub uczenie bez nadzoru. Wykorzystywana w większości systemów IDS w celu wykrywania potencjalnych zagrożeń w sieci.

Drzewo decyzyjne
Jest to jedna z metod modelowania predykcyjnego stosowana w statystyce, eksploracji danych i uczeniu maszynowym. Pozwala na przejście od obserwacji na temat obiektu (konary drzewa) do wniosków dotyczących wartości docelowej obiektu (liście drzewa). Drzewo decyzyjne używane jest w analizie decyzyjnej i pozwala na proste zwizualizowanie i reprezentację podejmowanych decyzji.

Sieci neuronowe
Są to systemy uczące, inspirowane zachowaniem neuronów w ludzkim mózgu. Składają się z węzłów (neuronów) oraz powiązań między nimi (synaps). Każdy neuron może niezależnie przetwarzać oraz przesyłać informacje. Systemy takie uczą się wykonywania zadań biorąc pod uwagę dostarczone przykłady danych. Nie ma potrzeby programowania zachowań sieci neuronowej wprost. Wykorzystywane jako jedna z metod uczenia maszynowego bez nadzoru. Głębokie sieci, z dużą ilością warstw, dają bardzo zadowalające rezultaty w złożonych problemach machine learning, jednak wymagają dużej mocy obliczeniowej.

Sieci bayesowskie
Sieć Bayesa to acykliczny graf skierowany reprezentujący zbiór zmiennych i ich zależności. Każdy węzeł w sieci jest powiązany z funkcją prawdopodobieństwa, która przyjmuje jako dane wejściowe określony zestaw wartośći dla węzła, a jako wynik zwraca rozkład prawdopodobieństwa zmiennej reprezentowanej przez węzeł. Sieci Bayesa wykorzystywane są na przykład w diagnostyce chorób na podstawie występujących objawów.

Association rule learning (nauczanie poprzez kojarzenie reguł)
Metoda uczenia maszynowego oparta na regułach, pozwalająca odkryć interesujące zależności między zmiennymi w dużych bazach danych. Ma ona na celu określenie silnych reguł wykrytych w zbiorach danych i zostosowanie ich do podjęcia decyzji. Stosowana często jako podstawa do podejmowania decyzji marketingowych. Dla przykładu, jeśli klient kupił produkt A oraz produkt B to prawdopodobnie kupi również produkt C.

Popularne

Nowa luka w Microsoft Teams – lepiej nie być zapraszanym…

Nowa luka w Microsoft Teams – lepiej nie być zapraszanym…

Usługa Microsoft Teams stała się kluczowym narzędziem do komunikacji i współpracy w firmach na całym świecie. Z tego powodu wiele organizacji polega na zabezpieczeniach takich jak Microsoft Defender for Off...
Ważna zmiana w OWASP Top 10

Ważna zmiana w OWASP Top 10

OWASP, czyli Open Worldwide Application Security Project, zaproponowało nowe wydanie swojej klasycznej listy Top 10 ryzyk aplikacyjnych. Wersja z 2025 roku wprowadza kluczowe rozszerzenia dotyczące b...
Jak modele LLM automatyzują cyberprzestępczość

Jak modele LLM automatyzują cyberprzestępczość

Każdy Czytelnik Kapitana Hacka wie, że złośliwe LLM-y ułatwiają mniej doświadczonym cyberprzestępcom przeprowadzanie ataków. Potwierdzają to badacze z Palo Alto Networks, którzy przeanalizowali dwa niedaw...
Wizualizacja ścieżek ataku na Active Directory za pomocą narzędzia BloodHound

Wizualizacja ścieżek ataku na Active Directory za pomocą narzędzia BloodHound

Krótko o narzędziu Bloodhound to narzędzie służące do wizualizacji i analizy powiązań w Active Directory. Dla atakującego jest niezastąpioną pomocą do znajdowania ścieżki ataku na najbardziej c...
Jak błąd w 7-Zip (CVE-2025-11001) daje hakerom dostęp do systemu Windows. Jest exploit

Jak błąd w 7-Zip (CVE-2025-11001) daje hakerom dostęp do systemu Windows. Jest exploit

Odkryto niezwykle niebezpieczną dla użytkowników systemów Windows podatność. Błąd o numerze CVE‑2025‑11001 jest już częściowo wykorzystywany, a dotyczy popularnego programu 7-Zip. Polega na niewłaściwe...