KLASYFIKACJA
KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu do określonej grupy na podstawie podobieństwa nieznanej próbki do członków grupy
Podobieństwo W ujęciu matematycznym miarą podobieństwa jest odległość Im mniejsza odległość między punktami w przestrzeni, tym są one bardziej do siebie podobne.
Podobieństwo
1. Metoda głównych składowych PCA (Principal Component Analysis) 2. Metoda k-najbliższych sąsiadów knn (k-nearest neighbour) 3. Liniowa analiza dyskryminacyjna LDA 4. Drzewa decyzyjne (Decision Tree, Random Forest) 5. Analiza wiązkowa CA (Cluster Analysis) 6. Sztuczne sieci neuronowe ANN (Artificial Neural Network)
Metoda PCA Metoda głównych składowych pozwala na analizę danych wielowymiarowych poprzez zredukowanie ich wielowymiarowości. Jest to możliwe dzięki temu, że algorytm metody PCA analizuje rozkład zmienności danych, a następnie znajduje nowe, prostopadłe do siebie kierunki w przestrzeni, które pozwolą na maksymalne wykazanie tej zmienności. Zaletą metody PCA jest niewątpliwie możliwość wizualizacji wyników na wykresach dwu- i trójwymiarowych, których osiami są znalezione przez algorytm główne składowe. PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings
Metoda PCA PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings
Metoda PCA - zadanie 1. 2. Wczytać dane uczące 135 próbek: oliwa, olej rzepakowy, olej słonecznikowy oceniano 4 parametry: gęstość, lepkość, barwa, mętność 3. Odczytać component loadings 4. Dane uczące autoskalować i wyznaczyć dla nich wartości PC1 oraz PC2 5. Sporządzić wykres (3 serie: oliwa, rzepak, slonecznik) 6. Dla próbki testowej wyznaczyć wartości PC1 oraz PC2 7. Umieścić próbkę testową na wykresie 8. Zaklasyfikować próbkę do odpowiedniej grupy PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings x 1, x 2,, x n - zmienne (wartości parametrów) z = x x σ z zmienna standaryzowana x zmienna niestandaryzowana x - wartość średnia σ odchylenie standardowe
Metoda k-nn Chcąc sklasyfikować nową obserwację, należy przeprowadzić następujące kroki: 1. Określenie podobieństwa pomiędzy wektorem obserwacji a wszystkimi wektorami zbioru uczącego 2. Wybrać k najbliższych wektorów ze zbioru uczącego 3. Określić przynależność badanej obserwacji do grupy na podstawie przynależności wybranych k wektorów
Metoda k-nn - zadanie 1. Wyznaczyć odległość pomiędzy próbką testową a wszystkimi próbkami zbioru uczącego d = g test g i 2 + l test l i 2 + b test b i 2 + m test m i 2 2. Wybrać liczbę najbliższych sąsiadów k 3. Znaleźć k próbek zbioru uczącego z najmniejszą odległością od próbki testowej i odczytać ich przynależność do grup 4. Na podstawie reguły większości określić przynależność próbki testowej
Metoda LDA Liniowa analiza dyskryminacyjna generuje liniowe funkcje dyskryminacyjne (rozdzielające klasy), które następnie wykorzystywane są do klasyfikowania nowych próbek po podanych grup. Funkcja dyskryminacyjna generowana jest na podstawie pakietu danych uczących, który zawiera próbki wraz z ich przyporządkowaniem a priori do określonych grup.