KLASYFIKACJA. Słownik języka polskiego

Podobne dokumenty
Elementy statystyki wielowymiarowej

Agnieszka Nowak Brzezińska

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Mail: Pokój 214, II piętro

Klasyfikacja LDA + walidacja

Sztuczna inteligencja : Algorytm KNN


Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Przykładowa analiza danych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

ALGORYTM RANDOM FOREST

Szkolenie Analiza dyskryminacyjna

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Agnieszka Nowak Brzezińska Wykład III

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Analiza danych. TEMATYKA PRZEDMIOTU

Analiza kanoniczna w pigułce

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Agnieszka Nowak Brzezińska Wykład III

Metody klasyfikacji danych - część 1 p.1/24

CHEMOMETRYCZNE PODEJŚCIE W POSZUKIWANIU MARKERÓW AUTENTYCZNOŚCI POLSKICH ODMIAN MIODÓW

Metoda największej wiarygodności

Chemometria w chromatografii

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Adrian Horzyk

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Prawdopodobieństwo i statystyka

STATYSTYKA I DOŚWIADCZALNICTWO

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Statystyka i eksploracja danych

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Zajęcia nr VII poznajemy Rattle i pakiet R.

Metody Sztucznej Inteligencji II

1 Klasyfikator bayesowski

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Część 2: Data Mining

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Wprowadzenie do analizy dyskryminacyjnej

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

USING A PROBABILISTIC NEURAL NETWORK AND THE NEAREST NEIGHBOUR METHOD TO IDENTIFY SHIP RADIOSTATIONS

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Rozpoznawanie płci na podstawie zdjęć twarzy

Biometria WYKŁAD 7: ROZPOZNAWANIE I KLASYFIKACJA OBIEKTÓW

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

METODY INŻYNIERII WIEDZY

Eksploracja danych - wykład IV

Wprowadzenie do klasyfikacji

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Kurs Chemometrii Poznań 28 listopad 2006

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

AUTOMATYKA INFORMATYKA

Elementy modelowania matematycznego

Wykład 3. Rozkład normalny

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Regresja logistyczna (LOGISTIC)

Metody systemowe i decyzyjne w informatyce

METODY INŻYNIERII WIEDZY

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

Podstawy sztucznej inteligencji

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Podstawy Sztucznej Inteligencji (PSZT)

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Testowanie hipotez statystycznych cd.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Inteligentne systemy przeciw atakom sieciowym

Analiza składowych głównych. Wprowadzenie

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

METODY INŻYNIERII WIEDZY

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER

TRANSFORMACJE I JAKOŚĆ DANYCH

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Sieci neuronowe w Statistica

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Hierarchiczna analiza skupień

SPOTKANIE 9: Metody redukcji wymiarów

Spam or Not Spam That is the question

Statystyczne metody analizy danych przy użyciu środowiska R

Transkrypt:

KLASYFIKACJA

KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu do określonej grupy na podstawie podobieństwa nieznanej próbki do członków grupy

Podobieństwo W ujęciu matematycznym miarą podobieństwa jest odległość Im mniejsza odległość między punktami w przestrzeni, tym są one bardziej do siebie podobne.

Podobieństwo

1. Metoda głównych składowych PCA (Principal Component Analysis) 2. Metoda k-najbliższych sąsiadów knn (k-nearest neighbour) 3. Liniowa analiza dyskryminacyjna LDA 4. Drzewa decyzyjne (Decision Tree, Random Forest) 5. Analiza wiązkowa CA (Cluster Analysis) 6. Sztuczne sieci neuronowe ANN (Artificial Neural Network)

Metoda PCA Metoda głównych składowych pozwala na analizę danych wielowymiarowych poprzez zredukowanie ich wielowymiarowości. Jest to możliwe dzięki temu, że algorytm metody PCA analizuje rozkład zmienności danych, a następnie znajduje nowe, prostopadłe do siebie kierunki w przestrzeni, które pozwolą na maksymalne wykazanie tej zmienności. Zaletą metody PCA jest niewątpliwie możliwość wizualizacji wyników na wykresach dwu- i trójwymiarowych, których osiami są znalezione przez algorytm główne składowe. PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings

Metoda PCA PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings

Metoda PCA - zadanie 1. 2. Wczytać dane uczące 135 próbek: oliwa, olej rzepakowy, olej słonecznikowy oceniano 4 parametry: gęstość, lepkość, barwa, mętność 3. Odczytać component loadings 4. Dane uczące autoskalować i wyznaczyć dla nich wartości PC1 oraz PC2 5. Sporządzić wykres (3 serie: oliwa, rzepak, slonecznik) 6. Dla próbki testowej wyznaczyć wartości PC1 oraz PC2 7. Umieścić próbkę testową na wykresie 8. Zaklasyfikować próbkę do odpowiedniej grupy PC1 = a 1 x 1 + a 2 x 2 + +a n x n a 1, a 2,, a n - component loadings x 1, x 2,, x n - zmienne (wartości parametrów) z = x x σ z zmienna standaryzowana x zmienna niestandaryzowana x - wartość średnia σ odchylenie standardowe

Metoda k-nn Chcąc sklasyfikować nową obserwację, należy przeprowadzić następujące kroki: 1. Określenie podobieństwa pomiędzy wektorem obserwacji a wszystkimi wektorami zbioru uczącego 2. Wybrać k najbliższych wektorów ze zbioru uczącego 3. Określić przynależność badanej obserwacji do grupy na podstawie przynależności wybranych k wektorów

Metoda k-nn - zadanie 1. Wyznaczyć odległość pomiędzy próbką testową a wszystkimi próbkami zbioru uczącego d = g test g i 2 + l test l i 2 + b test b i 2 + m test m i 2 2. Wybrać liczbę najbliższych sąsiadów k 3. Znaleźć k próbek zbioru uczącego z najmniejszą odległością od próbki testowej i odczytać ich przynależność do grup 4. Na podstawie reguły większości określić przynależność próbki testowej

Metoda LDA Liniowa analiza dyskryminacyjna generuje liniowe funkcje dyskryminacyjne (rozdzielające klasy), które następnie wykorzystywane są do klasyfikowania nowych próbek po podanych grup. Funkcja dyskryminacyjna generowana jest na podstawie pakietu danych uczących, który zawiera próbki wraz z ich przyporządkowaniem a priori do określonych grup.