Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu



Podobne dokumenty
Wprowadzenie do analizy korelacji i regresji

KLASYFIKACJA. Słownik języka polskiego

5. Analiza dyskryminacyjna: FLD, LDA, QDA

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Agnieszka Nowak Brzezińska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Analiza składowych głównych. Wprowadzenie

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

PDF created with FinePrint pdffactory Pro trial version

Algorytmy i struktury danych. Wykład 4

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Agnieszka Nowak Brzezińska Wykład III

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ALGORYTM RANDOM FOREST

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Agnieszka Nowak Brzezińska Wykład III

STATYSTYKA MATEMATYCZNA

Elementy statystyki wielowymiarowej

Sposoby prezentacji problemów w statystyce

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

RAPORT WSKAŹNIK EDUKACYJNEJ WARTOŚCI DODANEJ PO EGZAMINIE GIMNAZJALNYM W ROKU SZKOLNYM 2012/2013

Wymagania edukacyjne na poszczególne oceny branżowa szkoła I stopnia klasa 1 po gimnazjum

Klasyfikacja LDA + walidacja

Rozdział 8. Regresja. Definiowanie modelu

R-PEARSONA Zależność liniowa

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Wprowadzenie do analizy dyskryminacyjnej

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Szkolenie Analiza dyskryminacyjna

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Inteligentna analiza danych

Metody systemowe i decyzyjne w informatyce

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Regresja i Korelacja

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Analiza regresji - weryfikacja założeń

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Weryfikacja hipotez statystycznych

INFORMATYKA W SELEKCJI

Analiza zależności liniowych

Testowanie hipotez statystycznych

Rozkłady zmiennych losowych

POLITECHNIKA OPOLSKA

Estymacja parametrów w modelu normalnym

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody klasyfikacji danych - część 1 p.1/24

Wykład 2: Tworzenie danych

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

klasa III technikum I. FIGURY I PRZEKSZTAŁCENIA Wiadomości i umiejętności

Wymagania edukacyjne na poszczególne oceny To się liczy! Branżowa Szkoła I stopnia, klasa 1 po szkole podstawowej

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

FUNKCJA LINIOWA - WYKRES

Zmienne zależne i niezależne

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Elementy modelowania matematycznego

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2013

Badanie zależności skala nominalna

Testowanie hipotez statystycznych

Z poprzedniego wykładu

Transkrypt:

LDA Linear Discriminant Analysis Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu

1 Wstęp Liniowa Analiza Dyskryminacyjna (ang. Linear Discriminant Analysys, LDA) należy do metod statystycznych, dokonuje podziału na obszary graniczne funkcjami liniowymi, spisuje się dobrze na prostych w analizie danych. Jest jedną z metod klasyfikacji danych. Zadaniem takich metod jest określenie przynależności do klas innych badanych obiektów opisanych tymi samymi cechami. Na przykład mając dane mydeł (np. ich kształt, zapach, preferencje ludzi, etc.), które zostały sklasyfikowane jako dobre możemy określić, czy jakieś inne mydło także jest dobre. Oczywiście klasyfikacja nie zawsze jest bezbłędna może się zdarzyć, że złe mydło zostanie sklasyfikowane jako dobre. Wszystko zależy od tego ile podobnych mydeł jak to jest wśród wcześniej zbadanych. Klas, do których przydzielane są badane obiekty może być nieskończenie wiele. Do poprawnej klasyfikacji należy wykonać podstawowe kroki, takie jak: standaryzacja i podział danych analiza jednowymiarowa analiza wielowymiarowa analiza korelacji pomiędzy zmiennymi i dobór najlepszych zmiennych predykcyjnych klasyfikacja za pomocą wybranych zmiennych analiza wyników i wybór optymalnego modelu 2 Zagadnienie klasyfikacji Przez pojęcie klasyfikacji rozumie się dzielenie dowolnego zbioru elementów na grupy, do których zalicza się elementy różniące się, ale podobne, tj. mające własności wyróżniające daną grupę. Zbiór elementów należących do jednej grupy nazywany jest klasą, a jej elementy obiektami. Elementy klasy mogą się różni ć z wyjątkiem tych własności, na których opiera się klasyfikacja. Ogólna zasada postępowania przy klasyfikacji wygląda tak: standaryzacja danych wykonuje się aby każda ze zmiennych była tak samo istotna przy klasyfikacji. Dokonuje się tego przez obliczenie średniej oraz wariancji dla każdej zmiennej ciągłej. Następnie dla każdej zmiennej należy odjąć od niej średnią i podzielić przez odchylenie standardowe. Należy to zrobić na całym, niepodzielonym zbiorze danych. W dalszej kolejności dzieli się dane na zbiór uczący oraz testowy.

wstępna analiza próba sprawdzenia, które zmienne dobrze różnicują obiekty, tj. dla tej zmiennej obiekty w różnych klasach mają różną jej wartość. W przypadku pojedynczych zmiennych najlepiej stosować wykresy pudełkowe lub histogramy. Na przykład mając klasy płazów i ptaków dobrze różnicuje te klasy posiadanie opierzenia wiadomo, że wszystkie ptaki je mają, a płazy nie. porównywanie różnicowania klas przez dwie lub więcej cech w przypadku dwóch lub trzech zmiennych możemy porównywać wykresy rozrzutu. Często takie oddzielanie klas przynosi dużo lepsze efekty niż branie pod uwagę tylko jednej cechy, gdyż klasy mogą być rozdzielone funkcją prawie dowolnego stopnia i dwuwymiarowe wykresy są w stanie podzielić obszar na poszczególne klasy. sprawdzenie czy zmienne nie są skorelowane tworzymy macierz korelacji i z wybranych wcześniej zmiennych usuwamy te, które są ze sobą skorelowane. Postępuje się tak ponieważ występowanie skorelowanych zmiennych nie poprawia prawie w ogóle jakości klasyfikacji, natomiast zwiększa złożoność modelu i utrudnia klasyfikację. Na przykład, jeśli klasyfikujemy zwierzęta i mamy na przykład zmienne: ma płetwy, potrafi pływać, to jest bardzo prawdopodobne, że jeśli dane zwierzę ma płetwy to potrafi też pływać, a więc rozdzielają one obiekty w taki sam sposób. Wyeliminowanie jednej z nich nie pogorszy w związku z tym klasyfikacji. klasyfikacja na wybranych zmiennych w wyniku działania metod otrzymujemy obiekty przyporządkowane na jej podstawie do konkretnych klas. wybranie najlepszej reguły klasyfikacyjnej robi się to porównując błędy klasyfikacji oraz czułość i specyficzność dla danej reguły. Klasyfikację należy przeprowadzić na wybranym zbiorze danych, najlepiej dla kilku różnych reguł wybranych na podstawie wstępnej selekcji. 3 Wstępna analiza danych i wybór zmiennych Aby określić, które ze zmiennych najlepiej nadają się do konstrukcji reguły klasyfikacyjnej należy dokonać wstępnej analizy tych danych za pomocą wykresów pudełkowych, histogramów, wykresów rozrzutu oraz macierzy korelacji. Wykresy pudełkowe Najpierw wykonuje się serię wykresów pudełkowych.

Z punktu widzenia testów jednowymiarowych zmienna Flavanoids dobrze różnicuje klasy, gdyż wykresy pudełkowe nie zachodzą na siebie. Jeśli przykładowo dla klasy K1 wykres pudełkowy byłby taki sam jak dla klasy K2, wówczas ta zmienna nie będzie dobrym predyktorem, gdyż nie umożliwia rozróżnienia tych dwóch rejonów. A więc zawsze będą pożądane takie zmienne, w których wykresy pudełkowe będą dla różnych wysokościach dla poszczególnych klas. Histogramy W przypadku zmiennych binarnych wykresy pudełkowe będą zupełnie nieprzydatne, ponieważ możliwe są tutaj jedynie dwie wartości. Dobre efekty daje w tym przypadku zastosowanie wykresów histogramowych. Tak mogą wyglądać histogramy dla zmiennych binarnych, jeśli mamy do czynienia z dużą liczbą klas.

Powyższe histogramy pokazują separację klas przez zmienne predator i backbone. Jeśli słupek dla danej klasy jest pojedynczy to znaczy, że wszystkie obiekty danej klasy mają taką samą wartość tej zmiennej. Wniosek dobrze charakteryzuje ona daną klasę i może być wykorzystana w klasyfikacji, jeśli dla większości zmiennych mamy właśnie takie pojedyncze słupki. Natomiast wykres po prawej stronie przedstawia zmienną, która nie będzie dobrym predyktorem, ponieważ dla każdej klasy istnieje niejednoznaczność jej wartości zdarza się, że jedna połowa obiektów klasy ma wartość zmiennej true a druga false. Wykresy rozrzutu Widać na wykresach, że nie zawsze można uzyskać dobrą separację klas za pomocą jednej zmiennej. Bardziej efektywne są wykresy rozrzutu, które jednak nie są przydatne dla zmiennych kategorycznych i binarnych. Na podstawie wykresów można stwierdzić, że wybrane pary zmiennych dobrze różnicują dane obiekty. Widać, że wykres z prawej jest nieco lepszy ponieważ obiekty z poszczególnych klas są mniej wymieszane. Zawsze poszukuje się takie pary zmiennych, które na wykresach tworzą możliwe najbardziej oddalone od siebie skupiska. Istnieją także wykresy rozrzutu w trzech wymiarach, ale trudno o poprawną ich interpretację.

4 Klasyfikacja za pomocą metody LDA Aby przeprowadzić analizę należy dokonać losowego podziału zbioru na uczący (2/3 danych) i testowy (1/3 danych). Następnie korzystając z wybranej metody przeprowadza się klasyfikację obiektów ze zbioru testowego porównuje się rzeczywistą przynależność do klasy z tą, którą otrzymaliśmy za pomocą metody LDA. Przy liczeniu czułości i specyficzności dla większej niż dwie liczby klas, jedną z klas uznaje się jako uprzywilejowaną, a pozostałe łączy w jedną klasę. Poniżej pokazana jest macierz kontyngencji oraz błąd, czułość i specyficzność metody LDA dla przykładowych danych przy klasyfikacji win. Zmienne kolor, fenole. Metoda LDA Przewidywana klasyfikacja Rzeczywista klasyfikacja K1 K2 K3 K1 13 2 0 K2 4 24 0 K3 0 1 16 błąd klasyfikacji = 0,1166667 czułość = 0,7647059 specyficzność = 0,9302326 5 Obszary decyzyjne Obszary decyzyjne pokazują jak rozdzielają klasy metody statystyczne. Poniżej znajdują się dwa obszary decyzyjne. Po lewej stronie widać obszar decyzyjny metody LDA dla klasyfikacji win. Dla porównania po lewej stronie widać obszar decyzyjny metody QDA (kwadratowa analiza dyskryminacyjna) dla tych samych danych.

Na wykresach widać przewagę metody QDA nad LDA. Jest to z pewnością metoda bardziej wyrafinowana niż LDA i powinna sobie radzić z trudniejszymi do klasyfikacji danymi. 6 LDA w praktyce MPEG 7 MPEG 7 jest standardem definiującym język opisu zawartości obiektów multimedialnych (ang. Multimedia Content Description Interface). O ile poprzednie standardy grupy MPEG (MPEG 1, MPEG 2 i MPEG 4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, to standard MPEG 7 normuje opisy tej zawartości. Opisy te, tzw. deskryptory, mogą być tworzone przez operatora (np. czołówka filmu cyfrowego, czy szczegóły procesu twórczego), a część z nich może być automatycznie ekstrahowana z samego medium cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazy twarzy). Opisy te z kolei mogą być wykorzystane do tworzenia indeksów materiałów obiektów multimedialnych by ułatwić wyszukiwanie tych obiektów w archiwach lokalnych i co ważniejsze w archiwach rozproszonych w sieci komputerowej. Standard składa się z siedmiu części: Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software oraz Conformance. W celu osiągnięcia kompatybilności ze standardami internetowymi grupa MPEG 7 wybrała język XML jako język zapisu deskryptorów, a język XML Schema jako język definiowania składni tych deskryptorów. Jedną z grup deskryptorów są deskryptory rozpoznawania twarzy, w skład którego wchodzą:

Face Recognition informacja o obrazie twarzy uzyskana na podstawie kwantowanych do 5 bitów pierwszych 48 współczynników KLT (Karhunen Loeve'go). Advanced Face Recognition informacja o obrazie twarzy uzyskana w wyniki hierarchicznej analizy LDA na informacji spektralnej uzyskanej globalnie i w lokalnych podokienkach z opcjonalną wstępną normalizacją twarzy do pozy frontalnej. Badanie zdolności kredytowej Metody statystyczne sprawdzania wiarygodności kredytów, które określa się wspólnym mianem analizy dyskryminacyjnej przedstawia następujący schemat: Analiza dyskryminacyjna Jednowymiarowa Wielowymiarowa Parametryczna Metoda Kendala Metoda Linharta Nieparametryczna Kwadratowa Liniowa

Po raz pierwszy liniowa analiza dyskryminacyjna była wykorzystywana w zarządzaniu finansami przez E. I. Altmana (1968). Opracował on swój model (zwany modelem Zeta Score) posługując się próbą 66 korporacji amerykańskich reprezentujących po 33 spółki z każdej grupy (bankruci, niebankruci). Dane do wyznaczenia współczynników dyskryminacji zaczerpnął ze sprawozdań finansowych sporządzonych w roku sprawozdawczym poprzedzającym bankructwo spółki. W swoich rozważaniach Altman uwzględnił początkowo 22 wskaźniki finansowe spośród których wybrał ostatecznie pięć wskaźników jako zmienne dyskryminacyjne w predykcji bankructwa. Ostatecznie przedstawiona przez Altmana funkcja dyskryminacji miała postać: gdzie: D = 1,2 * x1 + 1,4 * x2 + 3,3 * x3 + 0,6 * x4 + 1,0 * x5 x1 = (kapitał pracujący)/(aktywa ogółem) x2 = (skumulowane zyski reinwestowane)/(aktywa ogółem) x3 = (zysk brutto plus odsetki)/(aktywa ogółem) x4 = (wartość rynkowa kapitału własnego)/(wartość księgowa kapitału obcego) W tych badaniach wartością dyskryminacyjną okazała się liczba 1,81. Dla analizowanej próby Altman ustalił prawdopodobieństwa zbankrutowania badanych korporacji np. korporacja, dla której funkcja dyskryminacji wynosi 0,55 zbankrutuje z prawdopodobieństwem 75%, natomiast prawdopodobieństwo zbankrutowania korporacji, dla której funkcja dyskryminacji przyjmie wartość 2,30 wynosi 1%. Powyższe przykłady są jedynie jednymi z wielu. Obecnie LDA oraz inne metody klasyfikacji danych stosuje się w wielu dziedzinach wiedzy (w medycynie np. do szybszego wykrycia zagrożenia zawału serca). LDA i inne metody klasyfikacji nie zastąpią człowieka a jedynie mogą go wspomóc. 6 Podsumowanie LDA jest jedną z metod klasyfikacji danych. Żadna z metod nie jest idealna, każda sprawdza się lepiej w różnych warunkach (np. metoda LDA nie może być stosowana dla zmiennych kategorycznych i binarnych). Innymi podobnymi metodami są: QDA Kwadratowa Analiza Dyskryminacyjna. Również zalicza się do metod statystycznych, lecz jest metodą nieco bardziej wyrafinowaną niż LDA, gdyż dokonuje podziału zbioru za pomocą krzywych rzędu drugiego.

k NN Należy do grupy metod algorytmicznych. Jej działanie opiera się na obliczeniu odległości danego obiektu od innych, wybraniu k najbliższych obiektów i na tej podstawie sklasyfikowanie go (będzie należał do tej klasy, co największa liczba spośród k najbliższych sąsiadów). Metoda nie działa dla zmiennych binarnych i kategorycznych. Drzewa klasyfikacyjne Działają na zasadzie rekurencyjnego podziału obiektów na coraz mniejsze podzbiory, ze względu na wartość wybranych do klasyfikacji zmiennych. Podzbiory są rozgałęzione na coraz mniejsze podzbiory, aż do pewnego określonego momentu. Drzewa działają na wszystkich możliwych typach zmiennych (z wyjątkiem tekstowych). Zasadniczą zaletą drzew jest brak jakichkolwiek założeń wstępnych dotyczących rozkładów danych. Szczególnie przydatne są one w sytuacjach, w których występują skorelowane ze sobą dane. Ponadto wygenerowanie reguły logiczne są łatwiejsze w interpretacji niż różnego rodzaju funkcje klasyfikacyjne. Na podstawie drzew łatwo jest też opracować standardy postępowania diagnostycznego czy terapeutycznego. Jak widać LDA nie jest jedyną metodą klasyfikacyjną i aby dobrze klasyfikować dane należy poznać inne metody tak by wybrać najlepszą. Aby tego dokonać należy przeprowadzić eksperymenty z ww metodami i wybrać tę, która osiągnęła najmniejszy błąd klasyfikacji i charakteryzowała i charakteryzowała się najmniejszą złożonością modelu. Wszystko zależy od celu w jakim dokonujemy klasyfikacji.