Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela rozważane klasy obiektów. Funkcja dyskryminacyjna jest linową kombinacją cech (zmiennych objaśniających). Podczas budowy modelu dyskryminacyjnego obowiązują następujące założenia: 1. Zmienne objaśniające mają rozkład normalny. 2. Macierze kowariancji zmiennych objaśniających są równe w grupach. 3. Wartości średnie między grupami różnią się. W nauce analizy dyskryminacyjnej sztandarowym i często wykorzystywanym zbiorem danych jest zbiór dotyczących trzech odmian irysów: setosa, virginica i versicolor. Zawiera on po 50 obserwacji dla każdego z trzech odmian tego kwiatu dotyczących: długości płatka, szerokości płatka, długości działki kielicha i szerokości działki kielicha. Rys.1 Płatek i działka kielicha. Źródło: http://en.wikipedia.org/wiki/sepal Zbiór ten znajduje się w katalogu głównym programu Statistica w Examples/Datasets/Irisdat.sta. 1

Statystyki opisowe Dzięki histogramowi częstości występowania danej cechy możemy graficznie przedstawić jej rozkład. W tym celu klikając prawym przyciskiem myszy w dowolnym polu w kolumnie zawierającej wartości rozważanej cechy wybieramy Wykresy bloku danych / Histogram: Całe kolumny. 35 Histogram Dł działki Arkusz119 1v*150c Dł działki = 150*0,5*normal(x; 5,8433; 0,8281) 30 25 Liczba obs. 20 15 10 5 0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Dł działki Rys. 2 Histogram częstości występowania zmiennej długość działki w badanej próbie. Histogramy częstości występowania danej zmiennej z rozróżnieniem na kategorie (wg zmiennej grupującej) dostępne są w menu Wykresy/Skategoryzowane. Przed przystąpieniem do właściwej analizy dyskryminacyjnej warto przedstawić graficznie, skategoryzowane zależności zmiennych grupujących w postaci wykresu rozrzutu. Skategoryzowane wykresy rozrzutu dostępne są również w menu Wykresy/Skategoryzowane. Rys. 3 przedstawia wykres rozrzutu długości płatka względem długości działki kielicha. Punkty dla konkretnych klas (w tym przypadku odmian irysa) zaznaczone są różnymi kolorami zgodnie z legendą. 8 Wykres rozrzutu Dł płatka względem Dł działki; kategorie względem Odmiana Irisdat 5v*150c 7 6 5 Dł płatka 4 3 2 1 0 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Dł działki Odmiana: SETOSA Odmiana: VERSICOL Odmiana: VIRGINIC Rys. 3 Wykres rozrzutu długości płatka względem długości działki kielicha. 2

Właściwa analiza dyskryminacyjna Analizę dyskryminacyjną rozpoczynamy od wczytania danych i określenia zmiennych. Po otworzeniu pliku uruchamiamy moduł analizy dyskryminacyjnej zlokalizowany w menu Statystyka/Wielowymiarowe/Analiza dyskryminacyjna. W celu dokonania analizy krokowej konieczne jest zaznaczenie odpowiedniej opcji. Zmienną grupującą jest oczywiście Odmiana, pozostałe zmienne to zmienne niezależne. Ponadto wybrać należy wszystkie dostępne kody zmiennej grupującej tj. 1-3. Po określeniu zmiennych i zatwierdzeniu przyciskiem OK w oknie Definicja modelu w zakładce Statystyki opisowe możemy dokonać przeglądu podstawowych statystyk opisowych dla zdefiniowanego zbioru danych wejściowych. Wyświetlmy tabelę podsumowującą średnie każdej z czterech rozpatrywanych cech dla każdej z trzech odmian irysa. 3

Na tym etapie, nie wdając się w formalną analizę wariancji, widać wyraźne różnice dla każdej z czterech cech (tj. długości i szerokości płatka oraz długości i szerokości działki kielicha) pomiędzy trzema odmianami. Na rys. 4 przedstawiony został tzw. wykres ramka-wąsy zmiennej długość działki dla trzech dla trzech odmian. Punkt środkowy oznacza średnią arytmetyczną próby (oczywiście dla przypadków ograniczonych przez zmienną grupującą). Szerszy prostokąt oznacza przedział zmienności (średnia arytmetyczna +/- odchylenie standardowe). Tzw. wąsy wyznaczają 95% przedział ufności dla wartości przeciętnej w populacji. 8,5 Ramkowy Dł działki; kategorie względem Odmiana Irisdat 5v*150c 8,0 7,5 7,0 Dł działki 6,5 6,0 5,5 5,0 4,5 4,0 Dł działki Dł działki Dł działki Odmiana: SETOSA Odmiana: VERSICOL Odmiana: VIRGINIC Rys. 4 Wykres ramka-wąsy zmiennej długość działki dla trzech odmian. W celu rozpoczęcia analizy dyskryminacyjnej w oknie Definicja modelu w zakładce Więcej wybieramy metodę: Krokowa postępująca oraz sposób wyświetlania wyników: Dla każdego kroku. 4

Po zatwierdzeniu wyboru przyciskiem OK przejdziemy do okna analizy dyskryminacyjnej. Przed przejściem do kroku nr 1 wyświetlmy parametry statystyczne zmiennych. Na tym etapie dostępne są tylko zmienne spoza modelu. W kolejnych krokach będzie można uzyskać informacje na temat zmiennych dołączonych do modelu. Lambda Wilksa to statystyka służąca do oceny mocy dyskryminacyjnej całego modelu, tj. wszystkich zmiennych występujących w modelu łącznie, którą model będzie posiadał po wprowadzeniu do niego danej zmiennej. Przyjmuje ona wartości od 0 do 1; wartości bliskie zeru świadczą o dużej mocy dyskryminacyjnej modelu. Cząstkowe lambdy Wilksa określają wkłady poszczególnych zmiennych do ogólnej mocy dyskryminacyjnej modelu. Ponieważ w kroku zerowym w modelu nie ma żadnej zmiennej, wartości z pierwszej kolumny równe są wartościom z kolumny prawej. Wartość statystyki F 5

odzwierciedla moc dyskryminacyjną danej zmiennej. Zmienne dodawane są do modelu zgodnie z wartościami F począwszy od tej zmiennej, której moc dyskryminacyjna jest największa. Wyniki w tabeli wyświetlane są na czerwono, jednak nie można tego interpretować tak jak w przypadku testów statystycznych np. jednorodności wariancji. Weryfikowaną hipotezą jest to czy dana zmienna wnosi istotny wkład do modelu. W celu przejścia do kroku nr 1 przyciskamy Dalej. Następnie przechodzimy do zakładki Klasyfikacja. Funkcje klasyfikacyjne mają postać: gdzie oznacza numer -tą zmienną klasyfikacyjną, to liczba zmiennych klasyfikacyjnych,. W kroku pierwszym rozpatrywana jest jedna zmienna klasyfikacyjna, ta o największej istotnej mocy dyskryminacyjnej., Powyższe okno dostępne jest po naciśnięciu przycisku Funkcje klasyfikacyjne. Przedstawia ono współczynniki funkcji klasyfikacyjnych, których jawna postać to: Dla grupy (odmiany irysa setosa): Dla grupy (odmiany irysa versicolor): Dla grupy (odmiany irysa virginica): 6

O przynależności próbki do danej klasy decyduje maksymalna wartość funkcji klasyfikacyjnej. Zmiennej klasyfikacyjnej odpowiada długość płatka. W kroku trzecim w modelu znajdują się trzy zmienne długość płatka, szerokość działki i szerokość płatka. Lambda Wilksa dla całego modelu (nad tabelą) na poziomie 0,02498 świadczy o jego dużej mocy dyskryminacyjnej. Wartości tolerancji dla poszczególnych zmiennych określają jaka część informacji wnoszonej przez tą zmienną nie jest powielana przez pozostałe. W przypadku zmiennej o niskiej tolerancji do modelu wprowadzany byłby szum, co niekorzystnie odbijałoby się na jego zdolnościach dyskryminacyjnych. W zakładce Klasyfikacja dostępna jest macierz klasyfikacji, a także można wyświetlić wyniki klasyfikacji poszczególnych przypadków. Poniżej przedstawiona jest macierz klasyfikacji dla poszczególnych odmian (irysa). W wierszach znajdują się ich nazwy, a w kolumnach liczba przypadków zaklasyfikowanych do danej klasy. Pierwsza kolumna podaje procentową poprawność klasyfikacji danego przypadku. Poniżej przedstawione są wyniki klasyfikacji poszczególnych przypadków. Wiersze oznaczone gwiazdką oznaczają niepoprawną klasyfikację. 7

Ćwiczenia Ćwiczenie 1 Dla danych z pliku Irisdat.sta: 1. Sporządzić histogramy częstości występowania dla wszystkich zmiennych. 2. Sporządzić histogramy częstości występowania dla wszystkich zmiennych z rozróżnieniem na kategorie. 3. Sporządzić skategoryzowane wykresy rozrzutu dla wszystkich (dwuelementowych) kombinacji zmiennych. 4. Sporządzić wykresy ramka-wąsy dla wszystkich zmiennych. 5. Przeprowadzić analizę krokową postępującą. Kolejne kroki ilustrować parametrami statystycznymi dodanych zmiennych, wyznaczonymi funkcjami klasyfikacyjnymi (w postaci tabeli i jawnie) oraz macierzą klasyfikacji. Dodatkowo należy podawać numery błędnie sklasyfikowanych obserwacji. Ćwiczenie 2 Dla danych z plików dane5.sta (źródło danych: http://www.ipipan.waw.pl/staff/j.mielniczuk/ssus- Programy-Dane.zip, plik należy pobrać z folderu w którym znajduje się niniejsza instrukcja) przeprowadzić analizę dyskryminacyjną krokową postępującą. Każdy krok zilustrować parametrami zmiennych w modelu i poza modelem oraz macierzą klasyfikacji. Czy któreś zmienne nie znalazły się w modelu? Jeśli tak, to dlaczego? Sporządzić wykres (dla każdej zmiennej i łącznie) poprawności klasyfikacji w zależności od kolejnego kroku. 8