Wprowadzenie do analizy dyskryminacyjnej

Podobne dokumenty
ALGORYTMY SZTUCZNEJ INTELIGENCJI

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium X: Analiza dyskryminacyjna

Wykład 4: Statystyki opisowe (część 1)

Analizy wariancji ANOVA (analysis of variance)

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

ZARZĄDZANIE DANYMI W STATISTICA

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Analiza Statystyczna

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

Opracowywanie wyników doświadczeń

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Badanie normalności rozkładu

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Sposoby prezentacji problemów w statystyce

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

You created this PDF from an application that is not licensed to print to novapdf printer (

Spis treści. Laboratorium II: Analiza opisowa. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Wykład 3: Prezentacja danych statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Tworzenie i modyfikowanie wykresów

Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:

DZISIAJ. Jeszcze trochę o PROJEKTACH JAK PREZENTOWAĆ: JAK OBLICZAĆ: PROSTE INFORMACJE O PRÓBIE KORELACJE DWÓCH CECH PODSTAWOWE MIARY

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Statystyki opisowe i szeregi rozdzielcze

Analiza regresji - weryfikacja założeń

Grupowanie materiału statystycznego

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Elementy statystyki wielowymiarowej

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyczne metody analizy danych

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

PRZYKŁAD AUTOMATYZACJI STATYSTYCZNEJ OBRÓBKI WYNIKÓW

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Testy nieparametryczne

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Analiza wariancji jednej zmiennej (UNIANOVA)

Statystyka matematyczna dla leśników

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Instrukcja obsługi programu Do-Exp

Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych. Laboratorium VI: Testy nieparametryczne

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Zajęcia nr VII poznajemy Rattle i pakiet R.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Próba własności i parametry

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Analiza korespondencji

Wspólne Zaawansowana tabela

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Ćwiczenie 2. Statystyka opisowa i metody symulacyjne

Zagadnienie klasyfikacji (dyskryminacji)

Inteligentna analiza danych

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Wprowadzenie do analizy korelacji i regresji

Podstawy statystyki medycznej Laboratorium. Zajęcia 5 wprowadzenie do programu Statistica

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Estymacja punktowa i przedziałowa

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Instrukcja wprowadzania graficznych harmonogramów pracy w SZOI Wg stanu na r.

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Rys. 1. Aktywne linki będą wstawiane za pomocą rozwijanej listy

Obliczenie kratownicy przy pomocy programu ROBOT

przedmiot podstawowy obowiązkowy polski drugi

7.4 Automatyczne stawianie prognoz

Kolokwium ze statystyki matematycznej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

author: Andrzej Dudek

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Transkrypt:

Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela rozważane klasy obiektów. Funkcja dyskryminacyjna jest linową kombinacją cech (zmiennych objaśniających). Podczas budowy modelu dyskryminacyjnego obowiązują następujące założenia: 1. Zmienne objaśniające mają rozkład normalny. 2. Macierze kowariancji zmiennych objaśniających są równe w grupach. 3. Wartości średnie między grupami różnią się. W nauce analizy dyskryminacyjnej sztandarowym i często wykorzystywanym zbiorem danych jest zbiór dotyczących trzech odmian irysów: setosa, virginica i versicolor. Zawiera on po 50 obserwacji dla każdego z trzech odmian tego kwiatu dotyczących: długości płatka, szerokości płatka, długości działki kielicha i szerokości działki kielicha. Rys.1 Płatek i działka kielicha. Źródło: http://en.wikipedia.org/wiki/sepal Zbiór ten znajduje się w katalogu głównym programu Statistica w Examples/Datasets/Irisdat.sta. 1

Statystyki opisowe Dzięki histogramowi częstości występowania danej cechy możemy graficznie przedstawić jej rozkład. W tym celu klikając prawym przyciskiem myszy w dowolnym polu w kolumnie zawierającej wartości rozważanej cechy wybieramy Wykresy bloku danych / Histogram: Całe kolumny. 35 Histogram Dł działki Arkusz119 1v*150c Dł działki = 150*0,5*normal(x; 5,8433; 0,8281) 30 25 Liczba obs. 20 15 10 5 0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Dł działki Rys. 2 Histogram częstości występowania zmiennej długość działki w badanej próbie. Histogramy częstości występowania danej zmiennej z rozróżnieniem na kategorie (wg zmiennej grupującej) dostępne są w menu Wykresy/Skategoryzowane. Przed przystąpieniem do właściwej analizy dyskryminacyjnej warto przedstawić graficznie, skategoryzowane zależności zmiennych grupujących w postaci wykresu rozrzutu. Skategoryzowane wykresy rozrzutu dostępne są również w menu Wykresy/Skategoryzowane. Rys. 3 przedstawia wykres rozrzutu długości płatka względem długości działki kielicha. Punkty dla konkretnych klas (w tym przypadku odmian irysa) zaznaczone są różnymi kolorami zgodnie z legendą. 8 Wykres rozrzutu Dł płatka względem Dł działki; kategorie względem Odmiana Irisdat 5v*150c 7 6 5 Dł płatka 4 3 2 1 0 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Dł działki Odmiana: SETOSA Odmiana: VERSICOL Odmiana: VIRGINIC Rys. 3 Wykres rozrzutu długości płatka względem długości działki kielicha. 2

Właściwa analiza dyskryminacyjna Analizę dyskryminacyjną rozpoczynamy od wczytania danych i określenia zmiennych. Po otworzeniu pliku uruchamiamy moduł analizy dyskryminacyjnej zlokalizowany w menu Statystyka/Wielowymiarowe/Analiza dyskryminacyjna. W celu dokonania analizy krokowej konieczne jest zaznaczenie odpowiedniej opcji. Zmienną grupującą jest oczywiście Odmiana, pozostałe zmienne to zmienne niezależne. Ponadto wybrać należy wszystkie dostępne kody zmiennej grupującej tj. 1-3. Po określeniu zmiennych i zatwierdzeniu przyciskiem OK w oknie Definicja modelu w zakładce Statystyki opisowe możemy dokonać przeglądu podstawowych statystyk opisowych dla zdefiniowanego zbioru danych wejściowych. Wyświetlmy tabelę podsumowującą średnie każdej z czterech rozpatrywanych cech dla każdej z trzech odmian irysa. 3

Na tym etapie, nie wdając się w formalną analizę wariancji, widać wyraźne różnice dla każdej z czterech cech (tj. długości i szerokości płatka oraz długości i szerokości działki kielicha) pomiędzy trzema odmianami. Na rys. 4 przedstawiony został tzw. wykres ramka-wąsy zmiennej długość działki dla trzech dla trzech odmian. Punkt środkowy oznacza średnią arytmetyczną próby (oczywiście dla przypadków ograniczonych przez zmienną grupującą). Szerszy prostokąt oznacza przedział zmienności (średnia arytmetyczna +/- odchylenie standardowe). Tzw. wąsy wyznaczają 95% przedział ufności dla wartości przeciętnej w populacji. 8,5 Ramkowy Dł działki; kategorie względem Odmiana Irisdat 5v*150c 8,0 7,5 7,0 Dł działki 6,5 6,0 5,5 5,0 4,5 4,0 Dł działki Dł działki Dł działki Odmiana: SETOSA Odmiana: VERSICOL Odmiana: VIRGINIC Rys. 4 Wykres ramka-wąsy zmiennej długość działki dla trzech odmian. W celu rozpoczęcia analizy dyskryminacyjnej w oknie Definicja modelu w zakładce Więcej wybieramy metodę: Krokowa postępująca oraz sposób wyświetlania wyników: Dla każdego kroku. 4

Po zatwierdzeniu wyboru przyciskiem OK przejdziemy do okna analizy dyskryminacyjnej. Przed przejściem do kroku nr 1 wyświetlmy parametry statystyczne zmiennych. Na tym etapie dostępne są tylko zmienne spoza modelu. W kolejnych krokach będzie można uzyskać informacje na temat zmiennych dołączonych do modelu. Lambda Wilksa to statystyka służąca do oceny mocy dyskryminacyjnej całego modelu, tj. wszystkich zmiennych występujących w modelu łącznie, którą model będzie posiadał po wprowadzeniu do niego danej zmiennej. Przyjmuje ona wartości od 0 do 1; wartości bliskie zeru świadczą o dużej mocy dyskryminacyjnej modelu. Cząstkowe lambdy Wilksa określają wkłady poszczególnych zmiennych do ogólnej mocy dyskryminacyjnej modelu. Ponieważ w kroku zerowym w modelu nie ma żadnej zmiennej, wartości z pierwszej kolumny równe są wartościom z kolumny prawej. Wartość statystyki F 5

odzwierciedla moc dyskryminacyjną danej zmiennej. Zmienne dodawane są do modelu zgodnie z wartościami F począwszy od tej zmiennej, której moc dyskryminacyjna jest największa. Wyniki w tabeli wyświetlane są na czerwono, jednak nie można tego interpretować tak jak w przypadku testów statystycznych np. jednorodności wariancji. Weryfikowaną hipotezą jest to czy dana zmienna wnosi istotny wkład do modelu. W celu przejścia do kroku nr 1 przyciskamy Dalej. Następnie przechodzimy do zakładki Klasyfikacja. Funkcje klasyfikacyjne mają postać: gdzie oznacza numer -tą zmienną klasyfikacyjną, to liczba zmiennych klasyfikacyjnych,. W kroku pierwszym rozpatrywana jest jedna zmienna klasyfikacyjna, ta o największej istotnej mocy dyskryminacyjnej., Powyższe okno dostępne jest po naciśnięciu przycisku Funkcje klasyfikacyjne. Przedstawia ono współczynniki funkcji klasyfikacyjnych, których jawna postać to: Dla grupy (odmiany irysa setosa): Dla grupy (odmiany irysa versicolor): Dla grupy (odmiany irysa virginica): 6

O przynależności próbki do danej klasy decyduje maksymalna wartość funkcji klasyfikacyjnej. Zmiennej klasyfikacyjnej odpowiada długość płatka. W kroku trzecim w modelu znajdują się trzy zmienne długość płatka, szerokość działki i szerokość płatka. Lambda Wilksa dla całego modelu (nad tabelą) na poziomie 0,02498 świadczy o jego dużej mocy dyskryminacyjnej. Wartości tolerancji dla poszczególnych zmiennych określają jaka część informacji wnoszonej przez tą zmienną nie jest powielana przez pozostałe. W przypadku zmiennej o niskiej tolerancji do modelu wprowadzany byłby szum, co niekorzystnie odbijałoby się na jego zdolnościach dyskryminacyjnych. W zakładce Klasyfikacja dostępna jest macierz klasyfikacji, a także można wyświetlić wyniki klasyfikacji poszczególnych przypadków. Poniżej przedstawiona jest macierz klasyfikacji dla poszczególnych odmian (irysa). W wierszach znajdują się ich nazwy, a w kolumnach liczba przypadków zaklasyfikowanych do danej klasy. Pierwsza kolumna podaje procentową poprawność klasyfikacji danego przypadku. Poniżej przedstawione są wyniki klasyfikacji poszczególnych przypadków. Wiersze oznaczone gwiazdką oznaczają niepoprawną klasyfikację. 7

Ćwiczenia Ćwiczenie 1 Dla danych z pliku Irisdat.sta: 1. Sporządzić histogramy częstości występowania dla wszystkich zmiennych. 2. Sporządzić histogramy częstości występowania dla wszystkich zmiennych z rozróżnieniem na kategorie. 3. Sporządzić skategoryzowane wykresy rozrzutu dla wszystkich (dwuelementowych) kombinacji zmiennych. 4. Sporządzić wykresy ramka-wąsy dla wszystkich zmiennych. 5. Przeprowadzić analizę krokową postępującą. Kolejne kroki ilustrować parametrami statystycznymi dodanych zmiennych, wyznaczonymi funkcjami klasyfikacyjnymi (w postaci tabeli i jawnie) oraz macierzą klasyfikacji. Dodatkowo należy podawać numery błędnie sklasyfikowanych obserwacji. Ćwiczenie 2 Dla danych z plików dane5.sta (źródło danych: http://www.ipipan.waw.pl/staff/j.mielniczuk/ssus- Programy-Dane.zip, plik należy pobrać z folderu w którym znajduje się niniejsza instrukcja) przeprowadzić analizę dyskryminacyjną krokową postępującą. Każdy krok zilustrować parametrami zmiennych w modelu i poza modelem oraz macierzą klasyfikacji. Czy któreś zmienne nie znalazły się w modelu? Jeśli tak, to dlaczego? Sporządzić wykres (dla każdej zmiennej i łącznie) poprawności klasyfikacji w zależności od kolejnego kroku. 8