ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności Przedmiotem statystyki jest zbieranie, prezentacja oraz analiza danych opisujących zjawiska losowe. Badaniu statystycznemu podlega próbka losowa pobrana z populacji. Na podstawie uzyskanych wyników wnioskuje się o właściwościach całej populacji. Badać można jedną lub wiele cech populacji generalnej. Badane cechy mogą być mierzalne (np. długość, waga, czas) lub niemierzalne (np. kolor, płeć, wykształcenie). W tym drugim przypadku, aby obróbka statystyczna była możliwa, należy badanym elementom próbki przypisać wartości liczbowe. STATYSTYKA OPISOWA wstępna analiza danych Celem obliczeń jest m. in. wyznaczenie pewnych charakterystyk liczbowych, zwanych statystykami opisowymi, opisujących badaną cechę. Na tej podstawie są wyciągane podstawowe wnioski dotyczące tej cechy lub przedstawiane wyniki obserwacji w postaci graficznej. Niech x 1, x,...x n będzie n-elementową próbką pobraną z badanej populacji. Wybrane statystyki opisowe: I. Miary położenia: 1. Średnia arytmetyczna 1 x n n x i i 1. Mediana (wartość środkowa) środkowa liczba w uporządkowanej niemalejąco próbce 3. Moda (wartość modalna) najczęściej powtarzająca się wartość w próbce, o ile istnieje 4. Kwartyl górny element, poniżej którego leży 75% wartości w uporządkowanej próbce 5. Kwartyl dolny element, poniżej którego leży 5% wartości w uporządkowanej próbce Uwaga: Kwantyl rzędu p (0<p<1) w populacji można zdefiniować dwojako: a) jest to taka wartość x p, że 100 * p% elementów tej populacji ma wartość badanej cechy nie większą od x p. b) jest to taka wartość x p zmiennej losowej, że wartości mniejsze lub równe od x p są przyjmowane z prawdopodobieństwem co najmniej p, zaś wartości większe lub równe od x p są przyjmowane z prawdopodobieństwem co najmniej 1-p. 1

II. Miary rozproszenia: 1. Wariancja s 1 n 1 n x i x i 1. Odchylenie standardowe s s 3. Rozstęp R = x max x min gdzie x max jest największą a x min - najmniejszą wartością w próbce. Rozstęp jest długością najmniejszego przedziału zawierającego wszystkie elementy próbki. III. Miary kształtu: 1. Skośność współczynnik asymetrii charakteryzujący symetrię (lub jej brak) badanej cechy. Skośność bliska zeru odpowiada symetrycznemu rozkładowi danych. Dodatnia wartość tego współczynnika wskazuje na asymetrię prawostronną, zaś ujemna na asymetrię lewostronną.. Kurtoza współczynnik spłaszczenia, charakteryzuje rozkład badanej cechy względem rozkładu normalnego. Gdy kurioza jest równa zeru, oznacza to, że dane rozmieszczone są zgodnie ze wzorcowym rozkładem normalnym. Ujemna wartość kurtozy wskazuje na rozkład bardziej płaski niż normalny, natomiast wartość dodatnia wskazuje na duże skupienie obserwacji wokół mediany. Szereg rozdzielczy Przy dużej liczności próbki, w celu ułatwienia analizy, elementy próbki grupuje się w tzw. klasach, czyli przedziałach na ogół tej samej długości. Liczbę klas k dobiera się w zależności od liczności próbki n. Zazwyczaj k mieści się w zakresie: 3 n k n 4 Liczbę n i elementów próbki zawierających się w i-tej klasie nazywamy licznością (liczebnością) tej klasy. Środki klas i liczebności tych klas stanowią klasyczny szereg rozdzielczy. Na pełny szereg rozdzielczy składają się: - końce przedziałów klasowych - środki przedziałów klasowych - liczności - liczności skumulowane (licznością skumulowaną i-tej klasy jest suma l i n i ) - częstości (częstość i-tej klasy otrzymujemy dzieląc liczność tej klasy przez liczność próbki) - częstości skumulowane (częstość skumulowaną i-tek klasy otrzymujemy dzieląc liczność skumulowaną tej klasy przez liczność próbki). i j 1

Histogram Histogramem nazywamy graficzne przedstawienie szeregu rozdzielczego. Jest to wykres słupkowy, na którym na osi poziomej zaznaczone są kolejne klasy, natomiast na osi pionowej znajdują się liczności (histogram liczności), częstości (histogram częstości), liczności skumulowane (histogram liczności skumulowanych) lub częstości skumulowane (histogram częstości skumulowanych) Łącząc punkty o współrzędnych x, i n i, gdzie x i jest środkiem i-tej klasy, otrzymujemy łamaną liczności. Podobnie można narysować łamaną częstości, liczności skumulowanej i częstości skumulowanej Procedury programu Statgraphics Do wyznaczenia statystyk opisowych dla jednej próbki służy polecenie z menu głównego: Describe/Numeric Data/One-Variable Analysis Wskazujemy dane do analizy. W oknie Sumary Statistic analizy wyświetlone będą najważniejsze statystyki opisowe. Możliwość wyboru innych statystyk uzyskuje się poprzez wskazanie polecenia Pane Options w menu podręcznym okna Sumary Statistic. Wybranie opcji tekstowej Frequency Tabulation powoduje wyświetlenie szeregu rozdzielczego, natomiast opcja graficzna Frequency Histogram umożliwia wykreślenie histogramów oraz łamanych. opcje graficzne opcje tekstowe Do wyznaczenia statystyk opisowych dla wielu próbek służy polecenie Compare/Two Samples/ Two-Sample Comparison... dla dwóch próbek albo Compare/Multiple Samples/Multiple-Samples Comparison... dla więcej niż dwóch próbek 3

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Jest to podstawowa metoda wnioskowania statystycznego. Hipotezą statystyczną jest dowolne przypuszczenie dotyczące badanej cechy populacji. Najczęściej dotyczy ono postaci nieznanego rozkładu lub wartości jego parametrów. Weryfikowaną hipotezę H nazywamy hipotezą zerową. Podczas weryfikacji hipotezy H należy określić hipotezę alternatywną K, czyli hipotezę, którą jesteśmy skłonni przyjąć, jeżeli odrzucimy hipotezę H. Weryfikację przeprowadza się na przyjętym z góry poziomie istotności α, będącym prawdopodobieństwem popełnienia błędu pierwszego rodzaju, czyli odrzucenia hipotezy H wtedy, gdy jest ona prawdziwa. Weryfikację postawionej hipotezy przeprowadzamy na podstawie próby losowej pobranej z populacji. Weryfikację taką przeprowadza się za pomocą odpowiedniego testu statystycznego, który z ustalonym prawdopodobieństwem (poziom istotności) umożliwia podjęcie decyzji o odrzuceniu albo nie hipotezy. Weryfikacja polega na wyborze odpowiedniej statystyki testowej, czyli pewnej funkcji określonej na zbiorze obserwowanych zmiennych losowych oraz określeniu tzw. zbioru krytycznego, czyli zbioru tych wartości statystyki testowej, na podstawie których, hipotezę weryfikowaną w kontekście hipotezy alternatywnej odrzuca się albo nie. Jeżeli weryfikacja nie daje podstaw do zaprzeczenia weryfikowanej hipotezie, to nie może być ona odrzucona. Nie oznacza to jednak, że jest ona prawdziwa. Jeżeli wyniki weryfikacji zaprzeczają weryfikowanej hipotezie - odrzucamy ją na korzyść hipotezy alternatywnej. UWAGA Powyżej opisana została klasyczna metoda weryfikacji hipotez. Istnieje także druga metoda polegająca na tym, że decyzję o przyjęciu lub odrzuceniu hipotezy podejmuje się na podstawie wartości tzw. poziomu krytycznego pv (najmniejszego poziomu istotności, powyżej którego odrzuca się weryfikowaną hipotezę). Jeżeli poziom krytyczny pv jest mniejszy niż przyjęty poziom istotności α odrzuca się rozważaną hipotezę na rzecz hipotezy alternatywnej. W przeciwnym przypadku nie ma podstaw do odrzucenia hipotezy. (pv w programie jest oznaczony jako P-value) 4

TESTY ZGODNOŚCI Służą one do weryfikacji hipotez o postaci rozkładu badanej cechy lub hipotez o identyczności rozkładów cechy dla wielu populacji. 1. Test zgodności chi-kwadrat Pearsona jest wykorzystywany do weryfikacji hipotez o postaci rozkładu cechy dla jednej populacji. Wymaga on dużej próby (n 100). Może być stosowany zarówno dla rozkładów dyskretnych jak i ciągłych. Przeprowadza się go na podstawie danych pogrupowanych w szereg rozdzielczy. Dodatkowo wymaga się, aby liczności w poszczególnych klasach nie były mniejsze niż 5. Statystyka testowa tego testu jest postaci k ( ni npi ) np i 1 gdzie n wielkość próby, k liczba klas, n i liczność i-tej klasy, i p i prawdopodobieństwo, że cecha przyjmie wartość należącą do i-tej klasy. Zbiorem krytycznym testu jest zbiór W 1, k 1, gdzie p, f jest kwantylem rzędu p rozkładu chi-kwadrat o f stopniach swobody. Jeżeli obliczona wartość statystyki zawiera się w zbiorze krytycznym W, wówczas hipotezę H odrzucamy na rzecz hipotezy alternatywnej. W przeciwnym przypadku nie mamy podstaw do odrzucenia hipotezy.. Test zgodności Kołmogorowa może być stosowany dla małych prób pochodzących z populacji o rozkładzie ciągłym badanej cechy. 3. Test zgodności Kołmogorowa-Smirnowa stosowany jest do weryfikacji hipotez o identyczności rozkładów badanej cechy dla dwóch populacji. Wymagane jest spełnienie założenia o ciągłości rozkładów. 4. Test zgodności Kruskala-Wallisa służy do weryfikacji hipotez o identyczności rozkładów cechy dla wielu populacji. Wymagane jest spełnienie założenia o ciągłości rozkładów. 5

Procedury i funkcje programu Statgraphic Do weryfikacji hipotezy o postaci rozkładu cechy populacji, z której pochodzi próbka służy polecenie Describe / Distributions /Distributions Fitting (Uncensored Data) Spośród opcji testowanych wskazujemy grupę testów zgodności (Kołmogorowa i chi-kwadrat) Goodness-of-Fit Tests, a dodatkowo jeżeli hipoteza dotyczy rozkładu normalnego testy normalności Tests for Normality. Do porównania dwóch prób stosuje się polecenie: Compare / Two Samples / Two-Sample Comparison Następnie spośród opcji tekstowych należy wybrać Kołmogorov_Smirnov Test. Do porównania wielu prób stosuje się polecenie: Compare/Multiple Samples/Multiple-Sample Comparison Spośród opcji tekstowych wybieramy test Kruskal-Wallis and Friedman Tests Do obliczenia kwantyli rozkładu chi-kwadrat należy w kalkulatorze programowym skorzystać z funkcji INVCHISQUARE(? ;? ). Pierwszym parametrem funkcji jest rząd szukanego kwantyla, drugim liczba stopni swobody. 6

Zapis danych (Data File) i zbioru analiz (StatFolio) W celu zapisania wykonanej pracy należy zapisać plik z analizami: Przed zapisem analiz pojawi się okno z pytaniem o zapis arkusza z danymi: Uwaga: przy zapisie należy zwrócić uwagę, aby zbiór analiz i zbiór danych zapisać w tym samym folderze. Przy zapisie samego arkusza z danymi należy wybrać: Literatura Grzegorzewski P. (red): Wybrane zagadnienia wnioskowania statystycznego z wykorzystaniem pakietu STATGRAPHICS preskryp laboratoryjny. Oficyna Wydawnicza PW, Warszawa 001 Krysicki W., Bartos J. i in. Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach PWN Warszawa 1986 ZADANIA Zadanie 1 Wygenerować 00 elementowa próbkę z rozkładu logarytmiczno-normalnego o parametrach LN(5,). Utworzyć dla tej próbki: - szereg rozdzielczy - histogramy liczebności i częstości - histogramy skumulowanych liczebności i częstości - łamane liczebności i częstości - łamane skumulowanych liczebności i częstości. Zapamiętać uzyskane wykresy tworząc tzw. slajdy, a następnie porównać odpowiadające sobie histogramy i łamane nakładając te slajdy na siebie. Porównać również otrzymaną dla tej próbki łamaną częstości oraz łamaną skumulowanych częstości z gęstością oraz dystrybuantą rozkładu teoretycznego LN(5,). 7

Zadanie Poniższe dane stanowią wyniki pomiarów lepkości pewnego produktu chemicznego, uzyskane w odstępach jednogodzinnych: 13.3 14.5 15.3 15.3 14.3 14.8 15. 14.5 14.6 14.1 14.3 16.1 13.1 15.5 1.6 14.6 14.3 15.4 15. 16.8 14.9 13.7 15. 14.5 15.3 15.6 15.8 13.3 14.1 15.4 a) Zbudować histogram i łamaną liczebności czasów dla lepkości tego produktu chemicznego b) Wyznaczyć podstawowe statystyki opisowe dla lepkości. c) Zweryfikować hipotezę, że lepkość tego produktu chemicznego ma rozkład normalny. Przyjąć poziom istotności a = 0.01. Zadanie 3 Zbadano grupę krwi 100 osób i otrzymano następujące wyniki: grupę 0 miało 39 osób, A - 44, B - 11, AB - 6 osób. a) Czy na podstawie tych danych można przyjąć hipotezę o równomiernym rozkładzie wszystkich grup krwi w badanej populacji? b) Zweryfikować hipotezę, że prawdopodobieństwa występowania grup krwi 0, A, B, AB są w stosunku 4 : 4 : 1 : 1. Przyjąć poziom istotności a = 0.05. Zadanie 4 W losowo wybranym jednogodzinnym przedziale czasowym odnotowano 7 rozmów telefonicznych o następującym czasie trwania (w minutach):.5; 1.8; 6.0; 0.5; 8.75; 1.; 3.75 Na poziomie istotności 0.01 zweryfikować hipotezę, że czas trwania rozmów ma rozkład wykładniczy. Zadanie 5 W zbiorze mpg z pliku CARDATA znajdują się dane dotyczące zużycia paliwa 155 losowo wybranych samochodów. Na poziomie istotności a = 0.05 zweryfikować hipotezę o normalności rozkładu zużycia paliwa. Porównać wyniki uzyskane przy pomocy różnych testów zgodności (normalności). Zadanie 6 Przeprowadzono eksperyment na dwóch próbach świnek morskich. Zaobserwowany ciężar świnek (w gramach) w pierwszej próbie kształtował się następująco: 80, 35, 70, 385, 75, 90, 400, 330, 300, 345 podczas gdy w drugiej próbie otrzymano: 60, 380, 30, 350, 85, 395, 370, 340, 310, 390, 355 Na poziomie istotności 0.05 zweryfikować hipotezę, że rozważane próby pochodzą z tej samej populacji. Zadanie 7 Zmienna origin z pliku CARDATA zawiera dane dotyczące producentów samochodów, których zużycie paliwa zamieszczone są w zbiorze mpg z pliku CARDATA. Na poziomie istotności a = 0.05 zweryfikować hipotezę o jednakowym zużyciu paliwa przez samochody produkcji europejskiej, japońskiej i amerykańskiej. 8