Wykład 14 Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.
Rozkład chi-kwadrat Suma kwadratów n-zmiennych losowych o rozkładzie normalnym standardowym ma rozkład chi-kwadrat o n-stopniach swobody: n i 1 X 2 i ~ 2 n, gdzie X ~ N(0;1) Wykres gęstości rozkładu w zależności od stopni swobody, zobacz: Plik w14_testowanie.xlsx zakładka "Rozkład_chi-kwadrat" (wykres jest na wysokości wiersza 40) 2,n Wprowadzamy oznaczenie (tzw. wartość krytyczną) w tym samy celu co wprowadzaliśmy u i dla rozkładów normalnego i t-studenta. t, n Wartości krytyczne odczytuje się z tablic: w14_testowanie.xlsx zakładka "Rozkład_chi-kwadrat" tablica od A1 do K38
Test zgodności chi-kwadrat (cz. 1) Test zgodności chi-kwadrat jest testem nieparametrycznym czyli służy do weryfikacji hipotezy o postaci rozkładu, np. czy rozkład jest normalny, Poissona itd., a nie weryfikacji wartości parametrów. Tego testu możemy użyć na przykład do sprawdzenia czy kostka do gry jest rzetelna, czy generator liczb losowych dobrze losuje liczby. Testowanie w przypadku cechy skokowej: Przykład. Sprawdźmy rzetelność kostki do gry. Plik w14_testowanie.xlsx zakładka "test chi-kwadrat". Testowanie w przypadku cechy ciągłej: Przykład. Sprawdźmy rzetelność funkcji los() arkusza kalkulacyjnego EXCEL do generowania liczb losowych z rozkładu jednostajnego. Plik w14_testowanie.xlsx zakładka "test chi-kwadrat 2"
Test zgodności chi-kwadrat (cz. 2) Testowanie w przypadku cechy ciągłej: Przykład. Sprawdźmy czy wyniki wskazują na rozkład normalny. Zad. 4/312 (Podgórski - Statystyka dla studiów licencjackich): W hipermarkecie sprzedaje się orzeszki o wadze 50g. Zważono 200 wylosowanych paczek orzeszków i otrzymano następujący rozkład wagi w tej próbie: Waga orzeszków 47-48 30 48-49 84 49-50 52 50-51 20 51-52 10 52-53 4 Liczba paczek Zweryfikuj na poziomie istotności 0,05 hipotezę, że waga paczki orzeszków ma rozkład normalny. Obliczenia: Plik w14_testowanie.xlsx zakładka "test chi-kwadrat 3"
Generowanie liczb losowych (cz. 1) Algorytm generowania liczb pseudolosowych: Dla ustalonych liczb a, b, p wybieramy dowolną liczbę X 0 zwaną ziarnem (seed). Następnie obliczamy: X 1 = ax 0 + b (mod p) X 2 = ax 1 + b (mod p)... X n+1 = ax n + b (mod p) Przy dobrze dobranych parametrach a,b,p i X 0 liczby: X1 2 n 1,,, mają własności niemal takie same jak liczby z rozkładu jednostajnego na przedziale [0,1) p X p X p Przykład wykorzystania algorytmu: w14_generowanie.xlsx zakładka "Generowanie liczb losowych". Liczby wygenerowane wg tego algorytmu są w kolumnie zielonej (E). W kolumnie żółtej (C) są liczby X 1,X 2,...,X n+1
Generowanie liczb losowych (cz. 2) Zasady dobierania parametrów a, b, p, X 0 : "p" powinno być bardzo duże, aby jak najbardziej ograniczyć okresowość (powtarzanie się tych samych liczb) "a" powinno być bardzo duże i względnie pierwsze z "p", również, aby ograniczyć okresowość "b" ma mniejsze znaczenie, często przyjmuje się zero X 0 można przyjąć jako 1 lub stempel czasu (czas od 1.01.1970) Liczby nazywamy pseudolosowe, bo jeśli znamy ziarno to możemy je obliczyć, albo jeśli będziemy brać takie same ziarno będziemy otrzymywać takie same liczby
Funkcje losujące Excel: funkcja los(): liczba z przedziału [0,1), teoretycznie liczby z rozkładu równomiernego o 10 10 różnych wartości JavaScript: Math.random(): liczba z przedziału [0,1), teoretycznie liczby z rozkładu równomiernego 10 17 różnych wartości Java: Math.random() tak jak w JavaScript lub skorzystać z klasy java.util.random PHP: rand(): liczba całkowita z zakresu od 0 do getrandmax(). W przypadku Windows getrandmax() = 2 15 mt_rand(): liczba całkowita z zakresu od 0 do mt_getrandmax(). W przypadku Windows mt_getrandmax() = 2 31. Przykłady losowań: losuj.zip
Generowanie liczb dla rozkładu jednostajnego rozkład jednostajny na odcinku [a,b] Mając liczby z rozkładu jednostajnego na odcinku [0,1] należy mnożyć przez (ba) i dodawać a. Czyli: po pomnożeniu przez (b-a) mamy liczby z przedziału [0,b-a], po dodaniu a mamy liczby z przedziału [a,b]
Generowanie liczb dla rozkładu równomiernego rozkład równomierny czyli liczby całkowite z określonego przedziału np. 1,2,3,4,5,6 Postępujemy tak: mając liczby z rozkładu jednostajnego na odcinku [1,7] zaokrąglamy je do dołu do liczby całkowitej (floor). Czyli musimy mieć liczby z rozkładu jednostajnego na odcinku o rozpiętości takiej ile jest możliwych liczb np. 6 i następnie zrobić zaokrąglenie do dołu. Inna metoda: Mając liczby całkowite wylosowane wg algorytmu ze slajdu "Generowanie liczb losowych" bierzemy reszty z dzielenia tych liczb przez 6 i dodajemy jeden. Wytłumaczenie: skoro dzielimy przez 6 to możliwe reszty: 0,1,2,3,4,5 a jeśli jeszcze dodajemy jeden: to będziemy uzyskiwać liczby spośród: 1,2,3,4,5,6 z równym p-stwem Liczby wygenerowane z rozkładu równomiernego od 1 do 6: w15.xlsx zakładka "Generowanie liczb losowych" kolumna niebieska
Generowanie liczb dla rozkładów ciągłych na przykładzie rozkładu wykładniczego i normalnego Metoda odwrócenia dystrybuanty: Liczbą losową z rozkładu o dystrybuancie F będzie F -1 (a), gdzie a jest liczbą losową z rozkładu jednostajnego na odcinku [0,1] Zobacz wygenerowane liczby dla rozkładów: wykładniczego, normalnego: w14_generowanie.xlsx zakładka "Generowanie liczb losowych" kolumny: I, K Kolumna I - rozkład wykładniczy o parametrze 3. Np. Urządzenie psuje się trzy razy w ciągu doby. Wygenerowane liczby to czas bezawaryjnej pracy urządzenia, np. 0,25 czyli 6 godzin (ułamek odnosimy do jednostki czasu, u nas to doba) Kolumna K - rozkład normalny o parametrach m=170, sigma=10. Np. te liczby to może być wzrost wylosowanych 20 osób, zakładając że rozkład wzrostu w populacji jest N(170,10).
Generowanie liczb dla rozkładu Poisson Zobacz w14_generowanie.xlsx zakładka "Generowanie liczb losowych" kolumna P Kolumna P - rozkład Poiss(3) czyli lambda = 3. Np. te liczby to może być liczba wypadków spowodowana przez kierowców w ciągu roku, zakładając, że rozkład liczby wypadków jest Poiss(3) czyli średnio kierowca powoduje 3 wypadki w jakiejś jednostce czasu (u nas jednostka to rok). Czyli pierwszy kierowca spowodował 3 wypadki, drugi 2 itd.
Słowniczek testing hypothesis - testowanie hipotez the null hypothesis - hipoteza zerowa the alternative hypothesis - hipoteza alternatywna acceptance of H0 - przyjęcie H0 (nie ma podstaw do odrzucenia) rejection of H0 in favor of H1 - odrzucenie H0 na rzecz H1 acceptance / rejection region - obszar przyjęć / odrzuceń the significance level - poziom istotności the power of the test - moc testu type I error, type II error - błąd I rodzaju, błąd II rodzaju the Chi-square distribution - rozkład chi-kwadrat Chi-square test - test chi-kwadrat