Czy zawsze prawidłowo interpretujemy wyniki statystycznych testów nieparametrycznych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Czy zawsze prawidłowo interpretujemy wyniki statystycznych testów nieparametrycznych"

Transkrypt

1 PRACE POGLĄDOWE Jerzy A. Moczko Czy zawsze prawidłowo interpretujemy wyniki statystycznych testów nieparametrycznych Do we always correctly interpret the results of statistical nonparametric tests Katedra i Zakład Informatyki i Statystyki Uniwersytetu Medycznego w Poznaniu Kierownik: Prof. zw. dr hab. Jerzy A. Moczko Dodatkowe słowa kluczowe: test nieparametryczny interpretacja wyników statystycznych asymptotyczna wydajność względna metody wyznaczania p-value Additional key words: nonparametric test statistical results interpretation asymptotic relative efficiency methods for p-value estimation Adres do korespondencji: Prof. dr hab. Jerzy A. Moczko Katedra i Zakład Informatyki i Statystyki Poznań, ul. Dąbrowskiego 79 tel./fax: (+61) jmoczko@amp.edu.pl Grupą powszechnie stosowanych testów do analizy wyników klinicznych i laboratoryjnych są testy nieparametryczne m.i. test Manna-Whitneya, Wilcoxona, Kruskala-Wallisa oraz Friedmana. Testy te są uważane za niezwykle elastyczne a ich asymptotyczna wydajność względna przekracza 95 procent. W porównaniu z odpowiadającymi im testami parametrycznymi nie wymagają sprawdzania spełnienia warunków takich jak normalność rozkładu danych, jednorodność wariancji, brak skorelowania średnich i odchyleń standardowych itp. Mogą być stosowane zarówno w skali interwałowej jak i porządkowej. W prezentowanym artykule przedstawiono na przykładzie testu Manna-Whitneya, że nie w każdej sytuacji wybór tych czterech testów nieparametrycznych traktowanych jako swoisty złoty standard doprowadza do prawidłowego wnioskowania. Co to są testy nieparametryczne? Jednym z najczęściej rozwiązywanych w badaniach medycznych zagadnieniem jest próba odpowiedzi na pytanie, czy obserwowany przez nas efekt ma naturę powtarzalną czy też pojawia się jedynie w sposób losowy. Poprzez efekt możemy rozumieć zmianę wartości średniej w porównywanych grupach, zmianę rozrzutu pomiarów wokół wartości średniej, wystąpienie związku przyczynowego między dwoma lub większą liczbą zmiennych, pojawienie się jakiegoś zdarzenia (np. remisja choroby, zgon). Konstruując parę hipotez statystycznych i wykorzystując tak zwane testy statystyczne usiłujemy odpowiedzieć na pytanie, czy przy założeniu prawdziwości hipotezy zerowej mówiącej o braku wystąpienia badanego efektu wystąpienie obserwowanego rozkładu danych jest prawdopodobne czy też nie. Gdy oszacowane prawdopodobieństwo (określane terminem p-value) jest większe od przyjętego przez eksperymentatora progu (zwanego poziomem istotności statystycznej), nie mamy podstaw do odrzucenia hipotezy zerowej. Należy jednakże pamiętać, że to stwierdzenie nie jest równoznaczne z uzyskaniem wniosku o prawdziwości hipotezy zerowej. Żaden test statystyczny nie wykazuje prawdziwości hipotezy zerowej o istnieniu braku efektu, lecz mówi jedynie o fakcie czy na podstawie uzyskanych z pomiaru danych występowanie takiego lub silniejszego efektu jest prawdopodobne czy też nie. Istnieją setki testów statystycznych Mann-Whitney, Wilcoxon, Kruskal- Wallis and Friedman tests create a group of commonly used tests to analyze the results of clinical and laboratory data. These tests are considered to be extremely flexible and their asymptotic relative efficiency exceeds 95 percent. Compared with the corresponding parametric tests they do not require checking the fulfillment of the conditions such as the normality of data distribution, homogeneity of variance, the lack of correlation means and standard deviations, etc. They can be used both in the interval and or-dinal scales. The article presents an example Mann-Whitney test, that does not in any case the choice of these four nonparametric tests treated as a kind of gold standard leads to correct inference. badających rozmaite efekty a wśród nich jednymi z najczęściej stosowanych są testy porównujące miary tendencji centralnej, najczęściej średnie arytmetyczne lub mediany. Pierwszy istotny podział testów dotyczy faktu, czy zakładamy apriorycznie iż dane pochodzą z populacji o określonym rozkładzie czy też nie [1]. W przypadku pierwszym mówimy o testach parametrycznych, w drugim o nieparametrycznych. Dla przykładu powszechnie stosowany test porównywania średnich arytmetycznych test t-studenta zakłada iż dane pochodzą z populacji, w której badana przez nas wielkość ma rozkład zgodny z rozkładem normalnym a nie na przykład z rozkładem eksponencjalnym. Oczywiście nie jest to jedyne założenie, które musi zostać spełnione, aby uzyskane wyniki można było traktować jako rzetelne. Nie wspomnieliśmy na przykład o kolejnym założeniu mówiącym o jednorodności wariancji w porównywanych grupach. Wróćmy jednakże do założenia o normalności. Wynika ono z przesłanek teoretycznych, na podstawie których test ten został skonstruowany. Jeżeli dane, które poddajemy analizie nie spełniają założeń, które przyjęto przy opracowywaniu testu, nie możemy się spodziewać, że wyniki będą prawidłowe. Im większe będzie odstępstwo od założenia, tym szansa wyciągnięcia prawidłowego wniosku będzie maleć. Opracowano liczną grupę testów określających, czy warunek normalności rozkładu został spełniony czy 654 JA. Moczko

2 też nie (np. test W Shapiro-Wilka, test Lilierforsa, test Kołmogorowa-Smirnowa). Dynamiczny rozwój technologii komputerowej zwłaszcza w kierunku wzrostu mocy obliczeniowej procesorów pozwolił na przeprowadzenie badań symulacyjnych, jak wielki jest wpływ niespełnienia warunku normalności rozkładu na wyniki uzyskane testem t-studenta. Okazało się, że nie są one tak krytyczne jak się pierwotnie tego spodziewano ale nie oznacza to, że można to założenie całkowicie pominąć. Stosowane są rozmaite transformacje danych pozwalające na zmniejszenie odstępstwa od normalności, lecz nie są one zbyt chętnie przez badaczy stosowane z uwagi na późniejsze trudności w interpretowaniu wyników. Pamiętajmy również, że testowanie istotności statystycznej efektu to nie zawsze tylko porównywanie średnich. Dla przykładu wspomniane już porównywanie wariancji rozkładu danych oparte jest na rozkładzie Fishera-Snedecora, a wymaganie spełnienia tego warunku jest o wiele bardziej restrykcyjne. O wiele częściej sięga się po bardzo efektywną grupę narzędzi, którą stanowią testy nieparametryczne. Do najczęściej stosowanych testów nieparametrycznych należą test Manna-Whitneya, Wilcoxona, Kruskala-Wallisa oraz Friedmana [2, 3]. Dwa ostatnie testy uzupełniane są testami wielokrotnych porównań typu post-hoc (najczęściej testem Dunna). Błędnym jest twierdzenie, że testy nieparametryczne nie wymagają spełnienia żadnych założeń. Dla uzyskania wiarygodności oszacowania testami nieparametrycznymi wartości p-value muszą być spełnione dwa warunki: niezależność procesu próbkowania oraz w pełni losowy przydział obiektów do analizowanych grup eksperymentalnych. Mimo, iż testy są ogólnie znane i stosowane badacze popełniają błędy przy interpretacji otrzymanych wyników. Co oznacza termin istotność różnicy rozkładów danych? Wielokrotnie w literaturze naukowej testy nieparametryczne zwane są testami rangowymi. Wynika to z faktu, że oszacowanie wartości p-value nie jest oparte bezpośrednio na surowych wartościach pomiarowych lecz na przypisanych tym pomiarom rangach prostych (w przypadku braku powtarzających się wartości pomiarowych) lub wiązanych (w przeciwnym przypadku). Rangowanie danych to nic innego jak przejście od najsilniejszej skali interwałowej(lub ilorazowej) do skali porządkowej. Utrata informacji o absolutnych odległościach między wartościami pomiarowymi wiąże się niestety z obniżeniem mocy testu, co może być częściowo skompensowane odpowiednim wzrostem liczebności badanych prób oraz zbalansowaniem tych liczebności. Przyjrzyjmy się parze hipotez, które konstruujemy w przypadku stosowania testu Manna-Whitneya (1) Symbol oznacza rozkład danych. Przyjęta przez nas hipoteza wyraża zatem fakt, iż rozkład danych w grupie x nieistotnie statystycznie różni się od rozkładu danych w grupie y. I tutaj pojawia się pierwsze nieporozumienie. Większość badaczy przyjmuje, że stwierdzenie to jest tożsame z sytuacją, gdzie wartości średnie lub mediany rozkładów nie różnią się od siebie istotnie statystycznie. Sytuacja ta może, ale nie musi być prawdziwa. Spróbujmy zatem zrozumieć co oznacza fakt, że dwa rozkłady danych różnią się od siebie w sposób istotny. Pierwszą sytuację ilustruje rycina 1. Analizowane dwa rozkłady danych to rozkłady gaussowskie o takiej samej wartości rozproszenia danych wokół wartości średnich różniące się wartościami miar tendencji centralnej (w naszym przypadku średnimi arytmetycznymi, medianami i modalnymi). W tym przypadku para hipotez (1) staje się równoważna parze (2) Hipoteza zerowa określa, że wartość średnia rozkładu danych w grupie x nieistotnie różni się od wartości średniej rozkładu danych w grupie y (w przypadku rozkładów symetrycznych oznacza to, że również mediany nie różnią się istotnie). Jeżeli pomiaru dokonano w skali co najmniej interwałowej do zbadania, która z hipotez jest bardziej prawdopodobna (innymi słowami, czy mamy wystarczający dowód na to by odrzucić założoną przez nas hipotezę zerową) użylibyśmy parametrycznego testu t-studenta dla zmiennych niepowiązanych. Jeżeli pomiar został dokonany w skali porządkowej to nie ma oczywiście sensu mówić o normalności rozkładu (rozkład ten opisują parametry średniej arytmetycznej i odchylenia standardowego, które nie występują w skali porządkowej lub nominalnej z uwagi na brak w tych skalach absolutnej odległości między pomiarami). Jednakże jeżeli interesuje nas fakt, czy rozkłady rang różnią się w obu porównywanych grupach pod względem miary tendencji centralnej. W tym celu możemy użyć któregoś z testów nieparametrycznych (Manna-Whitneya, Hodgesa-Lehmanna, Van der Waerdena, Savage a). Spośród wymienionych testów najbardziej znany i najczęściej stosowany jest test Manna-Whitneya (MW) zwany również testem Wilcoxona sumy rang. Możemy dla niego zapisać parę testowanych hipotez w postaci (3) gdzie oznacza rozkład wartości pomiarów zebranych w schemacie zmiennych niepowiązanych w pierwszej porównywanej grupie, rozkład wartości pomiarowych w drugiej grupie a symbol wartość nieznanego przesunięcia rozkładu. Z technicznego punktu widzenia wyznaczenie statystyki MW bazuje na porangowaniu danych w połączonych obu grupach a następnie rozdzieleniu tak uzyskanych rang odpowiednio do tej grupy, z której pochodzi konkretna dana. Jeżeli średnie wartości rang w porównywanych grupach różnią się silnie od siebie podejrzewamy, że próby pobrano z populacji różniących Rycina 1 Dwa rozkłady normalne o identycznych wartościach odchyleń standardowych i różnych wartościach miar tendencji centralnej. Two Gaussian distributions with identical standard deviations and different central tendency. Measures. Rycina 2 Przykład danych o identycznych medianach różniących się rozkładami. Exemplary data with identical medians and different distributions. Przegląd Lekarski 2014 / 71 /

3 Rycina 3 Dwa rozkłady normalne o identycznych wartościach miar tendencji centralnej i różnych wartościach odchyleń standardowych. Two Gaussian distributions with identical central tendency measures and different standard deviations. Rycina 4 Dwa rozkłady normalne o różniących się wartościach odchyleń standardowych i miar tendencji centralnej. Two Gaussian distributions with different standard deviations and central tendency measures. Rycina 5 Rozkłady różniące się kształtem. Distributions different in their shapes. się rozkładami. Test Manna-Whitneya wyznacza wartość p-value, która odpowiada na następujące pytanie: Jeżeli przyjmiemy, że pomiary w porównywanych grupach zostały pobrane z populacji o jednakowych rozkładach (hipoteza zerowa), to jak wielkie jest prawdopodobieństwo zdarzenia procedura losowego próbkowania da w wyniku średnie rang oddalone od siebie co najmniej tak daleko, jak odległość zaobserwowana w eksperymencie? Jeżeli p-value będzie miało wartość poniżej przyjętego progu istotności mamy podstawy do odrzucenia hipotezy zerowej. Sam test Manna-Whitneya nie pozwala ocenić, jak duża jest wartość przesunięcia. Nieobciążoną wartość mediany (MUE median unbiased estimate) przesunięcia i związany z nią dokładny przedział ufności możemy wyznaczyć stosując test Hodgesa-Lehmana. Test Savage a jest specjalnie dedykowany sytuacjom w których porównywane rozkłady mają charakter eksponencjalny. Test Van der Waerdena wykazuje przewagę pod względem asymptotycznej wydajności względnej ARE Asymptotic Relative Efficiency) nad testem Manna- Whitneya, gdy oba porównywane rozkłady są rozkładami normalnymi (ARE testu Van der Waerdena w tym przypadku wynosi 100% w stosunku do parametrycznego testu t-studenta, w porównaniu z 95.5% dla testu Manna-Whitneya). Często spotykamy się z stwierdzeniem, że test Manna-Whitneya służy do porównywania median. Nie zawsze jest to prawdą. Test Manna-Whitneya porównuje średnie rang. Jedynie w sytuacji, gdy kształty rozkładów danych w porównywanych populacjach są takie same możemy mówić o porównywaniu median (lub nawet średnich arytmetycznych w sytuacji gdy oba rozkłady nieistotnie różnią się od rozkładu normalnego). Przykład sytuacji w której mamy do czynienia z istotną różnicą rozkładów a mediany są identyczne przedstawia rycina 2. Przyjrzyjmy się teraz rysunkowi 3. Znowu mamy do czynienia z dwoma rozkładami normalnymi, tym razem o identycznej wartości miary tendencji centralnej, jednakże różniących się stopniem rozproszenia danych wokół wartości średniej (4). gdzie wielkość nazywamy współczynnikiem skali. Próba użycia w tej sytuacji testu Manna-Whitneya nie wykaże wystąpienia istotnych różnic między rozkładami mimo iż różnice takie ewidentnie występują. Testem parametrycznym służącym do weryfikacji pary hipotez (4) jest test Fishera-Snedecora. Jego odpowiednikami w grupie testów nieparametrycznych są testy: Siegela-Tukeya, Ansari-Bradleya, Klotza oraz Mooda. O ile pierwsze dwa testy cechują się niską wartością ARE (około 61%), o tyle test Klotza osiąga ARE = 100% w stosunku do testu Fishera-Snedecora dla porównywanych populacji o rozkładzie normalnym a test Mooda około 76%. Wszystkie cztery testy zakładają, że miary tendencji centralnej (mediany lub średnie arytmetyczne) w obu porównywanych grupach nieistotnie się od siebie różnią. Bardziej złożoną sytuację przedstawia rycina 4. Mamy tu do czynienia zarówno z różnicą miary tendencji centralnej jak i parametru skali. Najbardziej efektywne w tym przypadku są testy Kołmogorowa-Smirnowa, Conovera, permutacyjny i Lepage. Pierwszy test to test silnie reagujący na jakiekolwiek różnice zarówno w kształcie rozkładu (np. pomiary w grupie pierwszej podlegają rozkładowi normalnemu a w grupie drugiej rozkładowi eksponencjalnemu jak na rysunku 5), jak i różnice w zakresie rozrzutu oraz lokacji (miar tendencji centralnej). Test Conovera [4] dokonuje detekcji w zakresie różnic w parametrach lokacji i skali z tym, że jego ARE silnie zależy od 656 JA. Moczko

4 Rycina 6 Przykładowa tablica kontyngencji o wymiarach 5 * 6 o ustalonych sumach brzegowych poziomych i pionowych służąca do wyznaczenia zestawu macierzy referencyjnych. Exemplary contingency table (dimensions 5 * 6) with fixed row and column margins used to enumerate reference matrices. kształtu rozkładu. Przy porównaniu dwóch rozkładów normalnych ARE wynosi około 76% w stosunku do testu F Fishera-Snedecora, podczas gdy przy porównaniu dwóch rozkładów eksponencjalnych ARE osiąga aż 108%. Test permutacyjny jest uogólnieniem testu Kołmogorowa-Smirnowa a jego liczne odmiany pozwalają doświadczonemu eksperymentatorowi dobrać wersję o optymalnej dla danego zagadnienia wartości ARE. Ostatni z testów jest kombinacją testu Manna-Whitneya i Ansari-Bradleya, zatem wykorzystywany jest w sytuacjach znajdowania różnic w parametrach lokacji i skali. Para testowanych hipotez przyjmuje kształt (5) Rycina 7 Przykładowe wyniki wartości p-value dla testu Manna-Whitneya uzyskane na tym samym zestawie danych metodą asymptotyczną oraz dokładną. Exemplary results for Mann-Whitney test p-value estimated with the same data set using asymptotical and exact method. Metody wyznaczania wartości p- value Każdy z wymienionych testów pozwala na wyznaczenie odpowiedniej wartości p-value pozwalającej na podjęcie decyzji o przyjęciu bądź odrzuceniu określonej przez nas hipotezy zerowej. W zdecydowanej większości pakietów statystycznych wartości p-value są obliczane metodą asymptotyczną. Oznacza to, że zakładamy iż mamy wystarczającą liczebność próby dla uzyskania zbieżności statystyki testowej do rozkładu normalnego (w przypadku zmiennych ciągłych) lub rozkładu chi-kwadrat (w przypadku zmiennych kategorialnych). Warunek ten niestety często nie jest spełniony. W specyficznych sytuacjach (małe liczebności prób, liczne rangi wiązane, dane silnie niezbalansowane lub w postaci macierzy rzadko obsadzonych) asymptotyczne oszacowania wartości p mogą prowadzić do fałszywego wnioskowania. Dlatego też niektóre pakiety statystyczne umożliwiają alternatywne sposoby oszacowywania tej wielkości [5]. Pierwsza metoda zwana techniką permutacyjną oparta jest na procedurze identyfikacji wszystkich możliwych macierzy w zestawie referencyjnym, dla których wartość statystyki χ2 Pearsona wynosi co najmniej tyle, ile wynosi wynik dla badanej przez nas macierzy danych. Przez zestaw referencyjny rozumiemy zbiór takich macierzy, które mają identyczne rozmiary jak macierz analizowana metodą asymptotyczną oraz identyczne wartości sum brzegowych poziomych i pionowych. Wyznaczone w ten sposób prawdopodobieństwa wszystkich macierzy referencyjnych sumujemy Rycina 8 Przykładowe wyniki wartości p-value dla testu Manna-Whitneya uzyskane na tym samym zestawie danych metodą asymptotyczną oraz Monte Carlo. Exemplary results for Mann-Whitney test p-value estimated with the same data set using asymptotical and Monte Carlo method. uzyskując w wyniku dokładną wartość p- value. Należy sobie zdawać sprawę z tego, że nawet stosunkowo niewielkie tablice kontyngencji generują gigantyczne ilości macierzy referencyjnych. Dla przykładu w dokumentacji elektronicznej programu STATXACT przytaczana jest tablica kontyngencji o wymiarach 5 * 6 (rycina 6), dla której zestaw referencyjny zawiera ponad 1.6 miliarda macierzy. Jak widać opisana technika jakkolwiek dokładna wymaga wielkich mocy obliczeniowych i dlatego nie jest ona szeroko znana i rozpowszechniona. Moc obliczeniowa oznacza nie tylko szybkość zastosowanych procesorów ale również bardzo duże zasoby pamięci operacyjnej i masowej, co jeszcze do niedawna ograniczało możliwości prowadzenia kalkulacji przy użyciu komputerów osobistych. Dopiero w ostatnich latach obliczenia takie stały się możliwe po wprowadzeniu specjalnie opracowanych algorytmów sieciowych. Nadal jednak złożoność obliczeniowa może być przeszkodą w wyznaczeniu dokładnej wartości p-value i wtedy zastosowanie znajduje metoda Monte Carlo. W przeciwieństwie do metody dokładnej w metodzie Monte Carlo procedurze nie identyfikujemy wszystkie możliwe macierze w zestawie referencyjnym, lecz jedynie ich część. Próbkowanie macierzy z zestawu referencyjnego następuje zgodnie z zachowaniem proporcji wynikających z rozkładu hipergeometrycznego określającego prawdopodobieństwo wystąpienia określonej macierzy w zestawie referencyjnym (6) gdzie m i n to odpowiednio wierszowe i kolumnowe sumy brzegowe, k i w liczba kolumn i wierszy, N całkowita wielkość próby a x ij to wartość obserwowana pomiaru w komórce (i,j). Nieobciążony estymator Monte Carlo dla dokładnej wartości p-value uzyskujemy ze wzoru (7) gdzie A to liczba macierzy z zestawu referencyjnego dających wynik statystyki χ2 Pearsona co najmniej tak duży, jak wynik dla badanej przez nas macierzy danych natomiast M oznacza całkowitą liczbę macierzy wylosowanych z pełnego zestawu referencyjnego. Metoda Monte Carlo pozwala dodatkowo na oszacowanie przedziału ufności CI dla estymatora zgodnie ze wzorem (8) gdzie jest α - percentylem standaryzowanego rozkładu normalnego. Jak widać Przegląd Lekarski 2014 / 71 /

5 poprzez zmianę liczby M wylosowanych macierzy można uzyskiwać większą lub mniejszą precyzję estymowanej wartości p-value. Podsumowanie Powyższy przegląd nie wyczerpuje w żadnym przypadku problemu wiarygodności wniosków uzyskiwanych przy użyciu testów nieparametrycznych, gdyż nie uwzględniliśmy tu na przykład testu Walda-Wolfowitza czy też testów dla pomiarów uciętych (test logrank czy też Wilcoxona-Gehana). Niemniej jednak próbujemy zasygnalizować zjawisko nieadekwatnego stosowania w szczególnych sytuacjach powszechnie stosowanych testów nieparametrycznych traktowanych często jako złoty standard we wnioskowaniu statystycznym. Piśmiennictwo 1. Sheskin DJ: Handbook of parametric and nonparametric statistical procedures. Chap-man & Hall / CRC Daniel WW: Applied nonparametric statistics. Duxbury Thomson Learning Hollander M, Wolfe DA: Nonparametric statistical methods. John Wiley & Sons, Inc Conover WJ: Practical nonparametric statistics. John Wiley & Sons, Inc Cytel Statxact Version (Jan 16,2013) JA. Moczko

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Jak sprawdzić normalność rozkładu w teście dla prób zależnych? Jak sprawdzić normalność rozkładu w teście dla prób zależnych? W pliku zalezne_10.sta znajdują się dwie zmienne: czasu biegu przed rozpoczęciem cyklu treningowego (zmienna 1) oraz czasu biegu po zakończeniu

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności

Bardziej szczegółowo

Przykład 1. (A. Łomnicki)

Przykład 1. (A. Łomnicki) Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

1 Estymacja przedziałowa

1 Estymacja przedziałowa 1 Estymacja przedziałowa 1. PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ (a) MODEL I Badana cecha ma rozkład normalny N(µ, σ) o nieznanym parametrze µ i znanym σ. Przedział ufności: [ ( µ x u 1 α ) ( σn ; x + u 1 α

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie Wyznaczanie przedziału 95%CI oznaczającego, że dla 95% prób losowych następujące nierówności są prawdziwe: X t s 0.025 n < μ < X + t s

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie... Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów Wstęp... 13 1. Wprowadzenie... 19 1.1. Statystyka opisowa.................................. 21 1.2. Wnioskowanie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice Przedmowa do wydania polskiego Przedmowa CZĘŚĆ I. PODSTAWY STATYSTYKI Rozdział 1 Podstawowe pojęcia statystyki

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Testowanie hipotez statystycznych Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/23 Testowanie hipotez średniej w R Test istotności dla wartości

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę) PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Metody nieparametryczne Do tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych W kaŝdym przypadku zakładaliśmy

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.48 WIESŁAWA MALSKA Wykorzystanie testu Levene a i testu Browna-Forsythe

Bardziej szczegółowo

Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics

Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics Wydawnictwo UR 2017 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 2/20/2017 www.eti.rzeszow.pl DOI: 10.15584/eti.2017.2.13 WIESŁAWA MALSKA Wybrane statystyki nieparametryczne Selected

Bardziej szczegółowo

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) ANOVA Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup). Model jednoczynnikowy analiza

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne 1 Wybrane testy nieparametryczne 1. Test chi-kwadrat zgodności z rozkładem oczekiwanym 2. Test chi-kwadrat niezależności dwóch zmiennych kategoryzujących 3. Test U Manna-Whitney

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

Test t-studenta dla jednej średniej

Test t-studenta dla jednej średniej Test t-studenta dla jednej średniej Hipoteza zerowa: Średnia wartość zmiennej w populacji jest równa określonej wartości a 0 (a = a 0 ). Hipoteza alternatywna 1.: Średnia wartość zmiennej w populacji jest

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,

Bardziej szczegółowo

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi

Bardziej szczegółowo

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow Testowanie Hipotez Wprowadzenie Testy statystyczne: pocz. XVII wieku (prace J.Arbuthnotta, liczba urodzeń noworodków obu płci w Londynie) Testowanie hipotez: Karl Pearson (pocz. XX w., testowanie zgodności,

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne

Metody Statystyczne. Metody Statystyczne #7 1 Czy straszenie jest bardziej skuteczne niż zachęcanie? Przykład 5.2. s.197 Grupa straszona: 8,5,8,7 M 1 =7 Grupa zachęcana: 1, 1, 2,4 M 2 =2 Średnia ogólna M=(M1+M2)/2= 4,5 Wnioskowanie statystyczne

Bardziej szczegółowo

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X

Bardziej szczegółowo

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska Porównanie modeli statystycznych Monika Wawrzyniak Katarzyna Kociałkowska Jaka jest miara podobieństwa? Aby porównywać rozkłady prawdopodobieństwa dwóch modeli statystycznych możemy użyć: metryki dywergencji

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.

Bardziej szczegółowo

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1. Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Badania eksperymentalne

Badania eksperymentalne Badania eksperymentalne Pomiar na skali porządkowej mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka matematyczna. Wykład V. Parametryczne testy istotności Statystyka matematyczna. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Weryfikacja hipotezy o równości wartości średnich w dwóch populacjach 2 3 Weryfikacja hipotezy o równości wartości średnich

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa Test serii (test Walda-Wolfowitza) Założenie. Rozpatrywane rozkłady są ciągłe. Mamy dwa uporządkowane

Bardziej szczegółowo

Elementy statystyki STA - Wykład 5

Elementy statystyki STA - Wykład 5 STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40 Statystyka dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl wersja 20.01.2013/13:40 Tematyka wykładów 1. Definicja statystyki 2. Populacja, próba 3. Skale pomiarowe 4. Miary położenia (klasyczne i pozycyjne)

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Było: Estymacja parametrów rozkładu teoretycznego punktowa przedziałowa Przykład. Cecha X masa owocu pewnej odmiany. ZałoŜenie: cecha X ma w populacji rozkład

Bardziej szczegółowo

Wykład 11 Testowanie jednorodności

Wykład 11 Testowanie jednorodności Wykład 11 Testowanie jednorodności Wrocław, 17 maja 2018 Test χ 2 jednorodności Niech X i, i = 1, 2,..., k będą niezależnymi zmiennymi losowymi typu dyskretnego przyjmującymi wartości z 1, z 2,..., z l,

Bardziej szczegółowo