MOC TESTÓW NIEZALEŻNOŚCI W TABLICY TRÓJDZIELCZEJ 2 2 2
|
|
- Halina Leśniak
- 6 lat temu
- Przeglądów:
Transkrypt
1 PRZEGLĄD STATYSTYCZNY R. LXIII ZESZYT PIOTR SULEWSKI 1 MOC TESTÓW NIEZALEŻNOŚCI W TABLICY TRÓJDZIELCZEJ WPROWADZENIE Moc testów to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy nie jest ona prawdziwa. Testy niezależności należą do najczęściej stosowanych narzędzi statystycznych, a dane do nich aranżuje się w postaci tablic wielodzielczych, a w szczególności tablic trójdzielczych (TT) Wydawać by się mogło, że o metodach analizy tablic wielodzielczych powiedziano już wszystko. Jednak w dobie szeroko rozwiniętej informatyzacji i możliwości przeprowadzania symulacji komputerowych, na wiele zagadnień można spojrzeć nowym okiem. W (Cressie, Read, 1984) zaproponowano dla tablic dwudzielczych (TD) w k rodzinę 6 statystyk, które mają asymptotyczny rozkład chi-kwadrat z (w 1)(k 1) stopniami swobody. Do tzw. statystyk chi-kwadrat należą następujące statystyki: χ 2 Pearsona (Pearson, 1900), G 2 ilorazu wiarygodności (Sokal, Rohlf, 2012), N Neymana (Neyman, 1949), KL Kullbacka-Leiblera (Kullback, 1959), FT Freemana- Tukeya (Freeman, Tukey, 1950) oraz CR Cressiego-Reada (Cressie, Read, 1984). W pracy Sulewskiego (2014) pokazano, że statystyki chi-kwadrat są wystarczająco bliskie rozkładowi chi-kwadrat dla próbek liczących przynajmniej kilkaset elementów. Aby można było skorzystać z próbek mniej licznych wyznaczono wartości krytyczne na drodze symulacji komputerowych metodą Monte Carlo. Wyznaczanie wartości krytycznych na podstawie np wartości statystyki testowej w dobie wydajnych komputerów z procesorami wielordzeniowymi nie stanowi problemu. W pracy Sulewski (2013) zaproponowano statystykę modułową będącą modyfikacją statystyki χ 2 Pearsona dla TD w k. Statystykę modułową porównano pod względem mocy testu ze statystykami chi-kwadrat dla TD 2 2 (Sulewski, 2016a) oraz dla wybranych rozmiarów TD większych niż 2 2 (Sulewski, 2016b). Celem pracy jest przedstawienie teorii dotyczącej autorskiej statystyki modułowej mierzącej niezależność zmiennych dla TT i zbadanie jej własności w odniesieniu do znanych statystyk chi-kwadrat, opisanie procedury generowania zawartości tych tablic metodą słupkową, wprowadzenie nowej miary nieprawdziwości H 0. Praca składa się z siedmiu punktów. W punkcie drugim zdefiniowano TT oraz opisano metodę słupkową generacji zawartości tych tablic. W punkcie trzecim 1 Akademia Pomorska w Słupsku, Instytut Matematyki, ul. Arciszewskiego 22, Słupsk, Polska, piotr.sulewski@apsl.edu.pl.
2 432 Piotr Sulewski rozszerzono postać statystyk chi-kwadrat oraz statystyki modułowej na TT W punkcie czwartym opisano sposób wyznaczania wartości krytycznych. W punkcie piątym zaproponowano miarę nieprawdziwości hipotezy H 0 zdefiniowaną dla różnych schematów wyznaczania prawdopodobieństw p ijt (i,j,t = 1,2), dla których H 0 jest niesłuszna. Wartości proponowanej miary siły związku porównano z wartościami współczynników: Graya-Williamsa (Gray, Williams, 1975), Marcotorchino (Marcotorchino, 1984), Lombardo (Lombardo, 2011). W punkcie szóstym testy niezależności wykorzystujące statystykę modułową oraz statystyki chi-kwadrat porównano ze względu na ich moc czyli zdolność testu do odrzucenia hipotezy H 0 mówiącej o tym, że nie ma związku między cechami X, Y, Z w sytuacji, gdy w rzeczywistości jest ona fałszywa. Punkt ostatni poświęcono podsumowaniu. 2. TABLICA TRÓJDZIELCZA Tablicę, która gromadzi wynik podziału próby według trzech cech X, Y, Z nazywamy tablicą trójdzielczą (TT). Można sobie ją wyobrazić jako kostkę z w wierszami, k kolumnami i p płaszczyznami. TT można także zilustrować rozkładając płaszczyzny p obok siebie. TT ułatwia odczytywanie zależności między cechami tak ilościowymi, jak i jakościowymi. Najprostszą jej postacią jest tablica (tabela 1), która składa się z 8 liczebności n ijt (i,j,t = 1,2) rozkładu łącznego cech X, Y, Z. Tablica trójdzielcza Tabela 1. Z Z 1 Z 2 Razem X \ Y Y 1 Y 2 Y 1 Y 2 X 1 n 111 n 121 n 112 n 122 n 1 X 2 n 211 n 221 n 212 n 222 n 2 Razem n 11 n 21 n 12 n 22 n Liczebności oczekiwane dla TT przy założeniu niezależności badanych zmiennych wyznacza się ze wzoru. (1) TT można także przedstawić za pomocą prawdopodobieństw p ijt (i,j,t = 1,2) takich, że. W odniesieniu do tabeli 1 wartości te wyznaczane są
3 Moc testów niezależności w tablicy trójdzielczej ze wzoru p * = n * / n. Łatwo udowodnić, że sumy brzegowe liczebności oczekiwanych e ijt są takie same jak sumy brzegowe liczebności n ijt. Generację zawartości TT niezbędną do przeprowadzenia symulacji i wyznaczenia mocy testów przeprowadzono metodą słupkową (Sulewski, 2014). W tym celu przedział podzielono na podprzedziałów o szerokościach równych wartości prawdopodobieństw p ijt w taki sposób, że pierwszy podprzedział ma szerokość p 111, drugi p 112,, ostatni p 222. Wielkości p ijt spełniają oczywiście warunek normalizacji i dobrano je w taki sposób, aby uzyskać żądaną wartość miary nieprawdziwości H 0. Każda z n wygenerowanych liczb losowych równomiernych wpada do jednego z podprzedziałów i tym samym zostaje o jedną zwiększona liczba obiektów w odpowiadającej temu podprzedziałowi komórce TT. Wielkości n ijt spełniające równość są liczebnością obiektów w poszczególnych komórkach TT. Rysunek 1 przedstawia schemat wypełnienia komórek TT dla liczebności próby n = 200, gdy hipoteza zerowa jest słuszna, czyli p ijt = 1/8 dla każdego i, j, t = 1,2. Tabela 2 prezentuje odpowiadającą temu schematowi TT n = 200 liczb losowych równomiernych p 111 p 112 p 121 p 122 p 211 p 212 p 221 p ,1255 0,25 0,375 0,5 0,625 0,75 0,875 1 X 111 = 23 X 112 = 29 X 121 = 28 X 122 = 25 X 211 = 16 X 212 = 26 X 221 = 29 X 222 = 24 Rysunek 1. Schematyczne ujęcie metody słupkowej TT uzyskana metodą słupkową Tabela Razem X \ Y Y 1 Y 2 Y 1 Y 2 X X Razem
4 434 Piotr Sulewski 3. TESTY NIEZALEŻNOŚCI W TT W analizie niezależności cech X, Y, Z można badać: niezależność pełną, niezależność brzegową, niezależność częściową, niezależność łączną oraz niezależność warunkową. W pracy niniejszej badania ograniczone zostały tylko do niezależności pełnej, którą można wyrazić zapisem (XYZ, XY, XZ, YZ). Przy badaniu niezależności pełnej cech w tablicy założono hipotezę zerową, że między cechami X, Y, Z związek nie występuje, tzn. (2) dla każdego i,j,t = 1,2. Do badania niezależności pełnej cech X, Y, Z w tablicy skorzystano ze statystyki modułowej, która ma postać (3) oraz z rodziny statystyk, które są rozszerzeniem statystyk chi-kwadrat dla TD (Cressie, Read, 1984). Zalicza się do nich: 1) statystykę χ 2 Pearsona 2) statystykę G 2 ilorazu wiarygodności 3) statystykę N Neymana 4) statystykę KL Kullbacka-Leiblera, (4), (5), (6), (7)
5 Moc testów niezależności w tablicy trójdzielczej ) statystykę FT Freemana-Tukeya 6) statys tykę CR Cressiego-Reada, (8). (9) Powyższa rodzina statystyk dla TT przy prawdziwości hipotezy H 0 ma asymptotyczny rozkład chi-kwadrat z 4 stopniami swobody i dlatego jest określana mianem statystyk chi-kwadrat. Charakterystykę statystyk chi-kwadrat dla tablic dwudzielczych, trójdzielczych i czterodzielczych wraz z implementacją komputerową można znaleźć w Sulewski (2014). Liczebności n ijt (i,j,t = 1,2) w TT są zmiennymi losowymi. Godnym uwagi jest fakt, że zmienne losowe będące odwrotnościami lub ilorazami zmiennych losowych (patrz statystyki (6) i (7)) mogą nie posiadać wartości oczekiwanej i w konsekwencji także niektórych momentów wyższych rzędów. Rozkład chi-kwadrat jak powszechnie wiadomo posiada wszystkie momenty. Ponadto pożądanym jest, aby poszczególne składniki statystyki testowej gdy H 0 o niezależności cech X i Y jest słuszna były tego samego znaku i jak najbliższe 0. Składniki statystyk (5), (7) i (9) są różnego znaku i wzajemnie się rekompensują i tylko dla prób liczących przynajmniej kilkaset elementów podlegają rozkładowi chi-kwadrat (Sulewski, 2014). Tabela 3 przedstawia wartości poszczególnych składników statystyk chi-kwadrat wyznaczonych symulacyjnie dla TT i liczebności próby n = 200, gdy H 0 o niezależności cech X, Y, Z jest słuszna. Tabelę tę wygenerowano metodą słupkową opisaną powyżej dla p ijt = 0,125 (i,j,t = 1,2). Wartości ujemne pogrubiono. Wartości składników statystyk chi-kwadrat Tabela 3. Składnik χ 2 G 2 N KL FT CR i = 1, j = 1, t = 1 0,667-7,297 0,801-8,758 0,730-4,123 i = 1, j = 1, t = 2 0,260-5,197 0,235-4,702 0,247-3,224 i = 1, j = 2, t = 1 0,010-1,036 0,010-1,015 0,010-0,625 i = 1, j = 2, t = 2 0,041-2,076 0,040-1,994 0,041-1,262 i = 2, j = 1, t = 1 2,573-18,370 1,948-13,907 2,228 12,111
6 436 Piotr Sulewski Tabela 3. (cd.) Składnik χ 2 G 2 N KL FT CR i = 2, j = 1, t = 2 1,719-11,081 2,338-15,074 1,993-6,011 i = 2, j = 2, t = 1 0,773-8,234 0,932-9,929 0,847-4,645 i = 2, j = 2, t = 2 0,346-6,328 0,310-5,674 0,327-3,938 Razem 6,389-6,394 6,614-6,468 6,422-6, WYZNACZANIE WARTOŚCI KRYTYCZNYCH W okresie ostatnich kilkudziesięciu lat zaproponowano różne testy niezależności dla tablic kontyngencji oraz określono warunki ich stosowalności szczególnie dla małych prób, które najczęściej są przedmiotem badań statystycznych. Warunki te głównie dotyczą bardzo popularnego i powszechnie stosowanego testu niezależności χ 2 Pearsona. W dobie powszechnie stosowanych i ciągle rozwijających się technologii komputerowych można za pomocą stosownego oprogramowania znieść te ograniczenia i drogą symulacyjną wyznaczyć wartości krytyczne. Przy wyznaczaniu wartości krytycznych, gdy między cechami nie ma związku, zawartość TT o liczebności próby n wygenerowano za pomocą metody słupkowej przyjmując p ijt = 0,125 (i,j,t = 1,2). Niech ϖ będzie jedną z rozpatrywanych siedmiu statystyk. Dla każdej TT obliczono r = 10 5 razy wartości statystyki testowej ϖ, które następnie uporządkowano w kolejności rosnącej. Wartość krytyczną na poziomie istotności α = 0,1 wyznaczono na podstawie dziewiątego decyla ze wzoru cv α = ϖ (90000). Tak duża liczba powtórzeń r przy wyznaczaniu wartości statystyki testowej zapewnia uzyskanie dokładnego wyniku. 5. MIARY SIŁY ZWIĄZKU DLA TT Przeprowadzając badanie populacji generalnej istotna jest nie tylko zależność istniejąca między cechami, ale także jej siła. Teoria poświęcona miarom siły związku dla TT nie jest tak bogata jak dla TD, gdzie na szczególną uwagę zasługuje współczynnik τ Goodmana Kruskala (Goodman, Kruskal, 1979). Numerycznymi rozszerzeniami tego współczynnika dla TT są: współczynnik Graya Williamsa (Gray, Williams, 1975), współczynnik Marcotorchino (Marcotorchino, 1984) oraz współczynnik Lombardo (Lombardo, 2011). Informacje o innych mniej popularnych miarach można znaleźć w pracach Tuckera (1963), Harshmana (1970), Beha, Davy (1998) i Lombardo, Beha (2010). Jeżeli dwie cechy (np. Y, Z) są cechami objaśniającymi lub predyktorami wzajemnie zależnymi (ang. dependent predictor variables), a trzecia cecha (np. X) jest
7 Moc testów niezależności w tablicy trójdzielczej cechą objaśnianą lub odpowiedzi (ang. response variable), to współczynnik Graya Williamsa ma postać:, (10) gdzie p * = n * / n. Współczynnik ten przyjmuje wartości z przedziału. Jeżeli cechy Y i Z nie dostarczają informacji o cesze X, wtedy τ GW = 0. Wraz ze wzrostem informacji dostarczanej przez cechy Y i Z o cesze X wartość tego współczynnika zbliża się do jedności. Jeżeli dwie cechy (np. Y, Z) są cechami objaśniającymi lub predyktorami wzajemnie niezależnymi (ang. independent predictor variables), a trzecia cecha (np. X) jest cechą objaśnianą lub odpowiedzi (response variable), to współczynnik Marcotorchino ma postać:, (11) gdzie p * = n * / n. Jeżeli p ijt = p i p j p t, to τ M = 0, natomiast gdy p ijt = p i p t, to τ M = 1. Jeżeli dwie cechy (np. X, Y) są cechami objaśnianymi lub odpowiedzi (ang. independent response variables) a trzecia cecha (np. Z) jest cechą objaśniającą lub predyktorem, to współczynnik Lombardo zwany także współczynnikiem delta ma postać, (12) gdzie p * = n * / n. Jeżeli p ijt = p i p j p t, to τ L = 0. Wartość maksymalna τ L = 1, gdy p 1jt = 0 dla pewnych (j,t = 1,2) i p 2bc = 0,5 dla pewnych. Więcej informacji na temat trzech powyższych współczynników w tym także ich implementację komputerową w języku VBA można znaleźć w pracach Sulewski (2014, 2015). Bazując na klasycznej definicji niezależności cech X, Y, Z proponuje się miarę nieprawdziwości H 0 w postaci:. (13) Hipoteza zerowa H 0 mówiąca o tym, że między cechami X, Y, Z w TT nie ma związku jest słuszna, gdy p ijt = p i p j p t dla i,j,t = 1,2. Zatem miara (13) przyjmuje wartość 0, gdy hipoteza H 0 jest słuszna. Im większe wartości mn, tym większa jest możliwość fałszywości H 0. Miarę mn jako naturalną wynikającą z definicji niezależności cech wykorzystano w procesie wyznaczania mocy testów.
8 438 Piotr Sulewski 6. MOC TESTU W celu wyznaczenia mocy testu czyli zdolności TT do odrzucenia hipotezy zerowej H 0 mówiącej o tym, że nie ma związku między cechami X, Y, Z gdy w istocie związek jest, niezbędna staje się generacja zawartości TT. Uwzględniając narzuconą siłę związku między cechami uzyskaną dzięki generatorowi liczb losowych i wyrażoną za pomocą miary nieprawdziwości mn, do wypełnienia TT skorzystano z metody słupkowej wykorzystującej prawdopodobieństwa p ijt (i,j,t = 1,2). Znając wartość statystyki testowej ϖ dla różnych liczebności próby n wyznaczono moc testu za pomocą wzoru m = q / r, gdzie q określa liczbę tych spośród r = 10 5 wszystkich możliwych przypadków, kiedy to wartość statystyki testowej ϖ jest nie mniejsza od wartości krytycznej cv α. Do wyznaczenia mocy testu skorzystano ze schematów A, B, C, AB, AC, BC wyznaczania prawdopodobieństw p ijt (i,j,t = 1,2) (tabela 4). Schematy prawdopodobieństw ukazujące związek między cechami X, Y, Z Schemat A Tabela 4. Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o p o k Δp p o X 2 p o p o + k Δp p o p o + k Δp Schemat B Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o p o k Δp p o X 2 p o + k Δp p o p o + k Δp p o Schemat C Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o + k Δp p o k Δp p o + k Δp X 2 p o + k Δp p o k Δp p o + k Δp p o k Δp Schemat AB Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o p o k Δp p o X 2 p o p o + k Δp p o + k Δp p o
9 Moc testów niezależności w tablicy trójdzielczej Schemat AC Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o p o k Δp p o + k Δp X 2 p o p o + k Δp p o + k Δp p o k Δp Schemat BC Z Z 1 Z 2 X \ Y Y 1 Y 2 Y 1 Y 2 X 1 p o k Δp p o p o k Δp p o + k Δp X 2 p o + k Δp p o p o + k Δp p o k Δp Gdzie p o = 0,125, Δp = 0, , k = 0,,1000. Wartość minimalna miar siły związku (13) wynosi zero, dlatego w tabeli 5 przedstawiono tylko wartości maksymalne czterech miar siły związku dla różnych schematów prawdopodobieństw. Moc testu została wyznaczona dla wartości miary mn w punktach u = 0,1,,9. Miara ta dla wszystkich schematów prawdopodobieństw zmienia się ze stałym krokiem. W celu uzyskania takiej sytuacji należało odpowiednio dobrać wartości indeksu nieprawdziw ości k (tabela 6). Wartości maksymalne miar siły związku Tabela 5. Miara A B C AB AC BC τ GW 0,111 0, ,222 0,644 0,733 τ M 0,111 0, ,378 0,716 0,733 τ L 0,026 0,091 0,333 0,099 0,241 0,234 mn 0,25 0,5 1 0,44 0,67 0,75 Wartość indeksu nieprawdziwości k w punkcie u Tabela 6. u A B, C, BC AB AC
10 440 Piotr Sulewski u A B, C, BC AB AC Tabela 6. (cd.) Aby można było porównać analizowane testy niezależności, liczebności komórek TT muszą być niezerowe, czyli dla każdego i,j,t = 1,2, w sytuacji przeciwnej nie da się obliczyć wartości statystyk G 2, N, KL. W związku z powyższym moc testów niezależności zostanie obliczona dla u = 0,1,,9. Minimalną liczebność próby n dla danego schematu dobrano tak, aby dla każdego i,j,t = 1,2. Maksymalną liczebność próby ustalono tak, aby uzyskać maksymalną moc testu. Rysunki 2 7 przedstawiają zależność mocy testów niezależności od miary nieprawdziwości H 0 dla różnych schematów prawdopodobieństw, na poziomie istotności α = 0,1 i liczebności próby n. Rysunek 2. Moc testów niezależności dla schematu A prawdopodobieństw i liczebności próby n = 40 (I), n = 60 (II), n = 80 (III), n = 100 (IV)
11 Moc testów niezależności w tablicy trójdzielczej Rysunek 3. Moc testów niezależności dla schematu B prawdopodobieństw i liczebności próby n = 40 (I), n = 60 (II), n = 80 (III), n = 100 (IV) Rysunek 4. Moc testów niezależności dla schematu C prawdopodobieństw i liczebności próby n = 30 (I), n = 40 (II)
12 442 Piotr Sulewski Rysunek 5. Moc testów niezależności dla schematu AB prawdopodobieństw i liczebności próby n = 60 (I), n = 80 (II), n = 100 (III), n = 120 (IV) Rysunek 6. Moc testów niezależności dla schematu AC prawdopodobieństw i liczebności próby n = 30 (I), n = 40 (II)
13 Moc testów niezależności w tablicy trójdzielczej Rysunek 7. Moc testów niezależności dla schematu BC prawdopodobieństw i liczebności próby n = 30 (I), n = 40 (II) Dla statystyki modułowej χ oraz statystyki χ 2 Pearsona jako reprezentanta statystyk chi-kwadrat, uzyskane wyniki porównano za pomocą testu o równości prawdopodobieństw stawiając hipotezę zerową, że moce testów są równe. Symbol + oznacza, że różnice między mocami testów są statystycznie nieistotne, symbol - są statystycznie istotne (tabele 7 9). Tabela 7. Istotność statystyczna mocy testów χ i χ 2 dla schematów A i B Schemat A Schemat B mn n = 100 n = 150 n = 200 n = , , , , , , , , , mn n = 40 n = 60 n = 80 n = , , , , , , , , ,
14 444 Piotr Sulewski Istotność statystyczna mocy testów χ i χ 2 dla schematów C i AB Schemat C Schemat AB Tabela 8. mn n = 30 n = , , , , , , , , ,9 + + mn n = 60 n = 80 n = 100 n = , , , , , , , , , Istotność statystyczna mocy testów χ i χ 2 dla schematów AC i BC Schemat AC Schemat BC Tabela 9. mn n = 30 n = , , , , , , , , , mn n = 30 n = , , , , , , , , ,
15 Moc testów niezależności w tablicy trójdzielczej Z rysunków 2 7 wynika, że testy niezależności wykorzystujące statystyki chi- -kwadrat we wszystkich schematach prawdopodobieństw charakteryzują się podobną mocą dla danej liczebności próby n i miary mn. Wyjątkiem jest tylko schemat A dla którego miara mn przyjmuje najmniejsze wartości. Test wykorzystujący statystykę modułową ma podobną moc jak pozostałe testy niezależności dla schematów C, AC, BC. Dla schematu A test wykorzystujący statystykę modułową ma większą moc niż testy związane ze statystykami chi-kwadrat i ta przewaga jest statystycznie istotna dla mn > 0,025. Podobna sytuacja jest także dla schematu B, gdy mn > 0,02 oraz dla schematu AB, gdy mn > 0, PODSUMOWANIE Kwadrat użyty w liczniku statystyki χ 2 powoduje, że duże rozbieżności między liczebnością empiryczną a teoretyczną są jeszcze większe, a małe rozbieżności jeszcze mniejsze. Innym celem zastosowania kwadratu było uniknięcie wzajemnego niwelowania się rozbieżności. Do tego jednak celu zamiast kwadratu odchyleń można użyć także ich wartości bezwzględnej, stąd pomysł na statystykę modułową. Artykuł zwraca uwagę na fakt, że testy niezależności wykorzystujące statystyki chi- -kwadrat we wszystkich schematach prawdopodobieństw charakteryzują się podobną mocą dla danej liczebności próby n i miary mn. Nieznacznym wyjątkiem od tej reguły jest schemat A, w którym miara nieprawdziwości mn przyjmuje najmniejsze wartości. Statystyka modułowa charakteryzuje się podobną mocą jak statystyki chi-kwadrat dla schematów C, AC, BC oraz większą mocą dla schematów A, B, AB. Przewaga na korzyść nowej statystyki szczególnie jest widoczna dla mniejszych liczebności próby w ramach danego schematu. Badając niezależność trzech cech w pewnych schematach prawdopodobieństwa dla statystyki modułowej uzyskano wyższą moc wykrywania zależności, rozumianej w sensie zaproponowanej miary mn. Na korzyść proponowanej statystyki przemawia także fakt, że można z niej skorzystać w sytuacji, gdy komórki TT są puste. Statystyki G 2 ilorazu wiarygodności, N Neymana i KL Kullbacka-Leiblera nie spełniają tego założenia. Zatem można wnioskować, że statystyka modułowa jest nie mniej skuteczna niż statystyki chi-kwadrat i może stanowić alternatywę, zwłaszcza uwzględniając jej inne zalety. LITERATURA Beh E. J., Davy P. J., (1998), Partitioning Pearson s Chi-squared Statistic for a Completely Ordered Threeway Contingency Table, The Australian and New Zealand Journal of Statistics, 40, Cressie N., Read T., (1984), Multinomial Goodness-of-Fit Tests, Journal of the Royal Statistical Society. Series B (Methodological), 46 (3), Freeman M. F., Tukey J. W., (1950), Transformations Related to the Angular and the Square Root, Annals of Mathematical Statistics, 21,
16 446 Piotr Sulewski Goodman L., Kruskal W., (1954), Measures of Association for Cross Classifications, Journal of the American Statistical Association, 49, Gray L. N., Williams J. S., (1975), Goodman and Kruskal s Tau b: Multiple and Partial Analogs, in: Proceedings of the Social Statistics Section, American Statistical Association. Harshman R. A., (1970), Foundations of the PARAFAC Procedure: Models and Conditions for an Explanatory Multi-modal Factor Analysis, UCLA Working Papers in Phonetics, 16, Kullback S., (1959), Information Theory and Statistics, Wiley, New York. Lombardo R., (2011), Three-way Association Measure Decompositions: The Delta index, Journal of Statistical Planning and Inference, 141, Lombardo R., Beh E. J., (2010), Simple and Multiple Correspondence Analysis for Ordinal-scale Variables Using Orthogonal Polynomials, Journal of Applied Statistics, 37 (12), Marcotorchino F., (1984), Utilisation des Comparaisons par Paires en Statistique des Contingences, Partie (I), Etude IBM F069, France. Neyman J., (1949), Contribution to the Theory of the χ 2 Test, Proceedings of the [First] Berkeley Symposium on Mathematical Statistics and Probability, (Univ. of Calif. Press), Pearson K., (1900), On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be Reasonably Supposed to Have Arisen from Random Sampling, Philosophy Magazine Series, 5 (50), Sokal R. R., Rohlf F. J., (2012), Biometry: the principles and practice of statistics in biological research, Freeman, New York. Sulewski P., (2013), Modyfikacja testu niezależności, Wiadomości Statystyczne, GUS, 10, Sulewski P., (2014), Statystyczne badanie współzależności cech typu dyskretne kategorie, Akademia Pomorska, Słupsk. Sulewski P., (2015), Miary związku między cechami w tablicy trójdzielczej, Wiadomości Statystyczne, GUS, 1, Sulewski P., (2016a), Moc testów niezależności w tablicy dwudzielczej, Wiadomości Statystyczne, GUS, 8, Sulewski P., (2016b), Moc testów niezależności w tablicy dwudzielczej większej niż 2 2, Przegląd Statystyczny, 63 (2), Tucker L. R., (1963), Implications of Factor Analysis of Three-way Matrices for Measurement of Change, w: Harris C. W. (red.), In Problems in Measuring Change, MOC TESTÓW NIEZALEŻNOŚCI W TABLICY TRÓJDZIELCZEJ Streszczenie Pierwszym celem pracy jest przedstawienie teorii dotyczącej autorskiej statystyki modułowej mierzącej niezależność zmiennych dla tablic trójdzielczych i zbadanie jej własności w odniesieniu do znanych statystyk chi-kwadrat. Drugim celem jest opisanie procedury generowania zawartości tych tablic metodą słupkową. Trzecim celem jest zaproponowanie miary nieprawdziwości hipotezy zerowej, a także porównanie jakości testów niezależności za pomocą ich mocy. Wartości krytyczne dla testów niezależności wyznaczono symulacyjnie metodami Monte Carlo. Słowa kluczowe: statystyka modułowa, tablica trójdzielcza, test niezależności, metoda słupkowa, Monte Carlo
17 Moc testów niezależności w tablicy trójdzielczej POWER ANALYSIS OF INDEPENDENCE TESTING FOR THREE-WAY CONTINGENCY TABLE Abstract The first aim of this paper is to present the theory of the proposal of the author in the form of modular statistics for three-way contingency table and examine its properties in relation to known chi-squared statistics. The second aim is to describe the procedure of generating the content of these tables using the bar method. The third aim is to propose the measure of untruthfulness of null hypothesis as well as to compare the quality of independence tests using their power. Critical values for all analyzed statistics were determined by simulation methods of Monte Carlo. Keywords: three-way contingency tables, modular statistics, independence test, bar method, Monte Carlo method
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Wielowymiarowe uogólnienie testu niezależności
Piotr SULEWSKI Wielowymiarowe uogólnienie testu niezależności W literaturze statystycznej znajdujemy głównie metody wnioskowania dotyczące jednej zmiennej. Jednak w badaniach statystycznych obiekty opisywane
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna
Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa
Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa Test serii (test Walda-Wolfowitza) Założenie. Rozpatrywane rozkłady są ciągłe. Mamy dwa uporządkowane
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY
SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka
Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Statystyka matematyczna. Wykład V. Parametryczne testy istotności
Statystyka matematyczna. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Weryfikacja hipotezy o równości wartości średnich w dwóch populacjach 2 3 Weryfikacja hipotezy o równości wartości średnich
GENEROWANIE TABLIC DWUDZIELCZYCH Z WYKORZYSTANIEM DWUWYMIAROWEGO ROZKŁADU NORMALNEGO UCIĘTEGO
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 083-86 Nr 88 06 Informatyka i Ekonometria 5 Akademia Pomorska w Słupsku Wydział Matematyczno-Przyrodniczy Instytut Matematyki
Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi
Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi Zadanie 1 Zdaniem wielu komentatorów, kobiety częściej niż mężczyźni głosują na partię rządzącą. Wyniki badań przedstawia
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.
TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
dr hab. Dariusz Piwczyński, prof. nadzw. UTP
dr hab. Dariusz Piwczyński, prof. nadzw. UTP Cechy jakościowe są to cechy, których jednoznaczne i oczywiste scharakteryzowanie za pomocą liczb jest niemożliwe lub bardzo utrudnione. nominalna porządek
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0
Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy
Wykład 8 Dane kategoryczne
Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech
TATYTYKA wykład 8 Wnioskowanie Weryfikacja hipotez Wanda Olech Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Statystyka matematyczna. Wykład VI. Zesty zgodności
Statystyka matematyczna. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści 1 Testy zgodności 2 Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Testy zgodności Niech x
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).
PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, Ŝe 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Przykład. Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi.
Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska
Porównanie modeli statystycznych Monika Wawrzyniak Katarzyna Kociałkowska Jaka jest miara podobieństwa? Aby porównywać rozkłady prawdopodobieństwa dwóch modeli statystycznych możemy użyć: metryki dywergencji
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka
O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisła 2012, 7.12.2012 Plan prezentacji 1 Wprowadzenie
Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics
Wydawnictwo UR 2017 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 2/20/2017 www.eti.rzeszow.pl DOI: 10.15584/eti.2017.2.13 WIESŁAWA MALSKA Wybrane statystyki nieparametryczne Selected
12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez
Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie Wyznaczanie przedziału 95%CI oznaczającego, że dla 95% prób losowych następujące nierówności są prawdziwe: X t s 0.025 n < μ < X + t s
HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR
NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR M Zalewska Zakład Profilaktyki ZagrożeńŚrodowiskowych i Alergologii Analiza niezależności zmiennych jakościowych (test niezależności Chi-kwadrat)
Test t-studenta dla jednej średniej
Test t-studenta dla jednej średniej Hipoteza zerowa: Średnia wartość zmiennej w populacji jest równa określonej wartości a 0 (a = a 0 ). Hipoteza alternatywna 1.: Średnia wartość zmiennej w populacji jest
Kilka uwag o testowaniu istotności współczynnika korelacji
341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności
ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH
Grzegorz Kończak Magdalena Chmielińska Uniwersytet Ekonomiczny w Katowicach ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH Wprowadzenie W ostatnich latach w badaniach
Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona
Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności
Testy dla dwóch prób w rodzinie rozkładów normalnych
Testy dla dwóch prób w rodzinie rozkładów normalnych dr Mariusz Grządziel Wykład 12; 18 maja 2009 Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego)
Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych
Wykład 12 (21.05.07): Testy dla dwóch prób w rodzinie rozkładów normalnych Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego) n 1 = 9 poletek w dąbrowie,
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38
Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36
Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Wykład 11 Testowanie jednorodności
Wykład 11 Testowanie jednorodności Wrocław, 17 maja 2018 Test χ 2 jednorodności Niech X i, i = 1, 2,..., k będą niezależnymi zmiennymi losowymi typu dyskretnego przyjmującymi wartości z 1, z 2,..., z l,
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Prawdopodobieństwo i statystyka
Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach
Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym
Badanie zgodności z określonym rozkładem H 0 : Cecha X ma rozkład F F jest dowolnym rozkładem prawdopodobieństwa Test chi kwadrat zgodności F jest rozkładem ciągłym Test Kołmogorowa F jest rozkładem normalnym
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
TETOWANIE HIPOTEZ TATYTYCZNYCH HIPOTEZA TATYTYCZNA przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na
Statystyka matematyczna. Wykład III. Estymacja przedziałowa
Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności
GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana
GRUPY NIEZALEŻNE Chi kwadrat Pearsona Testy stosujemy w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma
Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW
Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa