TABELE WIELODZIELCZE



Podobne dokumenty
Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Sposoby prezentacji problemów w statystyce

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Badanie zależności skala nominalna

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wydział Matematyki. Testy zgodności. Wykład 03

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Grupowanie materiału statystycznego

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Analiza korespondencji

Wprowadzenie do analizy dyskryminacyjnej

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

(x j x)(y j ȳ) r xy =

TECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Ekonometria. Weryfikacja modelu. Paweł Cibis 6 kwietnia 2006

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Wykład 3 Hipotezy statystyczne

PDF created with FinePrint pdffactory Pro trial version

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresja linearyzowalna

Zastosowanie Excela w matematyce

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Statystyka matematyczna Test χ 2. Wrocław, r

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wykład 4: Statystyki opisowe (część 1)

Kilka uwag o testowaniu istotności współczynnika korelacji

Analiza zależności liniowych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Badanie normalności rozkładu

Statystyka matematyczna dla leśników

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych.

Egzamin ze statystyki, Studia Licencjackie Stacjonarne. TEMAT C grupa 1 Czerwiec 2007

WNIOSKOWANIE STATYSTYCZNE

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Ekonometria. Zajęcia

Testy nieparametryczne

Wykład 12 Testowanie hipotez dla współczynnika korelacji

POLITECHNIKA OPOLSKA

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Metody Statystyczne. Metody Statystyczne

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Przykład 1 ceny mieszkań

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wprowadzenie do analizy korelacji i regresji

Wykład 8 Dane kategoryczne

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Zadania ze statystyki, cz.6

Analiza współzależności zjawisk

SPIS TREŚCI. Do Czytelnika... 7

Analizy wariancji ANOVA (analysis of variance)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Analiza Statystyczna

Badanie zależności pomiędzy zmiennymi

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Niestandardowa tabela częstości

Wykład 2: Arkusz danych w programie STATISTICA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Ćwiczenia 7. Badanie istotności róŝnic część II.

Transkrypt:

TABELE WIELODZIELCZE W wielu badaniach gromadzimy dane będące liczebnościami. Przykładowo możemy klasyfikować chore zwierzęta w badanej próbie do różnych kategorii pod względem wieku, płci czy skali natężenia choroby. Przedstawiane do tej pory metody statystyczne stają się bezużyteczne dla danych tego typu, zwanych danymi jakościowymi. Testy i techniki statystyczne prezentowane na tych ćwiczeniach należą do najbardziej przydatnych technik analizy danych jakościowych. Techniki te umożliwiają również dokonania oceny zależności pomiędzy zmiennymi tego typu. Pierwszym krokiem w analizach, o których tu mowa jest przedstawienie zebranych danych indywidualnych w postaci tablicy wielodzielczej. Wymaga to zliczenia jednostek w odpowiednich komórkach tabeli z danymi. Zliczanie to bez użycia komputera jest żmudne i męczące zwłaszcza dla dużej ilości przypadków. Tablice wielodzielcze stanowią bowiem podstawę do obliczania pozostałych statystyk określających siłę związku. Tablica wielodzielcza przedstawia rozkład obserwacji ze względu na kilka cech jednocześnie. Dla dwu zmiennych tablica wielodzielcza pokazuje łączny rozkład obu cech. Liczebności w ostatnim wierszu i w ostatniej kolumnie nazywamy empirycznymi brzegowymi rozkładami, odpowiednio cechy Y i cechy X. Przykładowo chcemy ocenić czy miejsce przybywania psa (miasto, wieś) wpływ wykonanie obowiązujących szczepień. Wykorzystamy w tym celu zebrane dane w naszej przykładowej bazie 40 psów. Zliczając otrzymane dane dla miejsca przebywania i szczepienia otrzymamy następującą tablicę wielodzielczą: Szczepienie Szczepienie Razem Miasto 5 3 8 Wieś 7 5 1 Razem 3 8 40 W tabeli zacieniowano rozkłady brzegowe. Z tabeli widać wyraźną przewagę psów z miasta. Z kolei cztery razy więcej jest psów szczepionych niż nieszczepionych. Informacje byłyby bogatsze po dołączenie danych procentowych. Stosuje się procenty liczone względem ostatniej kolumny (względem miejsca przebywania), względem ostatniego wiersza (względem szczepienia) oraz względem całkowitej liczby zwierząt. Następny etap analizy statystycznej tak zebranych danych, to próba weryfikacji hipotezy mówiącej, że dwie jakościowe cechy w populacji są niezależne. Najczęściej stosowanym narzędziem jest test. Został on opracowany przez Karla Pearsona w 1900 r. i jest metodą, dzięki której można się upewnić, czy dane zawarte w tablicy wielodzielczej dostarczają wystarczającego dowodu na związek tych dwóch zmiennych. Test polega na porównaniu częstości zaobserwowanych z częstościami oczekiwanymi przy założeniu hipotezy zerowej (o braku związku pomiędzy tymi dwiema zmiennymi). Interesuje nas weryfikacja hipotezy zerowej: Wobec hipotezy alternatywnej: H 0 : cechy X i Y są niezależne H 1 : cechy X i Y są zależne

Do weryfikacji hipotezy stosujemy statystykę: O = E E gdzie E - oczekiwana częstość komórki oraz O - obserwowana częstość komórki. Przy założeniu hipotezy zerowej opisywana statystyka ma rozkład o s = (k - 1)(p - 1) stopniach swobody. Częstości oczekiwane obliczamy wykorzystując częstości marginalne (z tablicy wielodzielczej) według następującego wzoru: suma rzę du suma kolumny E (częstość oczekiwana) = suma cał kowita Dla tabel dwudzielczych x postaci według prostszego, praktycznego wzoru: = a c b d ad bc N a b c d a c b d wartość statystyki wyznaczamy Przykładowo dla naszych danych chcemy ocenić, czy szczepienie jest powiązane z miejscem przebywania zwierzęcia. Wyniki obliczeń wartości oczekiwanych przedstawiono w nawiasach obok wartości obserwowanych. Szczepienie Szczepienie Razem Miasto 5 (,4) 3 (5,6) 8 Wieś 7 (9,6) 5 (,4) 1 Razem 3 8 40 Oczywiście nie przeprowadzamy weryfikacją na piechotę. W praktyce posługujemy się komputerem. W programie STATISTICA do analizy tablic wielodzielczych służy opcja Tabele wielodzielcze w module Podstawowe statystyki i tabele. W module tym możemy wybrać dwie grupy statystycznych analiz dotyczących tablic zbiorczych oraz tablic wielokrotnych odpowiedzi. Możemy utworzyć tabele wielodzielcze i zbiorcze oraz obliczyć różne statystyki związane z takimi tabelami. W module tym możemy analizować tabele dowolnych rozmiarów niekoniecznie x jak w poprzednim module. Możemy też wybrać jakie podsumowania i jakie statystyki chcemy policzyć. Kartę z możliwymi opcjami pokazuje poniższy rysunek. Rys. 1 Arkusz wyboru opcji dla testu

Znajdująca się tam opcja Chi-kwadrat Pearsona i NW oraz FI, V i C Cramera umożliwia obliczenie statystyki oraz innych statystyk z nią związanych dla tablic wielodzielczych. Dla danych z naszego przykładu otrzymujemy następujący arkusze wyników. Rys. 1 Arkusze wyników dla testu W pierwszych oknie (po lewej) mamy tabelę z danymi wraz sumami brzegowymi oraz procenty wszystkich wartości wyliczane w stosunku do całkowitej liczebności grupy oraz procenty z kolumn i wierszy. Drugie okno (po prawej) to wartości statystyki oraz jej modyfikacje (związane z liczebnością próby) wraz z poziomami istotności. Przykładowo, gdy ogólna liczebność próby jest mała (N<40) i którakolwiek z liczebności oczekiwanych jest < 5 to stosujemy dokładny test Fishera. Arkusz wyników podaje również wartość współczynnika - Yula (omówiony poniżej) oceniający siłę powiązania pomiędzy dwoma zmiennymi w tabeli x. Jak widzimy powiązanie pomiędzy miejscem pobytu a szczepieniem jest istotne (p = 0,049), ale słabe ( = 0,354). Mamy tym samym podstawy wnioskować, że nieszczepione regularnie psy częściej występują na wsi niż w mieście. Zauważmy, że bardzo duże wartości oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi i jest to dowód istnienia zależności. Przeciwnie mała wartość (zwłaszcza bliska 0) nie daje dowodu na istnienie korelacji. UWAGI! Dla tabeli x statystyka jest często modyfikowana w celu utworzenia bardziej odpowiedniego testu. W większości statystycznych programów komputerowych mamy możliwości obliczenia tych poprawek. Najbardziej popularna to poprawka Yatesa. Stosujemy ją, jeżeli 0 < N <40 i którakolwiek z liczebności oczekiwanych jest mniejsza od 5. Statystyka sprawdza czy dwie zmienne są ze sobą powiązane. Jednakże oprócz sprawdzenia czy pomiędzy zmiennymi zachodzi związek, interesuje nas jak silne jest to powiązanie. W praktyce najczęściej korzystamy z następujących miar: 1. Współczynnik - Yula. Jest on miarą korelacji pomiędzy zmiennymi jakościowymi w tabeli x. Przyjmuje on wartości od 0 (brak powiązania) do 1 (doskonałe powiązanie pomiędzy zmiennymi). Współczynnik V Cramera. Przyjmuje on wartości od 0 (brak relacji między zmiennymi) do 1 Interpretacja wszystkich tych współczynników jest taka sama: jeżeli przyjmują one wartość zero to cechy X i Y są niezależne

im bliższe jedności są wartości tych współczynników tym silniejsze jest powiązanie pomiędzy analizowanymi cechami X i Y. Program udostępnia nam również interpretacje graficzne analizowanych problemów. Przykładowy wykres dla danych opisujących powiązanie między sczepieniem a miejscem przebywania pokazuje poniższy rysunek. Rozkład dwuwymiarowy: Przebywanie x Szczepienie 6 4 0 18 16 14 1 10 Liczba obs. 8 6 4 Wieś Przebywanie Miasto Szczepienie Rys. 3 Trójwymiarowy wykres częstości Porównanie dwóch wskaźników struktury (proporcji) Badając dwie populacje ze względu na cechę jakościową, musimy często sprawdzać hipotezę, że wskaźniki struktury (procenty) są w obu populacjach takie same. Podany niżej test pozwala na zweryfikowanie tej hipotezy w oparciu o wyniki dwu dużych prób. W zależności od postaci hipotezy alternatywnej, rozpatrujemy obszar krytyczny dwustronny albo też jednostronny. Przykład 0 Badano wpływ nowej szczepionki przeciwko parwowirozie. W tym celu 30 wylosowanym psom zaaplikowano szczepionkę i u 40 chorych stwierdzono po ustalonym okresie leczenia powrót do normy. Natomiast w drugiej 00 osobowej grupie chorych psów, gdzie leczono tradycyjną szczepionką, stwierdzono powrót do normy u 115 psów. Zweryfikujmy hipotezę o większym procencie wyzdrowień w grupie psów leczonych nową szczepionką. Oto kolejne kroki postępowania. 1. Z menu Statystyka wybieramy opcję Statystyki podstawowe i tabele. Następnie w otwierającym się oknie wybieramy opcję Inne testy istotności.. W polu Różnica między dwoma wskaźnikami struktury: a. wprowadzamy konkretne dane z próby (tak jak na rysunku 4),

b. wybieramy opcję Jednostronne lub Dwustronne (w naszym przypadku jednostronne, bo hipoteza alternatywna ma postać H 1 : p 1 > p ), c. naciskamy przycisk Oblicz. Otrzymany arkusz wyników pokazuje poniższy rysunek. Rysunek 4 Okno z wynikami testu dla dwóch wskaźników struktury. 3. Możemy dołączyć interpretacje graficzną w postaci wykresu kołowego przedstawionego na rysunku 66. Otrzymamy go wybierając z menu Wykresy opcję Wykresy skategoryzowane a następnie Wykresy kołowe. W otwierającym się oknie Skategoryzowane wykresy kołowe określamy zmienne i interesujące nas opcje. Wszystkie dostępne tu opcje są doskonale opisane w rozbudowanej Pomocy pakietu STATISTICA. Wykres otrzymamy po kliknięciu na przycisku OK. Wykres kołowy Nie - 5% Nie - 4,5% Tak - 75% Tak - 57,5% LEK: Nowy lek LEK: Stary lek Rys. 5 Interpretacja graficzna dla porównania proporcji