PODSTAWY STATYSTYKI SEMINARIUM 3 ! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

Podobne dokumenty
SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

PAKIETY STATYSTYCZNE

PDF created with FinePrint pdffactory Pro trial version

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

PODSTAWY STATYSTYKI SEMINARIUM 2 ! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WNIOSKOWANIE STATYSTYCZNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

STATYSTYKA MATEMATYCZNA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

S t a t y s t y k a, część 3. Michał Żmihorski

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wykład 8 Dane kategoryczne

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Statystyka i Analiza Danych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

MODELE LINIOWE. Dr Wioleta Drobik

Rozkłady statystyk z próby

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Testy nieparametryczne

1 Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA

Przykład 1. (A. Łomnicki)

Projektowanie badań i interpretacja wyników okiem biostatystyka. Warszawa, 15 marca 2016, Anna Marcisz

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Prawdopodobieństwo i rozkład normalny cd.

Wnioskowanie statystyczne. Statystyka w 5

Regresja logistyczna (LOGISTIC)

KORELACJE I REGRESJA LINIOWA

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Zadania ze statystyki cz.8. Zadanie 1.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Uogólniony model liniowy

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

STATYSTYKA MATEMATYCZNA

Rozdział 8. Regresja. Definiowanie modelu

Metodologia badań psychologicznych. Wykład 12. Korelacje

METODY STATYSTYCZNE W BIOLOGII

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Stanisław Cichocki. Natalia Nehrebecka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

WNIOSKOWANIE STATYSTYCZNE

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

METODY STATYSTYCZNE W BIOLOGII

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Wprowadzenie do analizy korelacji i regresji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Rozkłady statystyk z próby. Statystyka

WYKŁAD 8 ANALIZA REGRESJI

STUDIUM DOKTORANCKIE KATOWICE, 2011/12 PODSTAWY STATYSTYKI SEMINARIUM 4. Jan E. Zejda Katedra Epidemiologii WLK, SUM

Statystyka matematyczna i ekonometria

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

METODY STATYSTYCZNE W BIOLOGII

Statystyka matematyczna dla leśników

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Badanie normalności rozkładu

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Weryfikacja hipotez statystycznych

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Transkrypt:

STUDIUM DOKTORANCKIE KATOWICE, 2011/12 PODSTAWY STATYSTYKI SEMINARIUM 3! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE Jan E. Zejda Katedra Epidemiologii WLK, SUM

TREŚĆ SEMINARIUM 2 i 3 Statystyka Analityczna - zarys metodologii badań naukowych - hipotezy badawcze POPRZEDNIO: CZĘŚĆ IA - testowanie hipotez proste testy statystycznej znamienności różnic - dla zmiennych ilościowych - dla zmiennych jakościowych proste testy statystycznej znamienności zależności - minimalna niezbędna wielkość próby - przedział ufności

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część IB - zarys metodologii badań naukowych - hipotezy badawcze - testowanie hipotez proste testy statystycznej znamienności różnic - dla zmiennych ilościowych - dla zmiennych jakościowych proste testy statystycznej znamienności zależności - minimalna niezbędna wielkość próby - przedział ufności

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE dodatkowo, w zależności od rozkładu, testy parametryczne lub nieparametryczne

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE dzisiaj

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC (ROZKŁADÓW) < ZMIENNE JAKOŚCIOWE >

OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR! KLUCZOWE PYTANIA! Oczekiwana częstość (bezwględna) wartości zmiennej jakościowej? <5 lub 5+ Liczba porównywanych grup? Dwie grupy lub Więcej niż dwie grupy Zależność obserwacji? Dane sparowane lub Dane niesparowane wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998

OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR ZMIENNE JAKOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: -Liczba grup 3 lub więcej: test chi2, test Fisher a (dla małej częstości) test chi2 Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test McNemar a - Liczba grup 3 lub więcej: test Stuart-Maxwell a

TEST CHI-KWADRAT (Chi 2, χ 2 ) ( H 0 : π A = π B ) Podstawowa procedura dla porównania częstości Chi 2 = Σ [ (O E)2 / E] O częstości obserwowane; E częstości oczekiwane 15% i 30% 20% i 20% Wynikiem testu chi 2 jest statystyka chi 2, która posiada swój rozkład (dla konkretnej wartości istnieje konkretne prawdopodobieństwo p ) Gdy p<0,05 są podstawy do odrzucenia H 0 Uwaga: wypowiedź na temat różnic częstości w grupie A i B można też interpretować jako zależność częstości od grupy

TEST CHI-KWADRAT WYNIK: STATYSTYKA CHI 2 i JEJ WARTOŚĆ P JAKIE OGRANICZENIA? Test chi2 jest czuły wobec wielkości próby. Nie powinien być stosowany, gdy zachodzi jedna z dwóch okoliczności: n<20; 20<n<40 i oczekiwana częstość wynosi mniej niż 5, przynajmniej w jednym polu tabeli ROZWIĄZANIE PROBLEMU Poprawka Yates a (ze względu na fakt, że analizowane są dane jakościowe, a rozkład chi2 ma charakter ciągły) obecnie kwestionowana i nie jest rekomendowana Dokładny test Fisher a

TEST CHI-KWADRAT SCENARIUSZ Czy 11,9% różni się od 21,3 %? The FREQ Procedure Statistics for Table of FEV1 by RTG Statistic DF Value Prob Chi-Square 1 8.5666 0.0034 Continuity Adj. Chi-Square 1 7.8610 0.0051 Mantel-Haenszel Chi-Square 1 8.5503 0.0035 Fisher's Exact Test Left-sided Pr <= F 0.9987 Right-sided Pr >= F 0.0027 Two-sided Pr <= P 0.0045 Test ma zastosowanie, gdy oczekiwane częstości są małe (np.<5 w jednej z klatek )

INTEPRETACJA! TEST CHI 2 INTEPRETACJA DLA ZMIENNEJ WIELOWARTOŚCIOWEJ (2 GRUPY) Test chi 2 ocenia różnicę pomiędzy rozkładami, a nie poszczególnymi wartościami porównywanych zmiennych Zmienna Ból Wartość Zmiennej Grupa A Grupa B Statystyka Chi 2 (p) Brak 10 6 Mały 12 23 Średni 21 18 Duży 6 12 Bardzo duży 6 9 5,23 (0,06) Wynik testu nie odpowiada bezpośrednio na pytanie, czy chorzy w grupie B bardziej cierpią z powodu obecności dużego lub bardzo dużego bólu niż chorzy w grupie A.

OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR ZMIENNE JAKOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: -Liczba grup 3 lub więcej: test chi2, test Fisher a (dla małej częstości) test chi2 Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test McNemar a - Liczba grup 3 lub więcej: test Stuart-Maxwell a

TEST CHI-KWADRAT (TRZY GRUPY) SCENARIUSZ Czy 11,5%, 15,7%, 25,5% różnią się w sposób statystycznie znamienny? The FREQ Procedure Statistics for Table of FEV1 by RTG Statistic DF Value Prob Chi-Square 2 11.4906 0.0032 Mantel-Haenszel Chi-Square 2 10.9834 0.0009 Fisher's Exact Test Left-sided ODPOWIEDŹ Pr <= F 0.9987 Tak, albowiem Right-sided p=0,003 Pr (p<0,05), >= F 0.0027 co pozwala na Two-sided odrzucenie H 0 Pr o równości <= P 0.0045 częstości ODPOWIEDŹ Tak, albowiem MHChi 2 p=0,0009 (p<0,05), co uwzględnia charakter zmiennej porządkowej i pozwala na odrzucenie H 0

TEST CHI-KWADRAT (TRZY GRUPY) SCENARIUSZ Czy trend ma charakter statystycznie znamienny? The FREQ Procedure Statistics for Table of FEV1 by RTG COCHRAN-ARMITAGE TREND TEST Statistic (Z) -3.3173 One-sided Pr<Z 0.0005 Two-sided Pr<Z 0.0009 Fisher's Exact Test Left-sided Pr <= F 0.9987 Right-sided Pr >= F 0.0027 Two-sided Pr <= P 0.0045 ODPOWIEDŹ Tak, albowiem p<0,05), co pozwala na odrzucenie H 0 o nieznamienności statystycznej trendu

OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR ZMIENNE JAKOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: -Liczba grup 3 lub więcej: test chi2, test Fisher a (dla małej częstości) test chi2 Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test McNemar a - Liczba grup 3 lub więcej: test Stuart-Maxwell a

TEST McNEMAR a Interpretacja przy zmiennych sparowanych analogiczna do interpretacji dla zmiennych niesparowanych SZCZEGÓLNE ZASTOSOWANIE wyniki sparowanego badania kliniczno-kontrolnego np. dla 60-letniego mężczyzny z Rtg+ dobieramy 60-letniego mężczyznę z Rtg-, dla 56-letniego mężczyzny z Rtg+ dobieramy 56-letniego mężczyznę z Rtg-, itd. aby sprawdzić, czy różnią się grupy Rtg+ i Rtg- w zakresie narażenia na dym tytoniowy Kontrola wieku (parowanie) uzasadniona zależnością czasu palenia od wieku

TREŚĆ SEMINARIUM 3 Statystyka Analityczna Część IB - zarys metodologii badań naukowych - hipotezy badawcze - testowanie hipotez proste testy statystycznej znamienności różnic - dla zmiennych ilościowych - dla zmiennych jakościowych proste testy statystycznej znamienności zależności - minimalna niezbędna wielkość próby - przedział ufności

(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie na WWA (tak/nie).. Zmienna Ilościowa i Jakościowa FEV 1 (%w.n w.n.).) Zmiany rtg w płucach p (tak/nie).. Hiperglikemia (tak/nie) Zmienna Jakościowa i Ilościowa Podaż kalorii na dobę (kcal)

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE

(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie rozkład na WWA normalny (tak/nie).. ANALIZA KORELACJI LINIOWEJ Zmienna Ilościowa i Jakościowa rozkład nie-normalny FEV 1 (%w.n w.n.).) Zmiany rtg w płucach p (tak/nie).. ANALIZA REGRESJI LINIOWEJ Zmienna Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal)

100 KORELACJA LINIOWA H 0 : r = 0 80 IQ [j] 60 40 20 0 0 2 4 6 8 10 12 Pb-B [ug/dl] r = 0,21 (p=0,6) (95%PU: -0,10-0,34) ergo r =0,21 nie różni r się w sposób b statystycznie znamienny od 0

ALTERNATYWA NIEPARAMETRYCZNA (r) Nazwa współczynnik korelacji liniowej mnemotechnicznie przywołuje wymóg analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary pochodzą z innych skal (np. stopień duszności, poziom samopoczucia, średnica bąbla itp.) wówczas zasadne metody odwołujące się do rankingu wyników: ANALIZA KORELACJI METODĄ SPEARMANA (dla zmiennych o normalnym rozkładzie metoda Pearson a) NIEPOROZUMIENIA INTERPRETACYJNE r Interpretacja r jako miernika siły zależności pomiędzy przyczyną i skutkiem Wykorzystanie analizy korelacji do porównania wartości dwóch metod Przewidywanie wartości Y na podstawie wartości X Obecność korelacji liniowej nie jest automatycznym dowodem na obecność zależności biologicznej

ANALIZA REGRESJI LINIOWEJ

ANALIZA REGRESJI LINIOWEJ y = a + b x gdzie: a punkt odcięcia; b kąt nachylenia prostej (zmiana wartości y w odpowiedzi na jednostkową zmianę wartości x ) DEFINICJA ZMIENNEJ ZALEŻNEJ! Y jest funkcją X, Y zależy od X

PREZENTACJA GRAFICZNA 100 80 60 Y 40 20 0 b a 0 2 4 6 8 10 12 X Y = b * X + 18

PREZENTACJA GRAFICZNA 100 80 60 Y 40 20 0 b=0 a 0 2 4 6 8 10 12 X Y = b * X + 18 gdy b = 0, to Y = 0*X + 18, zatem Y = 18 (stale!)

Na gruncie statystycznym b=0, gdy w sposób statystycznie znamienny b nie różni się od 0 : b=1,39 (p=0,09) lub (95%PU dla b : -0,14-2,82) 100 PREZENTACJA GRAFICZNA H 0 : b = 0 80 60 Y 40 20 0 b=0 a 0 2 4 6 8 10 12 X

PRAKTYCZNE ZNACZENIE ANALIZY REGRESJI LINIOWEJ DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY Y I X PRZEWIDYWANIE WARTOŚCI Y DLA DANEJ WARTOŚCI X

ANALIZA REGRESJI LINIOWEJ SCENARIUSZ Czy FEV 1 (w %w.n.) zależy od stażu pracy? The Y REG = a Procedure + bx The SAS System Plot of FEV1P*STAZ. Model: MODEL1 Symbol used is '*'. Dependent Variable: FEV1P 150 * * * * * * * * * * * * * * * * * Parameter * * * * * Estimates * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * F 100 * * Parameter * * * * * * * * * * * Standard * * * * * * * * * * * * * * * * * * E * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * V * * * * * * * * * * * * * * * * * * * * * * * * * * * * 1 * * * * * * * * * * * * * * * * * P * * * * * * * * 50 * * * * * * * * Variable DF Estimate Error t Value Pr > t Intercept 1 97.85787 1.15190 84.95 <.0001 STAZ 1-0.27953 0.08143-3.43 0.0006 0 4 8 12 16 20 24 28 32 36 Współczynnik regresji b różni się w sposób statystycznie znamienny od 0 Staż (lata) 95%PU dla B: (-0,43950) - (-0,11950)

ANALIZA REGRESJI LINIOWEJ - ZNACZENIE WSPÓŁCZYNNIKA DETERMINACJI R 2 - y = a + b x PRZYKŁAD Uwaga: zmienność w x objaśnia zmienność w y, w stopniu r 2 (zmienna objaśniana = zależna, zmienna objaśniająca = niezależna) FVC(l) = 2,5Wzrost(m) + 1,75 Współczynnik korelacji FVC ~ Wzrost : r = 0,6 a więc r 2 = 0,36 Model wyjaśnia zaledwie 36% okoliczności tłumaczących wartość FVC (tu uwzględniono wzrost) Inne czynniki? (dodanie wieku, nałogu palenia, narażenia na pył zwiększy wartość r 2 )

TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE

(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie na WWA (tak/nie).. Zmienna Ilościowa i Jakościowa TEST CHI-KWADRAT FEV 1 (%w.n w.n.).) Zmiany rtg w płucach p (tak/nie) ANALIZA REGRESJI Zmienna LOGISTYCZNEJ Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal)

TEST CHI-KWADRAT

ANALIZA REGRESJI LOGISTYCZNEJ

UNIWERSALNY MODEL REGRESJI Y ~ X Dla zmiennych ilościowych rozwiązanie jest intuicyjnie proste: gdy X wzrasta o daną wartość, to Y wzrasta o iloczyn danej wartości i współczynnika regresji b (Trójglicerydemia = b*dobowa podaż tłuszczu + a) ADAPTACJA MODELU DO JAKOŚCIOWEJ POSTACI ZMIENNEJ ZALEŻNEJ Hipertrójgicerydemia(tak/nie) ~ duża dobowa podaż tłuszczu JAK POŁĄCZYĆ OBIE STRONY RÓWNANIA?

MODEL REGRESJI Z JAKOŚCIOW CIOWĄ ZMIENNĄ ZALEŻNĄ Hipertrójgicerydemia ~ dobowa podaż tłuszczu SOLUTIO FUNKCJA ŁĄCZĄCA (FŁ) Hipertrójgicerydemia [FŁ] = dobowa podaż tłuszczu

FUNKCJA ŁĄCZĄCA W REGRESJI LOGISTYCZNEJ Hipertrójgicerydemia [FŁ] = dobowa podaż tłuszczu Przyjęcie przez y wartości 0 ( nie ) lub 1 ( tak ) jest mierzone prawdopodobieństwem p, powiązanym z 1-p, w układzie p/1-p ale prawdopodobieństwo jest zawsze dodatnie, co ogranicza obszar modelowania - brak kompatybilności z prawą stroną równania Transformacja logarytmiczna naturalny logarytm wyrażenia ( logit transformation ) usuwa tę niedogodność - ln[p/1-p] + teraz zatem bez przeszkód lewa strona prawa strona ln[p/1-p] = a+bx czyli model regresji logistycznej

ANALIZA REGRESJI LOGISTYCZNEJ y = a + b x (logit ukryty w procedurze) Analiza regresji logistycznej testuje konwencjonalny układ hipotez: H 0 : b = 0 H A : b 0 Gdy p dla b >0,05 wówczas y nie zależy od x w sposób statystycznie znamienny *** Analiza regresji logistycznej nie tylko informuje o obecności i sile związku, ale także umożliwia przewidywanie wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej

ANALIZA REGRESJI LOGISTYCZNEJ SCENARIUSZ Pytanie: Czy obecność obniżonej wartości FEV 1 (norma/patologia) zależy od obecności zmian Rtg (-/+)? The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 1.6539 0.1212 186.1928 <.0001 rtg 1-0.3505 0.1212 8.3605 0.0038 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits RTG 0 vs 1 2.016 1.253 3.241 MODEL: FEV 1 (N/P) = 1,6539 0,3505 * Rtg

ANALIZA REGRESJI LOGISTYCZNEJ SCENARIUSZ Pytanie: Czy obecność obniżonej wartości FEV 1 (norma/patologia) zależy od obecności zmian Rtg (-/+/++)? Uwaga: regresja logistyczna analizuje zmienne o różnej liczbie wartości (nie tylko zmienne binarne) The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 1.5946 0.1308 148.5302 <.0001 RTG 0 1 0.4399 0.1652 7.0883 0.0078 RTG 1 1 0.0831 0.2010 0.1708 0.6794 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits RTG 0 vs 2 2.619 1.483 4.627 RTG 1 vs 2 1.833 0.921 3.651

(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Dwie Zmienne Ilościowe analiza korelacji i analiza regresji liniowej.. Dwie Zmienne Jakościowe test chi-kwadrat i analiza regresji logistycznej.. Zmienna Ilościowa i Jakościowa analiza regresji liniowej.. Zmienna Jakościowa i Ilościowa analiza regresji logistycznej

OBLICZENIE MINIMALNEJ NIEZBĘDNEJ LICZEBNOŚCI CI PRÓB B DLA TESTU CHI-KWADRAT Obliczenia wykorzystują formułę wypracowaną dla proporcji Liczebność jednej (każdej) grupy wynosi: n = [ z α {2π(1-π)} + z β {π1(1- π 1 )+ π 2 (1- π 2 )}] 2 / [π 1 π 2 ] 2 gdzie: π 1 proporcja pierwsza; π 2 proporcja druga; π proporcja średnia (π 1 + π 2 / 2) Częstość LCD4 wynosi 15% u dzieci z NNO. Istnieją dane, że jest ona wyższa u dzieci bez NNO. Jak duże muszą być grupy, aby wykazać statystycznie znamienną różnicę? Niezbędne założenia 1. Wielkość różnicy: np. dwukrotna ma znaczenie kliniczne (a więc 15% i 30%) 2. Znamienność i moc: α = 0,05 (z=1,96); β = 0,2 (z=0,84) n = [ 1,96 {2* 0,225(1-0,225)} + 0,84 {0,15(1-0,15) + 0,30(1-0,30)}] 2 / [0,15-0,30] 2 n = [1,96 0,35 + 0,84 0,13 +0,21] 2 / 0,022 = [1,16+0,3+0,21] 2 / 0,022 = 123,5 Do każdej z grup należy wylosować 124 osoby

MINIMALNA NIEZBĘDNA LICZEBNOŚĆ PRÓBY - UZUPEŁNIENIA -

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA N Chcę udowodnić, że wskutek różnego reżimu terapeutycznego średnia masa myszy w grupie T będzie wyższa o 10 g niż w grupie K (50 g vs 40 g). Zakładam (bo wiem lub przyjmuję), że współczynnik zmienności masy wynosi 20% (CV = SD/X). Pozwalam, aby przypadkowe (gdyby reżim T=K) wystąpienie różnicy jak wyżej nie było częstsze niż 5/100 (5% lub 0,05). Chcę, aby szansa wykrycia różnicy, gdy ma ona rzeczywiście miejsce, wynosiła co najmniej 80% (co to za badanie, które daje szansę 50:50 na zasadzie efekt albo jest albo go nie ma) PROSTA FORMUŁA: N = 25*V / (D*D) V zmienność (SD*X); D różnica do wykazania

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA N D = 10g (50g 40g) N = 25*V / (D*D) Zgodnie z założeniami: SD = CV*X = 20% * 40g = 8g ponieważ CV = SD/X (uwaga mniejsza zmienność, gdy myszy są kopiami 1 egzemplarza) V = SD*SD = 8g * 8g = 64gg N = (25 * 64) / (10 * 10) N = 16 myszy w jednej grupie

ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA N ZAŁOŻENIA, W TYM absolutna różnica lub względna różnica: PROCENTOWA (%) WARTOŚĆ LICZBA ZNAMIENNOŚĆ RÓŻNICA T-K CV ZWIERZĄT NA POZIOMIE 0,05 20 20 2-7 NIE 20 20 8 TAK 20 15 5 TAK 25 20 5 PRAWIE TAK 30 20 5 TAK 25 15 5 TAK

PUNKT CIĘŻKOŚCI: ZMIENNA DECYDUJĄCA W randomizowanym badaniu nad skutecznością treningu fizycznego w leczeniu POCHP po 2 miesiącach oceni się: 1) Kliniczny stopień duszności; 2) Wartość FEV 1 ; 3) Wartość PEFR; 4) Wartość MMEF 25-75 ; 5) Objętość plwociny dobowej; 6) Częstość napadów duszności; 7) Itd KTÓRA ZMIENNA MA DECYDOWAĆ O SZACOWANIU N?