SUM - WLK 2011 WYKŁAD CZWARTY: BIOSTATYSTYKA Prof. dr hab. med. Jan E. Zejda! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE
TREŚĆ WYKŁADU Podstawowe zadania statystyki Specyfika biostatystyki - zarys koncepcji sygnału i szumu - zmienne i ich rodzaje Statystyka opisowa - prezentacja zmiennych ilościowych - prezentacja zmiennych jakościowych Statystyka analityczna - znaczenie pytania badawczego - hipotezy i ich weryfikacja - koncepcja statystycznej znamienności - proste testy statystycznej znamienności różnic - proste tety statystycznej znamienności zależności Memento epi demos logos
PODSTAWOWE ZADANIA STATYSTYKI Gromadzenie danych Klasyfikacja danych Prezentacja danych Analiza danych Intepretacja wyników analizy danych
STATYST STYKA Dyscyplina nauki zajmująca się formułowaniem metod liczbowego przetwarzania indywidualnych informacji statystycznych w celu opisu i wnioskowania statystycznego Nowa Encyklopedia Powszechna PWN, 1997 informacje o zjawiskach biologicznych
BIOSTATYSTYKA Biostatystyka jest to gałąź statystyki uwzględniająca specyfikę zjawisk biologicznych, a w szczególności skutki zmienności biologicznej stanowiącej przejaw zróżnicowania procesów fizjologicznych i patologicznych, charakteryzujących stan zdrowia i choroby.
SPECYFIKA BIOSTATYSTYKI Zmienność biologiczna w zakresie: narażenia; podatności; odpowiedzi biologicznej; wywiadu chorobowego; etc. zidentyfikować i kontrolować źródła zmienności
PRZYKŁADY ZMIENNOŚCI Wzrost i masa ciała Palenie tytoniu a rak płuc Nefropatia jako powikłanie cukrzycy Skuteczność leku hipotensyjnego Tętno Stężenie hormonów sterydowych Stan zdrowia
KLASYFIKACJA ZMIENNOŚCI BIOLOGICZNEJ Zmienność międzyosobnicza: np. skurczowe ciśnienie tętnicze krwi u 10 zdrowych studentów w wieku 24-25 lat Zmienność wewnątrzosobnicza: np. skurczowe ciśnienie tętnicze krwi u 1 zdrowego studenta, zmierzone codziennie o godzinie 8:00 przez 7 dni
SYGNAŁ vs SZUM Gdy istnieje duży sygnał jest on widoczny (ergo: wykrywalny) nawet w obecności dużego szumu Niewielki sygnał tonie w szumie Co jest sygnałem, co jest szumem?
Identyfikacja i pomiar sygnału wymaga wiedzy na temat potencjalnych źródeł szumu, umiejętności wykazania jego obecności, kontroli jego maskującego wpływu Biostatystyka raz jeszcze ale Biostatystyka to nie panaceum to tylko narzędzie Przede wszystkim METODOLOGIA!!
ZMIENNE RODZAJE ZMIENNYCH (FORMAT I FUNKCJA)
TERMINOLOGIA STOSOWANA W OPISIE BAZY DANYCH Obserwacje (1 pacjent=1 obserwacja) Zmienne Nr PLEC WZROST KSD FVC FEV1 1 1 178 2 3200 1800 2 1 169 1 3600 2500 3 2 168 5 3450 2040 4 1 175 3 3750 1750 5 2 163 4 3900 1900 Nazwa Zmiennej Wartość Zmiennej zmienna, albowiem naturalna zmienność wartości
RODZAJE ZMIENNYCH PROSTY PODZIAŁ UWGLĘDNIAJ DNIAJĄCY FORMAT Zmienne ilościowe (wzrost, FVC, FEV 1 ) Zmienne jakościowe (płeć, KSD)
RODZAJE ZMIENNYCH PRAKTYCZNY PODZIAŁ UWGLĘDNIAJ DNIAJĄCY FORMAT ZMIENNE ILOŚCIOWE JAKOŚCIOWE transformacja
RODZAJE ZMIENNYCH PRAKTYCZNY PODZIAŁ UWGLĘDNIAJ DNIAJĄCY FUNKCJĘ Zmienna zależna (w danej analizie: jedna zmienna) Zmienne niezależne (w danej analizie jedna lub więcej zmiennych) Funkcja zmiennej zależy od celu: np. czy KSD zależy od FEV 1? KSD ~ FEV 1 zmienna zależna zmienna niezależna
DWA OBSZARY STATYSTYKI -1- -2- Statystyka Opisowa Statystyka Analityczna (ile?, jak często?) ( charakterystyka ) Szacowanie Testowanie Hipotez
wzrost bilirubinemia glikemia dochód masa ciała opór dróg oddechowych STATYSTYKA OPISOWA czas karmienia piersią obwód talii CELE czas hospitalizacji stężenie ołowiu w krwi ciśnienie tętnicze krwi
STATYSTYKA OPISOWA - CEL Prezentacja danych w postaci tabelarycznej i graficznej (histogramy, wykresy liniowe, itd.) oraz za pomocą zintegrowanej formy matematycznej liczby (przy pomocy tzw. statystyk wartość średnia, częstość, itd.). Częstość (%) poszczególnych klas cholesterolemii w grupie mężczyzn 40 30 (%) 20 10 0 175 205 235 265 295 325 355 Cholesterolemia (mg/dl) Średnie stężenie cholesterolu w badanej grupie mężczyzn 215 mg/dl
wzrost bilirubinemia glikemia dochód masa ciała opór dróg oddechowych STATYSTYKA OPISOWA czas karmienia piersią PREZENTACJA ZMIENNYCH ILOŚCIOWYCH stężenie ołowiu w krwi czas hospitalizacji obwód talii ciśnienie tętnicze krwi
WARTOŚĆ ŚREDNIA I ODCHYLENIE STANDARDOWE Wartość średnia i odchylenie standardowe opisują rozkład wartości zmiennej ilościowej 35 30 25 20 % 15 10 5 0 min x-2s X x+2s max Rozkład normalny: 95% wszystkich wartości mieści się w przedziale x-2 os x+2 os precyzyjnie mówiąc: 1,96
DOMINUJĄCE ZNACZENIE ROZKŁADU NORMALNEGO W ANALIZIE DANYCH -1- WIĘKSZOŚĆ PROCEDUR SZACOWANIA I TESTOWANIA HIPOTEZ (ODNOŚNIE ZALEŻNOŚCI I RÓŻNIC) WYKORZYSTUJE METODY STATYSTYCZNE, KTÓRE ZOSTAŁY WYPRACOWANE W OPARCIU O KONCEPCJĘ ROZKŁADU NORMALNEGO -2- ZJAWISKA BIOLOGICZNE SĄ ŁATWIEJ POSTRZEGANE PRZY ODWOŁANIU SIĘ DO ROZKŁADU NORMALNEGO ( WARTOŚĆ PRZECIĘTNA I WARTOŚCI EKSTREMALNE )
OPIS ZMIENNEJ ILOŚCIOWEJ MIARY POŁOŻENIA (MIARY TENDECJI CENTRALNEJ) Średnia arytmetyczna, mediana, modalna MIARY ROZPROSZENIA Zakres, zmienność, odchylenie standardowe X ± SD ( tablica rejestracyjna zmiennej ilościowej )
X ± SD Współczynnik Zmienności im mniejsza wartość SD tym mniejsza zmienność generalnie TAK, ale rola X, dlatego: Współczynnik Zmienności (WZ) = (s / x) * 100% PRAKTYCZNE ZASTOSOWANIE WSPÓŁCZYNNIKA ZMIENNOŚCI porównanie rozkładu jednej zmiennej w dwóch różnych grupach porównanie rozkładu kilku zmiennych w jednej grupie odchylenie standardowe błąd standardowy
hiperglikemia płeć nadwaga obturacja jakość życia kliniczny stopień duszności zawód STATYSTYKA OPISOWA wykształcenie PREZENTACJA ZMIENNYCH JAKOŚCIOWYCH cień okrągły w płucach krwotok rodzaj porodu hipercholesterolemia mutacja
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ matematyczna i graficzna prezentacja częstości poszczególnych wartości zmiennej jakościowej (zasada wzajemnie wykluczających się wartości) Rozkład zmiennej nastrój u 50 badanych: - 35 optymistów - 15 pesymistów zmienna nastrój ma dwie wartości: optymista i pesymista
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ (sposób prezentacji tabelarycznej) WYNIKI TERAPII X W GRUPIE 75 CHORYCH Zmienna Objawy uboczne Wartość zmiennej Częstość bezwzględna (n) Częstość względna (%) Częstość skumulowana (%) Brak 10 13,3 13,3 Słabe 25 33,3 46,6 Średnie 20 26,6 73,2 Duże 12 16,4 89,4 B. duże 8 10,6 100,0 Razem 75 100,0
DWA OBSZARY STATYSTYKI -1- -2- Statystyka Opisowa Statystyka Analityczna (ile?, jak często?) ( charakterystyka ) Testowanie Hipotez Modelowanie Związków Przyczynowo-Skutkowych Ocena Wiarygodności Pomiaru itp.
DWA OBSZARY STATYSTYKI -1- -2- Statystyka Opisowa Statystyka Analityczna (ile?, jak często?) ( charakterystyka ) Testowanie Hipotez Modelowanie Związków Przyczynowo-Skutkowych Ocena Wiarygodności Pomiaru itp. ilościowe zmienne jakościowe proste metody złożone
ZNACZENIE PYTANIA BADAWCZEGO
PROCES POZNANIA NAUKOWEGO W PRAKTYCE Gruntowna wiedza Dobry warsztat ( dobra praktyka epidemiologiczna ) Twórcze wykorzystanie informacji (interpretacja) Inwencja, iluminacja, przypadek Umiejętne komunikowanie wyników
TREŚĆ PYTANIA BADAWCZEGO INICJUJE I WARUNKUJE SPOSÓB WNIOSKOWANIA STATYSTYCZNEGO -1- STATYSTYKA OPISOWA WNIOSKOWANIE STATYSTYCZNE -2- STATYSTYKA ANALITYCZNA Wnioskowanie Statystyczne = Wnioskowanie dotyczące natury zjawiska w populacji na podstawie obserwacji obejmującej próbę reprezentującą populację DGN populacyjna formułowana na podstawie DGN w próbie zawiera niepewność, co jest domeną teorii prawdopodobieństwa, a zatem wymaga opracowań statystycznych
HIPOTEZY
(sąd, HIPOTEZA d, testowalne stwierdzenie) Hipoteza: Częstość występowania otyłości zależy od tradycji żywieniowych Hipoteza musi podlega weryfikacji albo się ostanie jako prawdziwa, albo zostanie uznana za fałszywą: jak weryfikować zależność od tradycji? Hipoteza: Częstość występowania otyłości jest większa wśród osób preferujących tradycyjny styl żywienia Skąd pewność, że częstość jest większa a nie mniejsza? Hipoteza: Częstość występowania otyłości różni się pomiędzy grupami o różnym stylu żywienia Problem: na gruncie metodologii badań naukowych nie jest możliwe weryfikowanie hipotezy zakładającej różnicę (dowód słuszności tego stwierdzenia wykracza poza program kursu)
SOLUTIO - I weryfikacja hipotezy zakładającej brak różnicy Częstość występowania otyłości nie różni się pomiędzy grupami o różnym stylu żywienia WYNIK WERYFIKACJI (TESTOWANIA) albo odrzucenie hipotezy albo brak podstaw do odrzucenia hipotezy Tak, to prawda (w świetle moich danych) tu interpretacja jest prosta
SOLUTIO - I weryfikacja hipotezy zakładającej brak różnicy Częstość występowania otyłości nie różni się pomiędzy grupami o różnym stylu żywienia WYNIK WERYFIKACJI (TESTOWANIA) albo odrzucenie albo brak podstaw do odrzucenia Co w sytuacji odrzucenia hipotezy?
SOLUTIO - II Układ 2 hipotez H 0 (hipoteza zerowa) i H A (hipoteza alternatywna) H 0 brak różnicy, brak zależności, brak efektu H A obecna różnica, obecna zależność, obecny efekt STRATEGIA ALBO-ALBO odrzucenie H 0 powoduje aktualność H A nieodrzucenie H 0 powoduje nieaktualność H A TERTIUM NON DATUR
SFORMUŁOWANIE OWANIE WERYFIKOWALNEJ HIPOTEZY H 0 Wartośċ średnia A = Wartośċ średnia B Częstośċ A = Częstośċ B Czas przeżycia A = Czas przeżycia B Siła zależności A = Siła zależności B itd.
SFORMUŁOWANIE OWANIE WERYFIKOWALNEJ HIPOTEZY H A Wartośċ średnia A Wartośċ średnia B Częstośċ A Częstośċ B Czas przeżycia A Czas przeżycia B Siła zależności A Siła zależności B itd.
SPECYFICZNE BŁĘB ŁĘDY TOWARZYSZĄCE TESTOWANIU HIPOTEZ
Źle się dzieje, gdy prawdziwa H 0 jest odrzucona Błąd Typu I (błąd α) Prawdopodobieństwo błędu I istnieje zawsze na jakie się godzimy? JEST TO STATYSTYCZNA ZNAMIENNOŚĆ BADANIA
Źle się dzieje, gdy fałszywa H 0 nie jest odrzucona Błąd Typu II (błąd β) Założenie to wyznacza obszar braku błędu równy (1- β ) JEST TO MOC BADANIA (1-ß)
DECYZJA W SPRAWIE POZIOMU STATYSTYCZNEJ ZNAMIENNOŚCI I MOCY TESTU W wyniku testu dochodzi do: H 0 może być albo-albo: Prawdziwa Fałszywa Nieodrzucenia H 0 OK Błąd typu II Odrzucenia H 0 Błąd typu I OK KONWENCJA BŁĄD TYPU I = α = 0,05 BŁĄD TYPU II = β = 0,20 Akceptujemy przypadkowość, ale niech będzie ona rzadkim zjawiskiem!
STATYSTYCZNA ZNAMIENNOŚĆ Zmniejszenie RR u chorych stosujących lek A może wystąpić całkiem przypadkowo, nawet gdy lek nie jest aktywny farmakologicznie. Nie zdarza się to często. Jaka częstość może być uznana za rzadkie zdarzenie?
CZĘSTA INTERPRETACJA RZADKICH ZDARZEŃ Specyfika rozkładu normalnego danej zmiennej wynika z faktu, że pod krzywą znajduje się 100% możliwych wartości zmiennej, ale ich gęstość nie jest jednorodna (wartości: częste, mniej częste, jeszcze mniej częste, rzadkie) 40 30 % 20 10 0 A X B 2.5% 95% 2.5% 0,025 0,95 0,025 rzadkie wartości rzadkie wartości CZĘSTOŚĆ RZADKICH WARTOŚCI = 2,5% + 2,5% = 5% CZĘSTOŚĆ RZADKICH WARTOŚCI = 0,025 + 0,025 = 0,05 X ± 1.96 SD definiuje obszar obejmujący 95% możliwych wartości, To co pozostaje to 5% obszar rzadkich wartości (0,05)
STATYSTYCZNA ZNAMIENNOŚĆ KLINICZNA ZNAMIENNOŚĆ Przy dużych grupach nawet trywialna różnica może być statystycznie znamienna (konsekwencja wzoru matematycznego)
TESTOWANIE HIPOTEZ
DWA TYPY HIPOTEZ DWA TYPY TESTÓW Hipotezy odnośnie różnicy Hipotezy odnośnie zależności Weryfikacja hipotez polega na analizie danych i poddaniu ich ocenie przy użyciu testów statystycznej znamienności różnic lub zależności Testy statystycznej znamienności różnic Testy statystycznej znamienności zależności
TESTY STATYSTYCZNEJ ZNAMIENNOSCI A RODZAJ ZMIENNYCH TESTY DLA ZMIENNYCH ILOŚCIOWYCH TESTY DLA ZMIENNYCH JAKOŚCIOWYCH
TESTY STATYSTYCZNEJ ZNAMIENNOSCI A CHARAKTER ROZKŁADU ZMIENNYCH TESTY PARAMETRYCZNE TESTY NIEPARAMETRYCZNE
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR < GENERALIA >
KONCEPCJA SYGNAŁU U I SZUMU 25 Sygnał 20 15 10 5 Szum 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
EFEKT = SYGNAŁ/SZUM Im większy sygnał tym większy efekt Im mniejszy szum tym większy efekt Im większa różnica tym większy efekt Im mniejsze rozproszenie tym większy efekt
EFEKT = SYGNAŁ/SZUM Im większy sygnał tym większy efekt Im mniejszy szum tym większy efekt Im większa różnica tym większy efekt Im mniejsze rozproszenie tym większy efekt
WYNIK TESTU STATYSTYCZNEJ ZNAMIENNOŚCI Wynikiem testu jest statystyka (konkretna liczba) Np. wynikiem testu t-studenta jest statystyka t t = 2,04 t = ( X1 X2 ) / (SDx1-x2 / n ) duży sygnał duże t mały szum duże t
INTERPRETACJA WYNIKU TESTU t = 2,04 ale czy jest to wartość statystycznie znamienna? 3 5 3 0 2 5 2 0 1 5 1 0 5 0 duże t (-) małe t (-) 0 małe t (+) duże t (+) 2SE X 2SE Gdy wartość t lokuje się na końcu rozkładu ( wpada w strefę rzadkich zdarzeń ) wówczas można przyjąć, że uzyskany wynik jest na tyle rzadki, iż nie może być dziełem przypadku. Jest to zatem wynik statystycznie znamienny. Kryterium Statystycznej Znamienności p (zwyczajowo <5% = <0,05) WYNIK TESTU STATYSTYCZNEJ ZNAMIENNOŚCI: STATYSTYKA I JEJ PRAWDOPODOBIEŃSTWO (np. t=2,04, p=0,04)
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR (ROZKŁAD ADÓW) < ZMIENNE ILOŚCIOWE >
OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR! KLUCZOWE PYTANIA! Liczba porównywanych grup? Dwie grupy lub Więcej niż dwie grupy Rozkład zmiennych? Rozkład normalny lub Rozkład odbiegający od normalnego wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998
DANE NIESPAROWANE I DANE SPAROWANE (LICZBA LCD4 W GRUPACH NNO+ I NNO-) Dzisiaj Grupa NNO+ Porównanie LCD4 Grupa NNO- Porównanie LCD4 Jutro (np. po terapii sterydami) Grupa NNO+ POZIOMO: PIONOWO: TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH DWIE PORÓWNYWANE, RÓŻNE GRUPY TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH JEDNĄ GRUPĘ (DWA POMIARY W ODSTĘPIE CZASOWYM)
OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR ZMIENNE ILOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: masa ciała chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: -Liczba grup 3 lub więcej: test t-studenta, gdy rozkład normalny test Mann-Whitney, gdy rozkład nie-normalny analiza wariancji ( anova ), gdy rozkład normalny test Kruskall-Wallis a, gdy rozkład nie-normalny Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: masa ciała dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test t-studenta dla par, gdy rozkład normalny test Wilcoxon a dla par, gdy rozkład nie-normalny - Liczba grup 3 lub więcej: brak standardowych metod
TEST T STUDENTA I ANOVA TO TESTY PARAMETRYCZNE, OPRACOWANE DLA ANALIZ ZMIENNYCH O ROZKŁADZIE NORMALNYM gdy rozkład analizowanej zmiennej nie spełnia kryterium rozkładu normalnego (weryfikacja np. testem Shapiro-Wilk a); gdy mała (n<30) liczba obserwacji w próbie; gdy pomiary zmiennej odznaczają się ograniczoną dokładnością (mała precyzja narzędzia pomiarowego) gdy pomiary mają charakter półilościowy (np. skala Apgar) lub ograniczoną dokładność TESTY NIEPARAMETRYCZNE
PODSTAWOWE TESTY NIEPARAMETRYCZNE DLA OCENY RÓŻNIC Test znaków (sign test) odwołuje się do wartości mediany i liczby wartości powyżej (+) i poniżej (-) mediany (test dla prób niezależnych lub sparowanych) małe zastosowanie 2 grupy, niesparowany: Test mediany i jego modyfikacja test Mann-Whitney; test Wilcozon a dla dwóch grup (alternatywa dla testu t-studenta) 3 lub więcej grup, niesparowany: Test Kruskal-Wallis (alternatywa dla ANOVY) 2 grupy, sparowany: Test znaków Wilcoxon a dla danych sparowanych (ponadto stosowany tam, gdzie pomiar reprezentuje wartość uzyskaną jako wskaźnik, współczynnik, itp.)
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC (ROZKŁADÓW) < ZMIENNE JAKOŚCIOWE >
OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR! KLUCZOWE PYTANIA! Oczekiwana częstość wartości zmiennej jakościowej? <5 lub 5+ Liczba porównywanych grup? Dwie grupy lub Więcej niż dwie grupy Zależność obserwacji? Dane sparowane lub Dane niesparowane wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998
OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICR ZMIENNE JAKOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: -Liczba grup 3 lub więcej: test chi2, test Fisher a (dla małej częstości) test chi2 Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test McNemar a - Liczba grup 3 lub więcej: test Stuart-Maxwell a
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI < GENERALIA > H 0 : brak zależności
(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie na WWA (tak/nie)..
(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie rozkład na WWA normalny (tak/nie).. ANALIZA KORELACJI LINIOWEJ Zmienna Ilościowa i Jakościowa rozkład nie-normalny FEV 1 (%w.n w.n.).) Zmiany rtg w płucach p (tak/nie).. ANALIZA REGRESJI LINIOWEJ Zmienna Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal)
ANALIZA KORELACJI LINIOWEJ
KORELACJA IQ ~ Pb-B 100 80 IQ [j] 60 40 20 0 0 2 4 6 8 10 12 Pb-B [ug/dl]
KORELACJA (WZAJEMNA RELACJA) Współczynnik Korelacji r zawiera się w przedziale od 1 do +1 r = [NΣxy (Σx)( Σy)] / [NΣx2 (Σx)2][NΣy2 (Σy)2] r (IQ-PbB) = - 0,3
WSPÓŁCZYNNIK KORELACJI LINIOWEJ r [-1, +1] Praktyczna interpretacja wartości liczbowej 0,0 < r < 0,3 słaba korelacja 0,3 < r < 0,7 średnia korelacja 0,7 < r silna korelacja ale czy znamienna statystycznie?
ANALIZA KORELACJI LINIOWEJ JEST TESTOWANIEM HIPOTEZY H 0 : r = 0 (H A : r 0) ergo poza obliczeniem r konieczne jest podanie wartości p (można także obliczyć 95% PU gdy nie zawiera 0 wówczas r 0)
ALTERNATYWA NIEPARAMETRYCZNA (r) Nazwa współczynnik korelacji liniowej mnemotechnicznie przywołuje wymóg analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary pochodzą z innych skal (np. stopień duszności, poziom samopoczucia, średnica bąbla itp.) wówczas zasadne metody odwołujące się do rankingu wyników: ANALIZA KORELACJI METODĄ SPEARMANA (dla zmiennych o normalnym rozkładzie metoda Pearson a) NIEPOROZUMIENIA INTERPRETACYJNE r Interpretacja r jako miernika siły zależności pomiędzy przyczyną i skutkiem Wykorzystanie analizy korelacji do porównania wartości dwóch metod Przewidywanie wartości Y na podstawie wartości X Obecność korelacji liniowej nie jest automatycznym dowodem na obecność zależności biologicznej
ANALIZA REGRESJI LINIOWEJ
ANALIZA REGRESJI LINIOWEJ y = a + b x gdzie: a punkt odcięcia; b kąt nachylenia prostej (zmiana wartości y w odpowiedzi na jednostkową zmianę wartości x ) DEFINICJA ZMIENNEJ ZALEŻNEJ! Y jest funkcją X, Y zależy od X gdy b = 0 (w rozumieniu statystycznym, t.j. nie różni się w sposób statystycznie znamienny od 0 ), wówczas nie ma dowodu, że Y zależy od X: H 0 : b = 0 H A : b 0
PRAKTYCZNE ZNACZENIE ANALIZY REGRESJI LINIOWEJ DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY Y I X PRZEWIDYWANIE WARTOŚCI Y DLA DANEJ WARTOŚCI X
(PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNO NOŚCI ZMIENNA ZALEŻNA ZMIENNA NIEZALEŻNA NA.. Masa (kg) Dwie Zmienne Ilościowe Wzrost (cm).. Mutacja (tak/nie) Dwie Zmienne Jakościowe Narażenie na WWA (tak/nie).. Zmienna Ilościowa i Jakościowa TEST CHI-KWADRAT FEV 1 (%w.n w.n.).) Zmiany rtg w płucach p (tak/nie) ANALIZA REGRESJI Zmienna LOGISTYCZNEJ Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal)
TEST CHI-KWADRAT
ZALEŻNO NOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH CZY CZĘSTOŚĆ PRZEWLEKŁEGO KASZLU ZALEŻY OD WIELKOŚCI NARAŻENIA BPT % Kaszlących 7 6 5 4 3 2 1 0 Małe Narażenie Bierne Palenie Tytoniu ("BPT") Duże Narażenie Klasyczna Tabela Czteropolowa BPT - Duże BPT Małe Kaszel Tak 6 4 Kaszel Nie 94 96 Test chi-kwadrat ( 2 lub chi 2 ) i jego modyfikacje
ZALEŻNO NOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH Metodą analizy jest test chi 2, a interpretacja siły zależności wynika z obliczenia 1) ryzyka względnego (H 0 : RW = 1) 2) ilorazu szans (H0: IS = 1) Wybór (1) lub (2) zależy od protokołu badawczego
ANALIZA REGRESJI LOGISTYCZNEJ
MODEL REGRESJI Z JAKOŚCIOW CIOWĄ ZMIENNĄ ZALEŻNĄ Hipertrójgicerydemia (tak/nie) ~ dobowa podaż tłuszczu (g) SOLUTIO FUNKCJA ŁĄCZĄCA (FŁ) Hipertrójgicerydemia [FŁ] = dobowa podaż tłuszczu TUTAJ TZW. LOGIT
ANALIZA REGRESJI LOGISTYCZNEJ y = a + b x (logit ukryty w procedurze) Analiza regresji logistycznej testuje konwencjonalny układ hipotez: H 0 : b = 0 H A : b 0 Gdy p dla b >0,05 wówczas y nie zależy od x w sposób statystycznie znamienny *** Analiza regresji logistycznej nie tylko informuje o obecności i sile związku, ale także umożliwia przewidywanie wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej