Podstawowe pojęcia i testy statystyczne

Podobne dokumenty
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Testy nieparametryczne

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

STATYSTYKA MATEMATYCZNA

Projektowanie badań i interpretacja wyników okiem biostatystyka. Warszawa, 15 marca 2016, Anna Marcisz

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

Statystyka matematyczna dla leśników

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wnioskowanie statystyczne. Statystyka w 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metodologia badań psychologicznych. Wykład 12. Korelacje

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Przykład 1. (A. Łomnicki)

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

WNIOSKOWANIE STATYSTYCZNE

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

STATYSTYKA MATEMATYCZNA

Rozkłady statystyk z próby. Statystyka

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

laboratoria 24 zaliczenie z oceną

1 Podstawy rachunku prawdopodobieństwa

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Statystyka matematyczna i ekonometria

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Hipotezy statystyczne

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Hipotezy statystyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

1 Estymacja przedziałowa

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład 3 Hipotezy statystyczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Porównywanie populacji

S t a t y s t y k a, część 3. Michał Żmihorski

Kolokwium ze statystyki matematycznej

PDF created with FinePrint pdffactory Pro trial version

Miary statystyczne w badaniach pedagogicznych

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Spis treści 3 SPIS TREŚCI

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

166 Wstęp do statystyki matematycznej

METODY STATYSTYCZNE W BIOLOGII

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Zadanie 1. Analiza Analiza rozkładu

Metody statystyki medycznej stosowane w badaniach klinicznych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Czego się nie dowiemy z NHST? Efekt size, stupid!1. Null Hypothesis Significance Testing

Zadanie Punkty Ocena

Wykład 8 Dane kategoryczne

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Transkrypt:

Podstawowe pojęcia i testy statystyczne Piotr Knapik Śląskie Centrum Chorób Serca w Zabrzu

Zebranie w Domu Lekarza niehomogenna, wysoce wyselekcjonowana grupa słuchaczy, rozkład wiedzy na temat statystyki odbiega od dystrybucji normalnej, duże odchylenie standardowe z uwagi na liczne przypadki wartości skrajnych (wiem wszystko albo nie wiem nic), dla niektórych słuchaczy informacje będą oczywiste, a nawet banalne.

Fakty fachowcy którzy naprawdę rozumieją statystykę mają czasem trudności w przekazaniu tej wiedzy, tacy ludzie są na ogół uzdolnieni matematycznie kontakt z laikiem, który takich uzdolnień nie ma, nie wie czego chce i nic nie rozumie może być bardzo irytujący!

Po co to wszystko? Rozumienie podstaw wnioskowania statystycznego jest potrzebne do: zrozumienia literatury fachowej, zaplanowania metodyki badań własnych, zaplanowania tabel i wykresów, zrozumienia sensu uzyskanych wyników, konfrontowania swoich wyników z wynikami innych, wyciągnięcia prawidłowych wniosków z badań.

Problemy w literaturze fachowej jest mnóstwo (większość?) słabych prac, które nie posuwają do przodu wiedzy medycznej, tylko wprowadzają szum informacyjny, pracy nie da się ocenić na podstawie streszczenia, trzeba przeczytać dokładnie całą metodykę i przejrzeć wyniki, znajomość podstaw statystyki jest potrzebna, aby ocenić wartość pracy.

Po co są testy statystyczne? rozpoczynając eksperyment, mamy jakąś hipotezę (np. że lek A działa silniej niż lek B), nie sprawdzimy czy nasza hipoteza jest słuszna badając wszystkich ludzi na świecie, możemy jednak spróbować przetestować naszą hipotezę, przeprowadzając badania na pewnej ograniczonej populacji lub grupie (sample), im większa grupa badana, tym większe prawdopodobieństwo że nie popełnimy błędu!

Dane Jakościowe (qualitative) Ilościowe (quantitative)

Dane jakościowe Binarne (binary data - np. płeć, obecność lub brak danej choroby, dane typu 0/1) Nominalne (nominal data np. rasa, diagnoza) Porządkowe lub rangowane (ordinal data np. nasilenie objawów; łagodne, średnie, ciężkie)

Dane jakościowe wynik podawany w procentach, rozsądne podejście do liczby miejsc po przecinku! przykład: 45/100 = 45% sposób wizualizacji: słupki (bar charts) lub wykresy kołowe (pie charts)

ODSETEK CHORYCH Z OPTYMALNĄ SEDACJĄ Grupa I Grupa II * p<0,05 odsetek osób z optymalną sedacją (3 lub 4) 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% * 15 20 30 40 50 60 70 80 punkt czasow y

Porównanie nieskuteczności kardiowersji po zastosowaniu kolejnych dawek energii 50 45 40 35 30 25 20 15 10 5 0 34 33 27 26 20 11 9 4 po 1 impulsie po 2 impulsie po 3 impulsie po 4 impulsie Liczba chorych nieumiarowionych GRUPA I GRUPA II

Ocena znieczulenia przez chore pozytywna pozytywna 80,6% 69,6% 19,4% 30,4% negatywna negatywna NS

Błędy wizualizacji na czym polegają? wszystko jest przedstawione, tylko nic z tego nie wiadomo nie da się tego zdefiniować, chodzi o zdrowy rozsądek

Nie

Lokalizacja guza Ewinga Tak

Dane ilościowe ciągłe (continuous data - np. poziom cholesterolu) nieciągłe (discrete data - np. liczba przebytych zaostrzeń choroby)

Dane ilościowe - charakterystyka miary położenia średnia, mediana, najczęstsza wartość (mean, median, mode) miary rozproszenia zakres (range), odchylenie standardowe (standard deviation), odstęp pomiędzy dolnym i górnym kwartylem (interquartile range)

Miary położenia (measure of location)

Miary rozproszenia (measure of spread) Zakres (range) 0.1-3.2

Miary rozproszenia (measure of spread) Mediana (50%) Górny kwartyl (25%) Dolny kwartyl (25%)

Odstęp pomiędzy dolnym i górnym kwartylem (interquartile range) Interquartile range: 0.8 2.0 lub 1.2 W tym przedziale mieści się połowa wyników!

Odchylenie standardowe (standard deviation - SD) Średnia (mean) wynosi 1.5 Średnie odchylenie od średniej wynosi 0 Zamiast tego oblicza się ile wynoszą odchylenia podniesione do kwadratu W tym celu trzeba zsumować wszystkie odchylenia podniesione do kwadratu

Odchylenie standardowe (standard deviation - SD) Suma odchyleń podniesionych do kwadratu wynosi 9.96 Suma odchyleń podzielona przez liczbę obserwacji (pomniejszoną o jeden) daje tzw. wariancję 9,96 / (n-1) = 0.71 Pierwiastek kwadratowy z wariancji to odchylenie standardowe (czyli 0.84) 1.5 0.84 (średnia SD)

Odchylenie standardowe (standard deviation - SD) do zastosowania raczej jeżeli zmienne mają rozkład normalny, testy parametryczne można stosować tylko jeżeli jest zmienne mają rozkład normalny, w przeciwnym przypadku stosuje się testy nieparametryczne, miarą położenia i rozproszenia dla testów nieparametrycznych jest mediana i zakres (a nie średnia i odchylenie standardowe!)

Rozkład normalny (normal distribution)

Rozkład normalny (normal distribution)

Błąd standardowy średniej (standard error of the mean - SEM) SEM = SD : (pierwiastek z liczebności) SEM uwzględnia liczebność próbki, SD nie 95% przedział ufności = 1,96 x SEM 95% przedział ufności (95% confidence interval - 95%CI) to przedział który na 95% zawiera średnią z całej populacji

Błąd w statystyce Typ I (type I error) stwierdzenie różnicy kiedy de facto jej nie ma Typ II (type II error) stwierdzenie braku różnicy, gdy de facto różnica istnieje

Hipoteza zerowa (null hypothesis) porównując próbki zakłada się (hipotetycznie) że nie ma pomiędzy nimi różnicy za pomocą testów statystycznych można odrzucić (lub nie) hipotezę zerową współczynnik istotności p mówi nam jaka jest szansa że hipoteza zerowa została błędnie odrzucona (czyli że popełniliśmy błąd typu I p<0.05 = <5% szansy że wykazaliśmy różnicę, a tak naprawdę jej nie ma. Czyli mamy >95% szansy na to że się nie pomyliliśmy!

Testy parametryczne test t dla zmiennych niepowiązanych (dla porównania niezależnych próbek) test t dla zmiennych powiązanych (dla porównania powtarzanych obserwacji) test Pearsona (dla korelacji)

Testy nieparametryczne test Mann-Whitney a dla zmiennych niepowiązanych (dla porównania niezależnych próbek) test Wilcoxona dla zmiennych powiązanych (dla porównania powtarzanych obserwacji) test Spearmana (dla korelacji)

Punktowa ocena stanu chorych przy przyjęciu do OIT Grupa I (n=82) Grupa II (n=32) P APACHE II 25,7 ±4,4 25,5 ±9,5 NS GCS 4,43 ±2,83 7,31 ±4,96 <0,01 TISS-28 35,8 ±5,1 40,6 ±6,9 <0,001

130 Częstość akcji serca w okresie pooperacyjnym Grupa I Grupa II 120 110 ud./min. 100 * * * * ** ** ** * 90 80 70 W 0 15 30 45 60 75 90 15 120 135 150 min. 165 180 195 210 225 240 255 270 285 300

Zmienne jakościowe Test Chi 2 (dla większych liczebności) lub test dokładny Fischera (dla mniejszych liczebności) - dla zmiennych niepowiązanych (dla porównania niezależnych próbek). To jest popularna czteropolówka Test Chi 2 McNemary dla zmiennych powiązanych (dla porównania powtarzanych obserwacji)

DZIAŁANIA NIEPOŻĄDANE Rodzaj Grupa I Grupa II n=32 n=29 p Bradykardia < 60/min. 6 (18,8%) 1 (3,4%) NS Tachykardia > 90/min. 1 (3,1%) 4 (13,8%) NS Skurcze dodatkowe 3 (9,4%) 4 (13,8%) NS SBP < 90 mmhg 3 (9,4%) 1 (3,4%) NS SBP > 200 mmhg 2 (6,3%) 4 (13,8%) NS SpO2 < 93% 4 (12,5%) 11 (37,9%) <0,05 Ból głowy 2 (6,9%) 0 NS Suchość w ustach 2 (6,3%) 1 (3,4%) NS Nudności 3 (9,4%) 1 (3,4%) NS Zbyt głęboka sedacja (R6 0 ) 6 (18,8%) 11 (37,9%) NS

Uwaga - to była wersja skrócona! Grupa I Grupa II Rodzaj p n=32 n=29 Bradykardia < 60/min. 6 (18,8%) 1 (3,4%) NS Bradykardia < 60/min. - TAK 6 (18,8%) 1 (3,4%) Bradykardia < 60/min. - NIE 26 (81,2%) 28 (96,8%) NS

Korelacja określa związek pomiędzy zmiennymi ważny jest zarówno współczynnik korelacji r (>0,5), jak i współczynnik istotności p (<0,05) częsta nadinterpretacja wyników (p istotne bo duża próbka, ale co z tego skoro są niskie wartości r) pokusa aby skorelować wszystko ze wszystkim może coś istotnego się znajdzie? (fishing expedition)

Korelacja łącznej punktacji TISS-28 i łącznych kosztów leczenia 80 wsp. korelacji r = 0,76 p < 0,0001 70 60 suma kosztów (tys. zł) 50 40 30 20 10 0 0 200 400 600 800 1000 1200 1400 1600 1800 suma TISS

Pytanie badawcze trzeba postawić na samym początku Nie należy poszukiwać gorączkowo coraz to nowych wyników! Wiadomo, że coś zawsze się znajdzie...

Ciąg dalszy nastąpi...