ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Prawdopodobieństwo i rozkład normalny cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Analiza niepewności pomiarów

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Weryfikacja hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

STATYSTYKA MATEMATYCZNA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 9 Wnioskowanie o średnich

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Hipotezy statystyczne

Hipotezy statystyczne

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez statystycznych. Wprowadzenie

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna i ekonometria

WNIOSKOWANIE STATYSTYCZNE

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka matematyczna i ekonometria

Rozkłady statystyk z próby

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Pobieranie prób i rozkład z próby

Testowanie hipotez statystycznych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Metody Statystyczne. Metody Statystyczne.

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka matematyczna dla leśników

Oszacowanie i rozkład t

Wnioskowanie statystyczne. Statystyka w 5

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Testowanie hipotez statystycznych cd.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Zadania z Zasad planowania eksperymentu i opracowania wyników pomiarów. Zestaw 3

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Wprowadzenie do statystyki dla. chemików testowanie hipotez

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez statystycznych.

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Analiza i monitoring środowiska

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Testowanie hipotez statystycznych.

Rozkład Gaussa i test χ2

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

METODY STATYSTYCZNE W BIOLOGII

Statystyczne Metody Opracowania Wyników Pomiarów

Wykład 8: Testy istotności

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA INDUKCYJNA. O sondaŝach ach i nie tylko

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

laboratoria 24 zaliczenie z oceną

Wykład 3 Hipotezy statystyczne

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyka Matematyczna Anna Janicka

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

166 Wstęp do statystyki matematycznej

Spis treści 3 SPIS TREŚCI

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Monte Carlo, bootstrap, jacknife

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Weryfikacja hipotez statystycznych

Transkrypt:

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów

2 Wnioskowanie statystyczne Czyli jak bardzo jesteśmy pewni że parametr oceniony na podstawie próbki jest wartością prawdziwą dla całej populacji

Wnioskowanie statystyczne 3 To jest proces formalnego wyciągania wniosków na podstawie dostępnych danych Na podstawie dostępnej próbki danych chcemy wyciągać wnioski dotyczące całej populacji: Czy faktycznie próbka jest reprezentatywna? Czy są znane/nieznane czynniki które mogą zaburzyć procedurę wnioskowania? Czy jest znany bias ze względu na brakujące dane albo proces zbierania danych? Czy rozumiemy losowość danych? Czy nasze wnioskowanie dotyczy tworzenia modelu? Itd..

Wnioskowanie statystyczne 4 Badania statystyczne przeprowadzone przez telefon w dniach 6-19 grudzień 2011, na próbce 2048 dorosłych (> 18 lat). Wyniki badań: 41% sądzi że młodzi ludzie maja trudniejszą sytuację w obecnej ekonomii niż ludzie w średnim wieku lub starsi. Pośród badanych w wieku 18-34 lat, 49% twierdzi że wykonują pracę której nie lubią po to aby móc się utrzymać a 12% twierdzi że pracują bez płacy aby zdobyć doświadczenie. Błąd statystyczny jest 2.9% dla wyników z całej próbki oraz 4.4% dla osób 18-34 lat na poziomie 95% poziomu ufności.

Wnioskowanie statystyczne 5 Jak to interpretujemy? 41% ± 2.9%: jesteśmy przekonani na poziomie 95% przedziału ufności, że 38.1-43.9% ludzi sądzi że młodzi ludzie maja trudniejszą sytuację w obecnej ekonomii niż ludzie w średnim wieku lub starsi. 49% ± 2.9%: jesteśmy przekonani na poziomie 95% przedziału ufności, że 44.6-53.4% młodych ludzi w wieku 18-34 lat wykonuje prace tylko po to aby pokryć koszty życia, ale jej nie lubi.

Jak przeprowadzamy takie badania? 6

Próbka statystyczna 7

Przykład 8

Przykład 9

Centralne twierdzenie graniczne 10 Rozkład zmiennej statystycznej wartość średnia, mierzonej na wielu próbkach tej samej populacji, ma rozkład zbliżony do normalnego Warunki: Niezależność: Próbki musza być niezależne n < 10% populacji Skrzywienie rozkładu: albo rozkład badanej zmiennej zbliżony do normalnego, a jeżeli ma przekrzywienia to używamy duże próbki (n > 30 )

Przykład: 11 Rozkład zmiennej w całej populacji Rozkład wartości średniej dla próbek o n=200

Przykład: 12 Mój ipod na 3000 utworów muzycznych. Histogram pokazuje rozkład trwania tych utworów, wiem że średni czas utworu jest 3.45min, odchylenie standardowe jest 1.63min. Jakie jest prawdopodobieństwo że losowo wybrany utwór trwa dłużej niż 5min?

Przykład (cd): 13 Mam zamiar wybrać się w podróż która będzie trwała 6 godzin. Wybrałam losowo 100 utworów. Jakie jest prawdopodobieństwo że wystarczą na całą podróż?

Przedział ufności (CI) 14 Centralne twierdzenie graniczne

Przedział ufności (CL) 15 Przedział ufności dla wartości średniej Zawsze sprawdzamy warunki: Niezależność: Próbki musza być niezależne n < 10% populacji wartość krytyczna Skrzywienie rozkładu: albo rozkład badanej zmiennej zbliżony do normalnego, a jeżeli ma przekrzywienia to duże próbki (n > 30 )

Wartość krytyczna 16

Poziom ufności 17 Przypuśćmy że wykonaliśmy wiele pomiarów i skonstruowaliśmy dla każdego przedział ufności. m Dla z* = 1.96 około 95% tych przedziałów będzie zawierać wartość średnią populacji (m) Najczęściej używane przedziały ufności to: 90%, 95%, 98% i 99%.

Przedział ufności 18 Jeżeli chcemy być bardzo pewni że nasz przedział ufności będzie zawierał wartość średnia całej populacji to bierzemy szerszy przedział

Przedział ufności 19

Przedział ufności 20 Ale nie jesteśmy wtedy precyzyjni, więc może nasza informacja jest bezużyteczna?

Precyzja vs pewność 21 Jak być i pewnym i precyzyjnym? Zwiększyć rozmiar próbek. Margin of Error Możemy określić dopuszczalny błąd i wyznaczyc minimalną ilość elementów w próbce.

Przykład 22 Grupa naukowców postanowiła przebadać wpływ lekarstwa na epilepsje na inteligencję dzieci których matki brały takie lekarstwo w trakcie ciąży. Jako miernik postanowiono przebadać IQ u 3-letnich dzieci. Poprzednie studia wskazywały że średni IQ u 3-letnich dzieci jest równy 18 punktów. Jak dużo dzieci należy przebadać aby uzyskać 90% przedział ufności z SE 4 punkty Musimy przebadać co najmniej 56 dzieci

Przykład (cd) 23 Stwierdziliśmy że musimy przebadać co najmniej 56 dzieci. A gdybyśmy chcieli żeby SE 2

Interpretation (raz jeszcze) 24 Na poziomie 95% jesteśmy pewni że zmienna x mieści się w granicach (2.72, 3.68) Odchylenie standardowe

Inny przykład: 25 p-value bardzo małe, odrzucamy H 0

Estymatory o rozkładach prawie normalnych 26 Jakie estymatory mają prawie normalne rozkłady? średnia różnica średnich proporcja w próbce różnica proporcji To są dobre estymatory czyli takie których rozkład ma środek w wartości tego estymatora dla całej populacji

Przedział ufności 27 Badanie statystyczne w 2010 roku wykazały że na 1099 przebadanych uczniów prawie 33% ogląda programy telewizyjne późno w nocy. Odchylenie standardowe tego pomiaru to 0.014. Jaki jest 95% przedział ufności dla procentu uczniów którzy oglądają nocne programy.

Testowanie hipotez 28 Przeprowadzono badania procentowego udziału tłuszczu (BF%) na 13 601 osobach w wieku 20-80 lat. Średni BF% dla 6580 mężczyzn = 23.9 a średni BF% dla 7021 kobiet=35.0. Błąd SE różnicy między średnimi dla mężczyzn i kobiet = 0.114. Czy dane potwierdzają tezę że średnio mężczyźni i kobiety mają różną BF%. Możesz założyć że rozkład średniego BF% jest prawie normalny. 1. Definiujemy hipotezę: 2. Obliczamy estymator czyli średnią różnicę: 3. Sprawdzamy warunki

Testowanie hipotez (cd) 29 Te dane dają przekonywujący argument że %BF u kobiet i mężczyzn jest różny.

Podejmowanie decyzji 30 Błąd typu I : odrzucamy H 0 kiedy było prawdą Błąd typu II: nie odrzucamy H 0 choć prawdziwe było H A

Podejmowanie decyzji 31 Błąd typu I : Odrzucamy H 0 kiedy p-value < 0.05 (a = 0.05) To znaczy że jeżeli H 0 jest prawdą to nie chcemy odrzucić więcej niż 5% takich hipotez Preferujemy małe wartości a, zwiększenie tej wartości powoduje zwiększenie procentu błędnych decyzji.

Podejmowanie decyzji 32 Jeżeli błąd typu I jest niebezpieczny lub kosztowny wybierz małe a (np. 0.01) Jeżeli błąd typu II jest niebezpieczny lub kosztowny wybierz duże a (np. 0.10)

Podejmowanie decyzji 33 Błąd typu I : odrzucamy H 0 kiedy było prawdą, prawdopodobieństwo = a Błąd typu II: nie odrzucamy H 0 choć prawdziwe było H A, prawdopodobieństwo = b Moc testu: poprawnie odrzucać H0, prawdopodobieństwo = 1- b

Podejmowanie decyzji 34 Błąd typu II : Prawdopodobieństwo jest trudne do policzenia Jeżeli średnia populacji jest bliska wartości dla H 0 to będzie to trudne do odrzucenia Prawdopodobieństwo b zależy od tej różnicy.

Przedział ufności vs znaczące statystycznie 35

Przedział ufności vs znaczące statystycznie 36

Przedział ufności i testowanie hipotezy 37 Dwu-stronna hipoteza z warunkiem a jest równoważna przedziałowi ufności z CL = 1-a. Jedno-stronna hipoteza z warunkiem a jest równoważna przedziałowi ufności z CL = 1-(2xa) Jeżeli H 0 jest odrzucone to przedział ufności nie powinien zawierać wartości 0 Jeżeli H 0 nie jest odrzucone to przedział ufnosci powinien zawierać wartość 0

Jak duże próbki? 38 Dla (a) czy (b) p-wartość będzie mniejsza?

Jak duże próbki? 39 Prawdziwe różnice pomiędzy średnią z próbek i wartością dla H 0 są łatwiejsze do wykrycia dla dużych próbek. Ale bardzo duże próbki będą wskazywać na duże znaczenie statystyczne tej różnicy, nawet jeżeli nie ma ona praktycznego znaczenia. Czyli zaplanuj dobrze swój eksperyment

Wnioskowanie na podstawie symulacji 40 Pamiętacie przykład z promocją kobiet i mężczyzn?

Wnioskowanie na podstawie symulacji 41 Wykonaliśmy symulacje przy pomocy kart. Patrząc na wyniki uznaliśmy że jest bardzo mało prawdopodobne aby przy hipotezie że nie ma dyskryminacji uzyskać różnicę w proporcji będącą 30% lub więcej. Odrzuciliśmy hipotezę H 0