ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH



Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Prawdopodobieństwo i rozkład normalny cd.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Kolokwium ze statystyki matematycznej

Wykład 9 Wnioskowanie o średnich

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Hipotezy statystyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Zadania ze statystyki, cz.6

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Hipotezy statystyczne

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład 3 Hipotezy statystyczne

Testowanie hipotez statystycznych. Wprowadzenie

Oszacowanie i rozkład t

STATYSTYKA MATEMATYCZNA

Wydział Matematyki. Testy zgodności. Wykład 03

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

166 Wstęp do statystyki matematycznej

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna i ekonometria

Monte Carlo, bootstrap, jacknife

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

METODY STATYSTYCZNE W BIOLOGII

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Zadania ze statystyki cz.8. Zadanie 1.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka matematyczna i ekonometria

Testy nieparametryczne

Pobieranie prób i rozkład z próby

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Weryfikacja hipotez statystycznych testy t Studenta

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Statystyka matematyczna

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Wnioskowanie statystyczne. Statystyka w 5

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Testy post-hoc. Wrocław, 6 czerwca 2016

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Przykład 1. (A. Łomnicki)

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Porównanie dwóch rozkładów normalnych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Rozkłady statystyk z próby

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Prawdopodobieństwo i statystyka r.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Elementy statystyki STA - Wykład 5

Prawdopodobieństwo i statystyka r.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 8: Testy istotności

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Metody Statystyczne. Metody Statystyczne

Rozkłady statystyk z próby. Statystyka

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Transkrypt:

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów

2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza małych próbek Analiza wariancji

3 Hipoteza statystyczna dla danych które występują w parach Wybieramy losowo 200 studentów którzy piszą testy pisemne oraz zdaja egzamin ustny. Czy porównywalne są wyniki uzyskane w egzaminach pisemnych i ustnych?

Analizujemy danych w parach 4 Mamy dwa zbiory danych o których wiemy że nawzajem tworzą pary: każdy student pisał egzamin pisemny i odpowiadał ustnie W takiej sytuacji wygodnie jest monitorować średnia różnicę diff = read write

Analizujemy danych w parach 5 Chcemy ocenić: średnia różnica dla całej populacji studentów: m diff Mamy dostępne wyniki badań dla próbki losowo wybranych 200 studentów: x diff

Analizujemy danych w parach 6 Formułujemy hipotezę: efektywnie mamy tylko jedna zmienną numeryczną Nie ma różnicy pomiędzy średnią oceną za egzamin pisemny i ustny Jest różnica pomiędzy średnią oceną za egzamin pisemny i ustny

Analizujemy danych w parach 7 Przyjmujemy założenie o rozkładzie zbliżonym do normalnego.

Testowanie hipotezy statystycznej 8 Zdefiniowanie hipotezy: Obliczenie estymator punktowy: x diff Sprawdzenie warunków: Niezależność: n < 10% Rozmiar próbki i skrzywienie: n > 30 Narysowanie rozkładu zmiennej, zaznaczenie obszaru p-value, obliczenie wartości testu statystycznego Podjęcie decyzji w sprawie przyjęcia lub odrzucenia hipotezy H o

Analiza danych występujących w parach 9 p-value: prawdopodobieństwo aby na przebadanych losowo 200 studentów otrzymana średnia wyników egzaminu pisemnego i ustnego była 0.545 w sytuacji kiedy faktyczna średnia różnica jest równa zero.

Analiza danych występujących w parach 10

Testowanie przedziału ufności 11

Testowanie przedziału ufności 12 Czy oczekujemy że 95% przedział ufności średniej różnicy ocen będzie zawierał wartość 0? TAK! Wyznacz 95% przedział ufności

Analizujemy niezależne średnie 13

Sprawdzamy warunki 14 Warunki dla porównywania dwóch niezależnych średnich Niezależność Wewnątrz jednej grupy Próbka losowa Nie więcej niż 10% całej populacji Pomiędzy grupami Grupy musza być niezależne, nie być parą Rozmiar/skrzywienie próbki Jeżeli duże skrzywienie rozkładu każda próbka powinna mieć n > 30

Testowanie różnicy między niezależnymi średnimi 15 Hipoteza zerowa: Alternatywna hipoteza: Kolejne kroki tak jak poprzednio

Bootstrapping 16 Mamy do dyspozycji tylko jedną próbkę 1) Losujemy ze zwracaniem z tej próbki i otrzymujemy próbkę o tej samej ilości elementów co pierwotna 2) Wyliczamy statystykę dla nowej próbki: średnia, mediana, proporcja Powtarzamy (1)+(2) i badamy rozkład statystyki próbek bootstrap czyli np. średniej

Bootstrapping 17

Bootstrapping 18

Bootstrapping 19 90% boostrap przedział ufności dla 100 bootstrap próbek: percentile metoda Liczymy czarne kropki

Bootstrapping 20 90% boostrap przedział ufności dla 100 bootstrap próbek: SE metoda

Bootstrapping 21 90% boostrap przedział ufności dla 100 bootstrap próbek

Ograniczenia metody bootsrapping 22 Nie ma aż tak precyzyjnych warunków jak dla metody CLT Jeżeli rozkład pierwotny jest bardzo skrzywiony lub o małej statystyce metoda może nie być wiarygodna Pierwotna próbka musi być reprezentatywna, jeżeli ma bias to wynik będzie też miał ten bias.

Bootstrap vs próbka z populacji 23 Próbka z populacji jest tworzona wybierając z całej populacji podzbiór (bez zwracania) Bootstrap zbiór jest tworzony wybierając z próbki elementy (ze zwracaniem) W obu przypadkach patrzymy na zmienną statystyczną takiej probki, np. średnią.

Duże czy małe próbki 24 Jeżeli obserwacje są niezależne i rozkład danej zmiennej w populacji nie jest bardzo skrzywiony to Rozkład średniej wielu próbek jest bliski do normalnego Oszacowanie SE = s/n jest wiarygodne Jeżeli próbka jest mała oraz s jest nieznana to użyj t- rozkładu, podobny kształt ale większe ogony rozkładu.

t-rozkład 25 Zawsze symetryczny względem 0 (jak standaryzowany rozkład normalny) Ma jeden parametr, df = ilość stopni swobody, które regulują jak duże są ogony rozkładu Jak zwiększamy ilość stopni swobody to rozkład zbliża się do normalnego

t- statystyka 26 Dla wnioskowania statystycznego dla wartości średniej, kiedy: S nieznane n < 30 Oblicz t-statystykę p-wartość (ta sama definicja co poprzednio)

Przykład 27 Test statystyka = 2 oraz testujemy hipotezę H 0 dla dwustronnej granicy. Kiedy możemy odrzucić hipotezę na poziomie 95%CL? Obliczmy p-wartość

Przykład 28 Oszacowanie średniej dla małej próbki

Przykład: 29 Granie w gry komputerowe w trakcie obiadu powoduje zwiększenie spożycia ciasteczek w trakcie popoludnia Zebrane dane:

Przykład 30 Policz df Wylicz zakres przedziału dla zadanego poziomu ufności

Przykład 31 Na poziomie 95% ufności w oparciu o zebrane dane możemy stwierdzić że osoby które grały w gry w trakcie obiadu, spożywały później 32.1-72.1g ciasteczek.

Przykład 32 Czy te dane pozwalają aby stwierdzić że 30g byłoby niewystarczające?

Przykład 33 Czy te dane pozwalają aby stwierdzić że 30g byłoby niewystarczające?

Przykład 34 Czy te dane pozwalają aby stwierdzić że 30g byłoby niewystarczające?

Przykład 35 Sprawdzamy warunki: Niezależność: Losowy wybór osób 22 < 10% wszystkich którzy grają w trakcie jedzenia Skrzywienie rozkładu:

Przykład 36 Porównujemy średnie dwóch małych próbek:

Przykład 37 Porównujemy średnie dwóch małych próbek:

Analiza wariancji 38 Aby porównać średnie dla 3+ grup używamy nowego testu nazywanego analizą wariancji (ANOVA) i nowej statystyki nazywanej F-statystyką. H 0 : wszystkie średnie mają ta samą wartość H A : przynajmniej jedna średnia jest różna

Analiza wariancji 39 z/t test Porównaj średnie dla dwóch grup. Czy ich różnica może być wytłumaczona przez statystyczną fluktuację? anova Porównaj średnie dla trzech lub więcej grup. Czy ich różnica może być wytłumaczona przez statystyczną fluktuację?

Analiza wariancji 40 z/t test Policz test statystykę: stosunek anova Policz test statystykę: stosunek Duża wartość statystyki testowej wskazuje na małe prawdopodobieństwo. Jeżeli prawdopodobieństwo bardzo małe odrzuć hipotezę H 0

Analiza wariancji 41 Aby odrzucić H0, potrzebujemy uzyskać dużą wartość F- statystyki. Wymaga to aby zmienność pomiędzy grupami była dużo większa niż zmienność w ramach grup.

Przykład 42 score

Analiza zmienności 43

SST 44 Oznacza zmienność całej próbki

SSG 45 Oznacza zmienność pomiędzy grupami: różnica pomiędzy średnią w grupie i średnią w całej próbce, ważona ilością elementów w grupie.

SSE 46 Nie wyjaśniona zmienność

47 Teraz chcemy przejść do średnich wartości

48 Teraz chcemy przejść do średnich wartości

F statystyka 49

p-wartość 50

p-wartość 51 Odrzucamy hipotezę H 0

Kiedy możemy stosować analizę 52 wariancji? Niezależność: Obserwacje muszą być niezależne Każda nj < 10% odpowiedniej grupy Grupy muszą być od siebie niezależne (nie ma parowania) Rozkład obserwowanej wielkości powinien mieć rozkład prawie normalny, szczególnie ważne jeżeli próbki są małe; sprawdzamy przy pomocy rozkładu percentili

53 Kiedy możemy stosować analizę wariancji? Rozkład obserwowanej wielkości powinien mieć rozkład prawie normalny, szczególnie ważne jeżeli próbki są małe; sprawdzamy przy pomocy rozkładu percentili

54 Kiedy możemy stosować analizę wariancji? Zmienność obserwowanej wielkości powinna być porównywalna w każdej grupie

Porównywania wielokrotne 55 Można testować różne pary grup Ale wtedy stosujemy skalowanie dla poziomu ufności: Bonferroni poprawki

Przykład 56 Wracamy do naszego przykładu: mamy 4 grupy, testujemy parami aby stwierdzic które grupy są znacząco różne

Porównywanie parami 57 Używamy konsystentnej definicji błędu standardowego oraz ilości stopni swobody.

Przykład 58

Przykład 59

60 Wnioskowanie statystyczne dla zmiennych opisowych Definiowanie proporcji

Przykład 62 Definiowanie proporcji

Centralne twierdzenie graniczne 63 Rozkład proporcji w próbce jest bliski do rozkładu normalnego, symetryczny względem proporcji dla całej populacji, błąd standardowy jest odwrotnie proporcjonalny do wielkości próbki Warunki: Niezależność obserwacji Rozmiar próbki/skrzywienie rozkładu: powinno być co najmniej

Testowanie hipotezy dla pojedynczej proporcji 64 Zdefiniuj hipotezę: Policz jaka jest proporcja w badanej próbce Sprawdź warunki: Niezalezność Rozmiar próbki Narysuj rozkład, policz t-statystykę Podejmij decyzję Jeżeli p-wartość < a, odrzuć H 0 Jeżeli p-wartość > a, nie możesz odrzucić H 0

Testowanie hipotezy dla pojedynczej proporcji 65

Różnica między dwoma proporcjami 66