Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Podobne dokumenty
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Pobieranie prób i rozkład z próby

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wnioskowanie statystyczne. Statystyka w 5

Estymacja punktowa i przedziałowa

Oszacowanie i rozkład t

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Metody Statystyczne. Metody Statystyczne.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Statystyka matematyczna dla leśników

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

METODY STATYSTYCZNE W BIOLOGII

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Prawdopodobieństwo i rozkład normalny cd.

Zadania ze statystyki, cz.6

Grupowanie materiału statystycznego

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Spis treści 3 SPIS TREŚCI

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Rozkłady statystyk z próby

ESTYMACJA. Przedział ufności dla średniej

Metody probabilistyczne

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. Strona 1

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

166 Wstęp do statystyki matematycznej

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Estymacja parametrów rozkładu cechy

Rozkłady statystyk z próby. Statystyka

5. WNIOSKOWANIE PSYCHOMETRYCZNE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA INDUKCYJNA. O sondaŝach ach i nie tylko

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

1 Podstawy rachunku prawdopodobieństwa

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

WYKŁAD 5 TEORIA ESTYMACJI II

Teoria Estymacji. Do Powyżej

Monte Carlo, bootstrap, jacknife

Estymacja parametro w 1

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez statystycznych

Kolokwium ze statystyki matematycznej

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WNIOSKOWANIE STATYSTYCZNE

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

1. szereg wyliczający (szczegółowy) - wyniki są uporządkowane wyłącznie według wartości badanej cechy, np. od najmniejszej do największej

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Analiza wariancji. dr Janusz Górczyński

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Podstawy statystyki - ćwiczenia r.

Statystyka Matematyczna Anna Janicka

Hipotezy statystyczne

Statystyka matematyczna i ekonometria

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ESTYMACJA

Transkrypt:

Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru na podstawie estymatora Statystyka indukcyjna: estymacja parametrów szacowanie wartości parametrów na podstawie wartości estymatora. Statystyka indukcyjna pozwala obliczyć błąd jakim obciążone są te szacunki! - punktowa - przedziałowa testowanie hipotez ESTYMATOR STATYSTYKA W PRÓBIE PARAMETR STATYSTYKA W POPULACJI Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Jeśli chcemy coś powiedzieć o średniej w populacji to informujemy o średniej w próbie. jest to tak zwana ESTYMACJA PUNKTOWA Można podać również błąd standardowy (czyli wielkość zróżnicowania błędu w rozkładzie z próby ) Co z tego wynika: dalej nie wiemy ile wynosi średnia w populacji, ale zgadzamy się, że obliczona średnia jest pewnym przybliżeniem średniej w populacji. I znamy zróżnicowanie błędu (błąd standardowy) w nieskończonej liczbie pomiarów. Im mniejszy błąd tym lepiej - większa dokładność szacowania Możemy estymować nie tylko średnią w populacji, ale inne statystyki: odchylenie standardowe, wariancję, medianę, proporcję, itd. 1

Średnia w próbie jest najlepszym estymatorem średniej w populacji Mediana w próbie jest najlepszym estymatorem mediany w populacji Wariancja w próbie nie jest najlepszym estymatorem wariancji w populacji. Najlepszym estymatorem wariancji jest wariancja (z daszkiem) obliczona według wzoru na wariancję w próbie, ale zamiast n należy użyć n-1 Im mniejsze zróżnicowanie błędów (błędy rozkładają się tak jak średnie z szeregu prób) tym mniejszy błąd standardowy czyli z tym większą dokładnością możemy określić wielkość statystki w populacji Im błąd standardowy mniejszy tym dokładniej przewidywany jest parametr. 2

Estymowany parametr przewidujemy za pomocą przedziału liczbowego, w którym z określonym stopniem pewności znajduje parametr w populacji. Estymator przedziałowy parametru jest nazywany przedziałem ufności. Poziom ufności (1-alfa) jest miarą wiarygodności estymatora Nie wiemy ile dokładnie wynosi parametr w populacji (np. średnia), ale szacujemy ją podając pewien przedział w którym się on znajduje. Zła wiadomość: niestety te szacunki są obarczone błędem, dobra wiadomość umiemy określić poziom tego błędu Interpretując przedział ufności otrzymany dla danych z konkretnego badania należy pamiętać, że jest to jeden z wielu przedziałów, który możemy wyznaczyć dla przewidywanego parametru. Gdyby wylosowała się inna próba otrzymalibyśmy inny przedział ufności. Parametr jest stały, zmienia się - w zależności od próby - przedział ufności Przewidując parametr (a dokładnie, przedział, który będzie zawierał parametr) przyjmujemy pewne ryzyko popełnienia błędu czyli dopuszczamy że wyznaczony przedział nie zawiera parametru. Ryzyko, że pomylimy się w 5 przewidywaniach na 100, oznacza, że parametr przewidujemy z 95% poziomem ufności. Jeśli będziemy pobierać nieskończenie wiele prób i na ich podstawie wyznaczać przedziały ufności to 95% z nich zawiera prawdziwy (stały) parametr. Szansa, że przedział ufności zawiera prawdziwą średnią wynosi 95 na100 Konkretny (np. uzyskany w naszych badaniach) przedział, zawiera albo nie zawiera średnią z populacji. Ale tego nie wiemy. Ufamy jednak (?), że jest to jeden z tych 95% wszystkich przedziałów, które zawierają parametr populacji (np. średnią). 3

99% p. ufn 95% p. ufn 9 9,2 9,4 9,6 9,8 10 10,2 10,4 10,6 10,8 11 95% przedział ufności 99% przedział ufności Długość przedziału ufności zależy od przyjętego poziomu istotności (alfa) /poziomu ufności (1-alfa). Im większy poziom ufności tym dłuższy przedział, tym mniejsza precyzja szacowania. Jeśli jest duże zróżnicowanie cechy w populacji to nie można oczekiwać krótkich przedziałów ufności. 95% poziom ufności dla średniej oznacza, że gdybyśmy wyznaczyli przedziały ufności z (nieskończenie) wielu prób, to 95% tych przedziałów będzie zawierało prawdziwą wartość poszukiwanego parametru. Nie wiadomo dokładnie, który z przedziałów zawiera tę wartość. Wiadomo jedynie, ile z nich będzie w błędzie, a ile będzie zawierało prawdziwą wartość parametru. W praktyce nie przeprowadzamy losowania wielu prób. Losujemy JEDNĄ próbę i na jej podstawie przewidujemy to co dzieje się w populacji. Ufamy, że wyznaczony w naszej jednej próbie przedział ufności tą średnią zawiera. Mamy na to 95% szansę 4

95% przedział ufności oznacza 95% prawdopodobieństwo, że prawdziwa wartość parametru leży w podanych widełkach 95% przedział ufności oznacza, że możemy być w 95% pewni, że prawdziwy parametr leży w podanym przedziale. Przedział ufności to przedział wiarygodnych wartości dla średniej 95% przedział ufności oznacza, że interesujący nas parametr ma 95% prawdopodobieństwo znalezienia się w tym przedziale Howell (1997) proponuje myślenie o parametrze jak o słupku, a o przedziałach ufności jako o krążkach, które badacze rzucają na słupek Na podstawie danych z próby badacze tworzą krążki o odpowiedniej średnicy. Posługując się np. 95% przedziałem ufności krążki trafiają na słupek w 95% razach, w 5% rzutów nie trafiają. Twierdzenie dotyczące przedziałów ufności mówią o prawdopodobieństwie z jakim krążek (przedział ufności) znajdzie się na słupku (będzie zawierał prawdziwą wartość parametru), a nie dotyczy prawdopodobieństwa z jakim słupek (parametr) znajdzie się w krążku (w przedziale ufności) Shaughnessy J. J., Zechmeister E. B. - Metody badawcze w psychologii, s. 449, za Howell D.C. Statistical methods for psychology. 5

Można sprawdzić, że końce przedziałów to 50,932 0,188 * 1,96 Opis wyników: Średnia indeksu męskości wynosi M=50,9, błąd standardowy średniej wynosi S M =0,188. Przedział ufności wyznaczony dla 95% poziomu ufności wynosi (50,563, 51,301). Istnieje 95% prawdopodobieństwo, że uzyskany przedział ufności (50,563, 51,301) zawiera prawdziwą średnią w populacji. Jak należy rozumieć, zinterpretować powyższe raportowanie wyników czyli co czytamy między wierszami. Przyjmujemy, że średnia w populacji wynosi 50,9. Ale ten wynik różni się od prawdziwego. Błąd standardowy S M =0,188 to wielkość zróżnicowania rozkładu średnich, które byśmy otrzymali pobierając nieskończenie wiele prób. Stwierdzamy, z 95% prawdopodobieństwem, że przedział (50,563, 51,301) jest przedziałem, który zawiera prawdziwą średnia w populacji. Szansa, że wyznaczony przedział ufności zawiera prawdziwą średnią wynosi 95 na 100. Czyli, że jest to jeden z tych 95% przedziałów, które zawierają prawdziwą średnią, a które byśmy wyznaczyli wyznaczając przedziały ufności pobierając nieskończenie wiele prób. 99% przedział ufności (50,44, 51,41) 95% p. ufności (50,56, 51,30) 50 50,4 50,8 51,2 51,6 52 Im szerszy przedział tym większa pewność, że zawiera parametr, niestety większa pewność powoduje, że spada precyzja szacowania 6

to w istocie połowa długości przedziału ufności Co raportujemy w wynikach (np. badan sondażowych)? Średnia wysokość kwoty przeznaczanej na wakacje wynosi 2000zł, a błąd statystyczny wynosi 150zł, poziom ufności 0,95. Co z tego wynika? Że wyznaczono przedział ufności dla średniej wakacyjnych wydatków (1850zł, 2150zł). Błąd standardowy średniej wydatków wynosi 76,53zł (=150zł/1,96) Zróżnicowanie nieskończenie wielu pomiarów (zmienność) wakacyjnych wydatków jest na poziomie 76,53zł. Odchylenie standardowe z próby (nie pomiarów) wynosi 76,53zł to w istocie połowa długości przedziału ufności Co raportujemy w wynikach (np. badan sondażowych)? Poparcie dla poglądu, że statystyka jest fajna wynosi 85%, a błąd statystyczny (błąd pomiaru) wynosi 3%, przyjęty w badaniach poziom ufności wynosi 0,95. Co z tego wynika? Że przedział ufności dla frakcji uważających, że statystyka jest fajna wynosi (82%, 88%). Błąd standardowy frakcji wynosi natomiast 1,53% (=3%/1,96) Zróżnicowanie nieskończenie wielu pomiarów (zmienność) frakcji jest na poziomie 1,53% 7

- Od wielkości populacji (wielkość dużych populacji nie wpływa znacząco na wielkość próby wielkość próby rośnie dla coraz większych populacji, ale tylko do pewnego momentu, potem rozmiar populacji nie wpływa na wielkość próby dzielimy przez bardzo duże N, jak bardzo nie ma znaczenia bo i tak otrzymam wartość bliska zera) - Od błędu standardowego (zwykle zakładamy jego maksymalną dopuszczalną wartość = błąd dopuszczalny/dopuszczalny/statystyczny = połowa przedziału ufności) - od poziomu ufności, określanego za pomocą poziomu istotności alfa Alfa = 1 poziom ufności 8

Bardziej wnikliwe omówienie idei estymacji przedziałowej znajduje się w materiałach dodatkowych 9