Statystyczna analiza danych



Podobne dokumenty
1 Podstawy rachunku prawdopodobieństwa

Testy dotyczące wartości oczekiwanej (1 próbka).

Testy statystyczne teoria

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

176 Wstȩp do statystyki matematycznej = 0, 346. uczelni zdaje wszystkie egzaminy w pierwszym terminie.

1 Estymacja przedziałowa

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Pozyskiwanie wiedzy z danych

Statystyka matematyczna dla leśników

Kolokwium ze statystyki matematycznej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych

1. szereg wyliczający (szczegółowy) - wyniki są uporządkowane wyłącznie według wartości badanej cechy, np. od najmniejszej do największej

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Miary statystyczne w badaniach pedagogicznych

Testowanie hipotez statystycznych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Oszacowanie i rozkład t

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Estymacja punktowa i przedziałowa

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

KORELACJE I REGRESJA LINIOWA

W1. Wprowadzenie. Statystyka opisowa

Statystyka Matematyczna Anna Janicka

Statystyczna analiza danych

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wnioskowanie statystyczne. Statystyka w 5

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Wykład 3 Hipotezy statystyczne

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Zadania ze statystyki, cz.6

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka matematyczna i ekonometria

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

1 Zmienne losowe. Własności dystrybuanty F (x) = P (X < x): F1. 0 F (x) 1 dla każdego x R, F2. lim F (x) = 0 oraz lim F (x) = 1,

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testowanie hipotez statystycznych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych cd.

Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka matematyczna i ekonometria

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna i ekonometria

1 Dwuwymiarowa zmienna losowa

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka. Opisowa analiza zjawisk masowych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Metody Statystyczne. Metody Statystyczne.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Parametry statystyczne

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Rachunek prawdopodobieństwa i statystyka

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Testowanie hipotez statystycznych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Rozkłady statystyk z próby

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. Strona 1

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Transkrypt:

Statytyka. v.0.9 egz mgr inf nietacj Statytyczna analiza danych Statytyka opiowa Szereg zczegółowy proty monotoniczny ciąg danych i ) n uzykanych np. w trakcie pomiaru lub za pomocą ankiety. Przykłady (zeregowania danych) Dane:, ;, ;, ;, ;, 3;, 4;, 4. Szereg zczegółowy: i 3 4 5 6 7 x i,,,,,3,4,4 Szereg rozdzielczy punktowy: j 3 4 x j,,,3,4 f j 3 (grupujemy te ame wyniki podając ich liczebności f j ) Szereg rozdzielczy przedziałowy: l x l [,0;,5) [,5;,5) f l 4 3 (dzielimy wyniki wg zakreów podając liczebności f l w danym przedziale; część informacji utracona) Uwaga:. Dalej zakładamy, że dane i ) n ą w potaci zeregu zczegółowego (ciąg niemalejący).. Próba i ) n może być wybrana z populacji lub tanowić zetaw wyników oberwacji zjawika loowego. Statytyki z próby danych i ) n. średnia µ = x = x n i ; miara położenia. moda (= dominanta = wartość modalna) najczęściej pojawiająca ię wartość x i ; miara położenia 3. kwartyle: Q (dolny = pierwzy), Q (mediana = wartość środkowa = drugi), Q 3 (górny = trzeci); miary położenia { x(n+)/, n nieparzyte k opi Q = x n/ +x (n+)/, n parzyte 5% danych nie przekracza Q, 75% danych nie mniejza niż Q połowa danych nie przekracza Q, połowa danych nie mniejza niż Q 3 75% danych nie przekracza Q 3, 5% danych nie mniejza niż Q 3 4. roztęp R = max i x i min x i ; miara rozprozenia i 5. odchylenie ćwiartkowe (= roztęp ćwiartkowy) Q = (Q 3 Q ), gdzie Q, Q 3 kwartyle; miara rozprozenia 6. odchylenie przeciętne d = x n i x, gdzie x średnia; miara rozprozenia

Statytyka. v.0.9 egz mgr inf nietacj 7. wariancja σ = = m = n i x) ; miara rozprozenia 8. odchylenie tandardowe σ = = wariancja = n i x) ; miara rozprozenia x moda 9. wpółczynnik aymetrii ; miara aymetrii 0. kurtoza (= wpółczynnik koncentracji) K = m 4 4 ; miara koncentracji. moment centralny k-tego rzędu m k = n i x) k Uwaga:. Rozkład może mieć wiele dominant (tzw. rozkład wielomodalny).. Dyperja = rozprozenie. 3. Q < d <. Przykład (wyznaczania tatytyk z przeadnie małej próby) Dane: x =, ; x,3,4 =, ; x 5 =, 3; x 6,7 =, 4. położenie x = 8,8, 57 moda =, Q 7 =,, Q =,, Q 3 =, 35 rozprozenie R =, 4, = 0, 3 Q = 0, 075 d 0, 094 0, 05, 0, 0 aymetria/koncentracja wp.aym. 0, 54 K 6, 5 3 moda R Q = Q 3 Q...3.4 Hitogram Q Q Q 3,,,,,3,4,4 Szereg zczegółowy Rozkłady zmiennych loowych Zmienna loowa X funkcja X : Ω R przyjmująca wartość X(ω) w zależności od zdarzenia elementarnego ω Ω, przy czym ma en prawdopodobieńtwo F ) = Pr(X x), że zazło zdarzenie ω Ω, dla którego wartość zmiennej X(ω) nie przekracza wartości x: X(ω) x. Dytrybuanta F rozkładu prawdopodobieńtwa zmiennej loowej X: F ) = Pr(X x). Dytrybuanta opiuje w pełni rozkład prawdopodobieńtwa zmiennej loowej X:. Pr(X > x) = Pr(X x) = F ),. Pr(X < x) = lim F + h), h 0 + 3. Pr(a < X b) = F (b) F (a). Gętość f rozkładu prawdopodobieńtwa zmiennej X funkcja całkowalna f(z) 0 o całce f(z) dz = pełniająca F ) = x f(z) dz, gdzie F jet dytrybuantą rozkładu X. Ciągła zmienna loowa zmienna, której rozkład prawdopodobieńtwa poiada gętość.

Statytyka. v.0.9 egz mgr inf nietacj 3 Zależność między gętością f a dytrybuantą F : F ) = f) we wzytkich punktach ciągłości f. Inaczej: Pr < X x + h) f) = lim h 0 h p-two, że wynik leży w przedziale, x+h] gętość długość przedziału Zmienna dykretna X o rozkładzie Pr(X = x i ) = f i ) Zmienna ciągła X o gętości f) Wartość oczekiwana EX µ = i x i f i ) µ = x f) dx Wariancja D X = E(X EX) σ = i µ) f i ) σ = µ) f) dx = E(X ) (EX) i Nierówność Czebyzewa : Pr ( X EX ε) D (X) dla ε > 0. ε Przykład (rozkład normalny Gaua). N(µ, σ) rozkład o gętości f(z) = σ π e ( z µ ) σ ; X N(µ, σ) EX = µ, D X = σ Zaada trzech igm : Dla X N(µ, σ) zachodzi Pr( X µ > 3σ ) < 0, 003. 99, 7% µ 3σ µ µ + 3σ Słownie: Tylko 3% 0 wartości X leży poza przedziałem [µ 3σ, µ + 3σ]. Przykład (Tablice tatytyczne rozkładów χ i t-studenta) Wartości krytyczne rozkładów na poziomie itotności α = 0, 05 liczba topni wobody 6 0 4 8 6 30 t-studenta t α,447,8,45,0,074,056,04 rozkład χ h α,59 8,307 3,685 8,869 33,94 38,885 43,773 3 Etymacja parametrów rozkładu Dane: Zmienna loowa X o kończonej wartości oczekiwanej E X = µ i wariancji D X = σ.

4 Statytyka. v.0.9 egz mgr inf nietacj X może opiywać pewną cechę w populacji (np. waga, przeżywalność), pomiar (np. prędkości, temperatury) lub zjawiko fizyczne (np. rzut kotką, rozpad promieniotwórczy). Nie znamy faktycznego rozkładu prawdopodobieńtwa zmiennej X ani nawet wartości parametrów µ i σ. Zagadnienie: Jak na podtawie kończonej próby i ) n etymować (=zacować) wartości µ i σ? Etymacja punktowa wartości oczekiwanej µ Średnia z próby x = x n = x +x +...+x n n jet etymatorem wartości oczekiwanej µ: ε>0 Pr( x n µ ε ) ( ) σ n ε 0. n Słownie: ze wzrotem liczebności próby n prawdopodobieńtwo odchylenia o ε średniej x n od parametru µ maleje do zera. Uwaga:. I tak nie możemy wykluczyć dużych odchyleń, choć ą one mało prawdopodobne.. Zmienna X może mieć dowolny rozkład o kończonej wartości oczekiwanej i wariancji. 3. Nierówność ( ) to zczególny przypadek nierówności Czebyzewa. Etymacja punktowa wariancji σ Wariancja z próby = n i x n ) jet etymatorem wariancji σ. Etymacja przedziałowa wartości oczekiwanej µ Przedział ufności dla µ na poziomie ufności α ( ) x t α, x + t α, n n gdzie t α wartość krytyczna rozkładu t-studenta o n topniach wobody: Pr( t t α ) = α, t = x µ n ; por. Tet itotności dla wartości średniej i Schemat wniokowania. 4 Tetowanie hipotez Prawdziwa jet Przyjmujemy H 0 : Odrzucamy H 0 : H 0 hipoteza zerowa błąd I rodzaju; = przypuzczenie, α prawdopodobieńtwo decyzja prawidłowa które weryfikujemy popełnienia błędu H hipoteza alternatywna błąd II rodzaju; β prawdopodobieńtwo popełnienia błędu decyzja prawidłowa Decyzję podejmujemy na podtawie prawdzianu odpowiednio dobranej tatytyki z próby. Reguła trzech igm : Jeśli pobieramy próbę ze zmiennej loowej o rozkładzie normalnym, to możemy odrzucić dane poza przedziału [x 3, x + 3] jako mało prawdopodobne. Schemat wniokowania w teście itotności Niech v tatytyka z próby wybrana na potrzeby weryfikacji hipotezy H 0. Dla poziomu itotności α odzukujemy (np. w tablicach albo za pomocą programu) wartość krytyczną v α w taki poób, aby Pr( v v α ) α. Weryfikacja na poziomie itotności α:

Statytyka. v.0.9 egz mgr inf nietacj 5. Jeśli wartość v obliczona z próby leży w obzarze krytycznym ( v v α ), to H 0 odrzucamy i przyjmujemy H ; prawdopodobieńtwo, że popełniliśmy błąd wynoi α.. Jeśli wartość v z próby leży w obzarze dopuzczalnym ( v < v α ), to nie ma dotatecznych podtaw do odrzucenia H 0. Uwaga: W praktyce przyjmuje ię α = 0, 05 lub 0, 0. Tet itotności dla wartości średniej Hipoteza zerowa H 0 : wartość średnia µ wynoi µ 0 ; H : µ µ 0. H 0 weryfikujemy za pomocą tatytyki t = x µ 0 n, gdzie x średnia z próby, = odchylenie z próby. Zmienna t ma rozkład t-studenta o n topniach wobody. Dla dużych prób (n > 30) rozkład t-studenta można zatąpić zbliżonym rozkładem normalnym. Tet równości dwóch średnich H 0 : wartość średnia µ zmiennej X jet równa wartości średniej µ zmiennej X ; H : µ µ. H 0 weryfikujemy za pomocą tatytyki u = x x, gdzie x j średnia z próby, + n n j wariancja z próby, n j liczebność próby pobranej dla zmiennej X j, j =,. Jeśli H 0 jet prawdziwa, to tatytyka u ma rozkład bliki normalnemu N(0, ). Tet zgodności χ Pearona H 0 : zmienna X ma rozkład prawdopodobieńtwa zgodny z rozkładem zmiennej Y ; H : zmienne X i Y mają różne rozkłady. Możliwe wartości zmiennych X, Y dzielimy na k kla. Oznaczamy: p j = Pr(Y W j ) p-two, że wartość Y wpadła do j-tej klay (zadane rozkładem Y ), np j przybliżona liczebność jaka powinna wytąpić w próbie dla zmiennej Y, f j liczebność tych próbek x zmiennej X, które leżą w j-tej klaie: x W j. Klay wyznaczamy tak by wartości np j były wytarczająco duże: np j 5 dla dotępnych n danych. Jeśli X ma taki am rozkład co Y, to Pr(X W j ) = Pr(Y W j ) = p j. Statytyka h = k j= (f j np j ) np j ma rozkład p-twa bliki rozkładowi χ o k topniach wobody, gdzie k liczba kla, a liczba parametrów rozkładu teoretycznego Y, które należy wyznaczyć z próby; np. rozkład normalny N(µ, σ) ma = parametry µ i σ.

6 Statytyka. v.0.9 egz mgr inf nietacj Przykład (przeprowadzania tetu itotności wartości średniej). Dane: x =, ; x,3,4 =, ; x 5 =, 3; x 6,7 =, 4. Hipoteza zerowa H 0 : wartość średnia µ = = µ 0 =, 3 = µ 0 =, 4 3. Wybieramy poziom itotności α = 0, 05 4. Obliczamy tatytykę t = x µ 0 n,57,3 7, 003,57,4 7 3, 335 0,05 0,05 5. Porównujemy t z wartością krytyczną t α =, 447... rozkładu t-studenta o n = 6 topniach wobody: t, 003 < t α t 3, 335 > t α 6. Wnioek: nie możemy odrzucić H 0 : µ =, 3 5 Korelacja należy odrzucić H 0 : µ =, 4 (p-two błędu α = 5%) Wpółczynnik korelacji liniowej między oberwowanymi zmiennymi loowymi X i Y wyznaczamy z próby natępująco r(x, Y ) = cov(x, Y ) X Y, gdzie n liczebność próby loowej, z której pobieramy wartości i ) n zmiennej X i (y i ) n zmiennej Y ; x = x n i, y = y n i wartości średnie zmiennych z prób; X = n i x), Y = (y n i y) odchylenia zmiennych z próby; cov(x, Y ) = cov(y, X) = n i x) (y i y) kowariancja zmiennych z próby. { r(x, Y ) > 0, 7 znaczący związek Uwaga: W praktyce przyjmujemy, że gdy r(x, Y ) < 0, brak zależności liniowej Regreja liniowa Intereujemy ię, czy ma miejce zależność liniowa między zmienną X a zmienną Y potaci: Y = a + bx + cont, czyli Y (a + bx) = cont. Do wartości zmiennych X, Y z próby: i, y i ), i =,..., n, dopaowujemy protą regreji y = a + bx metodą najmniejzych kwadratów: b = r(x, Y ) Y X = (y i y) i x), a = y b x, i x) gdzie x, y średnie z próby. Tak dobrane a, b minimalizują umę kwadratów odchyleń [ y i (a + bx i ) ] min.

Statytyka. v.0.9 egz mgr inf nietacj 7 Źródła:. A.Zeliaś, Metody tatytyczne, PWE Warzawa 000. O.Zaigraev, Statytyka matematyczna, Toruń 00 3. J.Karłowka-Pik, Materiały dydaktyczne, www.mat.uni.torun.pl/ joanka 4. A.Płocki, Stochatyka, WSP Kraków 997 5. K.Szwarc, Tablice tatytyczne, www.kid.ae.poznan.pl/zwarc