Statystyka Katarzya Chudy Laskowska http://kc.sd.prz.edu.pl/
WNIOSKOWANIE STATYSTYCZNE Celem aalizy statystyczej ie jest zwykle tylko opisaie (prezetacja) posiadaych daych, czyli tzw. próby statystyczej. Najczęściej iformacje z próby powiy pozwolić wyciągąć wioski o całej populacji, która ie mogła (z różych względów) być poddaa badaiu w całości. Zdefiiowae w poprzedim zdaiu cele tzw. wioskowaia statystyczego są możliwe do realizacji poprzez użycie odpowiedich arzędzi aalityczych - testów statystyczych. (parametryczych i ieparametryczych) Hipoteza statystycza - to sąd o zbiorowości geeralej, wyday bez przeprowadzeia badaia statystyczego. Prawdziwość orzeka się a podstawie próby losowej.
Podstawowe założeia Dobór odpowiedich procedur: -Typ hipotezy statystyczej -Charakter zmieej losowej (omialy, porządkowy, iterwałowy lub ilorazowy) -Rozkład zmieej losowej (rozkład ormaly zmieej losowej) -Sposób doboru próby statystyczej (dobór zależy iezależy) -Jedorodośc (homogeiczość ) wariacji w badaych próbach
Testy statystycze Testy parametrycze dotyczące parametrów (średia, odchyleie stadardowe, wariacja wskaźik struktury) Testy ieparametrycze dotyczące rozkładów i zależości Rozkłady -zgodości chi kwadrat - Test serii - Test Kołmogorowa - Smirowa Zależości (różice) TAK Próby losowe, rozkład cechy w przybliżeiu ormaly, Wariacje homogeicze NIE próby zależe -test Wilcoxoa -test zaków -test Q Cochraa -test McNemara próby iezależe -test Kruskala-Wallisa -test U Maa Whiteya -test iezależości chi kwadrat
TOK TESTOWANIA HIPOTEZ STATYSTYCZNYCH Idea większości testów statystyczych jest astępująca. Sformułowaie hipotezy zerowej (H ) oraz hipotezy alteratywej (H ); (postać hipotezy zależy od postawioego problemu badawczego). Wybór tzw. statystyki testowej (wzoru, procedury) 3. Przyjęcie poziomu istotości Na tym etapie procedury weryfikacyjej przyjmujemy prawdopodobieństwo popełieia błędu I rodzaju, który polega a odrzuceiu hipotezy zerowej wtedy, gdy jest oa prawdziwa. Prawdopodobieństwo to jest ozaczae symbolem α i azywae poziomem istotości. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, poieważ chcemy aby ryzyko popełieia błędu było jak ajmiejsze. Najczęściej zakładamy, że poziom istotości α.5 (p. α=. ; α=.5 ; α=.) DECYZJA BADACZA H jest prawdziwa STAN FAKTYCZNY H jest fałszywa Nie ma podstaw do odrzuceia H -α Błąd II rodzaju (β) Odrzucamy H Błąd I rodzaju (α) -β
TEORETYCZNIE 4. Wyzaczeie obszarów krytyczych α=,5 α=,5 Zbiorem (obszarem) krytyczym azywa się zbiór wartości sprawdziau hipotezy, które przemawiają za odrzuceiem H. Obszar może być jedostroy lub dwustroy. Zależy o od postaci hipotezy alteratywej, przyjętego poziomu istotości oraz liczości próby. 5. Wyzaczeie statystyki testu (a podstawie przyjętego wzoru, statystyki) 6. Podjęcie decyzji Jeśli wartość statystyki testu wpada w obszar krytyczy H ależy odrzucić, jeśli ie, to ie ma podstaw do odrzuceia H i ajprawdopodobiej H jest prawdziwa. KOMPUTEROWO 4. Wykoaie procedury testowej; Na podstawie twierdzeń statystyki matematyczej wyzaczay jest rozkład wartości statystyki testowej przy losowym doborze próby oraz przy założeiu prawdziwości hipotezy zerowej; wyzaczaa jest empirycza wartość statystyki testowej a podstawie posiadaych daych i określae jest prawdopodobieństwo uzyskaia takiej wartości (tzw. prawdopodobieństwo testowe p); 5. Podjęcie odpowiediej decyzji dotyczącej odrzuceia bądź ie odrzuceia (H ) Jeżeli wartość p jest miejsza od założoego poziomu istotości to H ależy odrzucić a korzyść H Jeżeli wartość p jest większa od założoego poziomu istotości to ie ma podstaw do odrzuceia H
Test iezależości chi kwadrat( ) Pearsoa cechy jakościowe Test służy do badaia zależości pomiędzy cechami jakościowymi. Hipoteza zerowa mówi o iezależości badaych cech. Hipoteza alteratywa wskazuje a istieie zależości między cechami. Badaa próba powia mieć więcej iż 3 obserwacji, a wyiki przedstawia się w tabeli dwudzielej lub wielodzielej. Sprawdziaem hipotezy jest statystyka r s i j Statystyka ma asymptotyczy rozkład χ o =(r-)(s-) stopiach swobody. Obszar krytyczy jest prawostroy. Jeśli obl to hipotezę o iezależości ależy odrzucić. ij ij ' ij
Przykład Przedstawioo wyiki testu a prawo jazdy w pewym Ośrodku Kształceia Kierowców pogrupowae względem płci. Zaliczyły osoby, które popełiły miej iż 4 błędy. Zbadać czy istieje zależość między płcią a faktem uzyskaia pozytywego wyiku z testu sprawdzającego zajomość przepisów. Liczba błędów 3 4 5 6 7 8 Kobiety 4 5 6 4 3 Mężczyźi 3 4 7 3 3 H Płeć ie wpływa a uzyskaie pozytywego wyiki testu (ie ma zależości pomiędzy płcią a faktem otrzymaia pozytywego wyiku) H Płeć wpływa a uzyskaie pozytywego wyiki testu (jest zależość pomiędzy płcią a faktem otrzymaia pozytywego wyiku) Brak zaliczeia (,5) Zaliczoe 5 (,5) Kobiety Mężczyźi Σ 3 5 (7,5) (7,5) 5 5 Σ 45 55 455 555 455 555,5 7,5,5 7,5,5 3,84 r s i j ij ij ( r )( s ) ss ( r )( s ) ( )( ) ss ' ij,5 3 7,5 5,5 5 7,5,5 7,5,5 7,5,8,3,8,3, obl Nie ma podstaw do odrzuceia H ajprawdopodobiej płeć ie ma wpływu a fakt uzyskaia pozytywego wyiku testu.
Miary zależości oparte a wartości statystyki chi kwadrat Współczyik Yule a Współczyik Czupurowa T r s Współczyik Cramera V mi( r, s ) Iterpretacja współczyików jest taka sama: -Jeżeli przyjmują oe wartości bliskie zero to ie ma zależości pomiędzy badaymi cechami -- Im wyższa wartość współczyika tym większa zależość między badaymi zmieymi
Przykład Tłumiki do samochodów ciężarowych produkowae są w dwóch zakładach A i B. Wyrób może być uzay za wadliwy z dwóch powodów - iska jakość wykoaia - użycie gorszego surowca. Aalizując 68 wyrobów wadliwych otrzymao: Firma A B iska jakość wykoaia 4 7 96 użycie gorszego surowca 46 6 7 7 98 68 Na poziomie istotości α =,5 wskazać czy istieje zależość między miejscem powstaia tłumików a przyczyą uzaia wyrobu za wadliwy.
JAK TO SIĘ ROBI W STATYSTYCE?
WYBRANE TESTY PARAMETRYCZNE TEST DLA WARTOŚCI ŚREDNIEJ Model I Populacja ma rozkład N(m,δ) Próba jest licza > 3 δ-zae H : m m x m U Tablice rozkładu ormalego Model II Populacja ma rozkład N(m,δ) Próba jest mała < 3 δ-iezae x m T s Tablice rozkładu t-studeta o (-) stopiach swobody TEST DLA DWÓCH ŚREDNICH Model I Dwie populacje o rozkładach N(m,δ), N(m,δ) Próba są licze > 3 δ-zae U H : m m x x Tablice rozkładu ormalego Model II Dwie populacje o rozkładach N(m,δ), N(m,δ) Próby są małe < 3 δ δ -iezae ale rówe x x T S S Tablice rozkładu t-studeta o ( + -) stopiach swobody Populacja ma rozkład N(m,δ) m - zae S TEST DLA WARIANCJI Tablice rozkładu χ o ()ss U Populacja ma rozkład N(m,δ) m - zae S TEST DLA DWÓCH WARIANCJI Dwie populacje o rozkładach N(m,δ), N(m,δ) S F S Populacja ma rozkład N(m,δ) m - iezae Próbki małe <3 ( ) S Tablice rozkładu χ o (-)ss Populacja ma rozkład N(m,δ) m - iezae U S Tablice rozkładu ormalego Tablice rozkładu F Sedecora o r ( ), r ( ) 3 p TEST DLA WSKAŹNIKA STRUKTURY H : p p U X p p q Tablice rozkładu ormalego X X TEST DLA DWÓCH WSKAŹNIKÓW STRUKTURY U X q Tablice rozkładu ormalego X p q p
TEST DLA WARTOŚCI ŚREDNIEJ Model I Populacja ma rozkład N(m,δ) Próba jest licza > 3 δ-zae Tablice rozkładu ormalego Zakłada się że długość życia opo samochodowych ma rozkład N(m,σ). Producet twierdzi że wartość przecięta tej charakterystyki jest rówa 5 tys. km. Na podstawie losowo wybraej próby opo otrzymao xśr = 45 tys. km a s=8 tys km. Czy a poziomie istotości α =,5 moża uważać że producet ma rację? x 45tys. km s 8tys. km m 5tys. km,5 H : m 5 H : m 5 Przy zbiorze jedostroym (u ) Przy zbiorze dwustroym ( u ) U x m 45 5 6,5 8 u,96 Poieważ obliczoa statystyka U wpada w obszar krytyczy H o ależy odrzucić. u,96 u, 96
Norma techicza przewiduje średio 55 miut a wykoaie pewej czyości podczas aprawy samochodu w warsztacie samochodowym. Poieważ roboticy skarżyli się że orma ta jest zła, dokoao pomiarów chroometrażowych 6 robotików i otrzymao astępujące dae: średi czas wyiósł 7 miuty, a odchyleie stadardowe s= miut. Czy moża a poziomie istotości α=, odrzucić hipotezę, że średi czas wykoaia badaej operacji jest zgody z ormą.
TEST DLA WARTOŚCI ŚREDNIEJ Model II Populacja ma rozkład N(m,δ) Próba jest mała < 3 δ-iezae Tablice rozkładu t-studeta o (-) stopiach swobody W pewej firmie spedycyjej dla losowo wybraych pracowików otrzymao średi wiek 3 lata i odchyleie stadardowe 4 lata. Zakładając, że wiek pracowików ma rozkład ormaly czy moża uważać, że przecięty wiek pracowika w tej firmie jest istotie wyższy iż 3 lat? Do badań przyjąć poziom istotości α=,5. x 3lata s 4lata m 3lat,5 H : m 3 H : m 3 (-)ss Przy zbiorze jedostroym P( t ) Przy zbiorze dwustroym P(t ) x m 3 3 T,5 s 4 H o ależy odrzucić a korzyść hipotezy alteratywej,383 t
Wśród kierowców ciężarówek wylosowao iezależie 6 osób i po zbadaiu ciśieia tęticzego krwi otrzymao średią rówą 35 oraz odchyleie Stadardowe rówe 45. Należy a poziomie istotości α =,5 zweryfikować hipotezę że kierowcy ci pochodzą z populacji o średim ciśieiu tęticzym.
TEST DLA DWÓCH ŚREDNICH Model I Dwie populacje o rozkładach N(m,δ), N(m,δ) Próba są licze > 3 δ-zae Tablice rozkładu ormalego Sprzedawcy w dwóch kokurecyjych firmach turystyczych uzyskali astępujące Średie sprzedaży ofert turystyczych w ciągu miesiąca: x 36, s, x 4, s 8 Liczby zbadaych sprzedawców w firmach były astępujące: =, =8. Na poziomie istotości α=,5, zweryfikować hipotezę że wartości przecięte sprzedaży w obydwu firmach są jedakowe. x s 36,5 x s 4 8 8 Przy zbiorze dwustroym H : m m ( u ) H : m m u, 96 U x 36 4 8 8 5,78 x,8 u,96 u, 96 Hipotezę zerową ależy odrzucić a korzyść hipotezy alteratywej
Wylosowao firm trasportowych z województwa podkarpackiego do badaia średiej wielkości miesięczych kosztów stałych w tych firmach. Średie koszty wyiosły 45 zł z odchyleiem stadardowym s=zł. W województwie lubelskim wylosowao firm i otrzymao średią rówą 4 zł a odchyleie stadardowe rówe 5zł. Przyjmując poziom istotości α=,5 Zweryfikować hipotezę o jedakowych średich kosztach stałych w badaych firmach trasportowych województwach podkarpackim i lubelskim.
TEST DLA DWÓCH ŚREDNICH Model II Dwie populacje o rozkładach N(m,δ), N(m,δ) Próby są małe < 3 δ δ -iezae ale rówe Tablice rozkładu t-studeta o ( + -) stopiach swobody Wysuięto hipotezę, że czas wykoaia pewego detalu w firmie produkującej części do przyczep zależy od doświadczeia pracowików. Pracowików podzieloo a dwie grupy pierwsza to pracowicy o stażu miejszym iż 3 lata druga to osoby pracujące 3 lata i więcej. Zbadao proces produkcji 8 detali przez grupę pierwszą I detali przez grupę drugą. Średi czas wykoaia detalu w grupie pierwszej wyiósł 4, mi przy odchyleiu stadardowym,9 miuty, oraz w grupie drugiej średi czas Wyiósł 5,5 przy odchyleiu stadardowym, mi. Przyjmując poziom istotości rówy, sprawdzić czy postawioa hipoteza jest prawdziwa. Przy zbiorze dwustroym x s 4,,9 8, x s 5,5, H H : m m : m m ( + -)ss P(t ) T x x S S 4, 5,5 8,9, 8 Nie ma podstaw do odrzuceia Ho 8,3,5,54 t,583,583 t
TEST DLA DWÓCH WARIANCJI Dwie populacje o rozkładach N(m,δ), N(m,δ) Tablice rozkładu F Sedecora o r ), r ( ) ss ( W dwóch firmach przewozowych badao odległości przejazdów i otrzymao: Dla firmy A wielkość próby 5 przewozów i odchyleie stadardowe 58 km Dla Firmy B wielkość próby przewozów i odchyleie stadardowe 83 km. Sprawdzić czy wariacje odległości przewozów w obu firmach są takie same. H o :,5 s 58 5,5 H : s 83 F S S r r r 83 58 889 4964 ( ( ), r 9, r ), r 4 ( ) (5 ) 3, F,65
TEST DLA WSKAŹNIKA STRUKTURY Tablice rozkładu ormalego Firma zatrudiająca około pracowików ma zamiar wybudować parkig Poieważ przypuszcza się że poad 6% pracowików przybywa do pracy samochodem Sprawdzić czy przypuszczeie jest prawdziwe jeśli spośród 5 losowo Wybraych osób 6 przyjeżdża do pracy autem. Poziom istotości do badań α=, p q,6,4 5 X 6 H H : p,6 : p,6 ( u ),,48 u,5 Przy zbiorze jedostroym (u ) U X p p q 6,6 5,6,4 5 7,3,5 t Hipotezę zerową ależy odrzucić a korzyść alteratywej.
Staż pracy w pewej firmie trasportowej A przedstawia się astępująco: Staż pracy w latach Liczba pracowików od do 4 od 4 do 8 4 od 8 do od do 6 4 od 6 do 8. Na podstawie daych z tabeli zweryfikować hipotezę że poad 3% pracowików w firmie A ma staż pracy przekraczający lat, α=,. W firmie B w grupie losowo wybraych pracowików, 3 pracuje przyajmiej lat. Na poziomie istotości α=,5 zweryfikować hipotezę że w obu zakładach odsetek pracowików którzy pracują przyajmiej lat jest taki sam. 3. Zweryfikować hipotezę że przecięty staż pracy w firmie trasportowej A wyosi lat, α=,5 4. Czy moża uważać że wariacja stażu pracy w firmie A jest większa iż, α=,
JAK TO SIĘ ROBI W STATYSTYCE?