Statystyka i opracowaie daych W3: Wprowadzeie do statystyczej aalizy daych Podstawy wioskowaia statystyczego. Estymacja i estymatory Dr Aa ADRIAN Paw B5, pok407 ada@agh.edu.pl
Wprowadzeie Podstawowe cele aalizy zbiorów daych Opis ich struktury Odkrywaie i badaie zależości występujących pomiędzy daymi Narzędzia: metody statystyki matematyczej pakiety statystycze Statgraph, Statistica moduły statystycze w arkuszach kalkulacyjych, bazach daych
Temat: Wstępa aaliza daych
Na czym polega Wstępa aaliza daych: Ile daych: ile zmieych (cech: Płeć, wykształceie, staż, zarobki) ile przypadków (55) Jakie typy dae jakościowe (płeć, wykształceie) dae ilościowe (staż pracy, płaca) Ile braków, jakie, jak je zastąpić
Ocea struktury wykształceie pracowików
Jaka jest struktura wykształceia kobiet i mężczyz
Rozkład empiryczy zmieej ilościowej
Wykresy skategoryzowae; ramkowe
Wykresy skategoryzowae; ramkowe
Wykresy skategoryzowae; iterakcji
Statystyki opisowe
Badaia statystycze - rodzaje Badaia pełe obejmują wszystkie elemety populacji, p. a przeglądzie uzębieia daego pacjeta moża określić dokładą liczbę zębów i ich sta Badaia częściowe badaia elemetów próbki statystyczej, mają szerokie zastosowaia i są: koiecze w przypadku populacji ieskończoej, stosowae w populacjach skończoych bardzo liczych stosowae w przypadkach badań iszczących
Populacja i próba statystycza Populacja jest to zbiór wszystkich elemetów reprezetujących aalizoway problem (zjawisko) Może być zbiorem skończoym, przeliczalym lub ieprzeliczalym. Próba statystycza to podzbiór właściwy elemetów z badaej populacji
Badaia statystycze próby losowe Losowy dobór próby polega a tym, że o fakcie zalezieia się poszczególych elemetów populacji w próbie decyduje przypadek. Jest to taki sposób wyboru przy którym spełioe są astępujące dwa waruki; każda jedostka populacji ma dodatie, zae prawdopodobieństwo zalezieia się w próbie istieje możliwość ustaleia prawdopodobieństwa zalezieia się w próbie dla każdego zespołu elemetów populacji
Wybór próby reprezetatywej Od próby wymaga się reprezetatywości, czyli aby z przyjętą dokładością opisywała strukturę badaej populacji. O reprezetatywości decydują dwa czyiki: Liczebość () Sposób doboru grupy Wybór celowy, o przyależości do grupy decyduje badacz, stopień reprezetatywości zależy wyłączie od jakości selekcji Wybór losowy- każdy elemet populacji ma jedakową szasę zalezieia się w próbie z takim samym prawdopodobieństwem, stopień reprezetatywości rośie wraz ze wzrostem liczebości grupy. Stosowae są dwie techiki losowaia: Losowaie iezależe (zwrote) Losowaie zależe (bezzwrote
O błędach w badaiach statystyczych Badaia, zarówo pełe jak i częściowe, zawsze obciążoe są błędami, związaymi z: orgaizacją eksperymetu, iedokładością pomiarową, przetwarzaiem wyików, w badaiach częściowych z iedokładością odwzorowaia struktury populacji w strukturę próbki
Cechy statystycze i ich rodzaje Cechy, którymi wyróżiają się jedostki wchodzące w skład zbiorowości, azywa się cechami statystyczymi. Każda zbiorowość statystycza ma dużo cech, wyboru cech dokouje się a podstawie zakładaego celu badań. Należy wybierać takie cechy, które staowią istotą własość badaego zjawiska Typy cech cechy jakościowe iemierzale (p. kolor, sprawyiesprawy, ale jakościowymi mogą być też liczby p. r piętra, ) cechy ilościowe mierzale to takie, które dadzą się wyrazić za pomocą jedostek miary w pewej skali ( p. wzrost [cm], waga [kg], udział[%]). Cecha mierzala jest: ciągła, może przyjmować każdą wartość z określoego, skończoego przedziału liczbowego (p.odległość, ciężar, temperatura) dyskreta, skokowa przyjmuje wartości ze zbioru skończoego lub przeliczalego (ilość wyrobów wadliwych, liczba zatrudioych w zawodzie).
Co to jest pomiar Pomiar jest procedurą przyporządkowywaia liczb różym wartościom zmieej według ustaloej zasady. W aukach empiryczych aalizowaie różych cech staje się użytecze wtedy gdy moża mierzyć ich asileie w różych obiektach. Typowym pomiarem jest pomiar długości ( odległości dwóch puktów), polega o a policzeiu ile odcików o zaej długości ( cm, m, cal) mieści się wzdłuż mierzoego przedmiotu (odcika) Jak mierzyć zmiee ieobserwowale p. talet, agresję (liczba wulgaryzmów wypowiedziaych w jedostce czasu?), kostruujemy wskaźiki
Skale pomiaru Najprostszym przykładem pomiaru jest klasyfikacja, czyli azywaie, dotyczy tylko zmieych jakościowych, gdy brae pod uwagę kategorie są rozłącze, poadto, gdy bierze się pod uwagę wszystkie możliwe kategorie daej zmieej, to podział jest wyczerpujący Pomiar w skali porządkowej (ragowej) ozacza uporządkowaie ze względu a asileie cechy. Tę skalę cechuje spójość ( jeśli x jest róży od y yo x<y lub x>y) i przechodiość (x<y i y<z to x<z) Przypisaie jakiemuś pomiarowi ragę ozacza określeie jego miejsca w ustaloym porządku. Ragi ozaczają porządek a ie różice pomiędzy kolejymi pomiarami
Skale pomiaru według Staley Smith Steves Skala omiala dotyczy cech jakościowych, operacją pomiarową jest idetyfikacja kategorii do której ależy zaliczyć wyik, prowadzi do podziału zbioru a zbiory rozłącze ( p. samochody wg kolorów). Skala porządkowa stosowaa jest do badaia cech których atężeie jest określae przez przymiotiki, pociąga za sobą porządkowaie lub uszeregowaie badaej zmieej ( p. poiżej ormy, w ormie, powyżej ormy, albo za mały, mały, średi, duży, za duży) Skala rówomiera (przedziałowa)-stosowaia do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określoa przez wskazaie stałej jedostki miary i relacji przyporządkowującej liczbę każdemu wyikowi obserwacji (czas kaledarzowy, temperatura o C) Skala ilorazowa- posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosukami i bezwzględym zerem, ma zastosowaie w fizyce, techice p.. czas jaki upłyął od chwili t do t
Opracowaie materiału statystyczego Szeregi statystycze Celem tych działań jest przejście od daych idywidualych do daych zbiorowych. Materiał źródłowy ależy odpowiedio posegregować i policzyć, w wyiku otrzymuje się tzw. tablice robocze. Klasyfikacja daych musi być przeprowadzoa: w sposób rozłączy, jedostki o określoych cechach muszą być jedozaczie przydzieloe do poszczególych klas W sposób zupeły, tz. klasy muszą objąć wszystkie występujące cechy daej zbiorowość Techika zestawiaia zależy od rodzaju skali pomiarowej
Szeregi statystycze szczegółowe rozdzielcze czasowe Z cechą ilościową Z cechą jakościową puktowe przedziałowe proste skumulowae proste skumulowae
Szereg rozdzielczy Przy budowie szeregu rozdzielczego wyróżia się trzy etapy: Ustaleie liczby klas oraz wielkości przedziałów klasowych Przyporządkowaie daych przyjętym przedziałom klasowym Zliczaie liczby jedostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji Stosowae bywają astępujące wzory pomoce do szacowaia liczby przedziałów budowaego szeregu rozdzielczego: k=+3,3 log lub k =
Numer klasy Szereg rozdzielczy prosty aaliza struktury wiekowej pacjetów Graice przedziałów klasowych dola góra Środek przedziału Liczość klasy Częstość LP a b x i i i/ 3 9 6 3 0,03 9 5 0, 3 5 8 6 0,5 4 7 4 8 0,7 5 7 33 30 6 0,5 6 33 39 36 7 0,6 7 39 45 4 8 0,08 8 45 5 48 4 0,04 9 5 57 54 0,0 Suma 05
Wykresy histogram 30 5 0 licz ebość 5 0 5 0 6 8 4 35 36 4 48 54 wiek
Statystyka Opisowa Parametrami statystyczymi ( statystykami) azywamy liczby umożliwiające sumaryczy opis zbiorowości. Parametry te tak dokładie charakteryzują zbiorowość, że mogą być wykorzystae do porówywaia różych zbiorowości. Wyróżia się astępujące grupy parametrów statystyczych: Miary położeia (klasycze i pozycyje) Miary zmieości Miary asymetrii i kocetracji
Miary położeia Średie arytmetycza, ważoa harmoicza geometrycza Moda- domiata Kwatyle kwartyl pierwszy mediaa (kwartyl drugi) kwartyl trzeci decyl percetyl
Estymatory puktowe podstawowych statystyk Estymatory wartości średich x = i = Średia arytmetycza x i x... = x x x g Średia geometrycza x i = = i = x i w w Średia ważoa, gdzie wagi w i >0 x h = i = i i Średia harmoicza x i
Moda (domiata) W rozkładach empiryczych określa się domiatę (modę), tj. ajczęściej występującą wartość cechy M o = x o + m m ( m m ) + ( m m + ) h m gdzie x 0 - dola graicą przedziału w którym występuje moda, h m - rozpiętość przedziału klasowego, m, m-, m+ - liczebości odpowiedio przedziału z modą, poprzediego i astępego
Graficze wyzaczaie mody histogram 30 5 0 liczebość 5 0 5 0 Mo 6 8 4 35 36 4 48 54 wiek
Mediaa wzór iterpolacyjy dla zmieej ciągłej Mediaą rozkładu empiryczego Me azywamy taką wartość cechy, że co ajmiej połowa jedostek zbiorowości ma wartość cechy ie większą iż Me i jedocześie połowa jedostek ma wartość cechy ie miejszą iż Me. Czyli dystrybuata empirycza F (Me) / Dla zmieej losowej ciągłej mediaę oblicza się wg wzoru: Me m h m = x + m m i = gdzie x m - dola graica przedziału zawierającego mediaę h m, m - odpowiedio rozpiętość i liczebość przedziału mediay i
Mediaa Wzór Pearsoa a relacje pomiędzy Mo, Me, oraz dla rozkładów symetryczych i umiarkowaie asymetryczych x Mo = 3 ( x Me ) 5% wartości 5% wartości 5% wartości 5% wartości Q Mediaa Q3 mi Rozstęp kwartylowy Rozstęp max
Kwatyle Kwatylem rzędu p, gdzie 0<p<, w rozkładzie empiryczym azywamy taką wartość zmieej x p, dla której, jako pierwszej, dystrybuata empirycza spełia relację F(x p ) p, tz., że prawdopodobieństwo przyjęcia przez zmieą wartości ie większych od x p wyosi co ajmiej p, a wartości ie miejszych x p wyosi co ajmiej -p Mediaa - Kwatyl rzędu / Kwartyl - Kwatyl rzędu k/4, gdzie k=,..,3 Decyl Kwatyl rzędu k/0, gdzie k=,...,9 Percetyl Kwatyl rzędu k/00, gdzie k=,...,99;. Percetyl jest wielkością określającą jaki procet obserwacji (wyików) zajduje się poiżej zadaej wartości x p
Miary zmieości Miary zmieości dzielą się a miary klasycze i pozycyje. miary pozycyje : rozstęp, odchyleie ćwiartkowe, współczyik zmieości miary klasycze: wariacja, odchyleie stadardowe, odchyleie przecięte, współczyik zmieości
Odchyleie ćwiartkowe Kwartyle są wykorzystywae do określeia pozycyjej miary zróżicowaia, azywaej odchyleiem ćwiartkowym, którym jest wielkość Q, określoa wzorem Q = Q Q 3
Miary zmieości Rozstęp- ajprostsza miara zmieości Odchyleie ćwiartkowe Odchyleie przecięte Q R=x max x mi Q 3 Q = Współczyik zmieości d x x + L+ i= = = x x x i x V d = d x
Klasycze miary zmieości Wariacja s = ( x i= Odchyleie stadardowe s = i = i x) ( x i x Współczyik zmieości - klasyczy ) V s = s x
Miary skośości / asymetrii Miarą stopia i kieruku asymetrii jest klasyczy współczyik asymetrii g, obliczay według wzoru: g = A s 3 3 gdzie s jest odchyleiem stadardowym A 3 jest trzecim mometem cetralym rozkładu empiryczego A r 3 3 = ( x i x ) i = i
Miary skośości / asymetrii Niemiaoway współczyik asymetrii (skośości) A stosoway do porówań asymetrii wielu rozkładów A = x s Mo gdy: A=0 rozkład symetryczy asymetria lewostroa- wydłużoe lewe ramie rozkładu asymetria prawostroa wydłużoe prawe ramie rozkładu Stwierdzoo, że jedyie w przypadku bardzo silej asymetrii współczyik A przekracza wartość
Miary skośości / asymetrii Pozycyjy współczyik asymetrii w w = ( Q 3 Me ) ( Me Q ) Q gdzie Q jest odchyleiem ćwiartkowym, Me jest mediaą Q i Q 3 odpowiedio pierwszym i trzecim kwartylem, Stwierdzoo astępujące związki dla asymetrii lewostroej x sr <Me<Mo asymetrii prawostroej Mo<Me<x sr
Podstawy wioskowaia statystyczego Jeśli S jest przestrzeią zdarzeń elemetarych (w statystyce azywaa populacją), to Prostąpróbąlosową (próbką statystyczą) o liczości azywamy ciąg iezależych zmieych losowych X, X,.., X, określoych a przestrzei S i takich, że każda z ich ma te sam rozkład. Ciąg wartości x, x,.., x próby losowej X, X,.., X azywamy realizacją próby losowej. Wybór elemetów populacji powiie być dokoay w taki sposób, żeby każdy podzbiór populacji, składający się z elemetów miał taką samą szasę wybraia
Zadaie: oceić średi wzrost dorosłych Polaków. Jeśli wybieramy próbę spośród studetów ie jest to jedak próba wszystkich dorosłych Polaków Utożsamiamy populację z badaą cechą Szacujemy szukaą wartość ( średi wzrost) obliczając pewą wartość z próby Niech T(X, X,.., X ), w aszym rozumieiu, dobrze przybliża wartość iezaego wskaźika. Taką fukcję T azywamy statystyką. Każda tak rozumiaa statystyka jest zmieą losową, a zatem posiada określoy rozkład i te rozkład odgrywa bardzo ważą rolę w aalizie statystyczej.
Rozkład średiej w prostej próbie losowej Średią, w prostej próbie losowej X, X,.., X o liczości, azywamy statystykę X = X + X +... + X Podaa defiicja jest szczególym przypadkiem statystyki T(X, X,.., X ) Średia X jest zmieą losową, a x jest kokretą wartością z jedej kokretej próby. Możemy wylosować kilka prób 00 elemetowych i z każdej otrzymać ią wartość p. x=`76,5; x =77,8...
Prawo Wielkich Liczb (PWL) Prawo Wielkich Liczb: Niech X będzie zmieą losową o wartości oczekiwaej µ X i skończoej wariacji σ X < i iech X, X,.., X będzie prostą próbą losową z rozkładu zmieej X. Wówczas dla dowolie małej dodatiej liczby ε i ( X [ µ ε, µ + ε ]) P X X
Charakterystyki rozkładu wartości średiej Zakładając, że prosta próba losowa X, X,.., X pochodzi z rozkładu o wartości średiej µ i wariacji σ, Otrzymamy ( ) X X X X X X X X.... )... ( )... ( σ σ σ σ σ µ µ µ µ µ µ µ µ = + + + = = + + + = + + + = X X σ σ µ µ = = zatem
Cetrale twierdzeie graicze Jeśli X, X,.., X jest prostą próbą losową z rozkładu o wartości średiej µ i skończoej wariacji σ. Wówczas dla prób losowych o dużej liczebości rozkład stadaryzowaej średiej jest bliski stadardowemu rozkładowi ormalemu N(0,), tz rozkład średiej X jest w przybliżeiu rówy rozkładowi N( µ, σ / ) Zatem dla dowolych a i b (a b) i zmieej losowej Z o stadardowym rozkładzie ormalym P a X µ σ / b P ( a Z b) = Φ ( b) Φ ( a )
Zastosowaie - przykład P Rozkład aszego codzieego dojazdu do pracy jest w przybliżeiu jedostajy a odciku ( 0,5h,h) a jedocześie czasy dojazdów w róże di są iezależe. Jakie ( w przybliżeiu) jest prawdopodobieństwo zdarzeia, że średi dziey dojazd w ciągu 30 di przekroczy 0,8h (48 mi) Rozwiązaie: iech X i ozacza czas dojazdu w i-tym diu, i=,,30 X i ma rozkład jedostajy a odciku [0,5, ], zatem stąd 0,5 + 3 µ X = oraz σ i 4 X 48 * = X i 3 4 30 > 0, 8 48 * 3 4 30 P ( Z = > ( 0,5 ), 89 ) = Φ = 48 (, 89 ) = 0, 03
Rozkład częstości Zakładamy, że zmiea X z rozkładu, z którego pochodzi próba, może przyjmować tylko dwie wartości: ozaczmy, gdy baday obiekt posiada określoą cechę 0, gdy obiekt tej cechy ie posiada p=p(x=) q=-p=p(x=0) Liczba p, zwaa proporcją jest rówa prawdopodobieństwu posiadaia wybraej cechy (własości) przez losowo wybraą jedostkę. Zauważmy, że µ X =*p+0*(-p)=p, stąd też wyika że rozpatryway wcześiej problem szacowaia wartości średiej jest w tym kokretym przypadku jedozaczy z szacowaiem proporcji. Przykłady zastosowań: szacowaie proporcji produktów wadliwych wyprodukowaych w ciągu miesiąca, albo leworęczych ucziów przychodzących do I klasy
Rozkład częstości Częstością występowaia w prostej próbie losowej azywamy statystykę pˆ = i = gdzie X, X,.., X jest prostą próbą losową z rozkładu dwupuktowego o wartościach 0 i. Statystykę p obliczoą dla kokretych wartości w próbie azywamy wartością częstości X i
Twierdzeia o częstości występowaia. Częstość występowaia pomożoa przez liczość próby ma rozkład dwumiaowy (Berouliego) B (, p). Poadto. Dla dowolych rzeczywistych a i b, gdy p p p p p ) ( ˆ ˆ = = σ µ ) ( ) ( ) ( ˆ a b b p p p p a P Φ Φ
Przykład zastosowań W populacji dorosłych Polaków 39% ma kłopoty ze sem. Jakie jest prawdopodobieństwo, że w próbie 00 elemetowej, częstość osób mających kłopoty ze sem ie przekroczy 0,33. Iteresuje as P( pˆ 0,33) P Dae: a=-, b=33, =00 33 + 0.5 39 ( pˆ 33 + 0.5) Φ = Φ(.3) = 0. 9 00*0.39*0.6
Estymacja i estymatory.
Techiki wioskowaia statystyczego W statystyce matematyczej stosowae są dwie techiki wioskowaia: Estymacja polegająca a oszacowaiu z pewą dokładością określoych wartości charakteryzujących rozkład badaej cechy p. częstości, wartości oczekiwaej, wariacji. Weryfikacja hipotez statystyczych polegająca a sprawdzeiu słuszości przypuszczeń dotyczących postaci rozkładu cechy (testy zgodości) bądź wartości jego parametrów (parametrycze testy istotości) Obie wymieioe techiki uzupełiają się wzajemie.
Co to jest estymator Zakładamy, że rozkład badaej cechy w populacji geeralej jest opisay za pomocą dystrybuaty F (x;θ), gdzie Θ ozacza parametr od którego zależy ta dystrybuata (taki jak p. λ w rozkładzie Poissoa). Niezaa wartość parametru Θ będzie szacowaa (obliczoa) a podstawie próby -elemetowej (X,.,X )
Defiicja estymatora Estymatorem T parametru Θ rozkładu populacji geeralej azywa się statystykę (dowolą) z próby T = t (X,...,X ), która służy do oszacowaia wartości liczbowej tego parametru. Skoro szacuku parametru dokouje się w oparciu o dae z próby, zatem istieje możliwość popełieia błędu ( iech go ozacza litera d), który azyway jest błędem szacuku (estymacji) parametru Θ d = T -Θ
Błąd estymacji Błąd d jest też zmieą losową ( zależą od próby losowej), a za miarę tego błędu przyjmuje się = E (T Θ) Zauważmy, że jeśli E (T ) = Θ wtedy wyrażeie określające, jest wariacją D (T ) estymatora T,, a odchyleie stadardowe D(T ) jest średim (stadardowym) błędem szacuku parametru Θ, błędem względym oszacowaia jest iloraz D(T ) / Θ
Estymacja i estymatory Rozpatrywae dotychczas statystyki: średia i częstość ależą do ajczęściej stosowaych w praktyce. W przypadku gdy statystyki używae są do szacowaia (przybliżaia) iezaych parametrów rozkładu zmiee losowej oszą specjalą azwę: Statystykę T(X, X,.., X ), służącą do oszacowaia iezaego parametru populacji azywamy estymatorem. Dla kokretych wartości próby X =x, X =x,.., X = x liczbę T(X, X,.., X ) azywamy wartością estymatora
Estymacja i estymatory W zależości od tego co chcemy oszacować rozróżia się estymację parametryczą, gdy szacowae są parametry rozkładu zmieej X (p. E(X), D (X)) Estymację ieparametryczą, gdy próbujemy wioskować o postaci rozkładu cechy X w populacji. Podstawy teorii estymacji sformułował Karl Pearso a przełomie XIX i XX wieku.. Pierwszym krokiem w estymacji jest wylosowaie z populacji - elemetowej próby, po czym. a podstawie badań próby - obliczeń wykoaych a daych zawartych w próbce 3. wyciągamy wioski dotyczące badaej cechy w całej populacji.
Rodzaje estymacji wg kryterium wyiku Estymacja puktowa ma zastosowaie gdy, a podstawie daych z próby, chcemy ustalić liczbową wartość określoego parametru rozkładu cechy w całej populacji Estymacja przedziałowa polega a wyzaczeiu graic przedziału liczbowego, w którym, z określoym prawdopodobieństwem, zawiera się wartość szacowaego parametru Podstawowym arzędziem szacowaia iezaego parametru jest estymator obliczoy a podstawie próby. p. dla wartości oczekiwaej jest to średia arytmetycza, albo średia ważoa. Liczba możliwych estymatorów kokretego parametru rozkładu może być duża ale, bierze się pod uwagę tylko te, które posiadają określoe właściwości (cechy).
Cechy dobrego estymatora Zgody Nieobciążoy Najefektywiejszy Estymator jest zgody jeśli jest stochastyczie zbieży z szacowaym parametrem. W praktyce ozacza to, że im większa próba (liczość próbki) tym większe prawdopodobieństwo, że estymator przyjmie wartości bliższe szacowaemu parametrowi. Przykład im więcej ćwiczymy tym bardziej prawdopodoby sukces.
Zbieżość stochastycza Ciąg zmieych losowych (X, X,.., X )={X } jest stochastyczie zbieży do stałej c, jeśli dla dowolego ε>0, jest spełioa zależość lim P( X c < ε ) = Ozacza to, że prawdopodobieństwo zdarzeia ( c < ε ) X wzrasta do, co ie ozacza zbieżości w sesie aalizy matematyczej
Estymator zgody Estymator T jest zgody jeśli dla dowolego ε>0. lim P { T Θ < ε } = Jeśli wybray estymator ie jest zgody to zwiększeie liczebości próby może go oddalić od wartości szacowaej. Przykład estymatorem średich wyików grupy jest średia ocea ajlepszego studeta, tak skrajie zdefiioway estymator ie jest zgody, bo zwiększeie liczości grupy zwiększa prawdopodobieństwo oddalaia go od średiej ocey w całej grupie. Jeśli estymator jest zgody to jest asymptotyczie ieobciążoy
Podstawowe własości estymatorów Tw.: Jeśli estymator jest ieobciążoy lub asymptotyczie ieobciążoy oraz jego wariacja spełia relację D ( T ) 0 lim = to jest o estymatorem zgodym Estymator T parametru Θ jest ieobciążoy jeśli spełioa jest relacja E (T ) = Θ Jeśli ta relacja ie zachodzi, to estymator azywamy obciążoym, a wielkość b (T ) = E (T ) - Θ azywamy obciążeiem estymatora
Cechy dobrego estymatora - Nieobciążoość Nieobciążoość estymatora ozacza, że wartość oczekiwaa estymatora ieobciążoego jest dokładie rówa wartości szacowaego parametru. Obciążoość ozacza, że wartości dostarczae przez taki estymator obciążoe są błędem systematyczym
Obciążoość i ieobciążoość estymatora Odchyleie stadardowe dae wzorem s = ( x i x) i= jest estymatorem obciążoym odchyleia stadardowego w całej populacji, a ieobciążoym jest odchyleie obliczoe z wzoru s = ( x i x) i=
Cechy dobrego estymatora - Efektywość Efektywość estymator jest tym efektywiejszy im miejsza jest jego wariacja. Spośród wszystkich estymatorów, które są zgode i ieobciążoe wybieramy te, który ma ajmiejszą wariację, jest ajefektywiejszy.
Przykłady estymatorów puktowych Estymatorem zgodym, ieobciążoym i ajefektywiejszym dla wartości oczekiwaej w populacji jest średia arytmetycza X = i= X i Mediaa wyzaczoa z próby jest ieobciążoym ale miej efektywym od średiej arytmetyczej estymatorem wartości oczekiwaej
Przykłady estymatorów puktowych Niech m ozacza liczbę wyróżioych elemetów w próbie elemetowej ( p. liczbę wyrobów wadliwych), wtedy statystyka będąca częstością w próbie P = m jest estymatorem zgodym, ieobciążoym i ajefektywiejszym frakcji P w populacji
Przykłady estymatorów puktowych S = ( X i= i X ) S jest estymatorem zgodym ale obciążoym wariacji w całej populacji. Wskazówka: tego wzoru używamy obliczając wariację z całej populacji, atomiast do estymacji a podstawie próbki ależy wyik z próby pomożyć przez współczyik /(-)
Własości estymatora - podsumowaie Jeśli day jest zbiór estymatorów T,... T r ieobciążoych, to te estymator, który ma w tym zbiorze ajmiejsza wariację, jest estymatorem ajefektywiejszym. Tw. Estymator parametru statystyczego powiie być: ieobciążoy zgody ajefektywiejszy Metody wyzaczaia estymatorów: metoda mometów, metoda ajwiększej wiarygodości
Estymacja parametrycza Ze względu a formę wyiku estymacji wyróżimy: Estymacja puktowa gdy szacujemy liczbową wartość określoego parametru rozkładu cechy w całej populacji Estymacja przedziałowa gdy wyzaczamy graice przedziału liczbowego, w których, z określoym prawdopodobieństwem, mieści się prawdziwa wartość szacowaego parametru.
Przedziały ufości dla klasyczych parametrów statystyczych Estymacja przedziałowa polega a wyzaczeiu graic przedziału liczbowego, w którym, z określoym prawdopodobieństwem, rówym (-α), zawiera się wartość szacowaego parametru
Estymacja przedziałowa P (Θ d (X,...,X )< Θ < Θ g (X,...,X )) = -α Losowy przedział (Θd,Θg ) azywa się przedziałem ufości parametru Θ Graice przedziału ufości są fukcjami zmieych losowych X,...,X -α azywamy poziomem ufości (lub współczyikiem ufości) Zwykle przyjmuje się -α = 0,99 lub 0,95 lub 0,90 w zależości od rozpatrywaego zagadieia
Przedział ufości dla wartości oczekiwaej, gdy zae jest odchyleie stadardowe gdzie: X Cecha X ma w populacji rozkład ormaly N( µ, σ), odchyleie stadardowe σ jest zae. Estymatorem wartości oczekiwaej µ, uzyskaym MNW jest średia arytmetycza, która jest zmieą losową o rozkładzie N(µ, σ/ ) Po stadaryzacji otrzymuję zmieą U o rozkładzie N(0,) U jest liczbą elemetów z próby losowej ozacza średią arytmetyczą obliczoą z próby losowej σ odchyleie stadardowe populacji = X σ µ
Przedział ufości dla wartości oczekiwaej gdy zae jest odchyleie stadardowe σ P( X u Φ(u -α/ ) = - α/ σ µ < σ α α < X + u ) = α Poziom ufości - α α/ α/ u α/ = - u -α/ 0 u -α/ u
Praktycza realizacja przedziałów ufości dla µ, dla prostych prób losowych o liczościach =5, z rozkładu N (0,) dla poziomu ufości -α = 0.9
Problem miimalej liczości próby α σ µ σ α α = < + < ) ( u X u P Długość przedziału ufości wyosi u σ α Żądamy by maksymaly błąd oszacowaia ie przekraczał zadaej z góry wartości d d u σ α Z tej relacji wyika, że d u σ α
Zadaie Wykoujemy pomiary grubości płytki metalowej. Jak dużą liczbę pomiarów () ależy przeprowadzić, aby prawdopodobieństwem (ufością) wyoszącym 0,95 maksymaly błąd ocey ie przekraczał 0,0 mm. Zakładamy, że odchyleie stadardowe błędów pomiarów σ=0.
Przedział ufości dla wartości oczekiwaej, gdy odchyleie stadardowe jest iezae Estymatorem µ, uzyskaym MNW jest średia arytmetycza, ie zamy σ, musimy zatem wybrać statystykę, która od σ ie zależy t X m = S Statystyka t ma rozkład Studeta z - stopiami swobody, ie zależy od parametru σ ale od parametru S, S jest odchyleiem stadardowym obliczoym z próby.
Przedział ufości dla wartości oczekiwaej, gdy odchyleie stadardowe jest iezae P Przedział ufości dla wartości oczekiwaej ma wtedy postać S ( X tα, < m < X + tα, ) = S α gdzie wartość tα,-, jest kwatylem rzędu α, z - stopiami swobody Długość przedziału wyosi tα,-s/ -
Kwatyle t -α (), rzędu -α,rozkładu Studeta o stopiach swobody -α 0.6 0.75 0.9 0.95 0.975 0.99 0.995 0.997 5 0.999 0.999 5 0.35.000 3.078 6.34.706 3.8 63.657 7.3 38.3 636.6 0.89 0.86.886.90 4.303 6.965 9.95 4.089.37 3.598 3 0.77 0.765.638.353 3.8 4.54 5.84 7.453 0.4.94 4 0.7 0.74.533.3.776 3.747 4.604 5.598 7.73 8.60 5 0.67 0.77.476.05.57 3.365 4.03 4.773 5.893 6.869 6 0.65 0.78.440.943.447 3.43 3.707 4.37 5.08 5.959 7 0.63 0.7.45.895.365.998 3.499 4.09 4.785 5.408 8 0.6 0.706.397.860.306.896 3.355 3.833 4.50 5.04 9 0.6 0.703.383.833.6.8 3.50 3.690 4.97 4.78 0 0.60 0.700.37.8.8.764 3.69 3.58 4.44 4.587 0.60 0.697.363.796.0.78 3.06 3.497 4.05 4.437 0.59 0.695.356.78.79.68 3.055 3.48 3.930 4.38 3 0.59 0.694.350.77.60.650 3.0 3.37 3.85 4. 4 0.58 0.69.345.76.45.64.977 3.36 3.787 4.40 5 0.58 0.69.34.753.3.60.947 3.86 3.733 4.073 6 0.58 0.690.337.746.0.583.9 3.5 3.686 4.05 7 0.57 0.689.333.740.0.567.898 3. 3.646 3.965
Przedział ufości dla wartości oczekiwaej, gdy iezay jest rozkład w populacji W praktyce często ie zay jest rozkład cechy w populacji i brak jest podstaw do przyjęcia, że jest o ormaly. Wiadomo, że średia arytmetycza wyzaczoa z próby o dowolym rozkładzie jest zmieą losową o rozkładzie N(m, σ/ ), dlatego Niezae σ moża przybliżyć obliczoym z dużej próby odchyleiem stadardowym S α σ µ σ α α = + < < ) ( u X u X P α µ α α = + < < ) ( s u X s u X P
Zadaie Dokoao 0 pomiarów ciśieia wody a ostatim piętrze bloku 5 piętrowego i okazało się, że średie ciśieie wyosiło, podczas gdy wariacja wyiosła 4,4. Zaleźć liczbowe wartości krańców przedziałów ufości dla wartości oczekiwaej przyjmując poziom ufości -α = 0,95 -α = 0,90 -α = 0,98
Przedział ufości dla wariacji w populacji ormalej Przedział jest zbudoway w oparciu o statystykę χ =s / σ, która ma rozkład χ o - stopiach swobody. W rozkładzie χ określa się dwie wartości, spełiające odpowiedio rówości P( χ χ α ) = α, P( χ χ α ) = α,
Przedział ufości dla wariacji w populacji ormalej Z podaych wzorów wyika, że ; Po przekształceiu których otrzymujemy przedział ufości dla wariacji α χ χ χ α α = < < ) (,, P α χ σ χ α α = < < ) (,, S P α χ σ χ α α = < < ) (,, S S P
Zadaie Odchyleie stadardowe σ błędu przyrządu pomiarowego jest iezae. Zakładamy, że rozkład błędów pomiarów jest rozkładem ormalym. Przeprowadzoo = 0 pomiarów i otrzymao astępujące wyiki {7; 7,5; 8,5; 8; 6; 7,5; 6,5; 5;5 7,5; 6 } Wyzaczyć liczbowe wartości krańców przedziałów ufości dla Wartości oczekiwaej Dla odchyleia stadardowego Na poziomie ufości -α = 0,95
Przedziały ufości dla proporcji p Opierając się a częstości skostruujemy przedziały ufości dla proporcji p. Jeśli próba losowa iezależych zmieych o rozkładzie puktowym P(X=)=-P(X=0) = p jest dostateczie licza, by móc skorzystać z przybliżeia rozkładem N(0,), statystyki (*) Wówczas pˆ α α α ) ˆ ( ˆ ˆ u p p p p u P p p p p ) ˆ ( ˆ ˆ
Zastosowaie Agecja badająca w 000 roku opiie Polaków a podstawie 000 elemetowej próby stwierdziła, że 57% popiera wejście Polski do Uii. Uzając, ze mamy do czyieia z rozkładem dwupuktowym skostruujemy przedział ufości a poziomie 0,95 dla proporcji Polaków popierających wejście Polski do UE Próba o =000 jest dostateczie licza by skorzystać ze rozkładu statystyki (*) Przedział 95% ufości to [0,54,0,60], atomiast wielkość 0,57(-0,57)/000 = 0,0056 moża uzać za błąd stadardowy otrzymaej częstości, w ujęciu procetowym wyosi o około,6%
Przedział ufości dla proporcji p α α α + ˆ) ˆ( ˆ ˆ) ˆ( ˆ p p u p p p p u p P Waże jest aby pamiętać jakie są miimale wymagaia a liczość próby i proporcję p, by móc rozkład podaej w (*) statystyki przybliżać rozkładem N(0,)
Zadaie Odchyleie stadardowe σ błędu przyrządu pomiarowego jest iezae. Zakładamy, że rozkład błędów pomiarów jest rozkładem ormalym. Przeprowadzoo = 0 pomiarów i otrzymao astępujące wyiki {7; 7,5; 8,5; 8; 6; 7,5; 6,5; 5;5 7,5; 6 } Wyzaczyć liczbowe wartości krańców przedziałów ufości dla Wartości oczekiwaej Dla odchyleia stadardowego Na poziomie ufości -α = 0,95