Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl Litratura Koroacki J., Miliczuk J., Statystyka dla kiruków tchiczych i przyrodiczych, WNT 00. Klocki W., Statystyka dla iżyirów, PWN 99. Gajk L., Wioskowai statystycz,wnt 998. Mdhall W., Bavr R.J., Bavr B.M., Itroductio to Probability ad Statistics, Duxbury Prss 005 Wstęp Statystyka jst auką zajmującą się ajogólij mówiąc zbiraim daych i wydobywaim iformacji zawartj w tych daych. Statystykę moża podzilić a dwi części: statystykę opisową, statystykę matmatyczą. Statystyka opisowa zajmuj się gromadzim daych oraz iformacji dotyczących sposobu ich uzyskaia (p. iformacji dotyczących sposobu przprowadzia ksprymtu laboratoryjgo) oraz ich wstępą obróbką, przz którą rozumimy sortowai daych, ich prztację graficzą a takż wyzaczi pwych charaktrystyk liczbowych. Statystyka opisowa i używa aparatu probabilistyczgo. Jj clm jst sformułowai pwych hipotz badawczych mających ituicyj uzasadii w zgromadzoych daych. W raz z powszchą dostępością komputrów i wzrostm ich mocy oblicziowj mtody statystyki opisowj wzbogaciły się o ow tchiki zwa ksploracyją aalizą daych. Połączi ksploracyjj aalizy daych z tchiką systmów uczących i sztuczj itligcji zaowocowały powstaim owj dzidziy: itligtj aalizy daych (data miig). Statystyka matmatycza jst częścią probabilistyki powstałą a gruci rachuku prawdopodobiństwa. Istota jst jdak różica między zadaiami rachuku prawdopodobiństwa a zadaiami statystyki matmatyczj. Ss tj różicy ilustruj astępujący przykład. Rzucamy 0 razy motą. Zadai z rachuku prawdopodobiństwa polga p. a oblicziu prawdopodobiństwa uzyskaia cztrch orłów jżli wiadomo, ż prawdopodobiństwo uzyskaia orła w jdym rzuci jst rów 0,5. Statystykę matmatyczą itrsuj zagadii w pwym ssi odwrot. Jaki jst prawdopodobiństwo uzyskaia orła w jdym rzuci, jżli w dzisięciu rzutach uzyskao p. cztry orły? Zadaim statystyki matmatyczj jst więc okrśli izaych prawdopodobiństw w przyjętym modlu doświadczia. Cztry typy skal pomiarowych W aukach mpiryczych podstawowym sposobm zdobywaia iformacji jst pomiar, który rozumimy jako oprację przypisywaia rzczywistości ksprymtalj liczb. Choć pomiar jst rówi stary jak auka, to jgo logiczymi podstawami zajęto się dopiro w początku XX wiku,
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl kidy to Höldr (90) podał aksjomatyzację pomiaru masy. Pw cchy jak długość czy masa mirzymy mtodami, któr rozwięły się w ciągu stulci i wydają się obci całkim atural. Przy mirziu takich cch jak użytczość czy itligcja wykorzystuj się mtody, któr mogą się wydawać dość arbitral i mij atural. Kidy rozważymy problm pomiaru zdolości twórczych czy poczucia szczęścia pojawia się oczywist pytai: Czy t wilkości moża mirzyć? Odpowidzi a tak stawia pytaia moż udzilić aksjomatycza toria pomiaru, która zajmuj się m.i. uzasadiaim logiczym różych procdur pomiarowych oraz badaim ssu wyików uzyskiwaych w wyiku zastosowaia tych procdur. Oczywist wydaj się jdak to, ż istiją róż rodzaj pomiarów różiąc się między sobą strukturą, "stopim dokładości" czy "ilością uzyskiwaj iformacji". Wyróżia się podstawow skal pomiarow omialą porządkową itrwałową ilorazową skal jakościow skal ilościow Z pomiarm a skali omialj mamy do czyiia wtdy, gdy każdy obikt z rozważago zbioru moż być jdozaczi sklasyfikoway z względu a pwą cchę. Zbiór obiktów jst wic rozbity a sumę pwj ilości (zwykl skończoj) rozłączych podzbiorów- klas. Formali rozbici zbioru obiktów a klasy jst rówoważ zadaiu w zbiorz obiktów pwj rlacji rówoważościowj, która dzili zbiór obiktów a klasy rówoważości. Klasom rówoważości przypisujmy pw liczby, któr traktujmy jako tykity. Dowoly obikt trafia do jdj z klas rówoważości, którj odpowiada liczbowa tykita. Obiktowi w t sposób przypisujmy liczbę. Oczywiści iformacja o obikci i zmii się jżli klasom przypiszmy i tykity. Pomiar jst tu wyzaczoy z dokładością do bijktywgo przkształcia f : : R R. Liczb i moża tu porówywać, ai wykoywać a ich żadych opracji algbraiczych (w szczgólości uśrdiać). Każda rozsąda procdura aalizy takich daych powia być izmiicza z względu a bijkcj f : : R R zbioru liczb rzczywistych a sibi. Przykłady zmiych omialych: płć, wyzai, grupa krwi. Z pomiarm a skali porządkowj mamy do czyiia wtdy, gdy w rozważaym zbiorz ilorazowym (czyli zbiorz klas rówoważości obiktów) zadaa jst pwa rlacja liiowgo porządku (zwrota, atysymtrycza, przchodia i spója). Rozważmy dowolą rzczywistą i mootoiczą fukcję okrśloą a zbiorz klas rówoważości. Każdy obikt alży do jdj z klas rówoważości, którj mootoicza fukcja przypisuj liczbę. Pomiar polga tu więc a przypisywaiu obiktom liczb z zachowaim porządku i jst wyzaczoy z dokładością do
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl rosących bijkcji f : : R R. Każda procdura aalizy daych porządkowych powia być izmiicza względm rosących bijkcji. W statystyc są to p. procdury ragow. Przykłady zmij porządkowj: poparci dla partii rządzącj (zdcydowai i, raczj i, obojęty, raczj tak, zdcydowai tak) Z pomiarm a skali itrwałowj mamy do czyiia wtdy, gdy w rozważaym zbiorz obiktów jst okrśloa rlacja liiowgo porządku oraz w iloczyi kartzjańskim zbioru obiktów prz sibi okrśloa jst druga rlacja liiowgo porządku porządkująca "różic pomiędzy parami obiktów". Jżli obiktom przypiszmy liczby z zachowaim obu porządków, to pomiar jst tu wyzaczoy z dokładością do rosącgo przkształcia afiiczgo x ax+b ; a>0, czyli z dokładością do wyboru zra i jdostki. Procdury aalizy takich daych powiy być izmiicz względm zmiay położia i skali (scal ad locatio ivariat). Przykład Pomiar tmpratury a skali C lub F. Ni ma większgo ssu mówić, ż tmpratura obiktu A jst razy wyższa od tmpratury obiktu B. Moża jdyi mówić, ż tmpratura obiktu A jst wyższa od tmpratury obiktu B o pwą liczbę jdostk. Pomiar a skali ilorazowj jst podoby do pomiaru a skali itrwałowj przy czym jst o wyzaczoy z dokładością do rosącgo przkształcia liiowgo x ax ; a>0 to zaczy z dokładością do wyboru jdostki. Zro jst tu aturali ustalo. Procdura aalizy takich daych powia być izmiicza względm zmiay skali (scal ivariat) Przykład. Pomiar tmpratury a skali K. Dla dago typu daych pomiarowych mamy do dyspozycji stadardow procdury statystycz. Dla daych pomiarowych dostępych a skali wyższgo typu moża stosować procdury aalizy daych iższgo typu. Oczywiści taka aaliza wiąż się z częściową utratą iformacji. Nalży wyraźi podkrślić, ż stosowai mtod przzaczoych dla wyższych skal pomiarowych do daych dostępych a iższych skalach jst iuprawioą maipulacją. Wstępa aaliza daych jakościowych Mtody liczbow tabl liczości, tabl wilodzilcz Mtody graficz: wykrsy słupkow i kołow histogramy skatgoryzowa, itrakcj liczości, histogramy W wykrsy obrazkow (koła, gwiazdy, promii, twarz Chroffa, wilokąty, profil itd.) Wstępa aaliza daych ilościowych
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl Nich x,..., x rosąco da. x będzi ciągim daych ilościowych. Ozaczmy przz ( )... ( ) Mtody graficz x uporządkowa histogramy liczości i częstości - uwagi o wyborz długości przdziału i początku histogramu jda z możliwości: długość przdziałuh 0 =,6 IQR a początk wybiramy tak, aby ajmijsza obsrwacja była środkim pirwszgo przdziału (IQR wyjaśimy poiżj) łama częstości i krzyw stymatora jądrowgo wykrsy przbigu dla daych chroologiczych - trdy, okrsowość Wskaźiki sumarycz położia wartość śrdia w próbi (arytmtycza, gomtrycza, harmoicza) x(( + ) / ) iparzyst mdiaa xmd = ( x( / ) + x( / + ) ) parzyst k śrdia uciaa (trimmd) x tk = k x( i) k+ k śrdia wisorowska x = + ( + ) + ( ) + + ( ) ) wk ( k ) x k x i ( k x k -k ajmijszych k+ wartości x( ),..., x( k) zastępujmy wartościami x ( k+) atomiast k ajwiększych wartości x ( k+ ),..., x( ) zastępujmy wartościami x( k) rozproszia (rozrzutu) rozstęp próby R = x ( ) x( ) wariacja w próbi odchyli przciętd s = ) ( xi x) i odchyli stadardow s= ( xi x = xi x kwatyl ( w szczgólości kwartyl) rozstęp międzykwartylowy IQR= Q Q kształtu ( xi x) Skośość = (oca ( )( ) s X µ E ) σ ( + ) ( xi x) ( ) Kurtoza = ( )( )( ) s ( )( ) X µ (oca E ) σ
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl Wykrs ramkowy (skrzyka z wąsami). Długość wąsa i powia przkraczać,5 IQR. Jśli obsrwacja jst odlgła od brzgu skrzyki więcj iż,5 IQR, to jst traktowaa jako obsrwacja odstająca (outlir).. Jśli obsrwacja jst odlgła od brzgu skrzyki więcj iż IQR, to jst traktowaa jako kstrmali odstająca. 8000 Cy samochodów 6000 000 000 0000 8000 6000 000 000 0 Mdiaa = 50 5%-75% = (75, 5500) Zakrs iodstających = (900, 8550) Odstając Ekstrmal Przstrzń statystycza Z formalgo puktu widzia ksprymt statystyczy jst opisyway za pomocą przstrzi statystyczj (X, B, P={P θ : θ Θ}), gdzi X jst tzw. przstrzią prób, czyli zbiorm możliwych wyików ksprymtu, B jst σ-ciałm podzbiorów przstrzi prób X P={P θ : θ Θ}, jst rodzią rozkładów a σ-cil B paramtryzowaą paramtrm θ z zbioru paramtrów Θ. Uwaga. Powyższy zapis i ograicza rodziy rozkładów, gdyż każda rodzia rozkładów moż być sparamtryzowaa w trywialy sposób - paramtrm moż być sam rozkład (lub jgo dystrybuata). Jżli zbiór paramtrów Θ jst podzbiorm skończi wymiarowj przstrzi uklidsowj R m, to rodzię P={P θ :θ Θ} azywamy rodzią paramtryczą a rozważa problmy statystycz dotycząc tj rodziy azywać będzimy problmami paramtryczymi p. stymacja paramtrycza, tstowai hipotz paramtryczych. Jżli Θ i jst podzbiorm żadj skończi wymiarowj przstrzi uklidsowj, to rodzię P={P θ :θ Θ} azywamy rodzią 5
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl iparamtryczą a rozważa problmy statystycz dotycząc tj rodziy azywać będzimy problmami iparamtryczymi. Przykłady przstrzi statystyczych Nich (X,...,X ) będzi ciągim izalżych obsrwacji zmij losowj X o rozkładzi P (czyli X,...,X iid - idpdt idtically distributd). Fakt t wypowiadamy w statystyc matmatyczj astępująco: (X,...,X ) jst próbą prostą z populacji o rozkładzi P. Wobc tgo (x,...,x ) = (X (ω),...,x (ω)) dla pwgo ω i (x,...,x ) traktujmy jako zaobsrwowaą wartość ( ralizację) próby prostj (X,...,X ). Przykład.Nich X=(X,...,X ) będzi próbą prostą z populacji o rozkładzi N(m,). Przstrzią statystyczą jst wówczas (R,B(R ),{f(x,...,x )= / ( ) π ( x m) i, m R }), która jst przstrzią produktową i jst ozaczaa rówiż przz (R, B(R),{ f(x)= ( x m) / ( ) π, m R}). Jdoparamtrowa rodzia rozkładów jst wyzaczoa w tym przypadku przz rodzię fukcji gęstości (względm miary Lbsgu'a). Przstrzi produktow otrzymujmy wówczas gdy mamy obsrwacj typu iid. Zbiór paramtrów Θ jst w tym przypadku rówy R. Przykład. Jżli w przykładzi zastąpimy rozkład N(m,) rozkładm N(m,σ ), to otrzymamy astępującą produktową przstrzń statystyczą (R,B(R),{f(x)= ( x m) σ πσ, (m,σ) R R + }), Paramtrm θ jst para (m,σ) a zbiorm paramtrów Θ jst w tym przypadku R R +. Oczywiści w obu powyższych przykładach rodziy rozkładów są rodziami paramtryczymi. Przykład. Jżli w przykładzi zastąpimy rozkład N(m,) rozkładm P F o dystrybuaci F z zbioru F wszystkich dystrybuat a prostj, to otrzymamy przstrzń statystyczą (R, B(R),{P F,F F}). W tym przypadku θ=f a Θ=F. Zbiór F i jst podzbiorm żadj skończi wymiarowj przstrzi uklidsowj. Mamy więc do czyiia z iparamtryczą rodzią rozkładów. 6
Statystyka Wykład Adam Ćmil A-A a cmil@agh.du.pl Zadaia. Wykoujmy doświadczń losowych z których każd kończy się sukcsm z prawdopodobiństwm θ. Wiadomo, ż θ [θ, θ ], gdzi θ, θ [0,] są ustalo. Sformułować modl statystyczy tgo ksprymtu.. Pw urządzi tchicz pracuj dopóty, dopóki i uszkodzi się któryś z k lmtów typu A lub któryś z l lmtów typu B. Czas życia lmtów typu A jst zmią losową o rozkładzi wykładiczym z gęstością f ( x) = α xp( x/ α), a czas życia lmtów typu B jst zmią α losową o rozkładzi wykładiczym z gęstością f ( x) = β xp( x/ β). Obsrwuj się czas życia T całgo urządzia. Sformułować modl statystyczy tj obsrwacji. k i. Przprowadza się = β ksprymtów w taki sposób, z i ksprymtów wykouj się a poziomi x i,,...,k. Prawdopodobiństwo sukcsu w ksprymci przprowadzoym a poziomi x jst rów p( x) = ( α+β x) +, α R, β>0, gdzi(α,β) jst izaym paramtrm. Sformułować modl statystyczy tgo ksprymtu.. Pwa optymala własość mdiay. Mdiaą zmij losowj o rozkładzi P azywamy liczbę m taką, ż P(X m ) i P(X m ). Nich X będzi całkowalą zmią losową (tz. E X < ). Pokazać, z fukcja ϕ(c)= E X-c osiąga ajmijszą wartość, gdy c= m. Wskazówka Rozważyć przypadki ) c<m ) c>m i w każdym z ich pokazać ż ϕ(c)- ϕ(m )= E X-c - E X-m =ψ(c) przy czym ψ(c) 0 dla każdgo c i ψ( m )=0. 7