Kurs w zakresie zaawansowanych metod komputerowej analizy danych Podstawy statystycznej analizy danych 9.03.04 - godziny konwersatorium autor Adam Kiersztyn Próba a populacja Nasze rozwa zania zaczniemy od przedyskutowania podstawowych poj eć statystycznych, poszczególne de nicje zostana wzbogacone o obrazowe przyk ady. Jednym z najistotniejszych poj eć jest populacja statystyczna. De nicja Populacja statystyczna (zbiorowo sć generalna) jest to zbiór obiektów obj etych badaniem statystycznym, co do których formu uje si e wnioski statystyczne. Bardzo silnie z poj eciem populacji statystycznej zwiazane jest poj ecie próby statystycznej. De nicja Próba statystyczna jest to zbiór obserwacji statystycznych wybranych z populacji statystycznej. Na próbie dokonywane sa bezpo srednie badania statystyczne a wyniki badań sa uogólniane na populacj e. Ju z z pobie znej analizy obu de nicji wynika, ze próba jest pewnym podzbiorem populacji. W tym miejscu mo ze pojawić si e pytania Jaki sens ma badanie próby zamiast ca ej populacji? W jaki sposób dokonać wybory próby? Jaki jest zwiazek pomi edzy wynikami badań przeprowadzonych dla próby a oczekiwanymi wynikami dotyczacymi ca ej populacji? Zanim odpowiemy na te pytania spróbujmy podać kilka przyk adów ró znych populacji statystycznych oraz prób. Przyk ad Rozwa zmy populacj e statystyczna, która stanowia wszyscy zyjacy ludzie na Ziemi. Jest to co prawda populacja skończona, ale nie jest mo zliwe zbadanie chocia zby wzrostu ca ej populacji ludzi. W zwiazku z tym chcac oszacować sredni wzrost ludzi nale za oby obliczyć srednia dla pewnego podzbioru wszystkich ludzi i na tej podstawie przybli zyć srednia wzrostu wszystkich ludzi. Oczywíscie wybór tego podzbioru (czyli próby) nie jest dowolny. Zastanówmy si e bowiem, czy wybranie jako próby cz onków polskiej dru zyny siatkarzy by oby uzasadnione, albo czy przyj ecie jako próba uczniów pewnej szko y by oby w a sciwe? Oba podane przyk ady w jasny sposób pokazuja, ze wybór próby statystycznej nie jest taki prosty, bowiem nie ka zdy podzbiór populacji jest reprezentatywny. Pojawia si e tutaj kolejny problem. W jaki sposób dokonać wyboru próby z populacji? Przy wyborze próby musimy mieć na uwadze cech e statystyczna (lub cechy statystyczne) jaka chcemy badać. Najcześciej stosuje sie prób e losowa, czyli ciag zmiennych losowych o takim samym rozk adzie jak rozk ad populacji.
Przyk ad Rozwa zmy teraz populacj e drzew w pewnym lesie mieszanym, interesujac a nas cecha b edzie wysoko sć drzew. Jakie próby mo zna wyró zníc w tej populacji? Ćwiczenie Odpowiedzieć na postawione powy zej pytania dotyczace zwiazków populacji oraz próby. Ćwiczenie Podać inne przyk ady populacji. De nicja 3 Jednostka statystyczna jest to element zbiorowo sci statystycznej, który poddawany jest badaniom. De nicja 4 Cecha statystyczna jest to w a sciwo sć, która odznaczaja si e jednostki statystyczne i która podlega badaniu statystycznemu. Cechy statystyczne mo zna podzielić na Jakościowe - niemierzalne, opisowe cechy statystyczne, określane s ownie. Porzadkowe - cechy opisane za pomoca skali liczbowej, ale te liczby wskazuj e jedynie na porzadek wed ug którego zosta y ustawione analizowane cechy. Ilościowe - cechy opisane za pomoca skali liczbowej, cz esto z wyró znionym zerem. Ćwiczenie 3 Opisać populacj e osób b ed acych na zaj eciach za pomoca kilku cech, jakiego rodzaju sa to cechy? Zmienne losowe ciag e i skokowe Pod poj eciem zmiennej losowej b edziemy rozumieć dowolna funkcje mierzalna. W teorii prawdopodobieństwa wyró znia si e dwa g ówne typy zmiennych losowych, mianowicie zmienne losowe ciag e i skokowe. Bez wdawania w szczegó owe rozwa zania, dla naszych potrzeb wystarczy stwierdzenie, ze zmienna losowa skokowa przyjmuje wartości w pewnym przeliczalnym zbiorze wartości, natomiast zmienna losowa ciag a przyjmuje wartości w zbiorze nieprzeliczalnym. Z poj eciem zmiennej losowej nierozerwalnie zwiazany jest jej rozk ad. De nicja 5 Rozk ad zmiennej losowej jest to miara probabilistyczna okre slona na -ciele podzbiorów warto sci zmiennej losowej Tak określona miara probabilistyczna pozwala przypisać prawdopodobieństwa poszczególnym zdarzeniom losowym. Rozk ad zmiennej losowej mo zna zadawać w ró zny sposób. Dla zmiennych losowych typu skokowego zazwyczaj zadaje si e poprzez podanie funkcji skoków prawdopodobieństwa. Funkcj e ta przyje o sie przedstawiać w przejrzystej formie tabelki.
Przyk ad 3 Funkcj e ta przyj e o si e przedstawiać w przejrzystej formie tabelki. Rozwa zmy zmienna losowa X oznaczajac a wyrzucona na kostce liczb e oczek, w tym przypadku funkcja skoku przyjmuje postać nast epujacej tabelki x i 3 4 5 p i Dla zmiennych losowych typu ciag ego podanie rozk ady za pomoca tak czytelnej tabelki jest niemo zliwe (pami etamy, ze przyjmuje on nieskończenie wiele wartości). Dlatego najcz eściej rozk ad zmiennej losowej zadaje si e za pomoca g estości prawdopodobieństwa. Cz esto rozwa zanym przyk adem zmiennej losowej typu skokowego jest zmienna losowa o rozk adzie jednostajnym (równomiernym), charakteryzuje si e ona tym, ze ka zda wartość liczbowa z pewnego przedzia u liczbowego (a; b) przyjmowana jest z równym prawdopodobieństwem, natomiast wartości spoza tego przedzia u nie sa przyjmowane. W takim przypadku g estość wyra za si e wzorem < b a dla x (a; b) f (x) = 0 dla x = (a; b) Innym sposobem zadania rozk adu jest podanie dystrybuanty rozk adu. Dystrybuant e zmiennej losowej rozwa za si e zarówno dla zmiennych losowych typu skokowego jak i zmiennych losowych typu ciag ego. De nicja Dystrybuanta zmiennej losowej X nazywamy funkcj e rzeczywista jednoznacznie wyznaczajac a rozk ad prawdopodobieństwa, a wi ec zawierajac a wszystkie informacje o tym rozk adzie. Dystrybuant e zazwyczaj wyznacza si e z pomoca nast epujacego wzoru F X (t) = P (X < t) = P (X ( ; t)) () Uwaga W niektórych ksia zkach mo zna spotkać si e z nieco inna de nicja, mianowicie nierówno sć < zastapiona jest przez nierówno sć ; czyli F X (t) = P (X t) = P (X ( ; t]) () Uwaga Je sli nie budzi to nieporozumień indeks dolny, mówiacy o tym jakiej zmiennej jest to dystrybuanta, mo zna pominać. Je sli w zadaniu mamy zadana tylko jedna zmienna losowa to smia o mo zna pominać indeks dolny. Uwaga 3 Ze wzgl edów praktycznych dystrybuant e zmiennej losowej wyznacza si e za pomoca nast epujacych pomocniczych wzorów X p i dla zmiennych typu skokowego >< x i<()t F X (t) = Z t (3) f (x) dx dla zmiennych typu ciag ego > 3
Przyk ad 4 Wyznaczymy dystrybuant e zmiennej losowej podanej w przyk adzie 3 na dwa sposoby, w ten sposób b edziemy mogli porównać ró znice wynikajace z tych dwóch de nicji. Korzystajac ze wzoru () otrzymujemy nast epujacy wzór dystrybuanty 0 dla x ( ; ] dla x (; ] >< F X (x) = > dla x (; 3] 3 dla x (3; 4] 4 dla x (4; 5] 5 dla x (5; ] dla x (; ) Natomiast po zastosowanie wzoru () otrzymujemy wzór funkcji 0 dla x ( ; ) >< F X (x) = > dla x [; ) dla x [; 3) 3 dla x [3; 4) 4 dla x [4; 5) 5 dla x [5; ) dla x [; ) Jak atwo spostrzec jedyna ró znica polega, ze dystrybuanta jest lewostronnie lub prawostronnie ciag a. Przyk ad 5 Wyznaczanie dystrybuanty zmiennej losowej jest nieco trudniejsze i jak wiemy polega na obliczaniu ca ek oznaczonych z g esto sci. W dalszej cz e sci naszych rozwa zań nie b edziemy obliczać warto sci dystrybuant zmiennych losowych ciag ych. B edziemy natomiast stosunkowo cz esto korzystać z warto sci dystrybuant wybranych rozk adów zawartych w tablicach statystycznych. W zwiazku z tym, aby mieć czyste sumienie wyznaczymy dystrybuant e wybranego rozk adu. Rozwa zmy zmienna losowa o g esto sci ( 0 dla x ( ; 0) f (x) = e x dla x [0; ) 4
wówczas korzystajac ze wzoru (3) otrzymujemy nast epujac a funkcj e >< F (x) = > Z x Z x 0dt = 0 dla x ( ; 0) f (t) dt = e x dla x [0; ) gdzie druga cze sć wzoru otrzymujemy w nast epujacy sposób Z x f (t) dt = Z 0 Z x 0dt + e t dt = 0 + e t j x 0 = e x 0 Analizujac powy zsze dwa przyk ady mo zemy atwo dostrzec pewna bardzo istotna w asność wszystkich dystrybuant. Mianowicie oraz lim F (x) = 0 x! lim F (x) = x! Ćwiczenie 4 Wyznaczyć dystrybuant e zmiennej losowej Y o rozk adzie jednostajnym na odcinku (0; 5) Ćwiczenie 5 Dana jest zmienna losowa X o funkcji skoków prawdopodobieństwa zadanej tabelka x i 0 3 p i 0 0 0 0 wyznaczyć dystrybuant e zmiennej losowej X 3 0 0 0 W statystyce dystrybuanta rozk adu próby zwana jest dystrybuanta empiryczna i jest blisko zwiazana z poj eciem rangi. W poni zszym przyk adzie poznamy praktyczny sposób wyznaczania dystrybuanty empirycznej. Przyk ad Zbadano napi ecie pradu w kilku losowych chwilach czasu i otrzymano wyniki 30, 3, 5,, 30, 33, 30, 30, 3, 35. Wyznaczyć dystrybuant e empiryczna. Rozwiazanie W pierwszym kroku musimy wartości ustawić w sposób niemalejacy, mamy wówczas 5; ; 30; 30; 30; 30; 3; 3; 33; 35 5
Nast epnie mo zemy przystapić do wyznaczania dystrybuanty empirycznej, przy czy pamietajmy, ze n = 0 >< F (x) = > 0 dla x ( ; 5] 0 dla x (5; ] 0 dla x (; 30] 0 dla x (30; 3] 7 0 dla x (3; 3] 0 dla x (3; 33] 9 0 dla x (33; 35] dla x (35; ] Prześledźmy dok adniej w jaki sposób zosta a wyznaczona np. wartość F (33). Zauwa zmy, ze liczba obserwacji mniejszych od 33 wynosi i w zwiazku z tym F (33) = 0 = 4 5 3 Ćwiczenia do samodzielnego rozwiazania Ćwiczenie Rozwa zmy rzut dwiema symetrycznymi monetami. Niech X oznacza liczba wyrzuconych or ów. Podać rozk ad oraz dystrybuant e tak okre slonej zmiennej losowej. Ćwiczenie 7 Zbadano ilo sć samochodów sprzedawanych przez pewien salon w ciagu kolejnych dni i otrzymano wyniki 0; ; 7; ; ; 9 ; Wyznaczyć dystrybuant e empiryczna. Ćwiczenie Dana jest zmienna losowa Y o rozk adzie zadanym tabelka x i 0 4 p i Wyznaczyć dystrybuant e zmiennej losowej Y Ćwiczenie 9 Dana jest zmienna losowa Z o g esto sci f (x) = x + dla x (0; ) 0 dla x = (0; ) Wyznaczyć dystrybuant e zmiennej losowej Z
4 Zbiory cech statystycznych Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporzadkowany wed ug określonych kryteriów. Rozró znimy kilka rodzaj szeregów statystycznych. W naszych rozwa zaniach skoncentrujemy si e na szeregach punktowych i przedzia owych. 4. Szereg rozdzielczy punktowy Jednym z mo zliwych sposobów reprezentacji danych jest szereg rozdzielczy punktowy. Jest on najcześciej podawany za pomoca tabeli, w której w jednym wierszu (lub kolumnie) podawane sa wartości cechy a w drugim wierszu (lub odpowiednio kolumnie) podawana jest liczba elementów przyjmujacych dana wartość. Rozwa zmy nast epujacy przyk ad. Przyk ad 7 Zmierzono napi ecie pradu i otrzymano nast epujace wyniki 7; 7; 7; 7; 7; ; ; ; ; ; ; ; 9; 9; 9; 9; 9; 9; 9; 9; 9; 9; 9; 9; 30; 30; ; 30; 3; 3; ; 3 {z } {z } ; 3 razy razy 3; 3; 3; 3; 3; 33; 33 W powy zszym zestawie obserwacji nie wypisano wszystkich powtórzeń warto sci 30 oraz 3 Jest oczywiste, ze praca na takich danych bez zastosowania narz edzi 7
komputerowych by aby bardzo zmudna. Zastosowanie arkusza excel i wprowadzenie tych wszystkich warto sci równie z nie nale za oby do najprzyjemniejszych. W takich w a snie przypadkach stosuje si e szeregi rozdzielcze punktowe. Dane dotyczace napi ecia pradu mo zna przedstawíc w nast epujacy sposób warto sć napi ecia 7 9 30 3 3 33 liczba obserwacji 5 7 3 5 lub równowa znie za pomoca analogicznej tabeli warto sć napi ecia liczba obserwacji 7 5 7 9 30 3 3 3 5 33 Poznaliśmy ju z wzory dla podstawowych miar przedstawionych za pomoca szeregu rozdzielczego punktowego. 4. Szereg rozdzielczy przedzia owy Na wst epie rozwa zań dotyczacych szeregów rozdzielczych przedzia owych musimy zauwa zyć, ze ten typ reprezentacji danych ma pewne minusy. Trzeba bowiem pamietać, ze stosujac szereg rozdzielczy przedzia owy zast epujemy dane dok adne pewnymi przybli zeniami w zwiazku z czym otrzymywane przez nas wartości miar nie pokrywaja si e idealnie z ich odpowiednikami liczonymi bezpośrednio dla danych niezgrupowanych. Ró znice te sa jednak zazwyczaj ma o istotne. Zastanówmy sie nastepnie, kiedy zastosowanie szeregu rozdzielczego przedzia owego jest uzasadnione. Po pierwsze wielkość próby, na której dokonywana jest analiza powinna być dość du za (nie ma sensu stosowanie szeregu rozdzielczego przedzia owego dla kilku obserwacji), ponadto rozstep z próby te z powinien być dostatecznie du zy. W podanym powy zej przyk adzie na szereg rozdzielczy punktowy zastosowanie szeregu rozdzielczego przedzia owego nie mia oby wi ekszego sensu. Pomimo tego, ze próba jest dość du za rozstep jest niewielki i wynosi zaledwie jednostek. Zanim podamy przyk ad szeregu rozdzielczego przedzia owego musimy przedstawić schemat, za pomoca którego jest on budowany. Pierwszym problem jest określenie ilości przedzia ów na jakie mamy podzielić dost epne dane. Przyj e o sie, ze liczba przedzia ów k p N, gdzie N oznacza liczebność próby. Nastepnie wyró zniamy element najmniejszy x min i najwiekszy x max w dostepnej zbiorowości. Kolejnym krokiem jest ustalenie rozpi etości przedzia u za pomoca wzoru h = x max k x min
Ostatnim krokiem jest budowa przedzia ów. Przyk ad Zbadano wzrost pewnej grupy studentów i otrzymano nast epujace dane 55, 0,,,, 3, 4, 5, 5,,, 9, 70, 70, 7, 7, 7, 73, 74, 74, 75, 7, 77, 7, 79, 0,, 4, 5, 7,, 9, 90, 9, 9. W naszym przypadku N = 35 w zwiazku z tym przyjmujemy, ze k = atwo 9 55 zauwa zamy, ze x min = 55; za s x max = 9 oraz h = = Ostatecznie mo zemy nasze dane zebrać w szereg przedzia owy przedzia liczebno sć [55; ) [; 7) 7 [7; 73) [73; 79) 7 [79; 5) 4 [5; 9] 7 Ćwiczenie 0 Podane poni zej dane dotyczace czasu dojazdu do pracy (w minutach) przedstawíc w postaci szeregu rozdzielczego przedzia owego. Czasy dojazdu, 9, 9, 0, 0,,,,, 4, 5, 5, 5,5,7, 7,, 9, 0, 0, 3, 3, 4, 5,, 7,, 9, 30, 3, 3, 3, 33,35, 40, 45, 50, 55, 0. 9