Kurs w zakresie zaawansowanych metod komputerowej analizy danych Podstawy statystycznej analizy danych 9.03.2014-3 godziny ćwiczeń autor: Adam Kiersztyn 1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL Na tych zaj ¾eciach w miar ¾e mo zliwości czasowych postaramy si ¾e przeprowadzić podstawowe analizy danych w programie Excel i jeśli czas pozwoli to równie z Statistica. Nasze zadanie b ¾edzie polega o na wygenerowaniu 200 obserwacji i zapisaniu ich w pliku o nazwie DANE.xls. W pliku tym maja¾ znajdować si¾e nast¾epujace ¾ informacje: 1. p eć z kodowaniem kobiety 1, m ¾e zczyźni 2: 2. wiek osoby o rozk adzie jednostajnym na przedziale (20; 40) 3. wzrost, który ma mieć rozk ad normalny z parametrami zale znymi od p ci osoby i tak, dla kobiet N (165; 5) dla m¾e zczyzna N (175; 10) 4. czas dojazdu na zaj ¾ecia, równie z o rozk adzie jednostajnym na przedziale (5; 125) 5. dochody o rozk adzie normalnym z parametrami N (; ) ; gdzie = 2500 + wiek 50 + (1; 5 pec) 200; zaś = 100 wiek 6. stan cywilny z kodowaniem 1 stan walny, 2 w zwi ¾ azku W pierwszym kroku musimy sobie przygotować plik dla naszych danych wpisujac ¾ nag ówki dla poszczególnych kolumn. W nast ¾epnym kroku chcemy wygenerować wartości w poszczególnych kolumnach. Zmienna p eć ma mieć rozk ad dwupunktowy, przy czym wskazane jest aby liczba kobiet i m ¾e zczyzn by a zbli zona. Najprostszym sposobem wydaje si ¾e 1
zastosowanie funkcji "je zeli" jak na rysunku poni zej W powy zszej procedurze wykorzystaliśmy funkcj ¾e los(), która zwraca liczb ¾e losowa¾ z przedzia u [0; 1) : W nast ¾epnym kroku generujemy zmienna¾ wiek o rozk adzie jednostajnym na przedziale (20; 40) : W tym celu wykorzystamy bardzo pomocne przekszta cenie, w którego uzasadnieniu nale zy wykorzystać funkcje charakterystyczne oraz silne twierdzenia z rachunku prawdopodobieństwa. Na Nasze potrzeby wystarczy zapami ¾etać jedynie przekszta cenie i przejmować si ¾e jego uzasadnieniem. Wywo anie metody los() (b a) + a zwraca liczb ¾e losowa¾ na przedziale (a; b) :Zatem w Naszym przypadku w odpowiedniej komórce wpisujemy 2
Po rozciagni ¾ ¾eciu formu y na 200 komórek mamy gotowa¾ kolejna¾ zmienna. ¾ Troch ¾e wi ¾ecej problemy powoduje wygenerowanie zmiennej wzrost, bowiem jest on uzale zniony od p ci badanej osoby. Musimy zatem skorzystać ponownie z funkcji je zeli i nast ¾epnie wpisać odpowiednie formu y w obu przypadkach, tak jak na rysunku poni zej komenda w pierwszej linijce sprawdza, czy badana osoba jest kobieta, ¾ czy te z nie. W drugiej linijce wykorzystaliśmy funkcj¾e "rozk ad.normalny.odw()" funkcja 3
ta posiada 3 argumenty Pierwszy z nich odpowiada za prawdopodobieństwo, czyli liczb ¾e z zakresu [0; 1] w naszym przypadku chcemy, aby by a to wartość losowa. Pozosta e dwa parametry odpowiadaja¾ za średnia¾ oraz odchylenie, czyli parametry podane w nawiasie przy rozk adzie. W linijce trzeciej wywo ujemy równie z ta¾ sama¾ funkcj¾e, ale z innymi parametrami. W ten sposób mamy wygenerowany wzrost dla badanych osób. Wygenerowanie nast ¾epnej zmiennej nie powinno ju z nastr ¾eczać problemów, bowiem jej utworzenie jest analogiczne do stworzenia zmiennej wiek. Równie proste b ¾edzie wygenerowanie zmiennej stan cywilny. Zastanówmy si ¾e teraz w jaki sposób wygenerować zmienna¾ dochód, jest to niewatpliwie ¾ najbardziej skomplikowana z Naszych zmiennych. Przypomnijmy, ze zmienna dochody ma być zmienna¾ o rozk adzie normalnym z parametrami N (; ) ; gdzie = 2500 + wiek 50 + (1; 5 pec) 200; zaś = 100 wiek : Zmienna¾ 4
ta¾ mo zemy otrzymać w nast¾epujacy ¾ sposób Dysponujac ¾ ju z wszystkimi zmiennymi spróbujmy dokonać ich analizy statystycznej. W pierwszym kroku obliczymy, dla tych zmiennych podstawowe miary statystyki opisowej wykorzystujac ¾ do tego celu wbudowane funkcje programu Excel. Po stosownym przygotowaniu miejsca wywo ujemy kolejne funkcje, jak na rysunku poni zej 5
Spróbujmy teraz wyznaczyć średnia¾ oraz wariancj¾e zmiennych wiek tworzac ¾ z danych szereg rozdzielczy punktowy (oczywiście wcześniej musimy zaokraglić ¾ nasze dane do pe nych lat, a ponadto dla zmiennej wzrost stworzymy szereg rozdzielczy przedzia owy i na jego podstawie równie z wyliczymy średnia¾ i wariancj ¾e. Nale zy w tym miejscu zauwa zyć, ze Nasze wszystkie dane zmieniaja¾ si ¾e dynamicznie i nie jesteśmy w stanie obliczać ani końców przedzia ów, ani liczebności poszczególnych klas. Zauwa zmy, ze zmienna wiek przyjmuje wartości naturalne od 20 do 40 (teoretycznie do 40, ale praktycznie do 39). Czyli przygotowujemy sobie wartości jakie mo ze przyjmować Nasza zmienna i do zliczenia ilości wystapień ¾ wykorzystujemy funkcj¾e CZESTOŚĆ ¾ jak na rysunku poni zej Po wprowadzeniu formu y do pierwszej komórki NIE WOLNO w tradycyjny sposób przeciagn ¾ ać ¾ Naszej formu y. Nale zy poszarzyć w aściwy sposób a nast¾epnie nacisnać ¾ przycisk "F2", po czym kombinacj ¾e ctrl+shift+enter. W efekcie wywo amy funkcj ¾e macierzowa¾ i otrzymamy po z adany ¾ efekt. Jak wszyscy do- 6
brze pami ¾etamy średnia obliczamy za pomoca¾ wzoru zaś wariancj¾e za pomoca¾ wzoru X = 1 n S 2 = 1 n kx x i n i ; i=1 kx x 2 i n i X 2 i=1 czyli naturalnym kolejnym krokiem jest utworzenie kolejnych kolumn x i n i oraz x 2 i n i: Jak widzimy na poni zszym rysunku wartości obliczane za pomoca¾ funkcji oraz "r¾ecznie" sa¾ identyczne Troch ¾e wi ¾ecej problemu nastr ¾eczy Nam stworzenie szeregu rozdzielczego przedzia owego oraz wyznaczenie za jego pomoca¾ szukanych miar. W pierwszym kroku musimy wyznaczyć maksimum i minimum i za ich pomoca¾ rozst ¾ep. Po wyznaczeniu rozst ¾epu obliczmy d ugość przedzia u za pomoca¾ wzoru h = rozstep p n : Nast ¾epnie w dynamiczny sposób tworzymy końce przedzia ów oraz zliczamy cz ¾estości 7
Po zliczeniu cz ¾estości wyznaczamy środki przedzia ów za pomoca¾ wzoru prawy + lewy x i = 2 i dalej post¾epujemy analogicznie jak w przypadku wieku biorac ¾ do analizy środki przedzia ów. Tym razem otrzymane wyniki nie sa¾ identyczne jak otrzymane za 8
pomoca¾ funkcji Excela Ró znice nie sa¾ jednak znaczace. ¾ Ćwiczenie 1 W domu prosz ¾e wykonać stosowne, analogiczne obliczenia dla zmiennej dochód - szereg rozdzielczy przedzia owy. 2 Statystyka opisowa w programach Statistica i SPSS Teraz porównamy mo zliwości programu Excel z innymi bardziej specjalistycznymi programami, a mianowicie z programem Statistica oraz SPSS. Na pierwszy ogień bierzemy program Statistica i zamiast tworzyć Nasze zmi- 9
enne od poczatku, ¾ co pozostanie jako praca domowa, wczytamy gotowe ju z dane Po wczytaniu pierwsza¾ rzecza¾ jaka¾ zrobimy b ¾edzie przejrzenie jakie opcje daje nam kreator zmiennych, nie b ¾edziemy omawiać szczegó owo wszystkich jego mo zliwości, bowiem poznaja¾ je Państwo na innym przedmiocie. My skupimy si¾e na wybranych elementach. Wprowadzimy jedynie etykiety dla zmiennych p eć 10
oraz stan cywilny. Po wybraniu opcji "Etykiety tekstowe" wprowadzamy stosowne etykiety. Dzi ¾eki takiemu zabiegowi mamy mo zliwość atwiejszego odczytywania Naszych danych. Mo zemy teraz przejść do najciekawszego fragmentu Naszych dzisiejszych rozwa zań, a mianowicie do wyliczenia wszystkich podstawowych miar. Z menu 11
wybieramy "Statystyki podstawowe i tabele" a nast ¾epnie statystyki opisowe i w otwartym oknie wskazujemy zmienne (1) oraz na zak adce Wi ¾ecej (2) określamy interesujace ¾ Nas miary (3). W wyniku otrzymujemy nast ¾epujace ¾ dane 12
Analogiczne wyniki w programie SPSS prezentuja¾ si¾e nast¾epujaco: ¾ 13