ANALIZA DANYCH W STATA 8.0 ZAJĘCIA 7 1. Rozpoczęcie 1. Stworzyć w katalogu C:/temp katalog stata_7 2. Ściągnąć z internetu ze strony http://akson.sgh.waw.pl/~mproch plik zajecia7.zip (kryje się on pod tekstem Zajęcia 7 plik 1 / 1 ) 3. Zapisać ten plik w katalogu C:/temp/stata_7 4. Wypakować pliki do tego katalogu. Powinny powstać dwa pliki: wielen_polnocny.dta egzamin.dta 5. Otworzyć Statę 6. Zmienić katalog domyślny i rozpocząć logowanie następującymi poleceniami: cd C:/temp/stata_7 log using stata7a.log cmdlog using stata7b.log 2. Testy na porównanie średnich use wielen_polnocny.dta describe (a) One-sample ttest ttest czas_tramwaj == 10 ttest czas_autobus == 10 (b) Paired ttest ttest czas_tramwaj == czas_autobus ttest roznica_czas == 0 (c) Two-sample ttest (dla dwóch zmiennych) ttest czas_tramwaj == czas_autobus, unpaired ttest czas_tramwaj == czas_autobus, unpaired unequal (d) Two-sample ttest (dla dwóch grup wewnątrz jednej zmiennej) ttest czas_tramwaj, by(tramwaj) ttest czas_autobus, by(autobus) unequal return list Z7: 1 z 6
ttest czas_autobus, by(autobus) unequal level(90) ttest czas_tramwaj, by(tramwaj) unequal level(90) help ttest 3. Prawdopodobieństwa wystąpienia sukcesów w rozkładzie dwumianowym Używając komendy bitest zmienna może przyjmować tylko wartości 0, 1 lub missing values. Liczba zdarzeń to suma zer i jedynek (niepustych obserwacji). Liczba sukcesów to liczba jedynek. Podana wartość po znaku = to prawdopodobieństwo wystąpienia sukcesu w pojedynczym zdarzeniu. bitest kasyno = 0.5 bitest kasyno = 0.5, detail bitest moneta = 0.5 return list help bitest 4. Przedziały ufności dla średnich i dla prawdopodobieństw Przedział ufności dla średniej: ci czas_tramwaj ci czas_autobus, level(90) Przedział ufności w rozkładzie dwumianowym dla prawdopodobieństwa wystąpienia sukcesu w pojedynczym zdarzeniu (zmienna może przyjmować tylko wartości 0, 1 lub missing values): ci kasyno, binomial help ci 5. Immediate commands (komendy bezpośrednie) Komendy bezpośrednie kończą się na literę i. Nie zmieniają one zawartości bazy danych. ttesti 80 48.5 4.4 50 liczba obserwacji = 80 średnia = 48.5 odchylenie standardowe = 4.4 testowana hipoteza zerowa: średnia = 50 Z7: 2 z 6
ttesti 80 48.5 4.4 50 49.9 8.9 liczba obserwacji zmiennej 1 = 80 średnia zmiennej 1 = 48.5 odchylenie standardowe zmiennej 1 = 4.4 liczba obserwacji zmiennej 2 = 50 średnia zmiennej 2 = 49.9 odchylenie standardowe zmiennej 2 = 8.9 testowana hipoteza zerowa: średnia zmiennej 1 = średnia zmiennej 2 bitesti 100 60 0.5, detail liczba zdarzeń = 200 liczba sukcesów = 60 prawdopodobieństwo wystąpienia sukcesu = 0.5 liczymy prawdopodobieństwa wystąpienia określonej liczby sukcesów (w tym przypadku m. in. 60, ponad 60 i mniej niż 60) w określonej liczbie zdarzeń (w tym przypadku 100) cii 200 33 4.4 liczba obserwacji = 200 średnia = 33 odchylenie standardowe = 4.4 szacujemy przedział ufności dla średniej cii 200 30 liczba zdarzeń = 200 liczba sukcesów = 30 szacujemy przedział ufności dla prawdopodobieństwa wystąpienia sukcesu tabi 2 4 8 \ 3 6 7 \ 2 3 3 tabi 2 4 8 \ 3 6 7 \ 2 3 3, cell column row Powyższe formuły oznaczają utworzenie tablicy krzyżowej na odpowiednich liczbach. help immed 6. Wybrane inne komendy, które everyone should know codebook inspect aorder order moneta kasyno move autobus czas_tramwaj Z7: 3 z 6
compress describe save, replace clear 7. Ważenie danych Wyróżniamy cztery rodzaje wag: frequency weights fweight analytic weights aweight sampling weights pweight importance weights iweight Frequency weights: Jak wpisać następujące dane? input y x wagi 1. 4 2. 2 8 3 3. 3 9 2 4. 4 13 1 5. end y x 2 8 2 8 2 8 3 9 3 9 4 13 summarize y x summarize y x [fweight = wagi] regress y x [fweight = wagi] if y!= 4, level(88) expand wagi clear Z7: 4 z 6
8. Estimation commands Estimation commands, jak np. regress, logit, logistic są do siebie pod pewnymi względami bardzo podobne. use egzamin.dta describe, nolabel regress wynik czas programy predict y_teor test czas test czas programy test czas = 3 testnl _b[czas] * _b[programy] = 5 testnl _b[czas] 3 = 0 display _b[czas] regress regress wynik czas programy, level(90) logit wynik czas programy predict pr_y test (czas = 2) (programy = czas*2.2) testnl _b[czas] * _b[programy] = 1.5 display _b[czas] logit logit wynik czas programy, level(90) logistic wynik czas programy predict pr_y_2 regress wynik czas programy estimates store wielkasowa_1 logit wynik czas programy estimates store wielkasowa_2 regress wynik czas estimates store wielkasowa_3 logistic wynik czas programy estimates store wielkasowa_4 Z7: 5 z 6
estimates dir estimates replay wielkasowa_1 estimates restore wielkasowa_1 estimates table wielkasowa_2 estimates table _all estimates for wielkasowa_3: test czas estimates drop wielkasowa_4 estimates clear estimates dir regress wynik czas programy if programy!= 5 summarize if e(sample) logit wynik czas programy if e(sample) & programy!=4 summarize if e(sample) clear W katalogu C:/temp/stata_7 powinny być 4 pliki: stata7a.log i stata7b.log zawierające wpisane komendy oraz wyniki dotychczasowej pracy wielen_polnocny.dta egzamin.dta Z7: 6 z 6