ANALIZA DANYCH W STATA 8.0

Podobne dokumenty
ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

ANALIZA DANYCH W STATA 8.0

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza autokorelacji

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

Wprowadzenie do pakietu STATA

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wydział Matematyki. Testy zgodności. Wykład 03

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Makropolecenia w PowerPoint Spis treści

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

znajdowały się różne instrukcje) to tak naprawdę definicja funkcji main.

PROGRAM GEO Folder ten naleŝy wkleić do folderu osobistego: D:\inf1\nazwisko\GEO89

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

MATERIAŁY - udostępnianie materiałów dydaktycznych w sieci SGH

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Testowanie hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

INFORMATYKA W SELEKCJI

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Zajęcia nr 5 Algorytmy i wskaźniki. dr inż. Łukasz Graczykowski mgr inż. Leszek Kosarzewski Wydział Fizyki Politechniki Warszawskiej

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Testowanie hipotez statystycznych.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Zakład Systemów Rozproszonych

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Analiza wariancji. dr Janusz Górczyński

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

Instalacja Pakietu R

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Laboratorium - Praca z poleceniami wiersza poleceń w systemie Windows

Podstawy MATLABA, cd.

Generator CABRILLO program Marka SP7DQR (Instrukcja obsługi)

DOKUMENTY I GRAFIKI. Zarządzanie zawartością Tworzenie folderu Dodawanie dokumentu / grafiki Wersje plików... 7

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Programowanie w języku Python. Grażyna Koba

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Wykład 3 Hipotezy statystyczne

Układy VLSI Bramki 1.0

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

INSTRUKCJA KODAK INSITE

Niezwykłe tablice Poznane typy danych pozwalają przechowywać pojedyncze liczby. Dzięki tablicom zgromadzimy wiele wartości w jednym miejscu.

Edytor Edit+ - dodawanie zdjęć i. załączników. Instrukcja użytkownika

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka matematyczna i ekonometria

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Windows Commander (WinCmd)

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Informatyka Edytor tekstów Word 2010 dla WINDOWS cz.1

Ekonometria. Zajęcia

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Instrukcja obsługi programu SWWS autorstwa Michała Krzemińskiego

Technologie informacyjne lab. 4

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA

WYKŁAD 8 ANALIZA REGRESJI

WebAdministrator GOLD 2.35

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

dokumentacja Edytor Bazy Zmiennych Edytor Bazy Zmiennych Podręcznik użytkownika

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Działki Przygotowanie organizacyjne

Zadania ze statystyki, cz.6

Transkrypt:

ANALIZA DANYCH W STATA 8.0 ZAJĘCIA 2 1. Rozpoczęcie 1. Stworzyć w katalogu C:/temp katalog stata_2 2. Ściągnąć z internetu ze strony http://akson.sgh.waw.pl/~mproch dwa pliki: dane.dta oraz mp2.dta (kryją się pod tekstem Zajęcia 2 plik 1 / 2 oraz Zajęcia 2 plik 2 / 2 ) 3. Zapisać te pliki w katalogu C:/temp/stata_2 4. Otworzyć Statę 5. Zmienić katalog domyślny, rozpocząć logowanie i otworzyć bazę danych następującymi poleceniami: cd C:/temp/stata_2 log using stata2a.log cmdlog using stata2b.log use dane 2. Sortowanie zmiennych i grupowanie Na dole jest informacja czy zbiór jest posortowany czy też nie state - pop sort region state state - pop Omówić konstrukcję by: help by Żeby użyć instrukcji by, baza danych musi być posortowana: sort pop by region: list state - pop (tak nie dało rady, bo baza nie była posortowana względem zmiennej region) sort region by region: list state - pop In nie może być połączone z by by region: list in 1/2 If może być połączone z by by region: list state pop if pop>5000000 By i sort w jednym to polecenie bysort: bysort pop: list state - pop Z2: 1 z 9

Można używać instrukcji by i sort również do wielu zmiennych bysort region pop: list state - pop Instrukcja by może być wykorzystywana przy okazji wielu poleceń. Informuje o tym pomoc. 3. Dodawanie i kasowanie obserwacji oraz zmiennych Można wszystko w oknie edit: use dane edit Wpisać np. Quebec i Kanada i jakieś losowe wartości pozostałych zmiennych jako nową obserwację numer 51 Dodać jakąś zmienną Usunąć jakąś zmienną Usunąć jakąś obserwację Wychodząc nacisnąć preserve (zmiany zostały tylko w pamięci komputera na dysku nie zostały zapisane) (A) Dodawanie nowych obserwacji use dane input 51. Alberta Kanada.......... 52. end (Kropki to dane nieznane (missing values)) in l (na końcu jest mała litera el a nie jedynka) Uwaga!!! Należy unikać dodawania nowych obserwacji poleceniem input, gdyż jeżeli wprowadzona zmienna będzie miała inny format (np. int zamiast byte, float zamiast int, str20 zamiast str19), to komputer ją albo zaokrągli, albo utnie, albo nie przyjmie. Takie rzeczy bezpieczniej jest wykonywać w oknie edit. Przykład na to dziwne zjawisko: edit 1 120 kocur Powyższe dane wpisać jako pierwsza obserwacja dla 3 zmiennych. Wychodząc z okna edycji nacisnąć preserve. Z2: 2 z 9

input 2. 99 10000 krak 3. 101 2.6 krokodyl 4. end Okazuje się, że ostatni wiersz jest całkowicie przekłamany. edit 101 2.6 krokodyl Wpisać powyższe dane jako czwartą obserwację i dać preserve Teraz okazuje się, że jest dobrze. Typy zmiennych się zmieniły i wszystko zostało przyjęte. (B) Dodawanie nowych zmiennych (a) Tworzenie proste use dane generate ludn_mln = pop/1000000 generate double ludn_mln2 = pop/1000000 generate malz_netto = marriage - divorce if region == "South" region == "West" generate stan = Stan + state state - pop ludn* malz* stan (b) Tworzenie bardziej skomplikowane Zmienne systemowe: search system variables Zmienne systemowe (_b, _coef, _se). Zmienna systemowa _b jest tym samym co zmienna systemowa _coef. regress medage pop popurban divorce generate teoret2 = _b[pop]*pop + _b[popurban]*popurban + _b[divorce]*divorce + _b[_cons]*_cons predict teoret3 generate teoret_kontrolny = teoret3 teoret2 teo* Zmienne systemowe (_n, _N): generate abc = pop[_n+1] generate abc2 = _n display _N Z2: 3 z 9

generate abc3 = pop[_n] pop abc* Zmienne systemowe (_n, _N) z instrukcją by: bysort region: generate kot1 = [_n] by region: generate kot2 = [_N] region kot? Numery obserwacji ze zmiennych: sort state display state[3] state generate mbxd1 = state[3] generate mbxd2 = state[_n - _n + 1] state mbxd* Komenda egen: help egen egen m1 = max(pop) egen m2 = mean(pop) egen m3 = min(pop) egen m4 = sum(pop) display m4[1]/_n egen m5 = mode(region) sort pop region pop m? Uwaga: Z komendą egen nie pójdą zmienne systemowe i to co w nawiasach kwadratowych. (C) Kasowanie zmiennych i obserwacji drop in l drop if region == NE drop mbxd1 m3 keep state region pop m* sort region pop by region: keep in 1 by region: keep if _n == 1 Zmienna systemowa _all (_all czyli wszystkie zmienne) drop _all Zmian nie zapisujemy Z2: 4 z 9

4. Analiza korelacji korelacja prosta use mp2.dta Kowariancja na podstawie danych z próby: n n 1 1 cov( x, y) = xi x yi y = xi y n 1 i= 1 n 1 i= 1 cov ( x, y) S xs y; S xs y Współczynnik korelacji liniowej: r r cov, = S ( x y) ( x, y) x S y ( x, y) 1; 1 ( )( ) nxy i cov(x,y) = -S x S y r(x,y) = -1 cov(x,y) = S x S y r(x,y) = 1 cov(x,y) = 0 r(x,y) = 0 cov(x,y) = 0 r(x,y) = 0 correlate correlate, covariance correlate, means correlate, covariance means Z2: 5 z 9

Czym się różni correlate od pwcorr? correlate pwcorr Dodajmy zmienną a i obserwację nr 11 o dowolnej wartości ale tylko dla zmiennej a: input a 1. end input 11.... 123 12. end correlate pwcorr Widać teraz różnicę między correlate a pwcorr (w poleceniu correlate dla wszystkich zmiennych współczynniki korelacji muszą opierać się na tych samych obserwacjach, w poleceniu pwcorr liczba obserwacji może być różna dla różnych par zmiennych) correlate x y z in 1/10 Opcje polecenia pwcorr: Liczba obserwacji dla każdego współczynnika korelacji: pwcorr, obs Poziom istotności współczynników korelacji: pwcorr, sig pwcorr, print(.10) pwcorr, print(.01) pwcorr, star(.01) Jakim testem się bada poziom istotności współczynników korelacji obliczonych na podstawie próby? H0: ρ = 0 H1: ρ 0 (ρ współczynnik korelacji dla populacji) Gdy odrzucimy H 0, to oznacza, że ρ jest istotnie różne od zera i związek pomiędzy zmiennymi należy uznać za istotny. Gdy H 0 jest prawdziwa, statystyka stopniami swobody ( x, y) 2 r ( x, y) r t = n 2 ma rozkład t-studenta z n 2 1 Z2: 6 z 9

P ( t t *) = α ; α poziom istotności; stąd wyliczamy t*. Pamiętajmy, że test jest dwustronny. α/2 α/2 -t t Jeżeli t > t* to H 0 odrzucamy i wówczas współczynnik korelacji jest istotnie różny od zera help pwcorr drop a drop in 11 Wyniki wielu procedur można wykorzystać w dalszej analizie. Służą temu funkcje r(), e() i s(). Większość komend wyniki zapisuje w postaci funkcji: r() Estimation commands np. regress wyniki zapisują w postaci funkcji: e() Żeby zobaczyć dostępne funkcje odwołujące się do wyników wcześniejszego polecenia, korzystamy z komend: return list (dla funkcji r()), ereturn list (dla funkcji e()), sreturn list (dla funkcji s()) Np. summarize x return list ereturn list sreturn list display r(sd)^2 generate x_st = (x - r(mean))/r(sd) summarize x display r(sum) return list drop x_st correlate x y return list correlate x z return list Z2: 7 z 9

ZADANIE: Ręcznie stworzyć plik z rozszerzeniem.do, który wyświetla dla współczynnika korelacji między zmienną x i z wartość statystyki t obliczoną według podanego wcześniej wzoru oraz wartość krytyczną t* w tym teście t-studenta dla pewnego poziomu istotności. doedit Poniższe polecenia wpisujemy do edytora Do-file Editor. Kiedy wpiszemy część, możemy z menu Tools w tym edytorze wybrać opcję Do (lub odpowiednią ikonkę na pasku narzędzi) w celu wykonania dotychczas wpisanych komend: correlate x z display "Statystyka t dla wsp. korelacji zmiennych x i z wynosi ", r(rho)*sqrt(r(n)-2)/sqrt(1-(r(rho))^2) display "Wartosc krytyczna t dla poziomu istotnosci 10% wynosi ", invttail(r(n)-2,0.05) Plik zapisać pod nazwą korelacja.do w katalogu C:/temp/stata_2 Uruchomienie komend zawartych w tym pliku następuje po wpisaniu polecenia: do korelacja.do W ostatniej linijce pliku korelacja.do wykorzystujemy jedną z funkcji matematycznostatystycznych programu Stata funkcję invttail. Dla podanego poziomu istotności oraz dla podanej wartości 1 dystrybuanta(x) funkcja ta zwraca odpowiedni punkt x na osi odciętych w rozkładzie t-studenta, tzn.: Jeżeli invttail(a,b) = c, to: a liczba stopni swobody b pole pod funkcją gęstości rozkładu t-studenta od punktu c na osi odciętych do nieskończoności b c Liczba 0.05 jako jeden z argumentów funkcji invttail oznacza, że przyjęliśmy poziom istotności równy 10% (α = 0.10) Informacje o innych funkcjach statystycznych znajdują się w pomocy: help functions a następnie trzeba nacisnąć myszką na tekst probfun, który ukaże się w oknie wynikowym Z2: 8 z 9

W katalogu C:/temp/stata_2 powinno być 5 plików: stata2a.log i stata2b.log zawierające wpisane komendy oraz wyniki dotychczasowej pracy dane.dta i mp2.dta z bazami danych korelacja.do plik zawierający polecenia do wykonania przez program Stata Z2: 9 z 9