ANALIZA DANYCH W STATA 8.0

Podobne dokumenty
ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0

Wprowadzenie do pakietu STATA

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

ANALIZA DANYCH W STATA 8.0

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Bazy danych i usługi sieciowe

Kolokwium ze statystyki matematycznej

Bazy Danych i Usługi Sieciowe

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Metody Statystyczne. Metody Statystyczne.

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Uogólniony model liniowy

Rozkłady statystyk z próby

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

S t a t y s t y k a, część 3. Michał Żmihorski

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

STATYSTYKA MATEMATYCZNA

Diagnostyka w Pakiecie Stata

Prawdopodobieństwo i rozkład normalny cd.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Zmienna bazowa. 100(1 α)% przedział ufności dla µ: 100(α)% test hipotezy dla µ = µ 0; odrzucić, jeżeli Ȳ nie jest w przedziale

Oszacowanie i rozkład t

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA

Bazy danych. Andrzej Łachwa, UJ, /15

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

System operacyjny Linux

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Diagnostyka w Pakiecie Stata

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Własności statystyczne regresji liniowej. Wykład 4

Zmienne losowe dyskretne i Zmienne losowe ciągłe Rozkład Normalny

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testy parametryczne 1

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Laboratorium - Praca z poleceniami wiersza poleceń w systemie Windows

Zmienna losowa. Rozkład skokowy

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Analizy wariancji ANOVA (analysis of variance)

4. Średnia i autoregresja zmiennej prognozowanej

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

7. Identyfikacja defektów badanego obiektu

Testowanie hipotez statystycznych.

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Część 4 życie programu

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Bloki anonimowe w PL/SQL

laboratoria 24 zaliczenie z oceną

Regresja liniowa wprowadzenie

Dyskretne zmienne losowe

Testowanie hipotez statystycznych.

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Estymacja parametrów rozkładu cechy

Wykład 10 Testy jednorodności rozkładów

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Wykład 8: Testy istotności

do MATLABa programowanie WYKŁAD Piotr Ciskowski

Rozdział 8. Regresja. Definiowanie modelu

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

g) wartość oczekiwaną (przeciętną) i wariancję zmiennej losowej K.

Wykład 9 Wnioskowanie o średnich

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

PAKIETY STATYSTYCZNE

Badanie normalności rozkładu

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Z poprzedniego wykładu

Wprowadzenie do psql i SQL. Język komend psql. Podstawy instrukcji SELECT

Monte Carlo, bootstrap, jacknife

Zajęcia nr 1 Podstawy programowania. dr inż. Łukasz Graczykowski mgr inż. Leszek Kosarzewski Wydział Fizyki Politechniki Warszawskiej

Testowanie hipotez statystycznych

Statystyka matematyczna i ekonometria

Transkrypt:

ANALIZA DANYCH W STATA 8.0 ZAJĘCIA 7 1. Rozpoczęcie 1. Stworzyć w katalogu C:/temp katalog stata_7 2. Ściągnąć z internetu ze strony http://akson.sgh.waw.pl/~mproch plik zajecia7.zip (kryje się on pod tekstem Zajęcia 7 plik 1 / 1 ) 3. Zapisać ten plik w katalogu C:/temp/stata_7 4. Wypakować pliki do tego katalogu. Powinny powstać dwa pliki: wielen_polnocny.dta egzamin.dta 5. Otworzyć Statę 6. Zmienić katalog domyślny i rozpocząć logowanie następującymi poleceniami: cd C:/temp/stata_7 log using stata7a.log cmdlog using stata7b.log 2. Testy na porównanie średnich use wielen_polnocny.dta describe (a) One-sample ttest ttest czas_tramwaj == 10 ttest czas_autobus == 10 (b) Paired ttest ttest czas_tramwaj == czas_autobus ttest roznica_czas == 0 (c) Two-sample ttest (dla dwóch zmiennych) ttest czas_tramwaj == czas_autobus, unpaired ttest czas_tramwaj == czas_autobus, unpaired unequal (d) Two-sample ttest (dla dwóch grup wewnątrz jednej zmiennej) ttest czas_tramwaj, by(tramwaj) ttest czas_autobus, by(autobus) unequal return list Z7: 1 z 6

ttest czas_autobus, by(autobus) unequal level(90) ttest czas_tramwaj, by(tramwaj) unequal level(90) help ttest 3. Prawdopodobieństwa wystąpienia sukcesów w rozkładzie dwumianowym Używając komendy bitest zmienna może przyjmować tylko wartości 0, 1 lub missing values. Liczba zdarzeń to suma zer i jedynek (niepustych obserwacji). Liczba sukcesów to liczba jedynek. Podana wartość po znaku = to prawdopodobieństwo wystąpienia sukcesu w pojedynczym zdarzeniu. bitest kasyno = 0.5 bitest kasyno = 0.5, detail bitest moneta = 0.5 return list help bitest 4. Przedziały ufności dla średnich i dla prawdopodobieństw Przedział ufności dla średniej: ci czas_tramwaj ci czas_autobus, level(90) Przedział ufności w rozkładzie dwumianowym dla prawdopodobieństwa wystąpienia sukcesu w pojedynczym zdarzeniu (zmienna może przyjmować tylko wartości 0, 1 lub missing values): ci kasyno, binomial help ci 5. Immediate commands (komendy bezpośrednie) Komendy bezpośrednie kończą się na literę i. Nie zmieniają one zawartości bazy danych. ttesti 80 48.5 4.4 50 liczba obserwacji = 80 średnia = 48.5 odchylenie standardowe = 4.4 testowana hipoteza zerowa: średnia = 50 Z7: 2 z 6

ttesti 80 48.5 4.4 50 49.9 8.9 liczba obserwacji zmiennej 1 = 80 średnia zmiennej 1 = 48.5 odchylenie standardowe zmiennej 1 = 4.4 liczba obserwacji zmiennej 2 = 50 średnia zmiennej 2 = 49.9 odchylenie standardowe zmiennej 2 = 8.9 testowana hipoteza zerowa: średnia zmiennej 1 = średnia zmiennej 2 bitesti 100 60 0.5, detail liczba zdarzeń = 200 liczba sukcesów = 60 prawdopodobieństwo wystąpienia sukcesu = 0.5 liczymy prawdopodobieństwa wystąpienia określonej liczby sukcesów (w tym przypadku m. in. 60, ponad 60 i mniej niż 60) w określonej liczbie zdarzeń (w tym przypadku 100) cii 200 33 4.4 liczba obserwacji = 200 średnia = 33 odchylenie standardowe = 4.4 szacujemy przedział ufności dla średniej cii 200 30 liczba zdarzeń = 200 liczba sukcesów = 30 szacujemy przedział ufności dla prawdopodobieństwa wystąpienia sukcesu tabi 2 4 8 \ 3 6 7 \ 2 3 3 tabi 2 4 8 \ 3 6 7 \ 2 3 3, cell column row Powyższe formuły oznaczają utworzenie tablicy krzyżowej na odpowiednich liczbach. help immed 6. Wybrane inne komendy, które everyone should know codebook inspect aorder order moneta kasyno move autobus czas_tramwaj Z7: 3 z 6

compress describe save, replace clear 7. Ważenie danych Wyróżniamy cztery rodzaje wag: frequency weights fweight analytic weights aweight sampling weights pweight importance weights iweight Frequency weights: Jak wpisać następujące dane? input y x wagi 1. 4 2. 2 8 3 3. 3 9 2 4. 4 13 1 5. end y x 2 8 2 8 2 8 3 9 3 9 4 13 summarize y x summarize y x [fweight = wagi] regress y x [fweight = wagi] if y!= 4, level(88) expand wagi clear Z7: 4 z 6

8. Estimation commands Estimation commands, jak np. regress, logit, logistic są do siebie pod pewnymi względami bardzo podobne. use egzamin.dta describe, nolabel regress wynik czas programy predict y_teor test czas test czas programy test czas = 3 testnl _b[czas] * _b[programy] = 5 testnl _b[czas] 3 = 0 display _b[czas] regress regress wynik czas programy, level(90) logit wynik czas programy predict pr_y test (czas = 2) (programy = czas*2.2) testnl _b[czas] * _b[programy] = 1.5 display _b[czas] logit logit wynik czas programy, level(90) logistic wynik czas programy predict pr_y_2 regress wynik czas programy estimates store wielkasowa_1 logit wynik czas programy estimates store wielkasowa_2 regress wynik czas estimates store wielkasowa_3 logistic wynik czas programy estimates store wielkasowa_4 Z7: 5 z 6

estimates dir estimates replay wielkasowa_1 estimates restore wielkasowa_1 estimates table wielkasowa_2 estimates table _all estimates for wielkasowa_3: test czas estimates drop wielkasowa_4 estimates clear estimates dir regress wynik czas programy if programy!= 5 summarize if e(sample) logit wynik czas programy if e(sample) & programy!=4 summarize if e(sample) clear W katalogu C:/temp/stata_7 powinny być 4 pliki: stata7a.log i stata7b.log zawierające wpisane komendy oraz wyniki dotychczasowej pracy wielen_polnocny.dta egzamin.dta Z7: 6 z 6