Metody uzupełniania brakujacych danych statystycznych.

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody uzupełniania brakujacych danych statystycznych."

Transkrypt

1 Metody uzupełniania brakujacych danych statystycznych. Arleta Hoppe, Michał Krzemiński Naukowe Koło Matematyki Studentów Politechniki Gdańskiej

2 Outline 1. Omówienie zagadnienia występowania brakujących wartości w badaniach statystycznych. 2. Przedstawienie sposobów uzupełniania brakujących wartości. 3. Wyniki zastosowania kolejnych metod na przykładzie rzeczywistej bazy danych. 4. Bibliografia.

3 Outline Niekompletność danych Typy niepełności danych Missing by definition of the subpopulation The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Niekompletność danych NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 3/31

4 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne;

5 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe;

6 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości;

7 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie;

8 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie; niekompletność, gdy nie znamy wartości atrybutu lub atrybutów obiektu.

9 Niekompletność danych Dane mogą być niekompletne na różne sposoby.

10 Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania

11 Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania niedostępne dane - niemożliwe do uzupełnienia np., gdy istnieje instancja, do której nie ma zastosowania wartość atrybutu (Missing by definition of the subpopulation)

12 Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego.

13 Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego. Ankieta przeprowadzona w celu porównania życia towarzyskiego mężatek i kobiet niezamężnych. Oczywiście pominięcie w badaniach mężczyzn wydaje się oczywiste ze względu na temat ankiety (powiemy, że mężczyźni są traktowani jako brakujący z definicji subpopulacji).

14 Missing by definition of the subpopulation Większość ankiet posiada kilka kodów na takie rozróżnienie. Kody takie także opisują, czy respondenci 1. odmówili odpowiedzi; 2. odpowiedzieli, że np. niewiedzą; 3. pominęli pytanie z uzasadnionego powodu; 4. lub pytanie zostało pominięte przez błąd ankietera. Pierwsza i trzecia odpowiedź zazwyczaj jest pomijana w modelu, czwarta funkcjonuje jako istotnie brakująca wartość. Z drugą sytuacją stosunkowo trudno sobie poradzić.

15 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy.

16 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie

17 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie Jak radzić sobie z odpowiedziami typu NIE WIEM? - Zapobiegać :).

18 The missingness mechanisms Outline Niekompletność danych The missingness mechanisms The missingness mechanisms Średnia i odchylenie standardowe, a typy brakujących danych Usuwanie niekompletności Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 9/31

19 The missingness mechanisms ignorowalne nieignorowalne

20 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne

21 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

22 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

23 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random

24 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random w pozostałych przypadkach

25 Średnia a procent braków Rysunek 1: from Dealing with Missing Data Judi Sheffer [3]

26 Odchylenie std. a procent braków Rysunek 2: from Dealing with Missing Data Judi Sheffer [3]

27 Usuwanie niekompletności Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Listwise (case) deletion Pairwise deletion Wstawianie wartości Expectation-maximization algorithm Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 13/31

28 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania:

29 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion

30 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion Z drugiej strony zamiast usuwać wybrakowane rekordy, możemy uzupełniać luki wartościami np. średnia, moda czy mediana.

31 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu.

32 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby).

33 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby). Jeżeli wartości nie sa typu MCAR, wtedy listwise deletion może prowadzić do stronniczych estymacji (dane nie będą reprezentatywne dla całej populacji).

34 Pairwise deletion Korzystamy ze wszystkich dostępnych danych.

35 Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi.

36 Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi. Przypadki usuwane są tylko wtedy, gdy brakuje im wartości dla konkretnych zmiennych, dla których w tym momencie robimy analizę.

37 Pairwise deletion Problemy: kolejne obliczenia kowariancji dokonywane są na różnych i do tego różnej liczności próbkach; tak uzyskana macierz kowariancji może nie być pełnego rzędu (nieodwracalna), a co za tym idzie nieprzydatna np. w modelach regresji czy równań strukturalnych; istotne jest założenie o wartościach typu MCAR.

38 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych,

39 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych,

40 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany.

41 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji.

42 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji. Metoda ta powoduje redukcję wariancji zmiennych, która to wpływa na mniejszą wartość korelacji.

43 Nowsze metody Regresja wielokrotna

44 Nowsze metody Regresja wielokrotna jeżeli zmienna z brakującymi wartościami jest w pewien sposób skorelowana z innymi zmiennymi, w oparciu o dostępne wartości przewidujemy wartości brakujące, dodatkowo możemy uwzględnić pewien czynnik losowy - regresja stochastyczna.

45 Nowsze metody Pattern matching

46 Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu.

47 Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu. Metoda ta jest bardzo skuteczna w przypadku, gdy braków jest stosunkowo mało i są rozsiane po wielu różnych zmiennych.

48 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych.

49 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację.

50 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy.

51 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy. Zakładamy wartości typu MAR.

52 Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y

53 Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y f(x,y θ) rodzina funkcji generujących kompletne próbki (x,y) g(y θ) rodzina funkcji generująca próbki niekompletne, gdzie g(y θ) = f(x,y θ)dx x Ω

54 Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną.

55 Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną. Obliczamy warunkową wartość oczekiwaną logarytmu prawdopodobieństwa Q(θ θ ) = E[log p(x,y θ) θ,y], gdzie x zmienna losowa, a warunkujemy rozkładem p(x θ,y).

56 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q.

57 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku.

58 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku. Proces ten jest zazwyczaj bardzo szybko zbieżny, jednak dla dużej liczby zmiennych lub braków może być bardzo złożony obliczeniowo.

59 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy.

60 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności.

61 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności. Jeżeli natomiast różnią się znacznie, należy pamiętać, aby uwzględnić te niepewności w błędach standardowych.

62 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Przykłady NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 26/31

63 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Podsumowanie Bibliografia Podsumowanie NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 27/31

64 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania.

65 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty.

66 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości.

67 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM.

68 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM. Nawet najbardziej wyszukane techniki uzupełniania danych nie sprawdzą się, jeśli źle przygotujemy dane.

69 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu.

70 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków.

71 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków. Pojedyncza imputacja nie jest optymalną strategią postępowania w przypadku końcowych analiz i formułowania wniosków.

72 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 30/31

73 Bibliografia [1] Alan C. Acock Working with missing values [2] Thomas W. O Rourke Methodological techniques for dealing with missing data American Journal of Health Studies, Spring-Summer, 2003 [3] Judi Scheffer Dealing with missing data Res. Lett. Inf. Math. Sci. (2002) 3, [4] Kathy Gerber Missing values analysys and imputation [5] Sam Kozlowsky Handling missing data problems [6] D. B. Rubin Multiple imputation for nonresponse in surveys John Wiley and Sons, New York 1987 [7] Rufus Lynn Carter Solutions for missing data in structural equation modeling Marymount University

Metody radzenia sobie z brakującymi obserwacjami

Metody radzenia sobie z brakującymi obserwacjami Metody radzenia sobie z brakującymi obserwacjami 29 kwietnia 2009 Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2

Bardziej szczegółowo

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014 Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Estymacja parametrów rozkładu cechy

Estymacja parametrów rozkładu cechy Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1 KUR TATYTYKA Lekcja Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE www.etrapez.pl trona 1 Część 1: TET Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 We wnioskowaniu statystycznym

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH Jakub Rutkowski NA NA NA NA NA NA NA NA NA NA Braki danych 3 Wskaźnik zrealizowania próby (response rate): Wskaźnik frakcji jednostek niedostępnych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Marcin Zajenkowski Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Krzywa normalna, krzywa Gaussa, rozkład normalny Rozkłady liczebności wielu pomiarów fizycznych, biologicznych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9 Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne Czyli jak bardzo jesteśmy pewni że parametr oceniony na podstawie próbki jest

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

1.1 Wstęp Literatura... 1

1.1 Wstęp Literatura... 1 Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją

Bardziej szczegółowo

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko STATYSTYKA INDUKCYJNA O sondażach i nie tylko DWA DZIAŁY ESTYMACJA Co na podstawie wyników z próby mogę powiedzieć o wynikach w populacji? WERYFIKACJA HIPOTEZ Czy moje przypuszczenia uczynione przed badaniami

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 12 Mikołaj Czajkowski Wiktor Budziński Dane panelowe Co jeśli mamy do dyspozycji dane panelowe? Kilka obserwacji od tych samych respondentów, w różnych punktach czasu (np. ankieta realizowana

Bardziej szczegółowo

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA LISTA 10 1.Dokonano 8 pomiarów pewnej odległości (w m) i otrzymano: 201, 195, 207, 203, 191, 208, 198, 210. Wiedząc,że błąd pomiaru ma rozkład normalny

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 3 1 / 8 ZADANIE z rachunku

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych. Wprowadzenie Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych dla studentów Chemii (2018) Autor prezentacji :dr hab. Paweł Korecki dr Szymon Godlewski e-mail: szymon.godlewski@uj.edu.pl

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12 Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne.

Metody Statystyczne. Metody Statystyczne. gkrol@wz.uw.edu.pl #4 1 Sprawdzian! 5 listopada (ok. 45-60 minut): - Skale pomiarowe - Zmienne ciągłe i dyskretne - Rozkład teoretyczny i empiryczny - Miary tendencji centralnej i rozproszenia - Standaryzacja

Bardziej szczegółowo

Metody wypełniania braków w danych ang. Missing values in data

Metody wypełniania braków w danych ang. Missing values in data Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia

Bardziej szczegółowo