Y \ X , 2 0, 1 0, 1 1 0, 1 0, 3 0, 2. E(XY ) = i,j. x i y j p ij. i wtedy. x i y j p (X) = i,j. y j p (Y ) i wtedy

Podobne dokumenty
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka stosowana. Podreczniki. Oceny. Przygotowanie do zajęć

Oceny. Podreczniki. Dane. Statystyka matematyczna i stosowana

Oceny. Statystyka stosowana. Podreczniki. Przygotowanie do zajęć. Dane

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Oceny: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi:

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Oceny: Statystyka stosowana. Zalecane podręczniki: Dane. Dodatkowe uwagi: Przygotowanie studenta do zajęć:

12DRAP - parametry rozkładów wielowymiarowych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Wykład 9 Wnioskowanie o średnich

Schemat oceniania: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Wykład 3 Jednowymiarowe zmienne losowe

Wstęp do statystyki praktycznej. Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa:

1 Podstawy rachunku prawdopodobieństwa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Szkice do zajęć z Przedmiotu Wyrównawczego

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Wykład 12: Tablice wielodzielcze

Badanie zależności zmiennych kolumnowej i wierszowej:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Prawdopodobieństwo i statystyka r.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Rachunek prawdopodobieństwa i statystyka

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Prawdopodobieństwo i statystyka

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Rozkłady zmiennych losowych

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Lista 6. Kamil Matuszewski 13 kwietnia D n =

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Prawdopodobieństwo i statystyka r.

Ważne rozkłady i twierdzenia c.d.

Komputerowa analiza danych doświadczalnych

Rozkłady prawdopodobieństwa zmiennych losowych

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Centralne twierdzenie graniczne

Podstawowe modele probabilistyczne

Rozkłady statystyk z próby

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Wybrane rozkłady zmiennych losowych. Statystyka

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyczna analiza danych

Statystyka opisowa- cd.

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

W1. Wprowadzenie. Statystyka opisowa

Komputerowa Analiza Danych Doświadczalnych

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Spis treści 3 SPIS TREŚCI

Statystyka matematyczna

Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Metody systemowe i decyzyjne w informatyce

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Przedmiot statystyki. Graficzne przedstawienie danych.

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Zmienne losowe ciągłe i ich rozkłady

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Zmienne losowe zadania na sprawdzian

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Metody probabilistyczne

Dyskretne zmienne losowe

1 Zmienne losowe wielowymiarowe.

Wykład 3 Momenty zmiennych losowych.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Pozyskiwanie wiedzy z danych

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Transkrypt:

Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor losowy Załóżmy, że dany jest wektor (X, Y ) i jego rozkład Y \ X 0 1 2 1 0, 2 0, 1 0, 1 1 0, 1 0, 3 0, 2 Kowariancja Miarą zależności zmiennych jest ich kowariancja Wiemy już, jak obliczyć E(X) i E(Y ). cov(x, Y ) = E(XY ) E(X)E(Y ). Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ): E(XY ) = i,j x i y j p ij. W naszym zadaniu E(XY ) = = 0 + 1 ( 1) 0, 1 + 2 ( 1) 0, 1 + 0 + 1 1 0, 3 + 1 2 0, 2 = 0, 4, skąd cov(x, Y ) = 0, 4 1 0, 2 = 0, 2. Kowariancja zmiennych niezależnych Gdy X i Y są niezależne, to p (X,Y ) ij = p (X) i p (Y ) j i wtedy E(XY ) = i,j x i y j p (X,Y ) ij = i,j x i y j p (X) i p (Y ) j = = i x i p (X) i j y j p (Y ) j = E(X)E(Y ). Kowariancja zmiennych niezależnych Gdy X i Y są niezależne, to p (X,Y ) ij = p (X) i p (Y ) j i wtedy E(XY ) = i,j x i y j p (X,Y ) ij = i,j x i y j p (X) i p (Y ) j = = i x i p (X) i j y j p (Y ) j = E(X)E(Y ). Wniosek: Gdy X i Y są niezależne, to cov(x, Y ) = E(XY ) E(X)E(Y ) = 0. 1

Współczynnik korelacji Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu wariancji: W naszym zadaniu ρ XY = cov(x, Y ) E(XY ) E(X)E(Y ) =. V ar(x)v ar(y ) V ar(x)v ar(y ) ρ XY =... Współczynnik korelacji jest zawarty pomiędzy 1 i 1: ρ xy 1. Gdy ρ XY = ±1, to zmienne są bardzo silnie zależne: albo Y = ax + b albo X = AY + B. Gdy zmienne X i Y są niezależne, to cov(x, Y ) = 0, ale nie na odwrót! Rozkłady warunkowe Gdy rozkład wektora (X, Y ) zadany jest za pomocą tabelki, to łatwo możemy obliczyć rozkłady warunkowe. Na przykład, rozkład warunkowy zmiennej X pod warunkiem Y = 1: P (X = 0 Y = 1) = P (X = 0, Y = 1) P (Y = 1) = 0, 1 0, 6 = 1 6, P (X = 1 Y = 1) = P (X = 1, Y = 1) P (Y = 1) = 0, 3 0, 6 = 3 6, P (X = 2 Y = 1) = P (X = 2, Y = 1) P (Y = 1) = 0, 2 0, 6 = 2 6. Warunkowa wartość oczekiwana Wartość oczekiwana rozkładu warunkowego nazywa się warunkową wartością oczekiwaną. W naszym zadaniu E(X Y = 1) = 0 P (X = 0 Y = 1)+ +1 P (X = 1 Y = 1) + 2 P (X = 2 Y = 1) = 2 6 + 4 6 = 1. = Gdy rozkład (X, Y ) jest ciągły Określimy teraz wszystkie wprowadzone pojęcia w przypadku, gdy rozkład wektora (X, Y ) ma gęstość, to znaczy, gdy istnieje taka funkcja dwóch zmiennych f(x, y), dla której f(x, y) 0 Wtedy R 2 P ((X, Y ) A) = f(x, y) dx dy = 1. A f(x, y) dx dy. 2

Rozkłady brzegowe Aby obliczyć rozkład zmiennej X w przypadku, gdy (X, Y ) zadany był tabelką, należało posumować kolumny. Gdy rozkład wektora (X, Y ) zadany jest funkcją f(x, y), to zamiast dodawania stosujemy całkowanie: zmienna losowa X ma rozkład o gęstości f X (x) = f(x, y) dy, a zmienna losowa Y ma rozkład o gęstości f Y (y) = f(x, y) dx. Konkretny przykład Niech wektor (X, Y ) ma rozkład jednostajny na kółku {(x, y) : x 2 +y 2 < 1}, to znaczy ma rozkład o gęstości Wtedy f(x, y) = { 1 π, gdy x2 + y 2 < 1 0, gdy x 2 + y 2 1 f X (x) = f(x, y) dy =... Dla x 1 mamy f(x, y) = 0, więc f X (x) = 0. Dla x < 1 ta całka mierzy długość odcinka wyciętego z prostej {(x, y) : x ustalone} przez koło, skąd f X (x) = 2 π 1 x 2. Rozkład brzegowy zmiennej Y Zauważmy, że nie musimy liczyć oddzielnie rozkładu zmiennej Y, bo f(x, y) jest funkcją symetryczną, to znaczy po zamianie ról x i y ta funkcja się nie zmienia. Zatem w funkcji f X (x) trzeba tylko zmienić X na Y oraz x na y: { 0, gdy y 1, f Y (y) = 2 π 1 y 2, gdy y < 1, E(X) i V ar(x) Mając funkcję f X (x), gęstość rozkładu zmiennej X, możemy obliczyć wartość oczekiwaną i wariancję: E(X) = V ar(x) = 1 1 1 1 x 2 1 x π 2 dx = 0 x 2 2 1 x π 2 dx =... Dla zmiennej Y oba wyniki są oczywiście takie same, jak dla X. 3

Niezależność Zmienne X i Y są niezależne wtedy i tylko wtedy, gdy gęstość rozkładu łącznego jest iloczynem gęstości brzegowych, tzn. dla wszystkich x, y R zachodzi równość A jak jest w rozważanym przypadku? f(x, y) = f X (x) f Y (y). Weźmy taki punkt (x, y) aby x 2 + y 2 < 1. Wtedy x < 1 oraz y < 1 i Te zmienne są zależne. A jaka jest ich kowariancja? 1 π 4 1 x π 2 2 1 y 2 Kowariancja dla rozkładu z gęstością Wzór definiujący jest oczywiście taki, jak w przypadku rozkładów zadanych tabelką, tzn. cov(x, Y ) = E(XY ) E(X)E(Y ). W naszym zadaniu E(XY ) = R 2 x y f(x, y) dx dy. E(XY ) = {x 2 +y 2 <1} xy π dx dy = 0, zatem cov(x, Y ) = 0 0 0 = 0. Mamy tu przykład zmiennych zależnych o kowariancji zero. Rozkłady warunkowe Podobnie jak w przypadku rozkładów zadanych tabelką możemy obliczać rozkłady warunkowe: gdy mianownik jest różny od zera. f(x Y = y) = f(y X = x) = f(x, y) f Y (y), f(x, y) f X (x), Gdy mianownik jest równy zero, to kładziemy f(x Y = y) = 0. Zadanie Niech wektor losowy (X, Y ) ma rozkład o gęstości Obliczyć: f(x, y) = { 36xye (x2 +y 2), gdy x > 0, y > 0, 0, gdy x 0 lub y 0. 4

P (0 < X < 2, 1 < Y < 4), E(X), E(Y ), V ar(x), V ar(y ). Czy X i Y są niezależne? Czym jest statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości. Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności. Przykład Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu. Reagują różnie na ten sam reżim ćwiczeń. Różny stopień zaangażowania w realizację ćwiczeń. Wpływ diety. Ćwiczenia mogą wpływać na inne czynniki, np. apetyt. Jak interpretować dane? Większość wypadków samochodowych zdarza się, gdy samochód porusza się z prędkością pomiędzy 50 km/h a 100 km/h. Czy w takim razie bezpieczniej jest jeździć z prędkością powyżej 100 km/h? A może powyżej 300 km/h? Wyciągnij wniosek! Przed II wojną światową gruźlica procentowo najwięcej zgonów powodowała w Zakopanem. Czy zatem było tam najbardziej niezdrowe powietrze? Wprost przeciwnie: było najlepsze do leczenia tej choroby! Wybór Roosevelta na prezydenta USA. How to lie with statistics A może warto nauczyć się logicznego wyciągania wniosków? 5

Dlaczego uczą się dobrze? Przepowadzono ankietę wśród studentów II roku pewnego wydziału i okazało się, że szczególnie dobre wyniki w nauce na I roku osiągnęły osoby, które dojeżdżały daleko do szkoły średniej (ponad godzinę w jedną stronę). Wniosek:??? Wino a choroby serca Oto roczne spożycie wina (w litrach czystego alkoholu pochodzącego z wina na osobę) oraz liczba zgonów w ciagu roku spowodowanych atakiem serca (na 100 000 osób) w kilku wybranych krajach: Australia 2,5 211 Austra 3,9 167 Finlandia 0,9 297 Francja 9,1 71 Hiszpania 6,5 86 Niemcy 2,7 172 USA 1,2 199 Czy picie wina wpływa na zmniejszenie ryzyka ataku serca? Reakcja owiec na bakterie wąglika Reakcja Zaszczepione Nie zaszczepione Śmierć 0 24 Przeżycie 24 0 Procent 100% 0% Przykład W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji? 80% wobec 20% czy taka różnica jest znacząca? Jakie byłyby wyniki, gdyby wszyscy nosili ciemne ubrania? Przy jakiej różnicy można wyciągać prawidłowe wnioski? Jak duża musi być próba, abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu? Rodzaje danych Jakościowe: Porządkowe Nie porządkowe 6

Ilościowe: Ciągłe Dyskretne Zmienne jakościowe (kategoryczne) Jakościowe kwalifikujące do kategorii Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze. Nie porządkowe, np. kolory (przy badaniu dziedziczenia koloru oczu). Zmienne ilościowe (liczbowe) Ilościowe wynik jest liczbą. Ciągłe, np. wzrost, waga, stężenie. Dyskretne, np. liczba wadliwych elementów, liczba wypadków. Oznaczenia Zmienne: X, Y, Z ; np. Y =wzrost (pojęcie) Obserwacje: x, y, z; np. y=182cm (wynik) Próba: y 1, y 2,..., y n (wielokrotne obserwacje) Rozmiar próby: n, czasem n 1, n 2, itp. Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. 20 próbek krwi (biolog) Jedna próba 20 pomiarów glukozy (statystyk) Będziemy używali terminu pomiar tam, gdzie biolog użyłby słowa próba. Histogram liczebności Przypuśćmy, że zbadano dochód roczny wylosowanych 20 gospodarstw domowych i uzyskano następujące dane (zarobki brutto w tysiacach zł): 35,5; 58,3; 127,2; 84,3; 46,8; 29,9; 41,7; 83,1; 38,2; 91,3; 44,8; 62,1; 25,0; 34,8; 19,5; 29,8; 73,2; 36,6; 41,1; 27,3; Narysować histogram. Jakie są max i min? Jaki jest rozstęp? Jakie dobrać przedziały i ile ich wziąć? Histogram liczebności Grupowanie podobnych obserwacji zwykle jest pomocne. Prawie zawsze postępujemy tak z danymi ciągłymi. 7

Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy. Jak wybierać klasy? Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki). Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19,82 29,26. Używamy od 5 do 15 klas dla umiarkowanych zbiorów danych (n < 50); więcej, gdy próba jest duża. Opis histogramu Symetryczny / asymetryczny. W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony). Skośny na prawo lub lewo. Jednomodalny (jeden główny wierzchołek). Dwumodalny (dwa główne wierzchołki). Wykładniczy (malejący) Rozrzut (duży lub mały) Statystyka Statystyka to liczbowa charakterystyka danych. Na przykład z próby y 1 = 24, y 2 = 35, y 3 = 26, y 4 = 36 można obliczyć wartości statystyk: min=24, max=36, rozstęp= 36 24 = 12, y = 1 121 (24 + 35 + 26 + 36) = = 30, 25. 4 4 Średnia z próby Symbol y oznacza liczbę arytmetyczną średnią z obserwacji. Symbol Y oznacza pojęcie średniej z próby. Średnia jest środkiem ciężkości zbioru danych. Średnia a mediana Mediana dzieli powierzchnię histogramu na połowy. Jest odporna nie mają na nią wpływu obserwacje odstające. Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna. Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). 8