Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor losowy Załóżmy, że dany jest wektor (X, Y ) i jego rozkład Y \ X 0 1 2 1 0, 2 0, 1 0, 1 1 0, 1 0, 3 0, 2 Kowariancja Miarą zależności zmiennych jest ich kowariancja Wiemy już, jak obliczyć E(X) i E(Y ). cov(x, Y ) = E(XY ) E(X)E(Y ). Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ): E(XY ) = i,j x i y j p ij. W naszym zadaniu E(XY ) = = 0 + 1 ( 1) 0, 1 + 2 ( 1) 0, 1 + 0 + 1 1 0, 3 + 1 2 0, 2 = 0, 4, skąd cov(x, Y ) = 0, 4 1 0, 2 = 0, 2. Kowariancja zmiennych niezależnych Gdy X i Y są niezależne, to p (X,Y ) ij = p (X) i p (Y ) j i wtedy E(XY ) = i,j x i y j p (X,Y ) ij = i,j x i y j p (X) i p (Y ) j = = i x i p (X) i j y j p (Y ) j = E(X)E(Y ). Kowariancja zmiennych niezależnych Gdy X i Y są niezależne, to p (X,Y ) ij = p (X) i p (Y ) j i wtedy E(XY ) = i,j x i y j p (X,Y ) ij = i,j x i y j p (X) i p (Y ) j = = i x i p (X) i j y j p (Y ) j = E(X)E(Y ). Wniosek: Gdy X i Y są niezależne, to cov(x, Y ) = E(XY ) E(X)E(Y ) = 0. 1
Współczynnik korelacji Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu wariancji: W naszym zadaniu ρ XY = cov(x, Y ) E(XY ) E(X)E(Y ) =. V ar(x)v ar(y ) V ar(x)v ar(y ) ρ XY =... Współczynnik korelacji jest zawarty pomiędzy 1 i 1: ρ xy 1. Gdy ρ XY = ±1, to zmienne są bardzo silnie zależne: albo Y = ax + b albo X = AY + B. Gdy zmienne X i Y są niezależne, to cov(x, Y ) = 0, ale nie na odwrót! Rozkłady warunkowe Gdy rozkład wektora (X, Y ) zadany jest za pomocą tabelki, to łatwo możemy obliczyć rozkłady warunkowe. Na przykład, rozkład warunkowy zmiennej X pod warunkiem Y = 1: P (X = 0 Y = 1) = P (X = 0, Y = 1) P (Y = 1) = 0, 1 0, 6 = 1 6, P (X = 1 Y = 1) = P (X = 1, Y = 1) P (Y = 1) = 0, 3 0, 6 = 3 6, P (X = 2 Y = 1) = P (X = 2, Y = 1) P (Y = 1) = 0, 2 0, 6 = 2 6. Warunkowa wartość oczekiwana Wartość oczekiwana rozkładu warunkowego nazywa się warunkową wartością oczekiwaną. W naszym zadaniu E(X Y = 1) = 0 P (X = 0 Y = 1)+ +1 P (X = 1 Y = 1) + 2 P (X = 2 Y = 1) = 2 6 + 4 6 = 1. = Gdy rozkład (X, Y ) jest ciągły Określimy teraz wszystkie wprowadzone pojęcia w przypadku, gdy rozkład wektora (X, Y ) ma gęstość, to znaczy, gdy istnieje taka funkcja dwóch zmiennych f(x, y), dla której f(x, y) 0 Wtedy R 2 P ((X, Y ) A) = f(x, y) dx dy = 1. A f(x, y) dx dy. 2
Rozkłady brzegowe Aby obliczyć rozkład zmiennej X w przypadku, gdy (X, Y ) zadany był tabelką, należało posumować kolumny. Gdy rozkład wektora (X, Y ) zadany jest funkcją f(x, y), to zamiast dodawania stosujemy całkowanie: zmienna losowa X ma rozkład o gęstości f X (x) = f(x, y) dy, a zmienna losowa Y ma rozkład o gęstości f Y (y) = f(x, y) dx. Konkretny przykład Niech wektor (X, Y ) ma rozkład jednostajny na kółku {(x, y) : x 2 +y 2 < 1}, to znaczy ma rozkład o gęstości Wtedy f(x, y) = { 1 π, gdy x2 + y 2 < 1 0, gdy x 2 + y 2 1 f X (x) = f(x, y) dy =... Dla x 1 mamy f(x, y) = 0, więc f X (x) = 0. Dla x < 1 ta całka mierzy długość odcinka wyciętego z prostej {(x, y) : x ustalone} przez koło, skąd f X (x) = 2 π 1 x 2. Rozkład brzegowy zmiennej Y Zauważmy, że nie musimy liczyć oddzielnie rozkładu zmiennej Y, bo f(x, y) jest funkcją symetryczną, to znaczy po zamianie ról x i y ta funkcja się nie zmienia. Zatem w funkcji f X (x) trzeba tylko zmienić X na Y oraz x na y: { 0, gdy y 1, f Y (y) = 2 π 1 y 2, gdy y < 1, E(X) i V ar(x) Mając funkcję f X (x), gęstość rozkładu zmiennej X, możemy obliczyć wartość oczekiwaną i wariancję: E(X) = V ar(x) = 1 1 1 1 x 2 1 x π 2 dx = 0 x 2 2 1 x π 2 dx =... Dla zmiennej Y oba wyniki są oczywiście takie same, jak dla X. 3
Niezależność Zmienne X i Y są niezależne wtedy i tylko wtedy, gdy gęstość rozkładu łącznego jest iloczynem gęstości brzegowych, tzn. dla wszystkich x, y R zachodzi równość A jak jest w rozważanym przypadku? f(x, y) = f X (x) f Y (y). Weźmy taki punkt (x, y) aby x 2 + y 2 < 1. Wtedy x < 1 oraz y < 1 i Te zmienne są zależne. A jaka jest ich kowariancja? 1 π 4 1 x π 2 2 1 y 2 Kowariancja dla rozkładu z gęstością Wzór definiujący jest oczywiście taki, jak w przypadku rozkładów zadanych tabelką, tzn. cov(x, Y ) = E(XY ) E(X)E(Y ). W naszym zadaniu E(XY ) = R 2 x y f(x, y) dx dy. E(XY ) = {x 2 +y 2 <1} xy π dx dy = 0, zatem cov(x, Y ) = 0 0 0 = 0. Mamy tu przykład zmiennych zależnych o kowariancji zero. Rozkłady warunkowe Podobnie jak w przypadku rozkładów zadanych tabelką możemy obliczać rozkłady warunkowe: gdy mianownik jest różny od zera. f(x Y = y) = f(y X = x) = f(x, y) f Y (y), f(x, y) f X (x), Gdy mianownik jest równy zero, to kładziemy f(x Y = y) = 0. Zadanie Niech wektor losowy (X, Y ) ma rozkład o gęstości Obliczyć: f(x, y) = { 36xye (x2 +y 2), gdy x > 0, y > 0, 0, gdy x 0 lub y 0. 4
P (0 < X < 2, 1 < Y < 4), E(X), E(Y ), V ar(x), V ar(y ). Czy X i Y są niezależne? Czym jest statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości. Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności. Przykład Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu. Reagują różnie na ten sam reżim ćwiczeń. Różny stopień zaangażowania w realizację ćwiczeń. Wpływ diety. Ćwiczenia mogą wpływać na inne czynniki, np. apetyt. Jak interpretować dane? Większość wypadków samochodowych zdarza się, gdy samochód porusza się z prędkością pomiędzy 50 km/h a 100 km/h. Czy w takim razie bezpieczniej jest jeździć z prędkością powyżej 100 km/h? A może powyżej 300 km/h? Wyciągnij wniosek! Przed II wojną światową gruźlica procentowo najwięcej zgonów powodowała w Zakopanem. Czy zatem było tam najbardziej niezdrowe powietrze? Wprost przeciwnie: było najlepsze do leczenia tej choroby! Wybór Roosevelta na prezydenta USA. How to lie with statistics A może warto nauczyć się logicznego wyciągania wniosków? 5
Dlaczego uczą się dobrze? Przepowadzono ankietę wśród studentów II roku pewnego wydziału i okazało się, że szczególnie dobre wyniki w nauce na I roku osiągnęły osoby, które dojeżdżały daleko do szkoły średniej (ponad godzinę w jedną stronę). Wniosek:??? Wino a choroby serca Oto roczne spożycie wina (w litrach czystego alkoholu pochodzącego z wina na osobę) oraz liczba zgonów w ciagu roku spowodowanych atakiem serca (na 100 000 osób) w kilku wybranych krajach: Australia 2,5 211 Austra 3,9 167 Finlandia 0,9 297 Francja 9,1 71 Hiszpania 6,5 86 Niemcy 2,7 172 USA 1,2 199 Czy picie wina wpływa na zmniejszenie ryzyka ataku serca? Reakcja owiec na bakterie wąglika Reakcja Zaszczepione Nie zaszczepione Śmierć 0 24 Przeżycie 24 0 Procent 100% 0% Przykład W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji? 80% wobec 20% czy taka różnica jest znacząca? Jakie byłyby wyniki, gdyby wszyscy nosili ciemne ubrania? Przy jakiej różnicy można wyciągać prawidłowe wnioski? Jak duża musi być próba, abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu? Rodzaje danych Jakościowe: Porządkowe Nie porządkowe 6
Ilościowe: Ciągłe Dyskretne Zmienne jakościowe (kategoryczne) Jakościowe kwalifikujące do kategorii Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze. Nie porządkowe, np. kolory (przy badaniu dziedziczenia koloru oczu). Zmienne ilościowe (liczbowe) Ilościowe wynik jest liczbą. Ciągłe, np. wzrost, waga, stężenie. Dyskretne, np. liczba wadliwych elementów, liczba wypadków. Oznaczenia Zmienne: X, Y, Z ; np. Y =wzrost (pojęcie) Obserwacje: x, y, z; np. y=182cm (wynik) Próba: y 1, y 2,..., y n (wielokrotne obserwacje) Rozmiar próby: n, czasem n 1, n 2, itp. Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. 20 próbek krwi (biolog) Jedna próba 20 pomiarów glukozy (statystyk) Będziemy używali terminu pomiar tam, gdzie biolog użyłby słowa próba. Histogram liczebności Przypuśćmy, że zbadano dochód roczny wylosowanych 20 gospodarstw domowych i uzyskano następujące dane (zarobki brutto w tysiacach zł): 35,5; 58,3; 127,2; 84,3; 46,8; 29,9; 41,7; 83,1; 38,2; 91,3; 44,8; 62,1; 25,0; 34,8; 19,5; 29,8; 73,2; 36,6; 41,1; 27,3; Narysować histogram. Jakie są max i min? Jaki jest rozstęp? Jakie dobrać przedziały i ile ich wziąć? Histogram liczebności Grupowanie podobnych obserwacji zwykle jest pomocne. Prawie zawsze postępujemy tak z danymi ciągłymi. 7
Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy. Jak wybierać klasy? Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki). Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19,82 29,26. Używamy od 5 do 15 klas dla umiarkowanych zbiorów danych (n < 50); więcej, gdy próba jest duża. Opis histogramu Symetryczny / asymetryczny. W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony). Skośny na prawo lub lewo. Jednomodalny (jeden główny wierzchołek). Dwumodalny (dwa główne wierzchołki). Wykładniczy (malejący) Rozrzut (duży lub mały) Statystyka Statystyka to liczbowa charakterystyka danych. Na przykład z próby y 1 = 24, y 2 = 35, y 3 = 26, y 4 = 36 można obliczyć wartości statystyk: min=24, max=36, rozstęp= 36 24 = 12, y = 1 121 (24 + 35 + 26 + 36) = = 30, 25. 4 4 Średnia z próby Symbol y oznacza liczbę arytmetyczną średnią z obserwacji. Symbol Y oznacza pojęcie średniej z próby. Średnia jest środkiem ciężkości zbioru danych. Średnia a mediana Mediana dzieli powierzchnię histogramu na połowy. Jest odporna nie mają na nią wpływu obserwacje odstające. Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna. Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). 8