Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Wykład 3 11.03.2016 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Wykłady z poprzednich lat (dr inż. H. Zbroszczyk): http://www.if.pw.edu.pl/~gos/student s/kadd/ Semestr letni 2015/2016

Dwuwymiarowe rozkłady zmiennych losowych

Jednoczesne pomiary dwóch wielkości W przypadku znakomitej większości pomiarów jednocześnie mierzymy dwie i więcej wielkości fizycznych (np. napięcie I natężenie prądu w obwodzie) Analogicznie w badaniach społecznych, możemy badać jednocześnie kilka cech populacji (np. zamożność i długość życia) Kluczowe pytanie czy (i jeśli tak to jaka) jest zależność między tymi wielkościami? Jak jedna wielkość wpływa na drugą? Innymi słowy: jakie są korelacje między tymi zmiennymi? 3 / 29

Rozkład i dystrybuanta 2D W wyniku jednokrotnego pomiaru otrzymujemy dwie liczby: (x,y), które są wartościami zmiennej losowej X, oraz Y Rozkład prawdopodobieństwa: f ( x, y)=p( X =x,y = y) rozkład prawdopod. jest unormowany pij =P( X =x i, Y = y j ) f ( x, y) dxdy=1 rozkład dyskretny: p =1 ij rozkład ciągły: Dystrybuanta: i=1 j=1 x y F ( x, y )= P ( x X, y Y )= f ( x ', y ') dx ' dy ' F ( x)= i: x i X j : y j Y pij Jeżeli dystrybuanta jest funkcją ciągłą obu zmiennych, to: f ( x, y)= F ( x, y ) x y Prawdopodobieństwo: b d P(a X b, c Y d)= f ( x, y)dxdy =F (b, d) F (a, b) a c 4 / 29

Zmienna losowa 2D - przykład Dwuwymiarowy rozkład Gaussa: (( ( x x^ )2 ( y ^y )2 f ( x, y)= N exp 2 + 2 2σ x 2σy )) normalizacja 5 / 29

Rozkłady (gęstości) brzegowe Częsty problem doświadczalny: mamy wynik pomiaru zmienne losowe X, oraz Y, ale interesuje nas tylko zależność od X dla dowolnego Y przykład: gęstość prawdopodobieństwa zgonów wywołanych pewnymi chorobami zakaźnymi jest funkcją czasu i położenia geograficznego; w badaniach potrzebujemy zająć się tylko zależnością czasową Brzegowa gęstość prawdopodobieństwa: b P (a X b, <Y <)= a g( x)= f ( x, y )dy [ f ( x, y)dy ] dx= g( x )dx y a h( y )= f ( x, y )dx Dystrybuanty brzegowe: F X ( x)=lim F ( x, y) b F Y ( y)=lim F ( x, y ) x 6 / 29

Rozkłady (gęstości) brzegowe - przykład 7 / 29

Niezależnosć zmiennych Prawdopodobieństwo warunkowe: P (B A )= P( A B) P( A B )= P(B) P( B A) P (B) Dla zdarzeń niezależnych: P (B A )= P (B) P( A B)=P ( A ) P ( B) Analogicznie dla zmiennych losowych niezależnych: f ( x, y)=g ( x)h ( y ) Warunkowa gęstość prawdopodobieństwa: f ( x y )= f (x, y) g ( x) Prawdopodobieństwo warunkowe zmiennej losowej Y przy znanej wartości zmiennej losowej X: P ( y Y y +dy x X x +dx )=f ( y x)dy Rozkłady brzegowe: h ( y )= f ( x y) g ( x) dx g ( x)= f ( x y) g( y) dy 8 / 29

Niezależnosć zmiennych Dla zmiennych niezależnych otrzymamy: f ( x, y ) g ( x)h ( y ) f ( y x)= = =h ( y ) g ( x) g ( x) Wynik ten pokazuje łatwy do przewidzenia fakt jakikolwiek warunek narzucony na jedną zmienną nie może wpłynąć na rozkład drugiej zmiennej (jeśli są niezależne) 9 / 29

Niezależnosć zmiennych ZMIENNE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE 10 / 29

Wartość oczekiwana, wariancja, momenty Wartość oczekiwana E ( XY )= x i y j pij E ( XY )= xyf ( x, y )dxdy i=1 j=1 Jeżeli mamy funkcję H(x,y), to wartość oczekiwana: E ( H ( X, Y ))= H ( x, y ) f ( x, y)dxdy Wariancja: σ ( X,Y )=E ( [ E ( X,Y ) E ( X, Y ) ] 2 2 ) σ (H ( X, Y ))=E ( [ E ( H ( X,Y )) E( H ( X,Y )) ] 2 2 ) Jeżeli: H ( x, y )=a X +b Y wówczas: E (a X +b Y )=a E ( X )+b E (Y ) Moment zwykły rzędu l i m względem zmiennych X i Y: λ lm =E ( x l y m ) Ogólniej moment rzędu l i m względem punktów a i b: l m α lm =E (( x a) ( y b) ) Momenty centralne: μlm =E (( X λ 10 )l (Y λ 01 )m ) 11 / 29

Wartość oczekiwana, wariancja, momenty Momenty o specjalnym znaczeniu: μ00 =λ 00 =1 μ10 =μ 01=0 λ 10 = E ( x)= x^ λ 01 =E ( y )= ^y μ11=e (( X x^ )(Y ^y ))=cov ( X,Y ) μ20 = E (( X x^ )2 )=σ 2 ( X ) μ02 =E ( (Y ^y )2 )=σ 2 (Y ) Wariancja dla zmiennej ax+by: 2 2 2 2 2 σ (a X +b Y )= E ( (a X +b Y ) E (a X +b Y ) ) =a σ ( X )+b σ (Y )+2 ab cov ( X,Y ) Jeżeli założymy funkcję H w postaci iloczynu: H ( X, Y )= X Y E ( X Y )=E ( X ) E (Y ) Wielkości E(X), E(Y), σ(x), σ(y) są podobne jak w 1D 12 / 29

Kowariancja Kowariancja cov(x,y) nie ma odpowiednika w przypadku rozkładów 1D Z definicji kowariancji wynika, że: jest dodatnia, gdy: x> x^ oraz y > ^y jest ujemna, gdy: x> x^ oraz y < ^y jeżeli nie ma zależności między x i y nie ma zależności, wówczas kowariancja wynosi 0 cov ( X,Y )=μ11= E (( X E ( X )) (Y E (Y )))= E ( X Y ) E ( X ) E (Y ) Interpretacja: jeżeli między zmiennymi X i Y nie istnieje żadna korelacja liniowa i istnieją ich wartości oczekiwane, to kowariancja przyjmuje wartość 0. Czyli: cov ( X,Y )=0 E ( X Y )=E ( X ) E (Y ) 13 / 29

Kowariancja cov(x,y)=0.0 cov(x,y)=-0.75 cov(x,y)=-0.5 cov(x,y)=0.5 14 / 29

Kowariancja cov(x,y)=0.0 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=-0.5 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=-0.75 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=0.5 mx = my = 0.0 σ x = σ y = 1.0 15 / 29

Współczynnik korelacji Współczynnik korelacji (Pearsona): ρ( X, Y )= Kowariancja i współczynnik korelacji to miary zależności liniowej X oraz Y: Można wykazać (patrz Brandt), że: 1 ρ( X, Y ) 1 cov ( X, Y ) σ ( X )σ (Y ) współczynnik korelacji jest zatem wielkością znormalizowaną Współczynnik korelacji ocenia jedynie liniową zależność (nie jest to zależność przyczyna-skutek!) Y zależność nieliniowa X 16 / 29

Kowariancja ρ( x, y)= 1 ρ( x, y)=1 Rozkłady o maksymalnej kowariancji (wsp. korelacji) y cov ( x, y)> 0 y y cov ( x, y) 0 y y x x cov (x, y)< 0 y x x x x 17 / 29

Korelacja a niezależność zmiennych f ( x, y)= gaus ( x) gaus ( y) cov (x, y)=0 f ( x, y)=1/(π R 2); x 2 + y 2< R cov (x, y)=0 f ( x, y)=1/[(a b) (c d )] ; a< x< b, c< y< d cov (x, y)=0 f ( x, y)=1/ a ; x y < a cov (x, y)=2.48 ρ( x, y)=0.945 18 / 29

Rozkład i dystrybuanta N-wymiarowa Mamy N zmiennych losowych: (X1,X2,,XN) Rozkład prawdopodobieństwa: f ( x 1, x 2..., x N )=P ( X 1= x 1, X 2= x 2,..., X N = x N ) rozkład prawdopod. jest unormowany... f ( x 1, x 2,..., x N )dx 1 dx 2... dx N =1 Dystrybuanta: F ( x 1, x 2,..., x N )= P ( x 1 X 1, x 2 X 2,..., x N X N )= x1 x2 x1 x N =... f ( x ' 1, x ' 2,..., x ' N )dx ' 1 dx ' 2... dx ' N Jeżeli dystrybuanta jest funkcją ciągłą, to: f ( x 1, x 2,..., x N )=... F ( x 1, x 2,..., x N ) x1 x 2 x N Gęstość brzegowa zmiennej xr: g r ( x r )=... f ( x 1, x 2,..., x N )dx 1 dx 2... d x d x... dx N r 1 r +1 19 / 29

Wartość oczekiwana, wariancja, kowariancja Wartość oczekiwana zmiennej xr: E ( X r )=... x r f ( x 1, x 2,..., x N )dx 1 dx 2... dx N = x r g r ( x r )dx r Dla funkcji H(x1,x2,,xN): E ( H ( x 1, x 2,..., x N ) )=... H ( x 1, x 2,..., x N ) f ( x 1, x 2,..., x N )dx 1 dx 2... dx N Wariancja zmiennej Xr: σ 2 ( X r )=E ( ( X r x^r ) 2 ) Jeżeli zmienne losowe są niezależne: f ( x 1, x 2,..., x N )=g 1 ( x 1 ) g 2 ( x 2 )... g N ( x N ) Łączny rozkład brzegowy dla dowolnych l spośród N zmiennych: g ( x 1, x 2,..., x l )=... f ( x 1, x 2,..., x N ) dx l +1... dx N Kowariancja pomiędzy zmiennymi xi i xj: cov ( X i, X j )= E ( ( X i x^ i )( X j x^ j ) ) 20 / 29

Momenty Przez analogię definiujemy również momenty (zwykłe): λl 1, l 2,..., l N l1 l2 ln = E ( X 1 X 2... X N ) W szczególności, wartości oczekiwane: λ 100...0 =E ( X 1 )= x^ 1 λ 010...0=E ( X 2 )= x^ 2 λ 000... N =E ( X N )= x^ N Momenty centralne: μl 1,l 2,...,l N l1 l2 ln =E (( X 1 x^ 1 ) ( X 2 x^ 2 )...( X N x^ N ) ) W szczególności, wariancje: μ 200...0=E ( ( X 1 x^ 1 )2 ) =σ 2 ( X 1 ) μ 020...0 =E (( X 2 x^ 2 )2 ) =σ 2 ( X 2 ) μ 000... N =E (( X N x^ N )2 ) =σ 2 ( X N ) Kowariancja: li=l j =1 ; l k =0(i k j) c ij =cov ( X i, X j )= E ( ( X i x^i )( X j x^ j ) ) 21 / 29

Zapis wektorowy N zmiennych losowych można przedstawić jako N-wymiarowy wektor (wektor losowy): X x () 1 Funkcja gęstości: X= X 2 XN () 1 x= x 2 xn f ( x)=p ( X= x) Dystrybuanta: Wektor wartości zmiennych losowych F ( x)=p( X x) Jeżeli istnieją pierwsze pochodne: N f ( x)= F(X) x 1 x 2... x N Wartość oczekiawana funkcji H(X): E ( H ( X ) ) = H ( x) f ( x )d x 22 / 29

Macierz kowariancji Macierz, której elementy to odpowiednie momenty odpowiadające wariancjom i kowariancjom nazywamy macierzą kowariancji: c 11 c 12 c 1 N C= c 21 c 22 c 2 N c N 1 c N 2 c NN ( ) elementy cij dane są wzorem na kowariancję: c ij =cov ( X i, X j )= E ( ( X i x^i )( X j x^ j ) ) elementy diagonalne cii to wariancje: c ii =σ 2 ( X i ) macierz kowariancji jest symetryczna: c ij =c ji wartość oczekiwana w zapisie wektorowym: E ( X )= x^ 23 / 29

Macierz kowariancji Każdy element cij T c ij = E ( ( X i x^ i ) ( X j x^ j ) ) macierzy kowariancji możemy interpretować jako wartość średnią elementu o wskaźnikach ij iloczynu diadycznego wektorów ( X x^ )T i ( X x^ ) x () 1 x= x 2 xn T x =( x 1, x 2,..., x N ) Wtedy macierz kowariancji możemy zapisać krótko: T C=E ( ( X x^ )( X x^ ) ) 24 / 29

Uwagi do interpretacji wsp. korelacji Zerknijmy na taką zależność: konsumpcja margaryny w czasie i liczba rozwodów w stanie Maine na 1000 osób współczynnik korelacji liniowej wynosi aż 0,99! wynika to z faktu, że obie zmienne są skorelowane ze wspólną zmienną czasem a nie same ze sobą 25 / 29

Uwagi do interpretacji wsp. korelacji Podobne przykłady: Korelację dwóch wielkości zależnych od czasu można symulować przez błądzenie losowe (random walk): im dłuższy przedział czasowy tym korelacja się zwiększa Wygooglaj spurious correlations 26 / 29

Uwagi do interpretacji wsp. korelacji 27 / 29

Uwagi do interpretacji wsp. korelacji Pion Przykłady rzeczywistych korelacji eksperymentalnych: góra zależność między średnim pędem cząstki (pionu) a nachyleniem rozkładu pędowego rozkładu pędu dół praktycznie brak korelacji pomiędzy żrednim pędem cząstki (pionu) a liczbą cząstek produkowanych w zderzeniu 5 cov( x, y)=7.01 10 2 σ ( x)=1.8 10 3 σ ( y)=5.3 10 ρ( x, y)=0.725 cov( x, y)=0.32 σ ( x)=45.0 σ ( y)=0.0063 ρ( x, y)=0.11 28 / 29

Uwagi do interpretacji wsp. korelacji 29 / 29