Komputerowa analiza danych doświadczalnych

Podobne dokumenty
Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski

Rozkłady dwóch zmiennych losowych

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Rozkłady wielu zmiennych

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Komputerowa Analiza Danych Doświadczalnych

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Komputerowa analiza danych doświadczalnych

Ważne rozkłady i twierdzenia c.d.

Komputerowa Analiza Danych Doświadczalnych

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Prawdopodobieństwo i statystyka

1 Zmienne losowe wielowymiarowe.

Wykład 3 Jednowymiarowe zmienne losowe

Statystyka i eksploracja danych

Komputerowa analiza danych doświadczalnych

Prawdopodobieństwo i statystyka

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

12DRAP - parametry rozkładów wielowymiarowych

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Rachunek prawdopodobieństwa i statystyka

Procesy stochastyczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wartość oczekiwana Mediana i dominanta Wariancja Nierówności związane z momentami. Momenty zmiennych losowych Momenty wektorów losowych

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Procesy stochastyczne

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Komputerowa analiza danych doświadczalnych

Wynik pomiaru jako zmienna losowa

Komputerowa analiza danych doświadczalnych

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Metoda największej wiarygodności

Metody systemowe i decyzyjne w informatyce

Szkice do zajęć z Przedmiotu Wyrównawczego

Komputerowa analiza danych doświadczalnych

Metoda największej wiarygodności

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Prawdopodobieństwo i statystyka

Ważne rozkłady i twierdzenia

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Prawdopodobieństwo i statystyka

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Statystyka i eksploracja danych

KORELACJE I REGRESJA LINIOWA

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 4 ZADANIA - ZESTAW 4

Metody systemowe i decyzyjne w informatyce

Podstawowe modele probabilistyczne

Komputerowa analiza danych doświadczalnych

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

POSTULATY MECHANIKI KWANTOWEJ cd i formalizm matematyczny

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Zmienne losowe ciągłe i ich rozkłady

PDF created with FinePrint pdffactory Pro trial version

Rachunek prawdopodobieństwa i statystyka

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Rozpoznawanie obrazów

Prawdopodobieństwo i statystyka

Zmienne losowe ciągłe i ich rozkłady

Procesy Stochastyczne - Zestaw 1

Komputerowa analiza danych doświadczalnych

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Biostatystyka, # 3 /Weterynaria I/

ELEKTROTECHNIKA Semestr 2 Rok akad / ZADANIA Z MATEMATYKI Zestaw Oblicz pochodne cząstkowe rzędu drugiego funkcji:

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Statystyka. Magdalena Jakubek. kwiecień 2017

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Komputerowa Analiza Danych Doświadczalnych

Rozkłady łaczne wielu zmiennych losowych

Zadania z Rachunku Prawdopodobieństwa III - 1

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

1 Warunkowe wartości oczekiwane

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metody systemowe i decyzyjne w informatyce

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Prawdopodobieństwo i statystyka

Zawansowane modele wyborów dyskretnych

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

5 Przegląd najważniejszych rozkładów

Prawdopodobieństwo i statystyka r.

Komputerowa analiza danych doświadczalnych

Rozkłady prawdopodobieństwa zmiennych losowych

Transkrypt:

Komputerowa analiza danych doświadczalnych Wykład 3 11.03.2016 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Wykłady z poprzednich lat (dr inż. H. Zbroszczyk): http://www.if.pw.edu.pl/~gos/student s/kadd/ Semestr letni 2015/2016

Dwuwymiarowe rozkłady zmiennych losowych

Jednoczesne pomiary dwóch wielkości W przypadku znakomitej większości pomiarów jednocześnie mierzymy dwie i więcej wielkości fizycznych (np. napięcie I natężenie prądu w obwodzie) Analogicznie w badaniach społecznych, możemy badać jednocześnie kilka cech populacji (np. zamożność i długość życia) Kluczowe pytanie czy (i jeśli tak to jaka) jest zależność między tymi wielkościami? Jak jedna wielkość wpływa na drugą? Innymi słowy: jakie są korelacje między tymi zmiennymi? 3 / 29

Rozkład i dystrybuanta 2D W wyniku jednokrotnego pomiaru otrzymujemy dwie liczby: (x,y), które są wartościami zmiennej losowej X, oraz Y Rozkład prawdopodobieństwa: f ( x, y)=p( X =x,y = y) rozkład prawdopod. jest unormowany pij =P( X =x i, Y = y j ) f ( x, y) dxdy=1 rozkład dyskretny: p =1 ij rozkład ciągły: Dystrybuanta: i=1 j=1 x y F ( x, y )= P ( x X, y Y )= f ( x ', y ') dx ' dy ' F ( x)= i: x i X j : y j Y pij Jeżeli dystrybuanta jest funkcją ciągłą obu zmiennych, to: f ( x, y)= F ( x, y ) x y Prawdopodobieństwo: b d P(a X b, c Y d)= f ( x, y)dxdy =F (b, d) F (a, b) a c 4 / 29

Zmienna losowa 2D - przykład Dwuwymiarowy rozkład Gaussa: (( ( x x^ )2 ( y ^y )2 f ( x, y)= N exp 2 + 2 2σ x 2σy )) normalizacja 5 / 29

Rozkłady (gęstości) brzegowe Częsty problem doświadczalny: mamy wynik pomiaru zmienne losowe X, oraz Y, ale interesuje nas tylko zależność od X dla dowolnego Y przykład: gęstość prawdopodobieństwa zgonów wywołanych pewnymi chorobami zakaźnymi jest funkcją czasu i położenia geograficznego; w badaniach potrzebujemy zająć się tylko zależnością czasową Brzegowa gęstość prawdopodobieństwa: b P (a X b, <Y <)= a g( x)= f ( x, y )dy [ f ( x, y)dy ] dx= g( x )dx y a h( y )= f ( x, y )dx Dystrybuanty brzegowe: F X ( x)=lim F ( x, y) b F Y ( y)=lim F ( x, y ) x 6 / 29

Rozkłady (gęstości) brzegowe - przykład 7 / 29

Niezależnosć zmiennych Prawdopodobieństwo warunkowe: P (B A )= P( A B) P( A B )= P(B) P( B A) P (B) Dla zdarzeń niezależnych: P (B A )= P (B) P( A B)=P ( A ) P ( B) Analogicznie dla zmiennych losowych niezależnych: f ( x, y)=g ( x)h ( y ) Warunkowa gęstość prawdopodobieństwa: f ( x y )= f (x, y) g ( x) Prawdopodobieństwo warunkowe zmiennej losowej Y przy znanej wartości zmiennej losowej X: P ( y Y y +dy x X x +dx )=f ( y x)dy Rozkłady brzegowe: h ( y )= f ( x y) g ( x) dx g ( x)= f ( x y) g( y) dy 8 / 29

Niezależnosć zmiennych Dla zmiennych niezależnych otrzymamy: f ( x, y ) g ( x)h ( y ) f ( y x)= = =h ( y ) g ( x) g ( x) Wynik ten pokazuje łatwy do przewidzenia fakt jakikolwiek warunek narzucony na jedną zmienną nie może wpłynąć na rozkład drugiej zmiennej (jeśli są niezależne) 9 / 29

Niezależnosć zmiennych ZMIENNE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE ZMIENNE NIE NIEZALEŻNE 10 / 29

Wartość oczekiwana, wariancja, momenty Wartość oczekiwana E ( XY )= x i y j pij E ( XY )= xyf ( x, y )dxdy i=1 j=1 Jeżeli mamy funkcję H(x,y), to wartość oczekiwana: E ( H ( X, Y ))= H ( x, y ) f ( x, y)dxdy Wariancja: σ ( X,Y )=E ( [ E ( X,Y ) E ( X, Y ) ] 2 2 ) σ (H ( X, Y ))=E ( [ E ( H ( X,Y )) E( H ( X,Y )) ] 2 2 ) Jeżeli: H ( x, y )=a X +b Y wówczas: E (a X +b Y )=a E ( X )+b E (Y ) Moment zwykły rzędu l i m względem zmiennych X i Y: λ lm =E ( x l y m ) Ogólniej moment rzędu l i m względem punktów a i b: l m α lm =E (( x a) ( y b) ) Momenty centralne: μlm =E (( X λ 10 )l (Y λ 01 )m ) 11 / 29

Wartość oczekiwana, wariancja, momenty Momenty o specjalnym znaczeniu: μ00 =λ 00 =1 μ10 =μ 01=0 λ 10 = E ( x)= x^ λ 01 =E ( y )= ^y μ11=e (( X x^ )(Y ^y ))=cov ( X,Y ) μ20 = E (( X x^ )2 )=σ 2 ( X ) μ02 =E ( (Y ^y )2 )=σ 2 (Y ) Wariancja dla zmiennej ax+by: 2 2 2 2 2 σ (a X +b Y )= E ( (a X +b Y ) E (a X +b Y ) ) =a σ ( X )+b σ (Y )+2 ab cov ( X,Y ) Jeżeli założymy funkcję H w postaci iloczynu: H ( X, Y )= X Y E ( X Y )=E ( X ) E (Y ) Wielkości E(X), E(Y), σ(x), σ(y) są podobne jak w 1D 12 / 29

Kowariancja Kowariancja cov(x,y) nie ma odpowiednika w przypadku rozkładów 1D Z definicji kowariancji wynika, że: jest dodatnia, gdy: x> x^ oraz y > ^y jest ujemna, gdy: x> x^ oraz y < ^y jeżeli nie ma zależności między x i y nie ma zależności, wówczas kowariancja wynosi 0 cov ( X,Y )=μ11= E (( X E ( X )) (Y E (Y )))= E ( X Y ) E ( X ) E (Y ) Interpretacja: jeżeli między zmiennymi X i Y nie istnieje żadna korelacja liniowa i istnieją ich wartości oczekiwane, to kowariancja przyjmuje wartość 0. Czyli: cov ( X,Y )=0 E ( X Y )=E ( X ) E (Y ) 13 / 29

Kowariancja cov(x,y)=0.0 cov(x,y)=-0.75 cov(x,y)=-0.5 cov(x,y)=0.5 14 / 29

Kowariancja cov(x,y)=0.0 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=-0.5 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=-0.75 mx = my = 0.0 σ x = σ y = 1.0 cov(x,y)=0.5 mx = my = 0.0 σ x = σ y = 1.0 15 / 29

Współczynnik korelacji Współczynnik korelacji (Pearsona): ρ( X, Y )= Kowariancja i współczynnik korelacji to miary zależności liniowej X oraz Y: Można wykazać (patrz Brandt), że: 1 ρ( X, Y ) 1 cov ( X, Y ) σ ( X )σ (Y ) współczynnik korelacji jest zatem wielkością znormalizowaną Współczynnik korelacji ocenia jedynie liniową zależność (nie jest to zależność przyczyna-skutek!) Y zależność nieliniowa X 16 / 29

Kowariancja ρ( x, y)= 1 ρ( x, y)=1 Rozkłady o maksymalnej kowariancji (wsp. korelacji) y cov ( x, y)> 0 y y cov ( x, y) 0 y y x x cov (x, y)< 0 y x x x x 17 / 29

Korelacja a niezależność zmiennych f ( x, y)= gaus ( x) gaus ( y) cov (x, y)=0 f ( x, y)=1/(π R 2); x 2 + y 2< R cov (x, y)=0 f ( x, y)=1/[(a b) (c d )] ; a< x< b, c< y< d cov (x, y)=0 f ( x, y)=1/ a ; x y < a cov (x, y)=2.48 ρ( x, y)=0.945 18 / 29

Rozkład i dystrybuanta N-wymiarowa Mamy N zmiennych losowych: (X1,X2,,XN) Rozkład prawdopodobieństwa: f ( x 1, x 2..., x N )=P ( X 1= x 1, X 2= x 2,..., X N = x N ) rozkład prawdopod. jest unormowany... f ( x 1, x 2,..., x N )dx 1 dx 2... dx N =1 Dystrybuanta: F ( x 1, x 2,..., x N )= P ( x 1 X 1, x 2 X 2,..., x N X N )= x1 x2 x1 x N =... f ( x ' 1, x ' 2,..., x ' N )dx ' 1 dx ' 2... dx ' N Jeżeli dystrybuanta jest funkcją ciągłą, to: f ( x 1, x 2,..., x N )=... F ( x 1, x 2,..., x N ) x1 x 2 x N Gęstość brzegowa zmiennej xr: g r ( x r )=... f ( x 1, x 2,..., x N )dx 1 dx 2... d x d x... dx N r 1 r +1 19 / 29

Wartość oczekiwana, wariancja, kowariancja Wartość oczekiwana zmiennej xr: E ( X r )=... x r f ( x 1, x 2,..., x N )dx 1 dx 2... dx N = x r g r ( x r )dx r Dla funkcji H(x1,x2,,xN): E ( H ( x 1, x 2,..., x N ) )=... H ( x 1, x 2,..., x N ) f ( x 1, x 2,..., x N )dx 1 dx 2... dx N Wariancja zmiennej Xr: σ 2 ( X r )=E ( ( X r x^r ) 2 ) Jeżeli zmienne losowe są niezależne: f ( x 1, x 2,..., x N )=g 1 ( x 1 ) g 2 ( x 2 )... g N ( x N ) Łączny rozkład brzegowy dla dowolnych l spośród N zmiennych: g ( x 1, x 2,..., x l )=... f ( x 1, x 2,..., x N ) dx l +1... dx N Kowariancja pomiędzy zmiennymi xi i xj: cov ( X i, X j )= E ( ( X i x^ i )( X j x^ j ) ) 20 / 29

Momenty Przez analogię definiujemy również momenty (zwykłe): λl 1, l 2,..., l N l1 l2 ln = E ( X 1 X 2... X N ) W szczególności, wartości oczekiwane: λ 100...0 =E ( X 1 )= x^ 1 λ 010...0=E ( X 2 )= x^ 2 λ 000... N =E ( X N )= x^ N Momenty centralne: μl 1,l 2,...,l N l1 l2 ln =E (( X 1 x^ 1 ) ( X 2 x^ 2 )...( X N x^ N ) ) W szczególności, wariancje: μ 200...0=E ( ( X 1 x^ 1 )2 ) =σ 2 ( X 1 ) μ 020...0 =E (( X 2 x^ 2 )2 ) =σ 2 ( X 2 ) μ 000... N =E (( X N x^ N )2 ) =σ 2 ( X N ) Kowariancja: li=l j =1 ; l k =0(i k j) c ij =cov ( X i, X j )= E ( ( X i x^i )( X j x^ j ) ) 21 / 29

Zapis wektorowy N zmiennych losowych można przedstawić jako N-wymiarowy wektor (wektor losowy): X x () 1 Funkcja gęstości: X= X 2 XN () 1 x= x 2 xn f ( x)=p ( X= x) Dystrybuanta: Wektor wartości zmiennych losowych F ( x)=p( X x) Jeżeli istnieją pierwsze pochodne: N f ( x)= F(X) x 1 x 2... x N Wartość oczekiawana funkcji H(X): E ( H ( X ) ) = H ( x) f ( x )d x 22 / 29

Macierz kowariancji Macierz, której elementy to odpowiednie momenty odpowiadające wariancjom i kowariancjom nazywamy macierzą kowariancji: c 11 c 12 c 1 N C= c 21 c 22 c 2 N c N 1 c N 2 c NN ( ) elementy cij dane są wzorem na kowariancję: c ij =cov ( X i, X j )= E ( ( X i x^i )( X j x^ j ) ) elementy diagonalne cii to wariancje: c ii =σ 2 ( X i ) macierz kowariancji jest symetryczna: c ij =c ji wartość oczekiwana w zapisie wektorowym: E ( X )= x^ 23 / 29

Macierz kowariancji Każdy element cij T c ij = E ( ( X i x^ i ) ( X j x^ j ) ) macierzy kowariancji możemy interpretować jako wartość średnią elementu o wskaźnikach ij iloczynu diadycznego wektorów ( X x^ )T i ( X x^ ) x () 1 x= x 2 xn T x =( x 1, x 2,..., x N ) Wtedy macierz kowariancji możemy zapisać krótko: T C=E ( ( X x^ )( X x^ ) ) 24 / 29

Uwagi do interpretacji wsp. korelacji Zerknijmy na taką zależność: konsumpcja margaryny w czasie i liczba rozwodów w stanie Maine na 1000 osób współczynnik korelacji liniowej wynosi aż 0,99! wynika to z faktu, że obie zmienne są skorelowane ze wspólną zmienną czasem a nie same ze sobą 25 / 29

Uwagi do interpretacji wsp. korelacji Podobne przykłady: Korelację dwóch wielkości zależnych od czasu można symulować przez błądzenie losowe (random walk): im dłuższy przedział czasowy tym korelacja się zwiększa Wygooglaj spurious correlations 26 / 29

Uwagi do interpretacji wsp. korelacji 27 / 29

Uwagi do interpretacji wsp. korelacji Pion Przykłady rzeczywistych korelacji eksperymentalnych: góra zależność między średnim pędem cząstki (pionu) a nachyleniem rozkładu pędowego rozkładu pędu dół praktycznie brak korelacji pomiędzy żrednim pędem cząstki (pionu) a liczbą cząstek produkowanych w zderzeniu 5 cov( x, y)=7.01 10 2 σ ( x)=1.8 10 3 σ ( y)=5.3 10 ρ( x, y)=0.725 cov( x, y)=0.32 σ ( x)=45.0 σ ( y)=0.0063 ρ( x, y)=0.11 28 / 29

Uwagi do interpretacji wsp. korelacji 29 / 29