Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Wykład 3.03.07 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Semestr letni 06/07

Zmienne losowe, jednowymiarowe rozkłady zmiennych losowych

Pomiar jako zdarzenie losowe Wyniki kolejnych pomiarów jakiegoś zjawiska, niezależnie od tego jak bardzo byśmy się starali przestrzegać procedury pomiarowej, będą różne (raz mniejsze, raz większe) oczywiście zakładając wysoką precyzję przyrządu pomiarowego (patrz Wykład ) Może to wynikać zarówno ze statystycznego charakteru badanego zjawiska (np. rozpad promieniotwórczy) jak i niedokładności przyrządów badawczych oraz innych czynników (np. zmienne warunki otoczenia) Z powyższego możemy założyć, że: pomiar jest zdarzeniem losowym wynik pomiaru (realizacja zdarzenia losowego) jest zmienną losową Uwzględniając powyższe założenia, wnioski na temat pomiaru możemy określać przy pomocy teorii (rachunku) prawdopodobieństwa (patrz Wykład ) http://www.phdcomics.com/comics/archive/phd09s.gif 3 / 3

Typy i rodzaje zmiennych losowych Zmienna losowa funkcja przypisująca liczby zdarzeniom elementarnym (np. wynik rzutu kostkami para liczb) Typy zmiennych losowych: jednowymiarowe (dzisiejszy wykład) dwuwymiarowe n-wymiarowe https://mosaicprojects.files.wordpress.com/03/0/diceposs.gif Rodzaje zmiennych losowych dyskretne (lub skokowe) ciągłe Oznaczenie: X, Y, 4 / 3

Rozkład i dystrybuanta zmiennej losowej Rozkład (gęstość) prawdopodobieństwa (ang. probability distribution, density) funkcja przypisująca zmiennym losowym (np. zmiennej X) prawdopodobieństwo uzyskania danej wartości zmiennej losowej (np. wartości x): f ( x)=p ( X= x) rozkład prawdopod. jest unormowany f ( x) dx= rozkład dyskretny: P ( X =x i )= pi= rozkład ciągły: i= i= Dystrybuanta (ang. cumulative distribution function) funkcja określająca prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejszą bądź równą x: F ( x)=p ( X x )= P(( ; x >) x rozkład ciągły: F ( x)= f ( x ' )dx ' rozkład dyskretny: F ( x)= P ( X = x i ) i: x i x 5 / 3

Własności dystrybuanty Własności dystrybuanty: funkcja niemalejąca lim F ( x)=0 x lim F ( x)= x jeżeli dystrybuanta F(x) jest ciągła oraz ma -szą pochodną: F ' ( x)= df ( x) =f ( x) dx prawdopodobieństwa: a P ( x a)= f ( x) dx=f (a) b P (a x b)= f ( x)dx= F (b) F (a) a 6 / 3

Rozkład i dystrybuanta - przykłady Rozkład położenia kątowego wskazówki zegara (rozkład jednorodny, lub jednostajny) zmienna losowa ciągła: ; x 0 ; 360 360 f ( x)=0; x ℝ 0; 360 f ( x)= F ( x)=0 ; x <0 x F ( x)= f ( x ') dx '= 0 F ( x)= ; x >360 x, x 0 ; 360 360 7 / 3

Rozkład i dystrybuanta - przykłady Rozkład normalny (rozkład Gaussa) zmienna losowa ciągła: ( x μ) f ( x)= exp, x ℝ σ π σ ( ) x ( x ' μ) F ( x)= exp dx ' σ π σ lim F ( x)=0 lim F ( x)= x ( ) x Dystrybuanta rozkładu normalnego nie ma postaci analitycznej Rozkład (funkcja gęstości) Dystrybuanta 8 / 3

Rozkład i dystrybuanta - przykłady Rzut kostką zmienna losowa dyskretna: P( X=x i )= P( x i )=,i={,,3,4,5,6 } 6 F ( x i )= i,i={,,3,4,5,6} 6 9 / 3

Funkcje zmiennej losowej, wartość oczekiwana Jeżeli Y jest funkcją zmiennej losowej X, to Y również jest zmienną losową (ze swoim rozkładem i dystrybuantą): Y =H ( X ) Wartość oczekiwana (średnia, przeciętna) (ang. mean value) suma wszystkich możliwych wartości xi zmiennej X, przemnożonych przez ich prawdopodobieństwa: n n E ( X ) μ x^ x = x i P( X = x i )= x i pi i= i = wartość oczekiwana to jedna liczba nie jest zmienną losową Wartość oczekiwana zmiennej Y: n E (Y )= E ( ( H ( X ) ) ) = H ( x i) P ( X = x i ) i = Dla zmiennych losowych typu ciągłego: E ( X )= x f ( x) dx E (Y )= E ( H ( X ) ) = H ( x) f ( x)dx 0 / 3

Momenty Jeżeli zdefiniujemy funkcję postaci: l Y =H ( X )=( X c) to jej wartości średnie al są momentami rzędu l względem c: l ml= E ( X ) = x l f ( x)dx - moment zwykły al =E ( ( X c)l )= ( x c)l f ( x)dx Jeżeli to c= x^, to momenty nazywane są momentami centralnymi: l μl =E (( X x^ ) ) Łatwo pokazać, że: 0 0 μ0 = E (( X x^ ) )= ( x x^ ) f ( x)dx= f ( x)dx= μ =E (( X x^ ) )= ( x x^ ) f ( x)dx= xf ( x )dx x^ f ( x)dx= x^ x^ =0 Najniższy moment, który niesie informacje o odchyleniu zmiennej losowej X od swojej wartości średniej nazywany jest wariancją (ang. variance): μ σ ( X ) var ( X ) E (( X x^ ) )= ( x x^ ) f ( x) dx jeżeli wariancja jest mała, to wyniki leżą blisko wartości oczekiwanej, jeśli duża, to wyniki są bardziej rozproszone / 3

Rozkład normalny o dużej i małej wariancji ( x μ) f ( x)= exp σ π σ ( ) / 3

Momenty wyższych rzędów Dodatnia wartość pierwiastka z wariancji nazywana jest odchyleniem standardowym (ang. standard deviation) lub dyspersją: σ σ ( X )= σ ( X ) odchylenie standardowe określa niepewność pomiaru (patrz Wykład ) Trzeci moment centralny nazywany jest skośnością lub współczynnikiem skośności (ang. skewness): najczęściej wprowadza się bezwymiarową wielkość nazywaną współczynnikiem asymetrii rozkładu: γ= μ 33 σ dla rozkładów symetrycznych (względem średniej) parametr ten wynosi 0 https://en.wikipedia.org/wiki/skewness#/media/file:negative_and_positive_skew_diagrams_(english).svg 3 / 3

Momenty wyższych rzędów Czwarty moment centralny nazywany jest kurtozą (ang. kurtosis): Analogicznie do skośności, najczęściej wprowadza się bezwymiarową wielkość: K = μ 44 σ ponieważ kurtoza rozkładu normalnego wynosi 3, często kurtozę (zwaną kurtozą nadmiarową ang. excess kurtosis) definiuje się odejmując 3 (by dla rozkł. normalnego wynosiła 0): K = μ 4 3 σ4 http://www.advisor.ca/wp-content/uploads/0/07/normal-not-always-the-norm.gif 4 / 3

Własności wartości oczekiwanej i wariancji Własności wartości oczekiwanej: E (c X )=c E ( X ); c ℝ E ( X +Y )=E( X )+ E (Y ) E ( X +c)=e ( X )+c ; c ℝ E (c)=c ; c ℝ Z czego wynika: E (a X +b Y +c)=a E ( X )+b E (Y )+c ; a, b, c ℝ E ( X E ( X ) ) =E ( X ) E ( E ( X ) )= E ( X ) E ( X )=0 Zależność między wariancją a wartością oczekiwaną: σ ( X )=E (( X x^ ) )= E ( X X x^ + x^ ) =E ( X ) ( E ( X )) +( E ( X )) =E ( X ) ( E ( X ) ) Własności wariancji: σ (c)=0 ; c ℝ σ (c X )=c σ ( X ); c ℝ σ ( X +c)=σ ( X ); c ℝ 5 / 3

Zmienna stand., wartość modalna, mediana Zmienna standardowa (o wartości oczekiwanej 0 i odchyleniu ): X x^ rozważmy funkcję: σ( X) wartość oczekiwana: E (U )= E ( X x^ )= ( x^ x^ )=0 σ( X) σ( X) σ (X) wariancja: σ (U )= E {( X x ^ ) }= = σ (X ) σ (X) Wartość modalna, dominanta (ang. mode): P ( X =x max )=max U= wartość najbardziej prawdopodobna rozkład jednomodalny ( maksimum) rozkład wielomodalny (wiele maksimów) warunki maksimum: df ( x) =0 dx Mediana (ang. median): d f ( x) <0 dx http://lh3.ggpht.com/-uhjcsgume9q/ugcqcj00_ni/aaaa AAAAWXU/-0ZlMA9pPnU/image_thumb%555B%555D.png?imgmax=800 wartość zmiennej losowej, dla której dystrybuanta wynosi / F ( x 0,5 )=P ( X < x 0,5 )=0,5 6 / 3

Kwantyle Mediana dzieli rozkład prawdopodobieństwa na dwa obszary o równym prawdopodobieństwie W przypadku rozkładów symetrycznych jednomodalnych wartości: średnia = dominanta = mediana Mediana x0,5 jest kwantylem (ang. quantile) rzędu 0,5 Ogólna definicja kwantylu rzędu q, xq: kwartyl dolny x0,5 kwartyl górny x0,75 F ( x q )=P ( X < x q )=q xq F ( x q )= f ( x) dx=q, q ; decyle x0,, x0,,..., x0,9 funkcja xq(q) jest funkcją odwrotną do dystrybuanty Kwantyl rzędu q jest taką liczbą xq, że q 00% elementów w danej próbce (populacji) ma wartość pomiaru (badanej cechy) nie większą niż xq 7 / 3

Kwantyle xq x 0,5 F ( x q )= f ( x) dx=q - kwantyl rzędu q F ( x 0,5 )= f ( x)dx=0,5 - kwartyl dolny F ( x 0,5 )= f ( x) dx=0,5 - mediana F ( x 0,75 )= f ( x)dx=0,75 - kwartyl górny x 0,5 x 0,75 Max F(x0.75)=0.75 F(x0.5)=0.5 F(x0.5)=0.5 (xm) (x0.5) (x0.5) (x0.75) 8 / 3

Przykład rozkład jednostajny Gęstość prawdopodobieństwa: f(x) f ( x)=c ; x a, b f ( x)=0 ; x ℝ a, b Współczynnik (normalizacja) c: b f ( x) dx=c dx=c (b a)= c= a f ( x)= ; x a, b b a f ( x)=0 ; x ℝ a, b Dystrybuanta: F ( x)=0 ; x <a x x a F ( x)= dx '= ; x a ; b b a a b a F ( x)= ; x >b c b a a b x Wariancja: σ ( X )=E ( X ) ( E ( X )) b (b3 a 3 ) E ( X )= x dx= 3(b a) = b a a (b a)(b +ba+a ) b +ba+a = = 3(b a) 3 b +ba+a b+a σ ( X )= = 3 b + ba+a b + ba+a (b a) = = 3 4 ( ) Wartość oczekiwana: b (b a)(b+a) b +a E ( X )= x^ = xdx= (b a )= = b a a (b a) (b a) 9 / 3

Przykład rozkład dwumianowy ang. binomial distribution Wynik zawsze jedną z dwóch wykluczających się wartości (sukces i porażka) Funkcja prawdopodobieństwa: n! pn (k )= n p k qn k = p k q n k ; p 0 ; ; q= p k!(n k )! k () k sukcesów w n niezależnych próbach przeprowadzonych w identycznych warunkach p prawdopodobieństwo sukcesu w pojedynczej próbie q=-p prawdopodobieństwo porażki w pojedynczej próbie https://pl.wikipedia.org/wiki/rozk%c5%8ad_dwumianowy Wartość oczekiwana pojedynczej próby xi: E ( x i)= p +0 q= p Wartość oczekiwana: E ( X )=np Wariancja poj. próby xi: σ ( x i )=E ( ( x i p) ) = =( p) p+(0 p) q= pq Wariancja: σ ( X )=npq 0 / 3

Przykład 3 rozkład prędkości wiatru Rozkład czestości występowania danej prędkości wiatru opisuje funkcja Weibulla Funkcja prawdopodobieństwa: k v f (v)= A A k ( ) http://www.ien.pw.edu.pl/eig/instrukcje/elektr-ew.pdf [ ( )] v exp A k ; v 0 k, A parametry rozkładu (otrzymywane z danych dośw.) Mapa gęstości mocy wiatru na wys. 0 m Wartość oczekiwana: z t E ( v)= A Γ + ; Γ( z )= t e dt k 0 ( ) Wariancja: [( ) ( ( )) ] σ ( x)= A Γ + Γ + k k Trzeci moment rozkładu prędkości wiatru służy do obliczenia gęstości mocy wiatru: Gęstość mocy [W/m] http://www.renewableenergyst.org/wind.htm P w = ρ v 3 f (v )dv 0 ρ gęstość powietrza / 3

Rozkłady w praktyce dane medyczne Jednym z ważniejszych zastosowań statystyki są badania medyczne W testach nowych leków wykonuje się badania kliniczne podwójnie ślepej próby double blinded trial (ani lekarz ani pacjent nie wiedzą, czy przyjmują lek, czy placebo) Przykład: substancja alirokumab nazwa handlowa Praluent lek stosowany w celu obniżenia dużego stężenia złego cholesterolu LDL we krwi średni poziom LDL u pacjetów przyjmujących lek: 58,8 mg/dl średni LDL u pacjentów placebo: 7,7 mg/dl http://www.onlinejacc.org/content/69/5/47 / 3

Rozkłady w praktyce dane medyczne Mediana długości przyjmowania leku wyniosła 78 tygodni W badaniu alirokumabu sprawdzanu również pacjentów, którzy uzystaki w trakcie przyjmowania leku stężenie LDL < 5 mg/dl W przypadku pacjentów, którzy w przynajmniej dwóch badaniach kontrolnych uzyskali LDL < 5 mg/dl, mediana jego utrzymywania się wynosiła 43,3 tygodnie Rozkład utrzymywania się LDL < 5 mg/dl w czasie prezentuje wykres po lewej http://www.onlinejacc.org/content/69/5/47 3 / 3

KONIEC

Rozkład dwumianowy Prawdopodobieństwo: n! pn (k )= k!(n k pk qn k )! p [0,] q= p Wartość oczekiwana:! E x = nk=0 k pn k = nk=0 k k! nn k pk qn k! n! k n k n E x =np nk= k! p q =np p q =np n k! Wariancja: σ (x)=e(x ) (E(x )) n! E x = nk=0 k k! n k pk qn k = nk = k k! n! k! n k! pq q n k! n! k n k n k n k E x = nk= k n! n k p q p q k=! k! n k! n! n! E x =n n p nk= k pk qn k np nk= k! pk qn k! n k! n k! E x =n n p p q n np p q n =n n p np σ (x)=n (n )p +np (np)=npq Odchylenie standardowe: σ (x)= (npq) 5 / 3