Komputerowa analiza danych doświadczalnych Wykład.03.09 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 08/09
Zmienne losowe, jednowymiarowe rozkłady zmiennych losowych
Pomiar jako zdarzenie losowe Wyniki kolejnych pomiarów jakiegoś zjawiska, niezależnie od tego jak bardzo byśmy się starali przestrzegać procedury pomiarowej, będą różne (raz mniejsze, raz większe) oczywiście zakładając wysoką precyzję przyrządu pomiarowego (patrz Wykład ) Może to wynikać zarówno ze statystycznego charakteru badanego zjawiska (np. rozpad promieniotwórczy) jak i niedokładności przyrządów badawczych oraz innych czynników (np. zmienne warunki otoczenia) Z powyższego możemy założyć, że: pomiar jest zdarzeniem losowym wynik pomiaru (realizacja zdarzenia losowego) jest zmienną losową Uwzględniając powyższe założenia, wnioski na temat pomiaru możemy określać przy pomocy teorii (rachunku) prawdopodobieństwa http://www.phdcomics.com/comics/archive/phd09s.gif 3 / 8
Typy i rodzaje zmiennych losowych Zmienna losowa funkcja przypisująca liczby zdarzeniom elementarnym (np. wynik rzutu kostkami para liczb) Typy zmiennych losowych: jednowymiarowe (dzisiejszy wykład) dwuwymiarowe n-wymiarowe https://mosaicprojects.files.wordpress.com/03/0/diceposs.gif Rodzaje zmiennych losowych dyskretne (lub skokowe) ciągłe Oznaczenie: X, Y, 4 / 8
Rozkład i dystrybuanta zmiennej losowej Rozkład (gęstość) prawdopodobieństwa (ang. probability distribution, density) funkcja przypisująca zmiennym losowym (np. zmiennej X) prawdopodobieństwo uzyskania danej wartości zmiennej losowej (np. wartości x): f ( x)=p ( X= x) rozkład prawdopod. jest unormowany rozkład ciągły: f ( x) dx= rozkład dyskretny: P ( X =x i )= pi= i= i= Dystrybuanta (ang. cumulative distribution function) funkcja określająca prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejszą bądź równą x: F ( x)=p ( X x )= P(( ; x >) x rozkład ciągły: F ( x)= f ( x ' )dx ' rozkład dyskretny: F ( x)= P ( X = x ) i: x i x i 5 / 8
Własności dystrybuanty Własności dystrybuanty: funkcja niemalejąca lim F ( x)=0 x lim F ( x)= x jeżeli dystrybuanta F(x) jest ciągła oraz ma -szą pochodną: F ' ( x)= df ( x) =f ( x) dx prawdopodobieństwa: a P ( x a)= f ( x) dx=f (a) b P (a x b)= f ( x)dx= F (b) F (a) a 6 / 8
Rozkład i dystrybuanta - przykłady Rozkład położenia kątowego wskazówki zegara (rozkład jednorodny, lub jednostajny) zmienna losowa ciągła: ; x 0 ; 360 360 f ( x)=0; x ℝ 0; 360 f ( x)= F ( x)=0 ; x <0 x F ( x)= f ( x ') dx '= 0 F ( x)= ; x >360 x, x 0 ; 360 360 7 / 8
Rozkład i dystrybuanta - przykłady Rozkład normalny (rozkład Gaussa) zmienna losowa ciągła: ( x μ) f ( x)= exp, x ℝ σ π σ ( ) x ( x ' μ) F ( x)= exp dx ' σ π σ lim F ( x)=0 lim F ( x)= x ( ) x Dystrybuanta rozkładu normalnego nie ma postaci analitycznej Rozkład (funkcja gęstości) Dystrybuanta 8 / 8
Rozkład i dystrybuanta - przykłady Rzut kostką zmienna losowa dyskretna: P( X=x i )= P( x i )=,i={,,3,4,5,6 } 6 F ( x i )= i,i={,,3,4,5,6} 6 9 / 8
Funkcje zmiennej losowej, wartość oczek. Jeżeli Y jest funkcją zmiennej losowej X, to Y również jest zmienną losową (ze swoim rozkładem i dystrybuantą): Y =H ( X ) Wartość oczekiwana (średnia, przeciętna) (ang. mean value) suma wszystkich możliwych wartości xi zmiennej X, przemnożonych przez ich prawdopodobieństwa: n n E ( X ) μ x^ x = x i P( X = x i )= x i pi i= i = wartość oczekiwana to jedna liczba nie jest zmienną losową Wartość oczekiwana zmiennej Y: n E (Y )= E ( ( H ( X ) ) ) = H ( x i) P ( X = x i ) i = Dla zmiennych losowych typu ciągłego: E ( X )= x f ( x) dx E (Y )= E ( H ( X ) ) = H ( x) f ( x)dx 0 / 8
Momenty Jeżeli zdefiniujemy funkcję postaci: l Y =H ( X )=( X c) to jej wartości średnie al są momentami rzędu l względem c: l ml= E ( X ) = x l f ( x)dx - moment zwykły al =E ( ( X c)l )= ( x c)l f ( x)dx Jeżeli to c= x^, to momenty nazywane są momentami centralnymi: l μl =E (( X x^ ) ) Łatwo pokazać, że: 0 0 μ0 = E (( X x^ ) )= ( x x^ ) f ( x)dx= f ( x)dx= μ =E (( X x^ ) )= ( x x^ ) f ( x)dx= xf ( x )dx x^ f ( x)dx= x^ x^ =0 Najniższy moment, który niesie informacje o odchyleniu zmiennej losowej X od swojej wartości średniej nazywany jest wariancją (ang. variance): μ σ ( X ) var ( X ) E (( X x^ ) )= ( x x^ ) f ( x) dx jeżeli wariancja jest mała, to wyniki leżą blisko wartości oczekiwanej, jeśli duża, to wyniki są bardziej rozproszone / 8
Rozkład normalny o dużej i małej wariancji ( x μ) f ( x)= exp σ π σ ( ) / 8
Momenty wyższych rzędów Dodatnia wartość pierwiastka z wariancji nazywana jest odchyleniem standardowym (ang. standard deviation) lub dyspersją: σ σ ( X )= σ ( X ) odchylenie standardowe określa niepewność pomiaru (patrz Wykład ) Trzeci moment centralny nazywany jest skośnością lub współczynnikiem skośności (ang. skewness): najczęściej wprowadza się bezwymiarową wielkość nazywaną współczynnikiem asymetrii rozkładu: γ= μ 3 σ3 dla rozkładów symetrycznych (względem średniej) parametr ten wynosi 0 https://en.wikipedia.org/wiki/skewness#/media/file:negative_and_positive_skew_diagrams_(english).svg 3 / 8
Momenty wyższych rzędów Czwarty moment centralny nazywany jest kurtozą (ang. kurtosis): Analogicznie do skośności, najczęściej wprowadza się bezwymiarową wielkość: K = μ 4 σ4 ponieważ kurtoza rozkładu normalnego wynosi 3, często kurtozę (zwaną kurtozą nadmiarową ang. excess kurtosis) definiuje się odejmując 3 (by dla rozkł. normalnego wynosiła 0): K = μ 4 3 σ4 http://www.advisor.ca/wp-content/uploads/0/07/normal-not-always-the-norm.gif 4 / 8
Własności wartości oczekiwanej i wariancji Własności wartości oczekiwanej: E (c X )=c E ( X ); c ℝ E ( X +Y )=E( X )+ E (Y ) E ( X +c)=e ( X )+c ; c ℝ E (c)=c ; c ℝ Z czego wynika: E (a X +b Y +c)=a E ( X )+b E (Y )+c ; a, b, c ℝ E ( X E ( X ) ) =E ( X ) E ( E ( X ) )= E ( X ) E ( X )=0 Zależność między wariancją a wartością oczekiwaną: σ ( X )=E (( X x^ ) )= E ( X X x^ + x^ ) =E ( X ) ( E ( X )) +( E ( X )) =E ( X ) ( E ( X ) ) Własności wariancji: σ (c)=0 ; c ℝ σ (c X )=c σ ( X ); c ℝ σ ( X +c)=σ ( X ); c ℝ 5 / 8
Zmienna stand., moda, mediana Zmienna standardowa (o wartości oczekiwanej 0 i odchyleniu ): X x^ U = rozważmy zmienną losową: σ( X) wartość oczekiwana: E (U )= E ( X x^ )= ( x^ x^ )=0 σ( X) σ( X) σ (X) wariancja: σ (U )= E {( X x ^ ) }= = σ (X ) σ (X) Wartość modalna, moda, dominanta (ang. mode): P ( X =x max )=max wartość najbardziej prawdopodobna rozkład jednomodalny ( maksimum) rozkład wielomodalny (wiele maksimów) warunki maksimum: df ( x) =0 dx Mediana (ang. median): d f ( x) <0 dx http://lh3.ggpht.com/-uhjcsgume9q/ugcqcj00_ni/aaaaaaa AWXU/-0ZlMA9pPnU/image_thumb%555B%555D.png?imgmax=800 wartość zmiennej losowej, dla której dystrybuanta wynosi / F ( x 0,5 )=P ( X < x 0,5 )=0,5 6 / 8
Kwantyle Mediana dzieli rozkład prawdopodobieństwa na dwa obszary o równym prawdopodobieństwie W przypadku rozkładów symetrycznych jednomodalnych wartości: średnia = dominanta = mediana Mediana x0,5 jest kwantylem (ang. quantile) rzędu 0,5 Ogólna definicja kwantylu rzędu q, xq: kwartyl dolny x0,5 kwartyl górny x0,75 F ( x q )=P ( X < x q )=q xq F ( x q )= f ( x) dx=q, q ; decyle x0,, x0,,..., x0,9 funkcja xq(q) jest funkcją odwrotną do dystrybuanty Kwantyl rzędu q jest taką liczbą xq, że q 00% elementów w danej próbce (populacji) ma wartość pomiaru (badanej cechy) nie większą niż xq 7 / 8
Kwantyle xq x 0,5 F ( x q )= f ( x) dx=q - kwantyl rzędu q F ( x 0,5 )= f ( x)dx=0,5 - kwartyl dolny F ( x 0,5 )= f ( x) dx=0,5 - mediana F ( x 0,75 )= f ( x)dx=0,75 - kwartyl górny x 0,5 x 0,75 Max F(x0.75)=0.75 F(x0.5)=0.5 F(x0.5)=0.5 (xm) (x0.5) (x0.5) (x0.75) 8 / 8
Przykład rozkład jednostajny Gęstość prawdopodobieństwa: f(x) f ( x)=c ; x a, b f ( x)=0 ; x ℝ a, b Współczynnik (normalizacja) c: b f ( x) dx=c dx=c (b a)= c= a f ( x)= ; x a, b b a f ( x)=0 ; x ℝ a, b Dystrybuanta: F ( x)=0 ; x <a x x a F ( x)= dx '= ; x a ; b b a a b a F ( x)= ; x >b c b a a b x Wariancja: σ ( X )=E ( X ) ( E ( X )) b (b3 a 3 ) E ( X )= x dx= 3(b a) = b a a (b a)(b +ba+a ) b +ba+a = = 3(b a) 3 b +ba+a b+a σ ( X )= = 3 b + ba+a b + ba+a (b a) = = 3 4 ( ) Wartość oczekiwana: b (b a)(b+a) b +a E ( X )= x^ = xdx= (b a )= = b a a (b a) (b a) 9 / 8
Niepewność typu B - przykład Niepewność typu B obliczana na drodze innej niż metoda A. Przykład: tylko jeden pomiar wielkości mierzonej urządzenie pomiarowe jest mało dokładne (np. mierzymy grubość płytki linijką zamiast śrubą mikrometryczną) wyniki nie wykazują rozrzutu Obliczanie niepewności typu B oparte jest o naukowy osąd eksperymentatora bierzemy pod uwagę wiedzę o przyrządach (wzorcowanie), badanym materiale, itp. Założenie: Wykład prawdopodobieńśtwo uzyskania pomiaru mieszczącego się w przedziale wyznaczonym przez wynik i (znaną) niepewność wzorcowania Δx jest jednakowe Efekt: rozkład pomiarów jest rozkładem jednostajnym wynik: jedna wartość (jeden pomiar) niepewność: odchylenie standardowe wartości oczekiwanej x x u x = = 3 3 0 / 8
Przykład rozkład jednostajny Gęstość prawdopodobieństwa: f ( x)=c ; x a, b f ( x)=0 ; x ℝ a, b c Wartość oczekiwana: E ( X )= x^ = f(x) a b x b+a Wariancja: (b a) σ ( X )= Przewodnik GUM mówi o niepewności typu B tak: www.bipm.org/utils/common/documents/jcgm/jcgm_00_008_e.pdf / 8
Przykład rozkład dwumianowy ang. binomial distribution Wynik zawsze jedną z dwóch wykluczających się wartości (sukces i porażka) Funkcja prawdopodobieństwa: n! pn (k )= n p k qn k = p k q n k ; p 0 ; ; q= p k!(n k )! k () k sukcesów w n niezależnych próbach przeprowadzonych w identycznych warunkach p prawdopodobieństwo sukcesu w pojedynczej próbie q=-p prawdopodobieństwo porażki w pojedynczej próbie https://pl.wikipedia.org/wiki/rozk%c5%8ad_dwumianowy Wartość oczekiwana pojedynczej próby xi: E ( x i)= p +0 q= p Wartość oczekiwana: E ( X )=np Wariancja poj. próby xi: σ ( x i )=E ( ( x i p) ) = =( p) p+(0 p) q= pq Wariancja: σ ( X )=npq / 8
Przykład 3 rozkład prędkości wiatru Rozkład czestości występowania danej prędkości wiatru opisuje funkcja Weibulla Funkcja prawdopodobieństwa: k v f (v)= A A k ( ) http://www.ien.pw.edu.pl/eig/instrukcje/elektr-ew.pd f v exp A k [ ( )] ; v 0 k, A parametry rozkładu (otrzymywane z danych dośw.) Mapa gęstości mocy wiatru na wys. 0 m Wartość oczekiwana: z t E ( v)= A Γ + ; Γ( z )= t e dt k 0 ( ) Wariancja: [( ) ( ( )) ] σ ( x)= A Γ + Γ + k k Trzeci moment rozkładu prędkości wiatru służy do obliczenia gęstości mocy wiatru: Gęstość mocy [W/m] http://www.renewableenergyst.org/wind.htm P w = ρ v 3 f (v )dv 0 ρ gęstość powietrza 3 / 8
Rozkłady w praktyce dane medyczne Jednym z ważniejszych zastosowań statystyki są badania medyczne W testach nowych leków wykonuje się badania kliniczne podwójnie ślepej próby double blinded trial (ani lekarz ani pacjent nie wiedzą, czy przyjmują lek, czy placebo) http://www.onlinejacc.org/content/69/5/47 Przykład : substancja alirokumab nazwa handlowa Praluent lek stosowany w celu obniżenia dużego stężenia złego cholesterolu LDL we krwi średni poziom LDL u pacjetów przyjmujących lek: 58,8 mg/dl średni LDL u pacjentów placebo: 7,7 mg/dl 4 / 8
Rozkłady w praktyce dane medyczne Jednym z ważniejszych zastosowań statystyki są badania medyczne Statystykę wykorzystuje się również do badania farmakokinetyki i bezpieczeństwa stosowania http://www.bloodjournal.org/content//8/40 leków Przykład : substancja imatinib nazwa handlowa Glivec lek stosowany w celu leczenia przewlekłej białaczki szpikowej Mierzono trough level (stężenie leku przed podaniem kolejnej dawki) 5 / 8
Rozkłady w praktyce dane medyczne http://www.bloodjournal.org/content//8/40 6 / 8
Rozkłady w praktyce wynagrodzenia https://stat.gov.pl/obszary-tematyczne/rynek-pracy/pracujacyzatrudnieni-wynagrodzenia-koszty-pracy/strukturawynagrodzen-wedlug-zawodow-w-pazdzierniku-06r-,5,5.html 7 / 8
Rozkłady w praktyce tablice centylowe chłopcy dziewczynki 8 / 8
KONIEC
Rozkład dwumianowy Prawdopodobieństwo: n! pn (k )= k!(n k pk qn k )! p [0,] q= p Wartość oczekiwana:! E x = nk=0 k pn k = nk=0 k k! nn k pk qn k! n! k n k n E x =np nk= k! p q =np p q =np n k! Wariancja: σ (x)=e(x ) (E(x )) n! E x = nk=0 k k! n k pk qn k = nk = k k! n! k! n k! pq q n k! n! k n k n k n k E x = nk= k n! n k p q p q k=! k! n k! n! n! E x =n n p nk= k pk qn k np nk= k! pk qn k! n k! n k! E x =n n p p q n np p q n =n n p np σ (x)=n (n )p +np (np)=npq Odchylenie standardowe: σ (x)= (npq) 30 / 8
Rozkłady w praktyce dane medyczne Mediana długości przyjmowania leku wyniosła 78 tygodni W badaniu alirokumabu sprawdzano również pacjentów, którzy uzystaki w trakcie przyjmowania leku stężenie LDL < 5 mg/dl W przypadku pacjentów, którzy w przynajmniej dwóch badaniach kontrolnych uzyskali LDL < 5 mg/dl, mediana jego utrzymywania się wynosiła 43,3 tygodnie Rozkład utrzymywania się LDL < 5 mg/dl w czasie prezentuje wykres po lewej http://www.onlinejacc.org/content/69/5/47 3 / 8