Komputerowa analiza danych doświadczalnych

Podobne dokumenty
Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Wynik pomiaru jako zmienna losowa

Rachunek prawdopodobieństwa i statystyka

Ważne rozkłady i twierdzenia

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Zmienne losowe. Statystyka w 3

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Statystyka. Magdalena Jakubek. kwiecień 2017

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

1 Podstawy rachunku prawdopodobieństwa

Statystyka matematyczna dla leśników

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Komputerowa analiza danych doświadczalnych

Rachunek Prawdopodobieństwa i Statystyka

Rozkłady prawdopodobieństwa zmiennych losowych

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Matematyka stosowana i metody numeryczne

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Elementy Rachunek prawdopodobieństwa

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Ważne rozkłady i twierdzenia c.d.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Wykład 3 Jednowymiarowe zmienne losowe

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Biostatystyka, # 3 /Weterynaria I/

Wybrane rozkłady zmiennych losowych. Statystyka

Statystyka i eksploracja danych

KURS PRAWDOPODOBIEŃSTWO

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Zmienne losowe ciągłe i ich rozkłady

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

Statystyka opisowa- cd.

STATYSTYKA MATEMATYCZNA

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Dyskretne zmienne losowe

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Matematyka 2. dr inż. Rajmund Stasiewicz

Weryfikacja hipotez statystycznych

Zmienne losowe ciągłe i ich rozkłady

Jednowymiarowa zmienna losowa

Rozkłady zmiennych losowych

Komputerowa Analiza Danych Doświadczalnych

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Prawdopodobieństwo i statystyka

Wybrane rozkłady zmiennych losowych. Statystyka

Prawdopodobieństwo i statystyka

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Inteligentna analiza danych

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Testowanie hipotez statystycznych.

Rachunek prawdopodobieństwa i statystyka

Statystyka w analizie i planowaniu eksperymentu

Najczęściej spotykane rozkłady dyskretne:

Pozyskiwanie wiedzy z danych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka opisowa. Robert Pietrzykowski.

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Zadania ze statystyki, cz.6

Statystyka Opisowa z Demografią oraz Biostatystyka. Zmienne losowe. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Komputerowa analiza danych doświadczalnych

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Rozkłady dwóch zmiennych losowych

Przestrzeń probabilistyczna

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyczne metody analizy danych

Z Wikipedii, wolnej encyklopedii.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Zmienne losowe. Rozkład prawdopodobieństwa i dystrybuanta. Wartość oczekiwana i wariancja zmiennej losowej

W1. Wprowadzenie. Statystyka opisowa

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa i jej rozkład

Transkrypt:

Komputerowa analiza danych doświadczalnych Wykład 3.03.07 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Semestr letni 06/07

Zmienne losowe, jednowymiarowe rozkłady zmiennych losowych

Pomiar jako zdarzenie losowe Wyniki kolejnych pomiarów jakiegoś zjawiska, niezależnie od tego jak bardzo byśmy się starali przestrzegać procedury pomiarowej, będą różne (raz mniejsze, raz większe) oczywiście zakładając wysoką precyzję przyrządu pomiarowego (patrz Wykład ) Może to wynikać zarówno ze statystycznego charakteru badanego zjawiska (np. rozpad promieniotwórczy) jak i niedokładności przyrządów badawczych oraz innych czynników (np. zmienne warunki otoczenia) Z powyższego możemy założyć, że: pomiar jest zdarzeniem losowym wynik pomiaru (realizacja zdarzenia losowego) jest zmienną losową Uwzględniając powyższe założenia, wnioski na temat pomiaru możemy określać przy pomocy teorii (rachunku) prawdopodobieństwa (patrz Wykład ) http://www.phdcomics.com/comics/archive/phd09s.gif 3 / 3

Typy i rodzaje zmiennych losowych Zmienna losowa funkcja przypisująca liczby zdarzeniom elementarnym (np. wynik rzutu kostkami para liczb) Typy zmiennych losowych: jednowymiarowe (dzisiejszy wykład) dwuwymiarowe n-wymiarowe https://mosaicprojects.files.wordpress.com/03/0/diceposs.gif Rodzaje zmiennych losowych dyskretne (lub skokowe) ciągłe Oznaczenie: X, Y, 4 / 3

Rozkład i dystrybuanta zmiennej losowej Rozkład (gęstość) prawdopodobieństwa (ang. probability distribution, density) funkcja przypisująca zmiennym losowym (np. zmiennej X) prawdopodobieństwo uzyskania danej wartości zmiennej losowej (np. wartości x): f ( x)=p ( X= x) rozkład prawdopod. jest unormowany f ( x) dx= rozkład dyskretny: P ( X =x i )= pi= rozkład ciągły: i= i= Dystrybuanta (ang. cumulative distribution function) funkcja określająca prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejszą bądź równą x: F ( x)=p ( X x )= P(( ; x >) x rozkład ciągły: F ( x)= f ( x ' )dx ' rozkład dyskretny: F ( x)= P ( X = x i ) i: x i x 5 / 3

Własności dystrybuanty Własności dystrybuanty: funkcja niemalejąca lim F ( x)=0 x lim F ( x)= x jeżeli dystrybuanta F(x) jest ciągła oraz ma -szą pochodną: F ' ( x)= df ( x) =f ( x) dx prawdopodobieństwa: a P ( x a)= f ( x) dx=f (a) b P (a x b)= f ( x)dx= F (b) F (a) a 6 / 3

Rozkład i dystrybuanta - przykłady Rozkład położenia kątowego wskazówki zegara (rozkład jednorodny, lub jednostajny) zmienna losowa ciągła: ; x 0 ; 360 360 f ( x)=0; x ℝ 0; 360 f ( x)= F ( x)=0 ; x <0 x F ( x)= f ( x ') dx '= 0 F ( x)= ; x >360 x, x 0 ; 360 360 7 / 3

Rozkład i dystrybuanta - przykłady Rozkład normalny (rozkład Gaussa) zmienna losowa ciągła: ( x μ) f ( x)= exp, x ℝ σ π σ ( ) x ( x ' μ) F ( x)= exp dx ' σ π σ lim F ( x)=0 lim F ( x)= x ( ) x Dystrybuanta rozkładu normalnego nie ma postaci analitycznej Rozkład (funkcja gęstości) Dystrybuanta 8 / 3

Rozkład i dystrybuanta - przykłady Rzut kostką zmienna losowa dyskretna: P( X=x i )= P( x i )=,i={,,3,4,5,6 } 6 F ( x i )= i,i={,,3,4,5,6} 6 9 / 3

Funkcje zmiennej losowej, wartość oczekiwana Jeżeli Y jest funkcją zmiennej losowej X, to Y również jest zmienną losową (ze swoim rozkładem i dystrybuantą): Y =H ( X ) Wartość oczekiwana (średnia, przeciętna) (ang. mean value) suma wszystkich możliwych wartości xi zmiennej X, przemnożonych przez ich prawdopodobieństwa: n n E ( X ) μ x^ x = x i P( X = x i )= x i pi i= i = wartość oczekiwana to jedna liczba nie jest zmienną losową Wartość oczekiwana zmiennej Y: n E (Y )= E ( ( H ( X ) ) ) = H ( x i) P ( X = x i ) i = Dla zmiennych losowych typu ciągłego: E ( X )= x f ( x) dx E (Y )= E ( H ( X ) ) = H ( x) f ( x)dx 0 / 3

Momenty Jeżeli zdefiniujemy funkcję postaci: l Y =H ( X )=( X c) to jej wartości średnie al są momentami rzędu l względem c: l ml= E ( X ) = x l f ( x)dx - moment zwykły al =E ( ( X c)l )= ( x c)l f ( x)dx Jeżeli to c= x^, to momenty nazywane są momentami centralnymi: l μl =E (( X x^ ) ) Łatwo pokazać, że: 0 0 μ0 = E (( X x^ ) )= ( x x^ ) f ( x)dx= f ( x)dx= μ =E (( X x^ ) )= ( x x^ ) f ( x)dx= xf ( x )dx x^ f ( x)dx= x^ x^ =0 Najniższy moment, który niesie informacje o odchyleniu zmiennej losowej X od swojej wartości średniej nazywany jest wariancją (ang. variance): μ σ ( X ) var ( X ) E (( X x^ ) )= ( x x^ ) f ( x) dx jeżeli wariancja jest mała, to wyniki leżą blisko wartości oczekiwanej, jeśli duża, to wyniki są bardziej rozproszone / 3

Rozkład normalny o dużej i małej wariancji ( x μ) f ( x)= exp σ π σ ( ) / 3

Momenty wyższych rzędów Dodatnia wartość pierwiastka z wariancji nazywana jest odchyleniem standardowym (ang. standard deviation) lub dyspersją: σ σ ( X )= σ ( X ) odchylenie standardowe określa niepewność pomiaru (patrz Wykład ) Trzeci moment centralny nazywany jest skośnością lub współczynnikiem skośności (ang. skewness): najczęściej wprowadza się bezwymiarową wielkość nazywaną współczynnikiem asymetrii rozkładu: γ= μ 33 σ dla rozkładów symetrycznych (względem średniej) parametr ten wynosi 0 https://en.wikipedia.org/wiki/skewness#/media/file:negative_and_positive_skew_diagrams_(english).svg 3 / 3

Momenty wyższych rzędów Czwarty moment centralny nazywany jest kurtozą (ang. kurtosis): Analogicznie do skośności, najczęściej wprowadza się bezwymiarową wielkość: K = μ 44 σ ponieważ kurtoza rozkładu normalnego wynosi 3, często kurtozę (zwaną kurtozą nadmiarową ang. excess kurtosis) definiuje się odejmując 3 (by dla rozkł. normalnego wynosiła 0): K = μ 4 3 σ4 http://www.advisor.ca/wp-content/uploads/0/07/normal-not-always-the-norm.gif 4 / 3

Własności wartości oczekiwanej i wariancji Własności wartości oczekiwanej: E (c X )=c E ( X ); c ℝ E ( X +Y )=E( X )+ E (Y ) E ( X +c)=e ( X )+c ; c ℝ E (c)=c ; c ℝ Z czego wynika: E (a X +b Y +c)=a E ( X )+b E (Y )+c ; a, b, c ℝ E ( X E ( X ) ) =E ( X ) E ( E ( X ) )= E ( X ) E ( X )=0 Zależność między wariancją a wartością oczekiwaną: σ ( X )=E (( X x^ ) )= E ( X X x^ + x^ ) =E ( X ) ( E ( X )) +( E ( X )) =E ( X ) ( E ( X ) ) Własności wariancji: σ (c)=0 ; c ℝ σ (c X )=c σ ( X ); c ℝ σ ( X +c)=σ ( X ); c ℝ 5 / 3

Zmienna stand., wartość modalna, mediana Zmienna standardowa (o wartości oczekiwanej 0 i odchyleniu ): X x^ rozważmy funkcję: σ( X) wartość oczekiwana: E (U )= E ( X x^ )= ( x^ x^ )=0 σ( X) σ( X) σ (X) wariancja: σ (U )= E {( X x ^ ) }= = σ (X ) σ (X) Wartość modalna, dominanta (ang. mode): P ( X =x max )=max U= wartość najbardziej prawdopodobna rozkład jednomodalny ( maksimum) rozkład wielomodalny (wiele maksimów) warunki maksimum: df ( x) =0 dx Mediana (ang. median): d f ( x) <0 dx http://lh3.ggpht.com/-uhjcsgume9q/ugcqcj00_ni/aaaa AAAAWXU/-0ZlMA9pPnU/image_thumb%555B%555D.png?imgmax=800 wartość zmiennej losowej, dla której dystrybuanta wynosi / F ( x 0,5 )=P ( X < x 0,5 )=0,5 6 / 3

Kwantyle Mediana dzieli rozkład prawdopodobieństwa na dwa obszary o równym prawdopodobieństwie W przypadku rozkładów symetrycznych jednomodalnych wartości: średnia = dominanta = mediana Mediana x0,5 jest kwantylem (ang. quantile) rzędu 0,5 Ogólna definicja kwantylu rzędu q, xq: kwartyl dolny x0,5 kwartyl górny x0,75 F ( x q )=P ( X < x q )=q xq F ( x q )= f ( x) dx=q, q ; decyle x0,, x0,,..., x0,9 funkcja xq(q) jest funkcją odwrotną do dystrybuanty Kwantyl rzędu q jest taką liczbą xq, że q 00% elementów w danej próbce (populacji) ma wartość pomiaru (badanej cechy) nie większą niż xq 7 / 3

Kwantyle xq x 0,5 F ( x q )= f ( x) dx=q - kwantyl rzędu q F ( x 0,5 )= f ( x)dx=0,5 - kwartyl dolny F ( x 0,5 )= f ( x) dx=0,5 - mediana F ( x 0,75 )= f ( x)dx=0,75 - kwartyl górny x 0,5 x 0,75 Max F(x0.75)=0.75 F(x0.5)=0.5 F(x0.5)=0.5 (xm) (x0.5) (x0.5) (x0.75) 8 / 3

Przykład rozkład jednostajny Gęstość prawdopodobieństwa: f(x) f ( x)=c ; x a, b f ( x)=0 ; x ℝ a, b Współczynnik (normalizacja) c: b f ( x) dx=c dx=c (b a)= c= a f ( x)= ; x a, b b a f ( x)=0 ; x ℝ a, b Dystrybuanta: F ( x)=0 ; x <a x x a F ( x)= dx '= ; x a ; b b a a b a F ( x)= ; x >b c b a a b x Wariancja: σ ( X )=E ( X ) ( E ( X )) b (b3 a 3 ) E ( X )= x dx= 3(b a) = b a a (b a)(b +ba+a ) b +ba+a = = 3(b a) 3 b +ba+a b+a σ ( X )= = 3 b + ba+a b + ba+a (b a) = = 3 4 ( ) Wartość oczekiwana: b (b a)(b+a) b +a E ( X )= x^ = xdx= (b a )= = b a a (b a) (b a) 9 / 3

Przykład rozkład dwumianowy ang. binomial distribution Wynik zawsze jedną z dwóch wykluczających się wartości (sukces i porażka) Funkcja prawdopodobieństwa: n! pn (k )= n p k qn k = p k q n k ; p 0 ; ; q= p k!(n k )! k () k sukcesów w n niezależnych próbach przeprowadzonych w identycznych warunkach p prawdopodobieństwo sukcesu w pojedynczej próbie q=-p prawdopodobieństwo porażki w pojedynczej próbie https://pl.wikipedia.org/wiki/rozk%c5%8ad_dwumianowy Wartość oczekiwana pojedynczej próby xi: E ( x i)= p +0 q= p Wartość oczekiwana: E ( X )=np Wariancja poj. próby xi: σ ( x i )=E ( ( x i p) ) = =( p) p+(0 p) q= pq Wariancja: σ ( X )=npq 0 / 3

Przykład 3 rozkład prędkości wiatru Rozkład czestości występowania danej prędkości wiatru opisuje funkcja Weibulla Funkcja prawdopodobieństwa: k v f (v)= A A k ( ) http://www.ien.pw.edu.pl/eig/instrukcje/elektr-ew.pdf [ ( )] v exp A k ; v 0 k, A parametry rozkładu (otrzymywane z danych dośw.) Mapa gęstości mocy wiatru na wys. 0 m Wartość oczekiwana: z t E ( v)= A Γ + ; Γ( z )= t e dt k 0 ( ) Wariancja: [( ) ( ( )) ] σ ( x)= A Γ + Γ + k k Trzeci moment rozkładu prędkości wiatru służy do obliczenia gęstości mocy wiatru: Gęstość mocy [W/m] http://www.renewableenergyst.org/wind.htm P w = ρ v 3 f (v )dv 0 ρ gęstość powietrza / 3

Rozkłady w praktyce dane medyczne Jednym z ważniejszych zastosowań statystyki są badania medyczne W testach nowych leków wykonuje się badania kliniczne podwójnie ślepej próby double blinded trial (ani lekarz ani pacjent nie wiedzą, czy przyjmują lek, czy placebo) Przykład: substancja alirokumab nazwa handlowa Praluent lek stosowany w celu obniżenia dużego stężenia złego cholesterolu LDL we krwi średni poziom LDL u pacjetów przyjmujących lek: 58,8 mg/dl średni LDL u pacjentów placebo: 7,7 mg/dl http://www.onlinejacc.org/content/69/5/47 / 3

Rozkłady w praktyce dane medyczne Mediana długości przyjmowania leku wyniosła 78 tygodni W badaniu alirokumabu sprawdzanu również pacjentów, którzy uzystaki w trakcie przyjmowania leku stężenie LDL < 5 mg/dl W przypadku pacjentów, którzy w przynajmniej dwóch badaniach kontrolnych uzyskali LDL < 5 mg/dl, mediana jego utrzymywania się wynosiła 43,3 tygodnie Rozkład utrzymywania się LDL < 5 mg/dl w czasie prezentuje wykres po lewej http://www.onlinejacc.org/content/69/5/47 3 / 3

KONIEC

Rozkład dwumianowy Prawdopodobieństwo: n! pn (k )= k!(n k pk qn k )! p [0,] q= p Wartość oczekiwana:! E x = nk=0 k pn k = nk=0 k k! nn k pk qn k! n! k n k n E x =np nk= k! p q =np p q =np n k! Wariancja: σ (x)=e(x ) (E(x )) n! E x = nk=0 k k! n k pk qn k = nk = k k! n! k! n k! pq q n k! n! k n k n k n k E x = nk= k n! n k p q p q k=! k! n k! n! n! E x =n n p nk= k pk qn k np nk= k! pk qn k! n k! n k! E x =n n p p q n np p q n =n n p np σ (x)=n (n )p +np (np)=npq Odchylenie standardowe: σ (x)= (npq) 5 / 3