STATYSTKA I ANALIZA DANYCH LAB II 1. Pla laboratorium II rozkłady prawdopodobieństwa Rozkłady prawdopodobieństwa dwupuktowy, dwumiaowy, jedostajy, ormaly. Związki pomiędzy rozkładami prawdopodobieństw. Cetrale twierdzeie graicze Lidberga-Levy ego. Geerowaie liczb losowych. Metoda Mote Carlo. 2. Statystyka matematycza vs. statystyka opisowa opisowa - ie korzysta z rachuku prawdopodobieństwa - wszystkie wioski dotyczą wyłączie badaego zbioru daych. matematycza - korzysta z rachuku prawdopodobieństwa - przy odpowiedich założeiach wioski dotyczą całej populacji. 3. Pojęcia podstawowe Zmiea losowa: ituicyjie - wartość liczbowa zależa od przypadku. Rozkład prawdopodobieństwa zmieej losowej: fukcja prawdopodobieństwa dla zmieej skokowej (dyskretej): fukcja gęstości dla zmieej ciągłej: Dystrybuata zmieej losowej:, czyli kumulacja prawdopodobieństwa od stroy - : dla zmieej dyskretej: dla zmieej ciągłej: Wartość oczekiwaa (wartość średia) zmieej losowej dyskretej X: miara położeia środka zmieej. Wariacja zmieej losowej dyskretej X: miara rozrzutu wokół środka zmieej; ses kwadratu z wartości zmieej X. Odchyleie stadardowe (dewiacja) zmieej losowej dyskretej X: miara rozrzutu wokół środka zmieej; ses wartości zmieej X. Ciekawe własości: Wartość oczekiwaa sumy zmieych losowych: Wartość oczekiwaa przeskalowaej zmieej: Wariacja sumy iezależych zmieych losowych: Wariacja przeskalowaej zmieej: - 1 -
4. Rozkład dwupuktowy Dyskrety rozkład prawdopodobieństwa, w którym: wartość 1 ozacza sukces z prawdopodobieństwem p, wartość 0 ozacza porażkę z prawdopodobieństwem q=1-p. Ozaczeie: X ~ B 1 (p), p (0,1) Fukcja prawdopodobieństwa: P(X=1) = p, P(X=0) = 1 p = q Wartość oczekiwaa: E(X) = p Wariacja: D 2 (X) = p (1-p) = p q Praktycze występowaie: eksperymety z dwoma możliwymi wyikami lub podział zbioru zdarzeń a dwa rozłącze podzbiory. 5. Rozkład dwumiaowy Opisuje liczbę k sukcesów w czasie iezależych prób, z których każda ma stałe prawdopodobieństwo sukcesu rówe p. Pojedyczy eksperymet to próba Beroulliego i jego rozkład jest zgody z rozkładem dwupuktowym. Całość azywaa jest procesem Beroulliego. Ozaczeie: X ~ B (p), p (0,1), N Fukcja prawdopodobieństwa: Wartość oczekiwaa: Wariacja k k P( X = k) = p (1 p), k = 0,..., k E(X) = p D 2 (X) = p(1-p) Praktycze występowaie: wyika z Twierdzeia Beroulliego Niech X = (X 1 ;X 2 ; ;X ) będzie wektorem iezależych zmieych losowych o takim samym rozkładzie zero jedykowym B 1 (p), gdzie p (0; 1). Wtedy zmiea losowa S = X 1 + X 2 + + X = i = 1 X i ma rozkład dwumiaowy B (p). W statystyce korzysta się z tego twierdzeia, gdy trzeba szacować iezae prawdopodobieństwo p pewego zdarzeia a podstawie wielu powtórzeń prostego doświadczeia i obserwacji, czy badae zdarzeie zaszło. Tablica (deska) Galtoa Deska z gwoździami umieszczoymi a kształt trójkąta. Kulki są spuszczae z góry, odbijają się od gwoździ w róże stroy, a ich ostatecze położeie jest losowe. Spadek w prawo 1; spadek w lewo 0 przykład możliwości zdarzeń losowych. Małe prawdopodobe są same porażki (zwycięstwa). Najbardziej prawdopodoba jest średia wartość (rówa liczba sukcesów i porażek) - 2 -
=4 i p=0.5 =20 i p=0.5 =120 i p=0.1 6. Rozkład jedostajy (jedorody, rówomiery, prostokąty, płaski) Ciągły rozkład prawdopodobieństwa, dla którego gęstość w przedziale od a do b, jest stała i róża od 0, a poza im rówa 0. Gęstość prawdopodobieństwa: Wartość oczekiwaa: E(X) = (a+b)/2 Wariacja: D 2 (X) = (b-a) 2 /12 Fukcja gęstości Dystrybuata Zmiea losowa Y będącą sumą dwóch zmieych o rozkładzie jedostajym ma rozkład trójkąty. Fukcja gęstości Dystrybuata - 3 -
7. Rozkład ormaly Zway też rozkładem Gaussa lub krzywą dzwoową. Jede z ajważiejszych rozkładów prawdopodobieństwa. Odgrywa ważą rolę w statystyczym opisie zagadień przyrodiczych, przemysłowych, medyczych, socjalych itp. Przyczyą jest jego częstość występowaia w aturze. Jeśli jakaś wielkość jest sumą lub średią bardzo wielu drobych losowych czyików, to iezależie od rozkładu każdego z tych czyików, jej rozkład będzie zbliżoy do ormalego, stąd moża go bardzo często zaobserwować w daych. O tym za chwilę. Ozaczeie: X ~ N(µ,σ), µ R, σ R + Fukcja gęstości: Wartość oczekiwaa: E(X) = µ Wariacja: D 2 (X) = σ 2 Fukcja gęstości: Gdzie środek? Od czego zależy spłaszczeie? - 4 -
8. Stadaryzacja zmieej losowej Stadaryzacja zmieej losowej X o iezerowej wariacji: Z = X E( X ) D( X ) Własości zmieej losowej ustadaryzowaej Z : E(Z ) = 0 D 2 (Z ) = 1 Stadaryzacja: prosty zabieg techiczy, który pozwala traktować w te sam sposób zmiee losowe o tym samym kształcie rozkładu, ale iych wartościach oczekiwaych i wariacjach. Niech X ~ N(0; 1). Wartości dystrybuaty tylko tej zmieej, czyli φ(x) = P(X < x), są zawarte w tablicach, ale tylko dla wartości dodatich x; p. P(X < 2) = φ(2) = 0. 9772. Co jeśli P(1 < X < 2)? Trzeba odpowiedia odejmować obszary pod wykresem, czyli P(1 < X < 2) = P(X < 2) P(X < 1) = φ(2) - φ(1) Co jeśli P(X < -2)? Rozkład jest symetryczy, czyli P(X < -2) = P(X > 2) Co jeśli P(X > 2)? Pole pod całym wykresem jest rówe 1, czyli P(X > 2) = 1 P(X < 2) - 5 -
9. Cetrale twierdzeie graicze Lideberga-Levy ego Rozważmy: Eksperymet - rzut kostką za sukces uzajemy wylosowaie szóstki. Doświadczeie - seria 20 eksperymetów (rzutów kostką). Iteresuje as średia liczby sukcesów lub suma sukcesów w doświadczeiu, Doświadczeie możę być powtarzae wiele razy. Jeśli rozważyć zmieą, która reprezetuje średią lub sumę liczby sukcesów, to jej rozkład moża przybliżać za pomocą rozkładu ormalego o określoych parametrach. Niech X 1,X 2,,X będzie ciągiem zmieych losowych: iezależych (doświadczeia wykoywae iezależie i takich samych warukach), o takim samym rozkładzie, takich, ze E(X i ) = µ < if, gdzie E(X i ) jest wartością oczekiwaa zmieej losowej X i, takich, ze 0 < D 2 (X i ) = σ 2 < if, gdzie D 2 (X i ) jest wariacja zmieej losowej X i. i iech X = 1 i = 1 X i to ciąg średich arytmetyczych wtedy dla ciągu X 1,X 2,,X 2 2 E ( X ) = µ oraz D ( X ) = σ / U jest ustadaryzowaą średią arytmetyczą gdzie φ(x) jest dystrybuatą rozkładu ormalego. Czyli możemy do obliczaia prawdopodobieństw dla tej zmieej wykorzystać stadaryzoway rozkład ormaly. Nawet gdy ie zamy rozkładu prawdopodobieństwa badaej zmieej, to rozkład stadaryzowaych średich arytmetyczych X wielu takich zmieych zbiega się do rozkładu N(0,1) dla rozsądych. Twierdzeie to uzasadia powszeche występowaie w przyrodzie rozkładów zbliżoych do rozkładu ormalego. Twierdzeie ie sprawia, że przy dostateczie dużej próbie rozkład staje się ormaly, mówi tylko, że rozkład średiej (sumy) tej próby upodabia się do ormalego. Alteratywie: Niech wtedy Twierdzeie jest prawdziwe także dla stadaryzowaych sum, zamiast dla stadaryzowaych średich arytmetyczych. Przy okazji warto zauważyć, że w zależości od wartości parametrów rozkład dwumiaowy moża przybliżać rozkładem ormalym, jeśli zarówo p, jak i (1 p) są większe od 5, o parametrach N (p, ( 1 p) p )). - 6 -
Jeżeli X 1,X 2,,X są iezależymi zmieymi losowymi o jedakowym rozkładzie, wartości oczekiwaej µ i wariacji σ 2 > 0, to dla "dużych" : średia arytmetycza tych zmieych czyli zmiea losowa X = S / = 1/ (X 1 + X 2 + + X ) ma w przybliżeiu rozkład N(µ, σ / ) suma tych zmieych losowych czyli zmiea losowa S = X 1 + X 2 + + X ma w przybliżeiu rozkład N(µ, σ ) 10. Metoda Mote Carlo Metoda Mote Carlo modelowaie procesów matematyczych, które są zbyt złożoe, aby moża była przewidzieć ich wyiki za pomocą podejścia aalityczego. Moża ją wyjaśić a przykładzie obliczeia pola powierzchi figury. Załóżmy, ze a polu o powierzchi 1m2 arysowao dość skomplikowaa figurę, której pole powierzchi chcemy obliczyć. Poadto, załóżmy, ze łatwo jest sprawdzić czy dowoly pukt leży wewątrz figury, czy poza ią. Do obliczeia pola powierzchi tej figury możemy rówież posłużyć się symulacją. Losujemy puktów zgodie z rozkładem jedostajym i sprawdzamy, jak wiele z ich zajduje się wewątrz figury. Ozaczmy liczbę takich puktów przez l. Stosuek l/ razy 1m 2 daje am oszacowaie pola powierzchi skomplikowaej figury. Korzystając z metody Mote Carlo, a podstawie symulacji (wylosowaych liczb) moża przybliżyć prawdopodobieństwo zajścia zdarzeia (Z < z), czyli P(Z < z). - 7 -