Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości:

Wielkość: px
Rozpocząć pokaz od strony:

Download "Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości:"

Transkrypt

1 1 Prawdopodobieństwo Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości: 1. Czy zainwestować pieniądze na giełdzie? 2. Czy ubezpieczyć laptop przed uszkodzeniami mechanicznymi? 3. Czy wykupić wycieczkę do Sharm el-sheikh? 4. Czy otworzyć pizzerię na terenie campusu? Każdej z tych decyzji towarzyszy niepewność, inaczej mówiąc losowość. Na giełdzie może nastąpić krach, a w czasie naszego pobytu Sharm el-sheikh może dojść do zamachu terrostycznego, itd. Z oczywistych powodów chcielibyśmy wiedzieć, czy dojdzie do takich zdarzeń. Rachunek prawdopodobieństwa umożliwia oszacowywanie szans wystąpienia tego typu zdarzeń, zwanych zdarzeniami losowymi. Za jego pomocą możemy, na przykład, obliczyć jakie są szanse tego, że 1. skreślimy szóstkę w totolotku, 2. dożyjemy do osiemdemdziesiątki; 3. kobieta, u której test ciążowy dał wynik pozytywny, faktycznie spodziewa się dziecka; Początki rachunku prawdopodobieństwa: rok - wydano napisaną ponad 100 lat wcześniej książkę, w której Girolamo Cardano przeanalizował szanse wygranej w niektórych grach hazardowych (w szczególności w grze w kości) rok - Pierre Simon de Laplace sformułował klasyczną definicję prawdopodobieństwa Andrey Kolmogorov sformalizował matematyczne aspekty rachunku prawdopodobieństwa, a w szczególności podał aksjomaty, które powinno spełniać prawdopodobieństwo. Zastosowania rachunku prawdopodobieństwa: 1. Analiza gier hazardowych - Texas hold em, oczko, kości; 2. Genetyka - prawa Mendla (teoria dziedziczności); 3. Informatyka - badanie złożoności obliczeniowej algorytmów; 4. Metody numeryczne - konstrukcja algorytmów stochastycznych, za pomocą których znajduje się największą (najmniejszą) wartość funkcji na ustalonym zbiorze. 5. Ubezpieczenia - szacowanie liczby wypadków komunikających, które wydarzą się w ustalonym okresie w przyszłości. 1

2 1.1 Przestrzeń zdarzeń elementarnych Definicja 1. Doświadczenie losowe to takie doświadczenie, którego wyniku nie da się przewidzieć, a które można wielokrotnie powtarzać w tych samych warunkach (rzut monetą, rzut kostką, gry hazardowe, totolotek). Definicja 2. Przestrzeń zdarzeń elementarnych to zbiór Ω zawierający wszystkie możliwe wyniki doświadczenia. Każdy podzbiór A Ω nazywamy zdarzeniem losowym. Zdarzenie elementarne, to zdarzenie losowe, którego nie da się przedstawić w postaci sumy prostszych zdarzeń. Podsumowanie: Zbiór Ω zawiera wszystkie możliwe wyniki doświadczenia losowego. Wykluczają się one wzajemnie, zaś w każdym doświadczeniu realizuje się dokładnie jeden wynik, czyli zdarzenie elementarne. Przykłady: 1. Rzucamy jeden raz kostką. Mamy sześć możliwych wyników. Ω = {1, 2, 3, 4, 5, 6}. (a) Zdarzenie A = {4} -wypadła 4 jest elementarne, bo nie można go przedstawić jako sumy dwóch prostszych zdarzeń. (b) Zdarzenie B = {2, 4, 6} -wypadła liczba parzysta nie jest elementarne, bo można je przedstawić w postaci sumy trzech zdarzeń elementarnych C = {2; }, D = {4},E = {6}. 2. Rzucamy dwa razy monetą. Mamy cztery możliwe wyniki: Ω = {(O, O), (O, R), (R, O), (R, R)}. 3. Gramy w totolotka tak długo, aż trafimy szóstkę. Interesuje nas to, za którym razem to się stanie. Możliwych wyników jest teraz nieskończenie wiele, bo przed pojawieniem się pierwszej szóstki, może być dowolnie wiele zakładów, w których skreślimy inny układ. Oczywiście, Ω = {1, 2,...} 4. Mierzymy czas jaki mija od dnia zakupu nowego auta do chwili pierwszej awarii. Ponieważ samochód może się zepsuć w dowolnym momencie, Ω = [0, ) Statystyczna regularność Rozważmy najprostsze doświadczenie losowe jakim jest rzut symetryczną monetą. Przed jego wykonaniem nie jesteśmy w stanie przewidzieć, czy wypadnie orzeł, czy też reszka. Przebiegiem tego prostego doświadczenia losowego rządzi jednak pewna prawidłowość, której efektem jest następujący fakt: jeśli wielokrotnie rzucimy monetą, to w około połowie rzutów pojawi się orzeł. Statystyczna regularność: Wraz ze wzrostem liczby powtórzeń doświadczenia losowego, stabilizuje się częstość pojawiania się każdego z możliwych wyników tego doświadczenia. 2

3 Ta statystyczna regularność, znana hazardzistom od setek lat, oznacza, że jesteśmy w stanie przewidzieć, jaki będzie średni wynik uzyskany w dużej liczbie powtórzeń tego samego doświadczenia losowego. Przykłady: 1. W rzutów symetryczną kostką każdy z sześciu możliwych wyników pojawi się około 2000 razy. 2. W 1000 rzutów parą symetrycznych monet każdy z czterech możliwych wyników (O, O), (O, R), (R, O), (R, R) pojawi się około 250 razy. 3. Jeśli 370 razy zagramy w ruletkę, za każdym razem obstawiając jedną z 37 liczb znajdujących się na kole (niekoniecznie tę samą), to wygramy około 10 razy. 1.2 Przypomnienie podstawowych faktów o zbiorach Pojęcie zbioru 1. Intuicyjnie, zbiór to pojemnik, który może mieścić dowolne obiekty zwane elementami zbioru, np. (a) zbiór wszystkich studentów UJW, (b) zbiór tych mieszkańców Wrocławia, którzy są zwolennikami PiS, (c) zbiór liczb całkowitych. 2. Zbiory oznaczamy zwykle wielkimi literami: A, B, C,... a elementy zbiorów małymi: a, b, c, Zdanie a jest elementem zbioru A zapisujemy a A, a zdanie a nie jest elementem zbioru A zapisujemy a / A. 4. Zbiór nie zawierający żadnego elementu nazywamy zbiorem pustym i oznaczamy. 5. Zbiór możemy określić na dwa sposoby: wymieniając wszystkie jego elementy. Na przykład: np. A = {1, 2, 3}, podając własność charakterystyczną dla wszystkich elementów zbioru, odróżniającą ją od elementów spoza zbioru. Na przykład: B = {x R : x < 4 i x > 0}, co czytamy: B jest zbiorem tych liczb rzeczywistych x, że x jest mniejsze od 4 i x jest większe od Mówimy, że zbiór A jest podzbiorem zbioru B, co zapisujemy A B, jeśli każdy element A jest jednocześnie elementem B. Przykład: Dla A = {1, 2, 3}, B = {1, 2, 3, 4, 5} i C = {2, 3, 5} A jest podzbiorem B, ale nie jest podzbiorem C. Uwaga: Jeśli A B i B A, to A = B. Jeśli A B i B C, to A C. 3

4 1.2.2 Działania na zbiorach Niech A i B będą dwoma podzbiorami pewnego zbioru Ω. 1. Suma zbiorów A i B (zapis symboliczny A B) to zbiór wszystkich elementów, które należą do zbioru A lub należą do zbioru B lub należą do A i B. 2. Iloczyn zbiorów A i B (zapis symboliczny A B) to zbiór wszystkich elementów, które należą do zbioru A i jednocześnie należą do zbioru B. Inne nazwy iloczynu to część wspólna, przekrój. Jeśli A B =, to mówimy, że zbiory A i B są rozłączne. 3. Różnica zbiorów A i B (zapis symboliczny A\B) to zbiór zawierający te elementy zbioru A, które nie należą do zbioru B. 4. Dopełnienie zbioru A do zbioru Ω (zapis symboliczny A c, A. A) to zbiór zawierający te elementy zbioru Ω, które nie należą do A. Rysunek 1: Suma zbiorów A i B. 4

5 Rysunek 2: Iloczyn i różnica zbiorów A i B. Przykład: Dla A = {1, 2, 3} i B = {3, 4, 5, 6} i Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9} mamy A B = {1, 2, 3, 4, 5, 6}, A B = {3}, A \ B = {1, 2}, A = {4, 5, 6, 7, 8, 9}. 5

6 1.3 Prawdopodobieństwo Rysunek 3: Dopełnienie zbioru A. Niech A będzie ustalonym podzbiorem zbioru Ω. Jeśli doświadczenie losowe zakończy się wynikiem ω i ω A, to mówimy, że zaszło zdarzenie A. Gdy zaś ω / A, to mówimy, że nie zaszło zdarzenie A. Definicja 3. Dla dowolnego A Ω, prawdopodobieństwo zdarzenia losowego A to liczba P (A), która podaje jakie są szanse tego, że zajdzie zdarzenie A. Przykłady: 1. Jakie są szanse wygranej w pojedynczej partii ruletki? 2. Jakie są szanse, że w trzech rzutach monetą wypadną trzy reszki? 3. Jakie są szanse skreślenie szóstki w totolotku? 4. Jakie są szanse, że mężczyna mający 50 lat dożyje do osiemdziesiątki? Interpretacja częstościowa prawdopodobieństwa Niech n A oznacza liczbę zajść zdarzenia A w n niezależnych powtórzeniach pewnego doświadczenia losowego. Wówczas n A P (A) = lim n n = lim liczba zajść A w n doświadczeniach n n Uwaga: Liczbę n A n doświadczeniach. Wnioski: nazywamy częstością pojawiania się zdarzenia A w n 6

7 1. Postać prawdopodobieństwa P zależy od doświadczenia losowego P (A) 1 dla każdego A Ω. 3. P ( ) = 0 i P (Ω) = 1, tzn. prawdopodobieństwa zdarzenia niemożliwego i zdarzenia pewnego są równe 0 i Gdy liczba niezależnych powtórzeń eksperymentu dąży do nieskończoności, to względna częstość występowania zdarzenia A dąży do P (A). Jest to tzw. prawo wielkich liczb. 5. Dla ustalonego (dużego) n, P (A) n A n. Przykład: Jeśli w rzutów monetą 5044 razy wypadnie orzeł, to za oszacowanie prawdopodobieństwa wyrzucenia orła w pojedynczym rzucie monetą przyjmiemy liczbę = Problem: Nigdy nie wyznaczymy w ten sposób dokładnej wartości P (A), jako że liczba powtórzeń doświadczenia zawsze będzie skończona Klasyczna definicja prawdopodobieństwa W praktyce prawdopodobieństwo często ustalamy jako częstość/proporcję grupy posiadającą interesującą nas własność. Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z egzaminu. Jakie jest prawdopodobieństwo tego, że losując studenta z tej grupy trafimy na takiego, który dostał 5.0 z egzaminu? Odp. P (A) = Kiedy tak można obliczać prawdopodobieństwo? Definicja 4. (Laplace) Jeśli zbiór Ω jest skończony, a wszystkie zdarzenia elementarne są jednakowo prawdopodobne to dla dowolnego zdarzenia A Ω Przykłady: P (A) = A Ω. 1. W urnie są cztery kule niebieskie i pięć czerwonych. Szanse wylosowania niebieskiej: W rzucie dwoma kostkami szanse uzyskania sumy oczek równej 7 wynoszą 6, bo jest 36 jednakowo prawdopodobnych zdarzeń elementarnych, 36 a sumie 7 sprzyja 6 spośród nich: {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. 3. Prawdopodobieństwo trafienia szóstki w Totolotku: p = 1 ( 49 6 ) = = , bo jest ( 49 6 ) = jednakowo prawdopodobnych sposobów wybrania 6 liczb spośród 49, a tylko jeden z nich sprzyja skreśleniu szóstki. 7

8 1.4 Aksjomaty prawdopodobieństwa Zazwyczaj zbiór Ω nie jest skończony, a nawet jeśli jest, to zdarzenia elementarne nie są jednakowo prawdopodobne. Jakie warunki powinno spełniać prawdopodobieństwo? Andrey Kolmogorov: Ponieważ prawdopodobieństwo ma służyć do oceny szans zajścia rozmaitych zdarzeń losowych, powinno spełniać te same reguły co częstość występowania zdarzenia przy powtarzaniu doświadczenia. I stąd poniższe trzy aksjomaty: 1. Aksjomaty prawdopodobieństwa: Prawdopodobieństwo Pr to dowolna funkcja określona na podzbiorach zbioru Ω spełniająca warunki (a) Pr(A) [0, 1] dla dowolnego zdarzenia A, (b) Pr(Ω) = 1, (c) Pr( i=1a i ) = i Pr(A i) dla dowolnych parami rozłącznych zdarzeń A 1, Własności prawdopodobieństwa wynikające z aksjomatów (a) Pr( ) = 0; (b) Pr(A c ) = 1 Pr(A); (c) Jeśli A B, to Pr(A) Pr(B); (d) Pr(A B) = Pr(A) + Pr(B) Pr(A B); (e) Pr(A B) Pr(A) + Pr(B). 1.5 Przykłady przestrzeni probabilistycznych 1. Ω = {ω 1, ω 2,..., ω n }; p 1,..., p n nieujemne liczby o sumie 1. Przyjmujemy, że p i = Pr({ω i }), 1 i n. Wówczas Pr(A) = p i. {i : ω i A} (a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla skończonego zbioru Ω. (b) To, jakie wartości mają liczby p 1, p 2,..., p n, zależy od analizowanego doświadczenia losowego. Szczególny przypadek: Jeśli wszystkie zdarzenia elementarne jednakowo prawdopodobne, czyli p 1 = p 2 =... = p n = 1 A, to P (A) = n Ω. 2. Ω = {ω 1, ω 2,...}; p 1, p 2,... nieujemne liczby o sumie 1. Przyjmujemy, że p i = Pr({ω i }), i. Wówczas Pr(A) = p i. {i : ω i A} 8

9 (a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla przeliczalnego nieskończonego zbioru Ω. (b) To, jakie wartości mają liczby p 1, p 2,..., zależy od analizowanego doświadczenia losowego. Przykład: Rzucamy symetryczną monetą tak długo, aż wypadnie reszka. Wówczas Ω = {ω 1, ω 2,...}, przy czym dla każdego k = 1, 2,..., zdarzenie elementarne ω k oznacza, że reszka wypadła po raz pierwszy w k-tym rzucie. W tym modelu p k = Pr({ω k }) = 1, bo w k rzutach 2k monetą jest 2 k możliwych wyników, a tylko jeden z nich sprzyja wynikowi ω k = OO,..., OR (najpierw k 1 razy wypada orzeł, a potem pojawia się reszka. 3. Ω - zbiór nieprzeliczalny, a więc zawiera jakiś przedział liczbowy. Jedna z możliwości zdefiniowania prawdopodobieństwa: f - nieujemna funkcja, taka że f(x)dx = 1. Wówczas: Ω Pr(A) = f(x)dx. Szczególny przypadek: prawdopodobieństwo geometryczne: (a) Ω R, na przykład odcinek: Pr(A) = długość(a) długość(ω) (b) Ω R 2, na przykład prostokąt: Pr(A) = pole(a) pole(ω) ; (c) Ω R 3, na przykład prostopadłościan: Pr(A) = objętość(a) objętość(ω) ; Przykład: Patyk o długość 1 łamiemy losowo w dwóch miejscach. jakie jest prawdopodobieństwo, że z tak powstałych kawałków można zbudować trójkąt. Rozwiązanie: Niech x, y oznaczają miejsce pierwszego i drugiego złamania. Oczywiście, Ω = {(x, y) [0, 1] [0, 1] : 0 < x < y < 1}. By rozwiązać to zadanie przyjmijmy następujący rozsądny model: dla każdego podzbioru A Ω Pr(punkt (x, y) A jest proporcjonalne do pola zbioru A). Trzy kawałki patyka mają długości: x, y x,1 y. Jeśłi można z nich zbudować trójkąt to x < y x+1 y, y x < x+1 y i 1 y < x+y x, czyli 0 < x < 1/2, 1/2 < y < 1 i y < x + 1/2. Pole tego obszaru jest równe 1/8, a pole Ω to 1/2. Wobec tego: Pr(z trzech kawałków patyka powstanie trójkąt) = 1/8 1/2 = 1 4. A 9

10 1.5.1 Podstawowe wzory kombinatoryczne Do obliczania prawdopodobieństw w modelach, w których wszystkie zdarzenia elementarne są jednakowo prawdopodobne, przydają się poniższe wzory. 1. Kombinacją k-elementową zbioru n-elementowego nazywamy nieuporządkowany k-elementowy podzbiór wyjściowego zbioru n-elementowego. Innymi słowy: ze zbioru n-elementowego wybieramy k elementów i nie dbamy o ich kolejność. (a) Jeżeli nie dopuszczamy powtórzeń (tak jak w Lotto), to liczba takich kombinacji bez powtórzeń wynosi ( ) n n! =, k = 0, 1,..., n; k k!(n k)! Uwaga: 0! = 1. (b) Gdy dopuszczamy możliwość powtórzeń, to liczba takich kombinacji z powtórzeniami wynosi ( ) n + k 1, k = 0, 1,... k 2. Wariacją k-elementową zbioru n-elementowego nazwamy uporządkowany ciąg k-elementowy złożony z elementów wyjściowego zbioru n- elementowego. Innymi słowy: ze zbioru n-elementowego wybieramy k-elementów, jednak kolejność wyboru ma znaczenie. (a) Jeżeli nie dopuszczamy powtórzeń to liczba takich wariacji bez powtórzeń wynosi n! (n k)! = n(n 1)... (n k + 1), k = 0, 1,..., n; Gdy k = n, to mamy do czynienia z permutacją zbioru n-elementowego i liczba takich permutacji wynosi n!. (b) Gdy dopuszczamy powtórzenia, to liczba takich wariacji z powtórzeniami wynosi n k, k = 0, 1,... Przykład: Kombinacje i wariacje 2-elementowe dla zbioru {1, 2, 3}. 1. kombinacje bez powtórzeń: {1, 2}, {1, 3}, {2, 3}, 2. kombinacje z powtórzeniami: {1, 2}, {1, 3}, {2, 3}, {1, 1}, {2, 2}, {3, 3}, 3. wariacje bez powtórzeń: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), 4. wariacje z powtórzeniami: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), (1, 1), (2, 2), (3, 3). 10

11 2 Prawdopodobieństwo warunkowe Często obliczamy prawdopodobieństwo zdarzenia A wiedząc, że zaszło pewne inne zdarzenie B. Tak wyznaczone prawdopodobieństwo oznaczamy symbolem P (A B) i nazywamy prawdopodobieństwem warunkowym zdarzenia A pod warunkiem zajścia zdarzenia B. Przykłady: 1. Szanse dożycia do następnego roku zależą od wieku, płci, trybu życia, przebytych chorób. 2. Szanse, że kierowca będzie miał stłuczkę w następnym roku zależą od jego wieku, rejonu zamieszkania, doświadczenia. Zajście zdarzenia B może, ale nie musi zmienić prawdopodobieństwo pojawienia się zdarzenia A. 1. W pierwszej urnie same kule białe,a w drugiej same czarne. Rzucamy monetą. Jesli wypadnie orzeł wyciagamy dwie kule z pierwszej urny, a jeśli wypadnie reszka dwie kule z drugiej urny. A - druga z wyciągniętych kul jest biała, B- pierwsza z wyciągniętych kul jest biała. Wówczas Pr(A) = 1/2, ale Pr(A B) = Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, A - orzeł w pierwszym rzucie. Wówczas Pr(A) = Pr(A B) = 1/2. Jak obliczać Pr(A B)? Jeśli wiemy, że zaszło zdarzenie B, to ograniczamy się do zdarzeń elementarnych sprzyjających A i zawartych w B. Intuicja podopowiada, że dla prawdopodobieństwa klasycznego Pr(A B) jest równe liczbie zdarzeń elementarnych sprzyjających A i zawartych w B, podzielonej przez liczbę wszystkich zdarzeń elementarnych zawartych w B, czyli Pr(A B) = A B B = Pr(A B). Pr(B) To prowadzi do definicji w ogólnym przypadku: Definicja 5. Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, ze zaszło zdarzenie B, gdzie Pr(B) > 0, dane jest wzorem Pr(A B) = Pr(A B). Pr(B) Dla B takiego, że Pr(B) = 0, można przyjąć Pr(A B) = 0. Examples: 1. String złożony z czterech bitów jest generowany losowo w taki sposób, że każda z 16 możliwości jest jednakowo prawdopodobna. Jakie jest prawdopodobieństwo tego, że ten string zawiera co najmniej dwa kolejne 0, jeśli wiadomo, że pierwszy bit jest równy 0? 11

12 Rozwiązanie: Niech A oznacza zdarzenie, że string długości 4 zawiera co najmniej dwa kolejne 0, a B - w stringu długości 4 pierwszym bitem jest 0. Oczywiście, A B = {0000, 0001, 0010, 0011, 0100}, Pr(A B) = 5/16, Pr(B) = 8/16 i Pr(A B) = 5/16 8/ Jakie jest prawdopodobieństwo, że w rodzinie z dwójką dzieci są dwaj chłopcy, jeśli wiadomo, że starsze dziecko jest chłopcem? Natychmiastową konsekwencją definicji prawdopodobienstwa warunkowego jest poniższe twierdzenie o mnożeniu, które mówi jak obliczyć prawdopodobieństwo danego zdarzenia, gdy znamy prawdopodobieństwa warunkowe. Twierdzenie 1. Jeśli zdarzenia losowe A 1,..., A n spełniają warunek Pr(A 1... A n 1 ) > 0 to Pr(A 1... A n ) = Pr(A 1 ) Pr(A 2 A 1 )... Pr(A n A 1... A n 1 ). 12

13 Przykład. Spośród dorosłych użykowników internetu, czyli takich, którzy mają co najmniej 18 lat, czatuje 47% osób w wieku lat, 21% w wieku lat i 7% w wieku powyżej 50 lat. Pierwsza grupa wiekowa stanowi 29% dorosłych użytkowników internetu, druga 47%, a trzecia 24%. Jakie jest prawdopodobieństwo zdarzenia C={losowo wybrany dorosły użytkownik internetu korzysta z czatów}? Odpowiemy na to pytanie wykorzystując twierdzenie o mnożeniu. Zdefiniujmy zdarzenie A 1 = { losowo wybrany dorosły użytkownik internetu pochodzi z pierwszej grupy wiekowej}. Analogicznie zdefiniujmy zdarzenia A 2 i A 3. Wówczas: P(A 1 )=0.29, P(A 2 )=0.47, P(A 3 )=0.24, a P(C A 1 )=0.47, P(C A 2 )=0.21, P(C A 3 )=0.07. Obliczamy kolejno: Prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z pierwszej grupy wiekowej jest równe P(A 1 i C)= P(A 1 ) P(C A 1 )=0.29*0.47=0.1363, prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z drugiej grupy wiekowej jest równe P(A 2 i C)= P(A 2 ) P(C A 2 )=0.47*0.21=0.0987, prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z trzeciej grupy wiekowej jest równe P(A 3 i C)= P(A 3 ) P(C A 3 )=0.24*0.07= Prawdopodobieństwo tego, że losowo wybrany dorosły użytkownik internetu korzysta z czatów jest więc równe P(C)= P(A 1 ) P(C A 1 )+ P(A 2 ) P(C A 2 )+ P(A 3 ) P(C A 3 )= = Te obliczenia ilustruje poniższy rysunek. Można z niego także odczytać, jakie jest prawdopodobieństwo, że losowo wybrany dorosły użytkownik internetu nie korzysta z czatów: P(C C )= P(A 1 ) P(C C A 1 )+ P(A 2 ) P(C C A 2 )+ P(A 3 ) P(C C A 3 )= =

14 Przykład: 2% populacji zarażone jest wirusem HIV, czyli Pr(Hiv+) = 0.02, a test do wykrywania obecności wirusa ma następujące własności: 1. Jeżeli osoba poddana testowi ma HIV, to prawdopodobieństwo, że test wykryje tę chorobę wynosi (prawdziwy dodatni wynik testu, czułość), czyli Pr(+ Hiv+) = Gdy osoba poddana testowi nie ma HIV, to prawdopodobieństwo właściwej diagnozy wynosi (prawdziwy ujemny wynik testu, specyficzność), czyli Pr( Hiv ) = Wówczas prawdopodobieństwo, że osoba poddana testowi jest chora i test to wykryje jest równe Pr(+ Hiv+) = Pr(Hiv+) Pr(+ Hiv+) 14

15 Przypisując prawdopodobieństwa kolejnym gałęziom i wykorzystując powyższe twierdzenie o mnożeniu, możemy wyznaczyć prawdopodobieństwa otrzymania wyników: Prawdziwy+, Fałszywy-, Fałszywy+ i Prawdziwy-. Następnie, po dodaniu do siebie prawdopodobieństw otrzymania wyników Prawdziwy+ i Fałszywy+, obliczamy Pr(+), tzn. prawdopodobieństwo, że test da wynik dodatni.

16 2.1 Wzór na prawdopodobieństwo całkowite Definicja 6. Partycją przestrzeni Ω nazywamy dowolną rodzinę parami rozłącznych zbiorów B 1,..., B n o sumie Ω. Twierdzenie 2. Jeśłi B 1,..., B n jest partycją na zdarzenia o dodatnim prawdopodobieństwie, to dla dowolnego zdarzenia A Pr(A) = n Pr(A B i ) Pr(B i ). i=1 Przykład: Jakie jest prawdopodobieństwo, że u losowo wybranej osoby test da wynik dodatni? Ze wzoru na prawdopodobieństwo całkowite Pr(+) = Pr(+ Hiv+) Pr Hiv+) + Pr(+ Hiv ) Pr Hiv ) Wzór Bayesa = ( ) (1 0.02) = Często znamy wynik doświadczenia losowego, a pytamy o jego przebieg, Twierdzenie 3. Jeśłi B 1,..., B n jest partycją na zdarzenia o dodatnim prawdopodobieństwie i Pr(A) > 0, to dla każdego 1 i n, Pr(B i A) = Pr(A B i ) Pr(B i ) n j=1 Pr(A B j) Pr(B j ) = Pr(A B i) Pr(B i ) Pr(A) Przykład: U losowo wybranej osoby test dał wynik dodatni? prawdopodobieństwo, że ma ona Hiv? Jakie jest Pr(Hiv + +) = = Pr(+ Hiv+) Pr(Hiv+) Pr(+ Hiv+) Pr Hiv+) + Pr(+ Hiv ) Pr Hiv ) Pr(+ Hiv+) Pr(Hiv+) = = Pr(+) Wpływ rozkładu a priori: A jakie będzie to prawdopodobieństwo, gdy przyjmiemy, że nie 2% lecz 30% populacji jest zarażona wirusem HIV? 16

17 3 Niezależność zdarzeń Intuicje: Prawdopodobieństwo warunkowe Pr(A B) jest zazwyczaj różne od Pr(A). Tak się dzieje, gdyż zajście zdarzenia B zazwyczaj dostarcza nam dodatkowej informacji o tym, czy zdarzenie A zajdzie, czy też nie. Jeśli wiedza o tym, że zaszło B nie ma wpływu na prawdopodobieństwo zajścia zdarzenia A, a więc gdy Pr(A B) = Pr(A), to mówimy, że zdarzenia A i B są niezależne. Formalna definicja jednego z najważniejszych pojęć rachunku prawdopodobieństwa ma postać: Definicja 7. Zdarzenia A i B są niezależne, gdy Przykłady: Pr(A B) = Pr(A) Pr(B). 1. Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, B - orzeł w pierwszym rzucie. Wówczas A i B są niezależne. 2. Wybieramy losowo jedną rodzinę spośród rodzin mających n dzieci. Niech zdarzenie A polega na tym, że w rodzinie jest co najwyżej jedna dziewczynka, a B - w rodzinie są dziewczynki i chłopcy. Zdarzenia A i B są niezależne jedynie dla n = 3. Uwaga: Zakładamy, że szanse urodzenia chłopca i dziewczynki są takie same Niezależność większej liczby zdarzeń Definicja 8. Zdarzenia A 1,..., A n nazywamy niezależnymi, gdy dla każdego 1 k n i dla każdych 1 i 1 <... < i k n zachodzi Pr(A i1 A ik ) = Pr(A i1 )... Pr(A ik ). Przykład: Rzucamy n razy symetryczną monetą. A k = {orzeł w k-tym rzucie}. Wowczas A 1,..., A n są niezależne. Twierdzenie 4. Jeśli A 1,..., A n są niezależne, to niezależne są również B 1,..., B n, gdzie B i = A i albo B i = A i Schemat Bernoulliego Definicja 9. Schemat Bernoulliego to skończony ciąg niezależnych powtórzeń tego samego doświadczenia losowego o dwu możliwych wynikach, nazywanych umownie sukcesem i porażką. Poszczególne doświadczenia to próby Bernoulliego. Przykłady: 1. n-krotny rzut monetą; za sukces można przyjąć wypadnięcie orła, 17

18 2. n-krotne wypełnienie kuponu totolotka; za sukces można przyjąć trafienie szóstki. Twierdzenie 5. Prawdopodobieństwo pojawienia się dokładnie k sukcesów w schemacie Bernoulliego n prób, z prawdopodobieństwem sukcesu w pojedynczej próbie równym p, wynosi ( ) n p k (1 p) n k, k = 0,..., n. k Przykład: Moneta jest fałszywa i prawdopodobieństwo wyrzucenia orła jest równe 2/3. Jakie jest prawdopodobieństwo, że w 7 rzutach tą monetą cztery razy pojawi się orzeł? Rozwiązanie: W tym przykładzie n = 7, k = 4, p = 2/3, więc ( ) 7 Pr(4 sukcesy w 7 doświadczeniach) = (2/3) 4 (1/3) 3 = 7! !3! 3 =

19 4 Zmienne losowe 4.1 Pojęcia wstępne Definicja 10. Zmienna losowa to funkcja, która przypisuje jakąś wartość liczbową każdemu z możliwych wyników doświadczenia losowego. Przykłady: 1. X = czas przeżycia po przeszczepie serca. Zbiór możliwych wartości [0, ). 2. X = wygrana gracza, który grając w ruletkę stawia 1 zł na którąś z 37 liczb { 1, jeśli nie wypadnie obstawiona liczba, X = 35, jeśli wypadnie obstawiona liczba. 3. Trzykrotny rzut monetą. Osiem możliwych wyników: OOO,ORO,...,RRR. Niech X = liczba wyrzuconych orłów. Wówczas Rodzaje zmiennych losowych: X(OOO) = 3,..., X(RRR) = Dyskretna: - zbiór S przyjmowanych przez nią wartości jest skończony albo przeliczalny, np. wynik rzutu kostką, numer rzutu monetą, w którym po raz pierwszy wypadł orzeł. 2. Ciągła: - zbiór jej wartości zawiera przedział liczbowy, np. temperatura, waga, czy też wzrost losowo wybranego optometrysty. 4.2 Rozkład zmiennej losowej Rozkład: Dla każdego zbioru A R musimy obliczyć Pr(X A), czyli prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość należącą do zbioru A. 1. Aby opisać rozkład dyskretnej zmiennej losowej wystarczy wskazać zbiór przyjmowanych przez nią wartości i podać prawdopodobieństwa z jakimi te wartości są przyjmowane (funkcja prawdopodobieństwa), Przykład: Zmienna losowa X = liczba orłów w trzech rzutach symetryczną monetą przyjmuje wartości 0, 1, 2, 3 z prawdopodobieństwami 1/8, 3/8, 3/8, 1/8. 2. Chcąc opisać rozkład ciągłej zmiennej losowej wystarczy wskazać gęstość jej rozkładu, czyli nieujemną funkcję f, taką że Pr(a X b) = b a f(x)dx dla wszystkich a b. Interpretacja: Pr(a X b) = to pole wykresu pod krzywą. Uwaga: Z własności całki wynika, że 19

20 (a) Pr(a X b) =... = Pr(a < X < b) = b a f(x)dx, (b) Pr(X = a) = 0. Rysunek 4: Pr(1 < X < 3) = pole zaznaczonego obszaru Twierdzenie 6. Funkcja f jest gęstością rozkładu pewnej ciągłej zmiennej losowej wtedy i tylko wtedy, gdy (a) f(x) 0 dla każdego x R, (b) f(x) dx = 1. R Dystrybuanta zmiennej losowej: Inny sposób opisu rozkładu zmiennej losowej: dystrybuanta, czyli funkcja F : R [0, 1], której wartość w każdym punkcie x R jest określona wzorem x F (x) = Pr(X x) = f(s) ds, jeśli X ma rozkład ciągły o gęstości f, {t x} Pr(X = t), jeśli X ma rozkład dyskretny. Twierdzenie 7. Funkcja F jest gęstością rozkładu pewnej zmiennej losowej wtedy i tylko wtedy, gdy 1. F jest niemalejąca. 2. lim x F (x) = 0, lim x F (x) = 1 3. F jest prawostronnie ciągła. 20

21 Rysunek 5: Dystrybuanta rozkładu dwumianowego B(2, 1/2) Rysunek 6: Dystrybuanta rozkładu wykładniczego Dystrybuanta a gęstość (funkcją prawd.). Dla każdego x R, 1. Pr(X = x) = Pr(X x) Pr(X < x) = F (x) F (x ). 2. f(x) = F (x) o ile f jest ciągła w punkcie x. 4.3 Parametry opisujące rozkład zmiennej losowej Rozkład zmiennej losowej możemy też opisywać za pomocą 1. wskaźników położenia: średnia, mediana; 2. wskaźników rozproszenia: wariancja, odchylenie standarowe, kwartyle, rozstęp międzykwartylowy. 21

22 4.3.1 Wartość oczekiwana Definicja 11. Wartość oczekiwana (średnia) zmiennej losowej X to parametr oznaczany symbolem E(X) lub µ X, określony wzorem xf(x) dx, jeśli X ma rozkład ciągły o gęstości f, E(X) = {x i S} x i Pr(X = x i ), jeśli X ma rozkład dyskretny. Przykłady: 1. Rozkład B(1, p): E(X) = 0 (1 p) + 1 p = p. 2. Wygrana w ruletce: E(X) = 1 36/ /37 = 1/37 3. Rozkład U(a, b): E(X) = Uwagi: b a 1 b a x dx = x2 b a b a = a + b Analogia między środkiem masy a wartością oczekiwaną: xf(x) dx to środek ciężkości pręta umieszczonego na osi 0x, którego gęstość masy w punkcie x wynosi f(x), x R. 2. E(X) nie zawsze istnieje. Interpretacja: E(X) to w pewnym sensie średnia wartość przyjmowana przez zmienną losową. Przykład: W 600 rzutach symetryczną kostką, każdy z możliwych wyników powinien pojawić się około 100 razy. Oczekujemy więc, że średni wynik będzie równy Czyli = {x i S} x i Pr(X = x i ) = E(X) = 7 2. Własności: Jeśli istnieją E(X) i E(Y ) to dla dowolnych stałych a, b 1. Jeśli X przyjmuje tylko jedną wartość c, to E(X) = c. 2. E(aX + b) = ae(x) + b; 3. E(X + Y ) = E(Y ) + E(Y ). 4. Jeśłi X i Y są niezależne, to E(XY ) = E(X)E(Y ). Definicja 12. Zmienne X i Y są niezależne, jeśli dla dowolnych A, B R, Pr(X A, Y B) = Pr(X A) Pr(Y B). 22

23 Intuicje: Jeśli X i Y są niezależne, to wiedza o tym, jaką wartość przyjęła jedna z tych zmiennych nie wpływa na prawdopodobieństwo z jakim druga z tych zmiennych przyjmuje swoje wartości. Przykłady: (wykorzystanie liniowości wartości oczekiwanej) 1. Oczekiwana liczba oczek w rzucie dwoma kostkami. Rozwiązanie: E(X + Y ) = E(X) + E(Y ) = = Roztargniony szatniarz losowo zwraca płaszcz każdemu z n klientów. Jaka jest oczekiwana liczba prawidłowo zwróconych płaszczy? Rozwiązanie: X liczba osób, które otrzymała swoje płaszcze. X = X X n, gdzie X i = 1, gdy i-ta osoba dostała swój płaszcz i X i = 0 w przeciwnym razie. Pr(X i = 1) = 1/n, więc E(X) = E(X 1 ) E(X n ) = n 1 = 1. n Twierdzenie 8. (Reguła leniwego statystyka) Niech g będzie ustaloną funkcją. Wartość oczekiwaną zmiennej losowej Y = g(x) można obliczyć ze wzoru g(x)f(x) dx, jeśli X ma rozkład ciągły o gęstości f, E(Y ) = E[g(X)] = g(x i ) Pr(X = x i ), jeśli X ma rozkład dyskretny. {x i S} Wniosek: jeśli znamy rozkład X, to nie musimy wyznaczać rozkładu g(x), by obliczyć E[g(X)] Wariancja zmiennej losowej Wartość oczekiwana jest miarą położenia, charakteryzującą rozkład zmiennej losowej. Niestety, nie opisuje ona w pełni tego rozkładu. Przykład: Pr(X = 0) = 1, Pr(Y = 1) = Pr(Y = 1) = 1/2. Wówczas E(X) = E(Y ) = 0, ale zmienne te mają różne rozproszenia wokół swoich wartości oczekiwanych, bo X jest zawsze równa E(X) = 0, podczas gdy Y zawsze różni się od E(Y ) = 0 o 1. Definicja 13. Wariancja zmiennej losowej X to parametr oznaczany symbolem Var(X) lub σx 2, który mierzy rozproszenie X względem jej wartości oczekiwanej (moment bezwładności): Var(X) = E[(X µ X ) 2 ] = (x µ X ) 2 f(x) dx, jeśli X ma rozkład ciągły, (x i µ X ) 2 Pr(X = x i ), jeśli X ma rozkład dyskretny. {x i S} Uwaga: Var(X) to odchylenie standardowe zmiennej losowej X. Przykłady: 1. Dla zmiennych z poprzedniego przykładu: Var(X) = 0, Var(Y ) = 1. 23

24 2. Rozkład B(1, p). 3. Rozkład U(0, 1). Własności: Jeśli istnieją Var(X) to dla dowolnych stałych a, b 1. Var(X) 0, przy czym Var(X) = 0 Pr(X = c) = 1 dla pewnego c R. 2. Var(X) = E(X 2 ) [E(X)] Var(aX + b) = a 2 Var(X), w szczególności Var(X) = Var( X). 4. Var(X + Y ) = Var(X) + Var(Y ), o ile X i Y są niezależne i istnieje Var(Y ) Kwantyle rozkładu Interesuje nas to, w jakim punkcie x p dystrybuanta F osiąga wartość ustaloną wartość p z przedziału (0, 1).. Definicja 14. Kwantyl rzędu p to taki punkt x p, taki że Uwaga: 1. F (x p ) p F (x p ). x p = F 1 (p) def = inf{x : F (x) p} 2. Dla rozkładu ciągłego, x p to punkt na osi 0x, taki że pole pod gęstością na lewo od niego jest równe p, a pole na prawo równe 1 p, czyli F (x p ) = p. Uwaga: (x p, p) to punkt przecięcia wykresów funkcji y = p i y = F (x)). 3. x 1, x 1, x to pierwszy kwartyl, mediana i trzeci kwartyl. 4. Rozstęp międzykwartylowy: IQR = x Symetria rozkładu: x Mówimy, że ciągła zmienna losowa X ma rozkład symetryczny, jeśli jej gęstość jest symetryczna względem pewnej wartości x 0, tzn, gdy f(x x 0 ) = f( (x x 0 )), x R. Wówczas, (a) x 0 = E(X), (b) mediana jest równa średniej, tzn. x 1/2 = E(X). 2. Jeśli X nie ma rozkładu symetrycznego, to ma rozkład skośny (a) prawoskośny (długie prawe ogony ), gdy x 1/2 < E(X); (b) lewoskośny (długie lewe ogony ), gdy x 1/2 > E(X); 24

25 Rysunek 7: Gęstość rozkładu prawoskośnego χ 2 3, którego medianą jest x 1/2 = , a średnią µ = Dyskretne zmienne losowe Rozkład Bernoulliego Definicja 15. Zmienna losowa X ma rozkład Bernoulliego z parametrem p (0, 1), co oznaczamy X D = B(1, p), jeśli przyjmuje wartości 0 i 1 z prawdopodobieństwami Pr(X = 1) = p i Pr(X = 0) = 1 p. 1. Średnia i wariancja: E(X) = p, and Var(X) = p(1 p). 2. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej: jednokrotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; wówczas X = 1, gdy wypadł orzeł i X = 0, gdy wypadła reszka Rozkład dwumianowy Definicja 16. Zmienna losowa X ma rozkład dwumianowy z parametrami (n, p), co oznaczamy X = D B(n, p), jeśli przyjmuje wartości 0, 1,..., n z prawdopodobieństwami ( ) n Pr(X = k) = p k (1 p) n k, k = 0,..., n. k 1. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej: n -krotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; X = liczba wyrzuconych orłów. 2. Taka zmienna opisuje liczbę sukcesów w n doświadczeniach ze schematu Bernoulliego z prawdopodobieństwem sukcesu p. Jej możliwe wartości to 0, 1,..., n. 3. Średnia i wariancja: E(X) = np, and Var(X) = np(1 p). 25

26 4. Związek z B(1, p): X D = B(n, p) jest sumą n niezależnych zmiennych losowych X 1,..., X n o tym samym rozkładzie B(1, p), X i = 1, gdy pojawił się sukces w i- tym doświadczeniu (a 0, gdy pojawiła się porażka) Rozkład geometryczny Definicja 17. Zmienna losowa X ma rozkład geometryczny z parametrem p, co oznaczamy X D = Geo(p), jeśli przyjmuje wartości 1, 2,... z prawdopodobieństwami Pr(X = k) = (1 p) k 1 p, k = 1, 2, Charakterystyczny eksperyment: rzucamy monetą tak długo aż wypadnie orzeł; X = liczba wykonanych rzutów; możliwe wartości X to x = 1, 2, Średnia i wariancja: E(X) = 1/p, and Var(X) = (1 p)/p X zlicza liczbę niezależnych powtórzeń doświadczenia ze schematu Bernoulliego B(1, p), potrzebnych do tego, by pojawił się pierwszy sukces Rozkład Poissona Definicja 18. Zmienna losowa X ma rozkład Poissona z parametrem λ > 0, co oznaczamy X = D P (λ), jeśli przyjmuje wartości 0, 1, 2,... z prawdopodobieństwami Pr(X = k) = λk exp ( λ), k = 0, 1, 2,.... k! 1. Średnia i wariancja: E(X) = λ, and Var(X) = λ. 2. Liczba szkód komunikacyjnych w ustalonym okresie czasu można dobrze modelować za pomocą rozkładu Poisssona z odpowiednio dobranym parametrem λ. 4.6 Ciągłe zmienne losowe Rozkład jednostajny Definicja 19. Zmienna losowa X ma rozkład jednostajny na przedziale (a, b), co oznaczamy X D = U(a, b), jeśli gęstość i dystrybunta mają postać: f(x) = { 0, x / [a, b], 1 b a, x [a, b]. F (x) = 1. Średnia i wariancja: E(X) = a + b 2 0, x < a, x a b a, a x b, 1, x > b. (b a)2, Var(X) =

27 Rysunek 8: Gęstość rozkładu jednostajnego U(1, 3) Rysunek 9: Dystrybuanta rozkładu jednostajnego U(1, 3) Rozkład wykładniczy Definicja 20. Zmienna losowa X ma rozkład wykładniczy z parametrem λ > 0, co oznaczamy X = D Exp(λ), jeśli gęstość i dystrybunta mają postać: f(x) = { 0, x < 0, λe λx, x 0. F (x) = { 0, x < 0, 1 e λx, x 0. 27

28 Rysunek 10: Gęstość rozkładu wykładniczego Exp(1) Rysunek 11: Dystrybuanta rozkładu wykładniczego Exp(1) 1. Średnia i wariancja: E(X) = 1 λ, Var(X) = 1 λ Brak pamięci: Dla dowolnych s, t > 0 Pr(X t + s X > t) = Pr(X s). 3. Rozkład wykładniczy wykorzystuje się w teorii niezawodności do modelowania czasu pracy urządzeń. Przykładowo, żywotność procesora może być modelowana za pomocą rozkładu wykładniczego o średniej godzin. Brak pamięci oznacza, że procesor się nie zużywa (starzeje), więc bez względu na to jak długo już działał, prawdopodobieństwo, iż nie ulegnie awarii przez następne 1000 godzin, jest takie same jak dla nowego procesora. 28

29 4.6.3 Rozkład normalny Definicja 21. Zmienna losowa X ma rozkład normalny z wartością oczekiwaną µ i wariancją σ 2, co oznaczamy X = D N(µ, σ 2 ), jeśli jej gęstość ma postać: f(x) = 1 e (x µ)2 2σ 2, x R. 2πσ Rysunek 12: Gęstość rozkładu normalnego N(1, 1) 29

30 Rysunek 13: Dystrybuanta rozkładu normalnego N(1, 1) 1. Rozkład normalny jest bardzo często używany do modelowania rozkładów wielu rzeczywistych cech. Przykłady takich cech: (a) błąd pomiarowy, (b) wzrost, wydajność, (c) temperatura ciała, (d) zawartość różnych składników we krwi. 2. Jeśli wielokrotnie powtarzamy ten sam eksperyment losowy, za każdym razem mierząc wartość tej samej cechy, to zmienna losowa X, będąca średnią (sumą) uzyskanych wyników ma rozkład zbliżony do normalnego. W szczególności, jeśli wielkokrotnie zmierzymy pewną wielkość fizyczną (rezystancję, pojemność, lepkość, itp.), a za wynik przyjmiemy średnią ze wszystkich pomiarów, to, przy pewnych dodatkowych warunkach, tak otrzymana wielkość będzie miała rozkład zbliżony do normalnego. 3. Gęstość rozkładu normalnego ma kształt dzwonu, którego osią symetrii jest prosta x = µ. (a) zmiana µ powoduje przesunięcie wykresu gęstości wzdłuż osi 0x; (b) zmiana σ 2 powoduje zmianę kształtu wykresu gęstości f: im większe σ tym wykres jest bardziej spłaszczony i ma cięższe ogony. 30

31 Rysunek 14: Gęstości rozkładów normalnych N(0, 1) i N(1, 1) Rysunek 15: Gęstości rozkładów normalnych N(0, 1) i N(1, (1/2) 2 ) 4. Zmienna losowa o rozkładzie N(m, σ 2 ) może przyjąć każdą wartość z przedziału (, ), ale najbardziej prawdopodobne (najczęściej pojawiające się) są wartości bliskie µ. Potwierdzeniem tego faktu jest Reguła 3σ: Jeśli X ma rozkład N(µ, σ 2 ), to (a) Pr(µ σ < X < µ + σ) = 0.680; (b) Pr(µ 2σ < X < µ + 2σ) = 0.956; (c) Pr(µ 3σ < X < µ + 3σ) =

32

33 5. Standardowy rozkład normalny to rozkład normalny o średniej 0 i wariancji 1. Zmienną losową o takim rozkładzie, gęstość jej rozkładu oraz wariancję oznaczamy symbolami Z, φ oraz Φ. Oczywiście, φ(x) = 1 2π e x2 2, x R. 6. Wartości dystrybuanty rozkładu N(0, 1) można wyznaczyć jedynie numerycznie, bo nie da się obliczyć całki φ(s) x ds. 7. Tablice rozkładu N(0, 1). Dla z [0; 3.49) wyznaczono wartości Φ(z), czyli dystrybuanty rozkładu N(0, 1). Wartości tej dystrybuanty dla pozostałych z szacuje się korzystając z tego, że (a) 1 Φ(z) Φ(3.49) = dla wszystkich z (b) Φ( z) = 1 Φ(z) dla z R. 8. Chcąc znaleźć prawdopodobieństwa dla zmiennej o dowolnym rozkładzie normalnym wykorzystujemy następujący: Fakt: Jeśli X D = N(µ, σ 2 ) to cx + d D = N(µ + d, c 2 σ 2 ) dla dowolnych liczb c, d R,. W szczególności Z = X µ σ D = N(0, 1). Z ostatniej równości wynika, że dla dowolnych a b ( ) ( ) b µ a µ (a) Pr(a < X < b) = Φ Φ, σ σ ( ) a µ (b) Pr(X < a) = Φ, σ ( ) b µ (c) Pr(X > b) = 1 Φ. σ Przykład: Jeśli X = D N(1, 2 2 ) to Pr( 1 < X < 5) = Φ ( ) Φ ( ) = Φ(2) Φ( 1) = Φ(2) (1 Φ(1)) = Φ(2) + Φ(1) 1 = Dla każdego α (0, 1) symbolem z α oznaczamy kwantyl rzędu 1 α rozkładu N(0, 1), to znaczy liczbę z α, taką że dla zmiennej losowej Z mającej rozkład N(0, 1) zachodzi równość Pr(Z z α ) = Φ(z α ) = 1 α. W szczególności: z 0.05 = 1.65, z = 1.95, z 0.01 =

34 Tables T-3 Probability Table entry for z is the area under the standard normal curve to the left of z. z TABLE A Standard normal probabilities (continued) z

35 4.6.4 Rozkład chi-kwadrat Definicja 22. Jeśli zmienne losowe Z 1,..., Z v są niezależne i mają ten sam rozkład N(0, 1), to zmienna losowa X = Z Z 2 v ma rozkład chi-kwadrat z v stopniami swobody, co oznaczamy X D = χ 2 v. 1. Zmienne losowe o rozkładzie chi-kwadrat tworzą rodzinę rozkładów indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0). Zmienna losowa o rozkładzie χ 2 v jest ciągła, przyjmuje wszystkie wartości dodatnie (i tylko takie), a najczęściej te bliskie v. 2. Gęstość rozkładu χ 2 v jest prawoskośna. Jej postać pomijamy, gdyż jest skomplikowana. 3. Dla każdego α (0, 1) symbolem χ 2 v,α oznaczamy kwantyl rzędu 1 α rozkładu chi-kwadrat z v stopniami swobody, to znaczy liczbę χ 2 v,α, taką że dla zmiennej losowej X mającej rozkład χ 2 v zachodzi równość Pr(X χ 2 v,α) = α. 4. Kwantyle χ 2 v,α można wyznaczyć jedynie numerycznie. Ich wartości, dla niektórych v i α, można odczytać z tablic rozładu chi-kwadrat. 35

36 Rysunek 16: Gęstości rozkładów χ 2 2, χ 2 3 i χ

37 T-20 Tables Table entry for p is the critical value (χ 2 ) with probability p lying to its right. ( χ 2 )* Probability p TABLE F χ 2 distribution critical values Tail probability p df

38 4.6.5 Rozkład t-studenta Definicja 23. Jeśli zmienne losowe Z o rozkładzie N(0, 1) i Y o rozkładzie χ 2 v są niezależne, to zmienna losowa T = Z ma rozkład t-studenta z v Y/v stopniami swobody, co oznaczamy T D = t v 1. Zmienne losowe o rozkładzie t-studenta tworzą rodzinę rozkładów symetrycznych, indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0). Zmienna losowa o rozkładzie t v jest ciągła, przyjmuje wszystkie wartości z przedziału (, ), ale najczęściej te bliskie zera. 2. Gęstość rozkładu t v jest symetryczna. Jej postać pomijamy, gdyż jest skomplikowana. 3. Dla każdego α (0, 1) symbolem t v,α oznaczamy kwantyl rzędu 1 α rozkładu t-studenta z v stopniami swobody, to znaczy liczbę t v,α, taką że dla zmiennej losowej T mającej rozkład t v zachodzi równość Pr(T t v,α ) = α. 4. Kwantyle t v,α można wyznaczyć jedynie numerycznie. Ich wartości, dla niektórych v i α, można odczytać z tablic rozładu t-studenta. 38

39 Rysunek 17: Gęstości rozkładów t 2, t 3 i t 5 39

40 Tables T-11 Table entry for p and C is the critical value t with probability p lying to its right and probability C lying between t and t. TABLE D t distribution critical values t* Probability p Upper-tail probability p df z % 60% 70% 80% 90% 95% 96% 98% 99% 99.5% 99.8% 99.9% Confidence level C

41 5 Statystyka Statystyka jest nauką o wnioskowaniu. Jej celem jest uogólnianie informacji zawartych w danych. Przykład: Jak przewidzieć wyniki wyborów parlamentarnych, znając jedynie preferencje wyborcze niewielkiej grupy potencjalnych wyborców? Czym zajmuje się statystyka? 1. Zbieranie danych: spis powszechny, sondaże przedwyborcze, ankiety, eksperymenty fizyczne. 2. Analizowanie danych: opracowywanie, wizualizacja, konstrukcja modeli statystycznych. 3. Interpretowanie danych, czyli wyciąganie wniosków: co jest i co będzie. Dawniej celem statystyki było zbieranie i analizowanie danych dla rządu. Spis ludności to najstarsza i zarazem najdroższa z metod zbierania danych Ten, który przeprowadzono w 2010 roku w USA, kosztował około 14 mld $, czyli 45 $ na osobę. 5.1 Cel statystyki matematycznej Definicja 24. Populacja generalna to zbiór dowolnych elementów (osób, przedmiotów, urządzeń, zdarzeń) posiadających wspólną, interesującą nas cechę. Przykłady populacji i cech: 1. populacja: wszyscy Polacy mające czynne prawo wyborcze, cecha: preferencje polityczne; 2. populacja: wszyscy mężczyżni mający co najmniej 20 lat, cechy: wzrost, waga, poziom cholestoerolu, cisnienie tętnicze; 3. populacja: wszyscy pracownicy wyższych uczelni. cecha: zarobki. Cel wnioskowania statystycznego: sformułowanie wniosków o rozkładzie cechy w populacji, a w szczególności o jego parametrach. Przykłady: 1. jaki procent Polaków ma astygmatyzm, 2. jakie są średnie zarobki pracowników wyższych uczelni, 3. czy otyłość sprzyja nadciśnieniu? Definicja 25. Rozkład cechy: wskazujemy zbiór wszystkich możliwych wartości tej cechy i podajemy jak często każda z tych wartości się pojawia. Definicja 26. Próba to dowolny podzbiór populacji, zazwyczaj znacznie mniej liczny niż ona. 41

42 Jak przebiega wnioskowanie statystyczne? Mierzymy wartości interesującej nas cechy Y dla każdego z elementów próby, wyznaczamy rozkład tej cechy w próbie i na tej podstawie formułujemy wnioski o jej rozkładzie w populacji. Dlaczego ograniczamy się do próby? Populacja jest zazwyczaj bardzo liczna, więc niemożliwe jest przeanalizowanie wszystkich możliwych pomiarów (jaki procent Chińczyków ma dostęp do internetu). Pomiary są kosztowne. Pomiary są czasochłonne (przeżywalność po skomplikowanym zabiegu chirurgicznym). Przeprowadzenie pomiaru jest związane ze zniszczeniem mierzonego obiektu (testy zderzeniowe) Reprezentatywność próby Aby wnioskowanie było sensowne, próba musi być reprezentatywna, tzn. rozkład cechy w próbie nie powinien się zbytnio różnić od rozkładu cechy w populacji. 1. Reprezentatywność próby można sobie zapewnić wybierając ją w sposób losowy, na przykład za pomocą losowania prostego, przy którym każdy z elementów populacji ma takie same szanse, by trafić do próby. Dwa sposoby losowania prostego: (a) Losowanie proste bez zwracania. (b) Losowanie proste ze zwracaniem. Model takiego losowania: wyciągamy z kapelusza (bez zwracania albo ze zwracaniem) wrzucone do niego kartki z numerami kolejnych elementów populacji. Próbę tworzą te obiekty populacji, których numery znalazły się na wylosowanych kartkach. Praktyczniejszy schemat losowania: (a) losowanie warstwowe: najpierw populację dzieli się na podpopulacje, zwane warstwami, a następnie z poszczególnych warstw pobiera się elementy do próby za pomocą losowania prostego. Celem podziału badanej populacji na warstwy i jest wyodrębnienie w zróżnicowanej zbiorowości możliwe jednorodnych grup jednostek. Poszczególne warstwy powinny być silnie zróżnicowane między sobą i homogeniczne (jednorodne) wewnątrz. Warstwowania dokonujemy tak, aby otrzymane warstwy były rozłączne i aby każda jednostka populacji należała do jednej i tylko jednej warstwy. 2. Dlaczego wystarczy ograniczać się do próby losowej? Dzięki stabilizacji częstości (wniosek z MPWL). Obserwując dużą liczbę zdarzeń losowych tego samego typu zauważamy regularność: 42

43 (a) liczba wyrzuconych orłów liczba wyrzuconych reszek 1, gdy moneta jest symetryczna; (b) frakcja urodzonych chłopców 0.51; 3. Nielosowy dobór próby może powodować jej obciążenie, czyli faworyzowania pewnej szczególnej części populacji. Przykłady błędnego doboru próby: Sondaż dotyczący stosunku Polaków do wprowadzenia euro w roku 2011, przeprowadzony wśród członków klubu parlamentarnego PIS. Sondaż dotyczący stosunku Polaków do dopuszczalności zabiegu przerywania ciązy przeprowadzony wśród słuchaczy Radia Maryja, Prognozy wyborcze dotyczące wyników wyborów prezydenckich w USA przeprowadzone w roku 1936 przez Literary Digest. (Sondaż, przeprowadzony wśród ponad 2 mln respondentów, przewidywał miażdżącą wygraną gubernatora Landona. W rzeczywistości prezydentem został Roosvelt. Na czym polegał błędny dobór próby: sondaż przeprowadzono telefonicznie, ograniczając się więc do specyficcznej grupy wyborców) Zastosowania statystyki matematycznej: Wnioskowanie statystyczne wykorzystuje się w takich dziedzinach jak medycyna, genetyka, epidemiologia, finanse, bankowość, ekonomia, marketing, kontrola jakości Trzy główne zadania statystyki matematycznej: 1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+? 2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80% Polaków to zwolennicy programu 500+? 3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+? 43

44 5.2 Wstępna analiza danych Interesująca nas cecha Y może być ilościowa albo jakościowa. 1. Zmienna ilościowa: jej wartościami są liczby (waga, wzrost, ciśnienie). (a) ciągła: (zbiór możliwych wartości zawiera przedział) wzrost, waga, stężenie, (b) dyskretna: (zbiór możliwych wartości jest przeliczalny) liczba punktów z egzaminu, liczba bramek, które Barcelona zdobędzie w sezonie 2015/ Zmienna jakościowa: jej wartościami nie są liczby lecz kategorie (generowane przez płeć, kolor oczu, grupę krwi). (a) porządkowa: kategorie można w naturalny sposób uporządkować: odpowiedzi na pytania w ankiecie: nigdy, rzadko, czasami, często, zawsze; poglądy polityczne: konserwatywne, umiarkowane, liberalne. (b) nieporządkowa: kategorii nie można sensownie uporządkować: płeć, rasa, zawód. Oczywiście, próba może zawierać dane obu typów (np. dla każdego z n losowo wybranych pacjentów mierzymy ciśnienie tętnicze i poziom cholesterolu oraz określamy jego płeć i wykształcenie). 5.3 Opis rozkładu elementów próby Załóżmy, że z populacji Ω została wybrana w sposób reprezentatywny próba s rozmiaru n. Niech x 1,..., x n oznaczają wartości cechy Y, niekoniecznie liczbowe, zmierzone dla kolejnych elementów próby. Gdy n jest duże (genetyka, cyklotron, zderzacz hadronów, transakcje w dużych sieciach sklepowych), konieczne jest wstępne opracowanie danych, by ułatwić wnioskowanie statystyczne. Ponieważ próba może zawierać wszystkie elementy populacji, poniżej opisane metody charakteryzują również rozkład cechy w populacji. Dwa warunki, które ułatwiają analizę danych: 1. Najpierw analizujemy każdą ze zmiennych z osobna, a potem badamy wzajemne relacje między tymi zmiennymi. 2. Analizę każdej ze zmiennych zaczynamy wykonania od rysunków (histogramy, box-ploty, wykresy słupkowe), a potem wyznaczamy różne charakterystki liczbowe (średnią, medianę, wariancję,kwartyle). 44

45 5.3.1 Analiza danych jakościowych Rozkład podaje liczbę lub procent osobników w danej kategorii. 1. wykres kołowy: Prosty sposób prezentacji danych, których wartości dają w sumie pewną całość (a) skład wyznaniowy ludności Warszawy na początku XX wieku : katolicy 60%, Żydzi 32%, Inne wyznania 8%). 2. wykresy słupkowe: Prosty sposób prezentacji danych, których wartości mogą, ale nie muszą dawać w sumie pewną całość (a) dochody osobiste w różnych regionach USA w 1983 (Północny Wschód 300 mld $, Środkowy Wschód 320 mld, Południe 400 mld.); (b) procent użytkowników, którzy stwierdzają, że na ich życie duży wpływ mają: telefony komorkowe, laptopy, ipady. Rysunek 18: Skład wyznaniowy ludności Warszawy na początku XX wieku 45

46 Rysunek 19: Skład wyznaniowy ludności Warszawy na początku XX wieku Analiza danych ilościowych: Rozkład interesuje nas to jakie wartości przyjmuje cecha ilościowa i jak często każda z tych wartości jest przyjmowana. W szczególności interesuje nas kształt, środek, rozrzut rozkładu cechy. 1. Kształt: (a) Ile jest punktów szczytowych (mod)? (b) Czy rozkład jest symetryczny, czy też skośny. 2. Środek: punkt centralny. 3. Rozrzut: odstęp między największymi i najmniejszymi wartościami. 4. Identyfikacja obserwacji odstających (nie pasujących do reszty). EDA dla danych ilościowych: Zaobserwowane w próbie wartości cechy jakościowej: x 1,..., x n. Statystyki porządkowe: Ustawiamy wartości próby x 1,..., x n od najmniejszej do największej otrzymujemy zwane statystykami pozycyjnymi (porządkowymi) x (1)... x (n). Rozkład cechy w próbie: Niech y 1 < y 2... < y k oznaczają różne, uporządkowane rosnąco, wartości próby x 1,..., x n i niech n i będzie liczbą powtórzeń wartości y i w próbie, i = 1,..., k. Wówczas ciąg (y 1, n 1 ),..., (y k, n k ) nazywamy rozkładem cechy w próbie x 1,..., x n. Pokazuje on jakie wartości przyjmuje cecha w próbie i jak często. 46

47 Rozkład częstości cechy w próbie: Jeśli w definicji rozkładu zamiast wartości n i podamy częstość występowania wartości y i, to jest n i /n, to otrzymamy ciąg (y 1, n 1 /n),..., (y k, n k /n) nazywamy rozkładem częstości cechy w próbie x 1,..., x n. Przykład 1. Wyniki 25 rzutów kostką: 1, 2, 2, 3, 6, 6, 2, 5, 4, 3, 5, 6, 1, 3, 2, 2, 2, 2, 6, 5, 4, 3, 4, 5, statystyki pozycyjne to odpowiadające tej próbie: 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 2. rozkład i rozkład częstości dla tej próby: Wartość (liczba oczek) Liczność Częstość Szereg rozdzielczy: Jeśli liczba różnych obserwacji w próbie jest duża, to rozkład częstości jest niezbyt czytelny. Dlatego najpierw grupujemy dane. W tym celu wybieramy liczbę k N i liczby a 1 < a 2 <... a k+1, takie że a 1 < x (1) i a k+1 > x (n). Tworzymy przedziały I 1 = [a 1, a 2 ), I 2 = [a 2, a 3 ),..., I k = [a k, a k+1 ), zwane klasami i obliczamy n 1,..., n k - liczby obserwacji z próby wpadających do przedziałów I 1,..., I k. Obliczamy również kolejne częstości. Przykład: Wydatki (w setkach zł) 1000 losowo wybranych klientów Tesco: Wydatki [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) Liczność Częstość Histogram: Sporządzenie histogramu polega na naniesieniu na poziomej osi układu współrzędnych rozpatrywanych przedziałów i zbudowaniu nad nimi przylegających do siebie słupków. Wysokość h j słupka nad przedziałem I j jest tak dobrana, by pole tego słupka było wprost proporcjonalne do n j. Przykładowo: h j = n j, j = 1,..., k. n(a j+1 a j ) 1. zazwyczaj wysokości słupków dobieramy tak, by suma pól prostokątów była równa 1; 2. Jeśli przedziały klasowe mają te same długości, wysokości słupków są wprost proporcjonalne do liczby obserwacji z odpowiadających im klas. 47

48 3. Nie istnieje jedyny właściwy sposób rysowania histogramu, ale należy uwzględnić następujące zasady: (a) liczba klas: k n (b) końce przedziałów klasowych powinny być wygodnymi liczbami ( [2, 3) a nie [1.99, 3.01) ). (c) jeśli to możliwe, tworzymy przedziały tej samej długości. Rysunek 20: Wydatki 1000 losowo wybranych klientów Tesco Histogram jest sugestywnym środkiem syntezy obserwacji zawartej w próbie, ponieważ jest opisem graficznym. Analizując histogram należy zwrócić uwagę na ogólną prawidłowość z jaką układają się dane i uderzające odstępstwa od tej prawidłowości. Prawidłowość można ocenić 1. wyznaczając środek i rozproszenie histogramu, 2. opisując kształt histogramu, to znaczy, czy jest on symetryczny, czy też skośny (prawoskośny, gdy ma długie prawe ogony, a średnia jest większa od mediany, albo lewoskośny), 3. identyfikując obserwacje odstające, tzn. wartości skrajne, duże lub małe. 48

49 Rysunek 21: Histogram dla rozkładu symetrycznego Rysunek 22: Histogram dla rozkładu prawoskośnego Wykres łodyga-liście Jeśli liczba obserwacji w próbie nie jest zbyt duża, to zamiast histogramu możemy zrobić wykres łodyga-liście. W tym celu: Każdą obserwację dzielimy na dwie części: łodygę i liść. Liśćiem jest ostatnia (położona najbardziej na prawo) z cyfr tworzących tę liczbę. Pozostałe cyfry to łodyga. Uporządkowane malejąco łodygi wypisujemy w pionowej kolumnie, tak by najmniejsza z nich znalazła się na górze. Na prawo od tej kolumny rysujemy pionową linię. Uporządkowane rosnąco liście, odpowiadające ustalonej łodydze, wypisujemy w poziomym wierszu, na prawo od tej łodygi. Zaleta: Nie tracimy informacji wynikającej z grupowania danych. 49

50 Przykład: Łodyga Liście Wykres łodyga liście dla próby 5.0, 1.2, 2.5, 4.1, 1.6, 3.8, 5.0, 2.6, 2.9, 5.8 Wskaźniki sumaryczne: Próbę należy również scharakteryzować za pomocą kilku wskaźników liczbowych umożliwiających odpowiedź na pytania: gdzie leży środek próby? jak duże jest rozproszenie cechy w próbie wokół owego środka? Wskaźniki określające środek próby nazywamy wskaźnikami położenia. Wskaźniki określające rozproszenie próby wokół środka nazywamy wskaźnikami rozproszenia. Wskaźniki położenia 1. Wartość średnią w próbie x 1,..., x n, oznaczaną x, otrzymujemy dodająć do siebie wartości x 1,..., x n i dzieląc otrzymany wynik przez n (liczbę obserwacji), tzn. x = x 1 + x x n. n Uwaga: x jest estymatorem (oszacowaniem) średniej w populacji. 2. Medianą w próbie x 1,..., x n jest środek próby, tzn. liczba M, taka że połowa wartości próby jest większa niż M a druga połowa jest mniejsza niż M. Aby znaleźć medianę Ustawiamy obserwacje od najmniejszej do największej otrzymując wartości x (1)... x (n). Jeśli n jest nieparzyste, to mediana jest środkową obserwacją wśród x (1),..., x (n). Jeśli n jest parzyste, to mediana jest równa średniej arytmetycznej z dwóch środkowych obserwacji spośród x (1),..., x (n). To oznacza, że { x((n+1)/2), gdy n jest nieparzyste, M = x (n/2) + x (n/2+1), gdy n jest parzyste. 2 Przykłady: 50

51 (a) Dla próby 6, 2, 1, 8, 4 statystykami porządkowymi są 1, 2, 4, 6, 8. Ponieważ n = 5 jest liczbą nieparzystą, medianą jest środkowa, czyli trzecia statystyka porządkowa: M = x (3) = 4. (b) Dla próby 7, 2, 1, 8 statystykami porządkowymi są 1, 2, 7, 8. Ponieważ n = 4 jest liczbą parzystą, medianą jest średnia z dwóch środkowych statystyk porządkowych: czyli średnia z drugiej i trzeciej statystyki porządkowej: M = x (2) + x (3) 2 = Uwaga: Mediana w próbie jest estymatorem mediany w populacji, Średnia a mediana = 3, Mediana dzieli powierzchnię histogramu na połowę, a średnia to środek ciężkości histogramu; 2. Mediana jest odporna na obserwacje odstające, a średnia nie; 3. Jeżeli histogram jest prawoskośny (długie prawe ogony), to średnia jest zwykle większa niż mediana. 4. Obie te miary położenia są jednakowo ważne; 5. Mediana zawsze jest dobra miarą położenia, a średnia jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny; 6. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Wskaźniki rozproszenia Analiza danych, przeprowadzana jedynie na podstawie miar położenia, może prowadzić do błędnych wniosków. Przykładowo, z równości median zarobków w dwóch grupach pracowników, nie wynika, że zarobki w tych grupach mają ten sam rozkład. W pierwszej grupie wszyscy mogą bowiem zarabiać tyle samo, podczas gdy w drugiej mogą być tacy, co zarabiają dużo i tacy,co zarabiają mało. Analizując dane trzeba więc także uwzględnić ich rozproszenie. Przykład: Dwie próby 10, 0, 10 i 0, 0, 0, 0 mają te same średnie 0 i te same mediany 0, ale pierwsza z nich jest znacznie bardziej rozproszona. 1. Pierwszy i trzeci kwartyl w próbie x 1,..., x n. Pierwszy kwartyl Q1 to mediana z tych obserwacji z próby, które są położone na lewo od mediany M w uporządkowanej próbie x (1)... x (n). Trzeci kwartyl Q3 to mediana z tych obserwacji z próby, które są położone na prawo od mediany M w uporządkowanej próbie x (1)... x (n). Uwaga: (a) Q1 i Q3 to estymatory pierwszego i trzeciego kwartyla w populacji. (b) Q1, M, Q3 dzielą próbę na cztery, mniej wiecej równoliczne, części. 51

52 2. Rozstęp międzykwartylowy w próbie IQR = Q3 Q1. IQR jest lepszą miarą rozproszenia w próbie niż x n x 1, bo obie eksremalne st. poz. mogą być obserwacjami odstającymi. Uwaga: IQR = Q3 Q1 jest estymatorem rozstępu międzykwartylowego w populacji pierwszego i trzeciego kwartyl w populacji. 3. kwantyl rzędu p, gdzie p (0, 1): x p = inf{x : Fn (x) p} = { X([np]) gdy np N, X ([np]+1) gdy np / N. Inne podejście, odpowiadające podanej powyżej defincji mediany: { X([np]) + X ([np]+1) x p = gdy np N, 2 X ([np]+1) gdy np / N. Uwaga: x p jest estymatorem kwantyla rzędu p w populacji 4. Wariancja w próbie x 1,..., x n, oznaczaną symbolem s 2, otrzymujemy dodając do siebie kwadraty odchyleń kolejnych obserwacji od średniej x i dzieląc otrzymany wynik przez n 1, tzn. s 2 = (x 1 x) 2 + (x 2 x) (x n x) 2. n 1 Uwaga: s 2 jest estymatorem wariancji w populacji. 5. Odchylenie standardowe w próbie x 1,..., x n, oznaczane symbolem s, to dodatni pierwiastek z wariancji w próbie, tzn. (x1 x) s = 2 + (x 2 x) (x n x) 2. n 1 Uwaga: (a) s mierzy rozproszenie próby wokół średniej próbkowej, więc używa się tego parametru, gdy za wskaźnik położenia przyjmuje się x; (b) s 0, przy czym s = 0 wtedy i tylko wtedy, gdy wszystkie wartości w próbie są takie same. s i s 2 rośną wraz z rozproszeniem. (c) s jest lepsze od s 2, bo wyraża się w tych samych jednostkach co wartości w próbie. (d) IQR jest odporne na obserwacje odstające, a s 2 nie jest (nawet jedna obserwacja odstająca drastycznie zwiększa s 2 ). (e) IQR zawsze jest dobrą miarą rozproszenia, a s 2 jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny; Znając medianę i kwartyle możemy sporządzić jeszcze jeden rysunek ułatwiający wnioskowanie o próbie. Jest nim 52

53 Wykres pudełkowy: Bardzo przydatnym, graficznym środkiem wstępnej analizy danych, jest wykres pudełkowy. Można z niego odczytać pięć wielkości charakteryzujących próbę: najmniejszą obserwację, pierwszy kwartyl Q 1, medianę M, trzeci kwartyl Q 3, największą obserwację. Skala na osi pionowej odpowiada wartościom obserwacji. Dolna podstawa ramki to pierwszy kwartyl, górna to trzeci kwartyl. Długosć pionowego boku ramki to oczywiście IQR. Poziomy odcinek wewnątrz ramki to mediana. Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację. Podobnie konstruuje się dolny wąs. Zmodyfikowany box-plot: Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację mniejszą lub równą Q IQR. Analogicznie dla dolnego wąsa. Obserwacje odstające, czyli te spoza przedziału [Q IQR, Q IQR], są nanoszone indywidualnie. 1. Za pomocą box-plotów dobrze porównuje się rozkłady tej samej cechy w kilku próbach (np. zarobki mężczyzn i kobiet). 2. Ponieważ (x, s) nie są odporne na obserwacje odstające i mogą prowadzić do błędnych wniosków, gdy rozkład cechy nie jest symetryczny, do analizy zawsze należy dołączyć box-plot. Rysunek 23: Box-plot dla próby rozmiaru n = 100 z rozkładu normalnego N(0, 1). 53

54 Rysunek 24: Box-ploty dla trzech prób rozmiaru n = 100 z rozkładów normalnych N(0, 1), N(1, 2 2 ) i N(1, 3 2 ) Rysunek 25: Zmodyfikowany box-plot dla próby rozmiaru n = 50 z rozkładu chi-kwadrat z jednym stopniem swobody. Wykres przebiegu. Czasami dane ilościowe z próby są pomiarami pewnej wielkości, zbieranymi w następujących po sobie momentach czasowych. Wówczas dobrym pomysłem na ich wizualizację jest sporządzenie ich wykresu w funkcji czasu. Dane tego typu noszą nazwę szeregu czasowego, a odpowiadający im wykres jest zwany wykresem przebiegu. Analizując taki wykres można stwierdzić czy istnieje zależność między wartościami obserwowanymi w sąsiednich momentach czasowych, ogólna tendencja wzrostowa albo spadkowa (trend), zmienność sezonowa (kształt wycinka wykresu pojawiający się w kolejnych przedziałach czasowych). 54

55 Rysunek 26: Notowania akcji firmy Microsoft od stycznia roku do marca roku Podsumowanie Przeprowadzając wstępną analizę danych 1. Wyznaczamy wskaźniki liczbowe charakteryzujące środek i rozproszenie próby, czyli średnią i wariancję w próbie lub medianę i kwartyle w próbie. 2. Rysujemy box-plot, gdyż ułatwia on przeanalizowanie położenia i rozproszenia próby. 3. Rysujemy histogram by ocenić kształt, środek, rozrzut rozkładu cechy. Za jego pomocą (a) znajdujemy punkty szczytowe, czyli najczęściej powtarzające się wartości (modę) (dla nich słupki histogramu są najwyższe), (b) oceniamy czy rozkład jest symetryczny, czy też skośny. (c) znajdujemy środek - punkt centralny (d) wyznaczamy rozrzut, czyli odstęp między największymi i najmniejszymi wartościami. (e) identyfikujemy obserwacje odstające (niepasujące do pozostałych obserwacji). 4. Jeśli histogram jest symetryczny, środek i rozrzut rozkładu oceniamy za pomocą średniej i wariancji. W przeciwnym razie podajemy też medianę i kwartyle. 5. Jeśli w próbie są obserwacje odstające, środek i rozrzut rozkładu oceniamy za pomocą mediany i kwartyli, bo średnia i wariancja nie są odporne na takie obserwacje. 55

56 Przykład: Roczne dochody (w dolarach) 15 losowo wybranych pracownic banku JPMorgan to 16015, 17516, 19312, 16555, 18206, 20788, 12641, 16904, 15953, 17124, 19338, 18405, 17813, 19090, Dla tej próby statystyki porządkowe mają postać: 12641, 15953, 16015, 16555, 16904, 17124, 17274, 17516, 17813, 18206, 18405, 19090, 19312, 19338, 20788, a podstawowe miary położenia i rozproszenia są równe x = = s 2 = ( ) ( ) 2 = M = 17516, bo n = 15, więc medianą jest środkowa, czyli ósma obserwacja w uporządkowanej rosnąco próbie. 4. Q1 = 16555, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli Q3 = 19090, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli IQR = Q3 Q1 = = Rysunek 27: Box-plot dla danych o zarobkach w banku JPMorgan 56

57 Rysunek 28: Zmodyfikowany box-plot dla danych o zarobkach w banku JPMorgan 5.4 Zgodność z rozkładem normalnym Znaczna część procedur statystycznych wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można (nieformalnie) sprawdzać wykonując pewne proste (orientacyjne) obliczenia lub rysując wykres kwantyl-kwantyl. Przypuśćmy, że x 1,..., x n jest próbą z jakiegoś rozkładu normalnego. 1. Wykorzystanie reguły 3σ:. Jeśłi X ma rozkład N(µ, σ 2 ), to Pr(µ kσ < X < µ + kσ) jest równe 0.68 dla k = 1, 0.95 dla k = 2 i dla k = 3. Wniosek: Procent obserwacji x i w próbie, które różnią się od x o mniej ks, czyli spełniają warunek {i : x ks x i x + ks}, powinien niewiele odbiegać od 68% dla k = 1, 95% dla k = 2 i 99.7% dla k = 3. Przykład: Dla próby , , 1.519, , , , , , , , , , , , , , , , , (a) n = 20, x = , s 2 = , (b) 14/20 = 70% obserwacji jest w przedziale x ± 1s; (c) 19/20 = 95% obserwacji jest w przedziale x ± 2s; (d) 20/20 = 100% obserwacji jest w przedziale x ± 3s; (e) Można uznać, że próba pochodzi z rozkładu normalnego. 2. Histogram: powinien swoim kształtem przypominać gęstość rozkładu normalnego. 57

58 Rysunek 29: Histogram sugeruje, że próba pochodzi z rozkładu normalnego Rysunek 30: Histogram sugeruje, że próba nie pochodzi z rozkładu normalnego 3. Punkty na wykresach kwantylowych powinny układać się wzdłuż linii prostej. (a) QQPlot tworzą punkty (b) P-P plot tworzą punkty ( ( ) i Φ 1, x (i) ), i = 1,..., n. n ( x(i) x ( i n, Φ s )), i = 1,..., n. 58

59 Rysunek 31: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu normalnego Rysunek 32: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu wykładniczego 5.5 Własności średniej z próby Niech X 1,..., X n będzie losową próbą prostą z populacji (rozkładu) o średniej µ i skończonej wariancji σ 2 < i niech X i S 2 oznaczają średnią i wariancję w próbie, tzn. X = X X n n Przykłady:, S 2 = (X 1 X) 2 + (X 2 X) (X n X) 2. n 1 1. Rzut symetryczną monetą. x 1,..., x n wyniki kolejnych rzutów (x 1 = 1, liczba wyrzuconych orłów gdy w i-tym rzucie wypadł orzeł), x = liczba wykonanych rzutów. 2. Rzut monetą, która niekoniecznie jest symetryczna, a orzeł wypada z liczba wyrzuconych orłów prawdopodobieństwem p, x = liczba wykonanych rzutów. 3. Rzut kostką x i - wynik i-tego rzutu, x = 59 suma wyrzuconych oczek liczba wykonanych rzutów

60 Własności średniej 1. Nieobciążoność Zmienna losowa X ma wartość oczekiwaną µ i wariancję σ 2 /n (odchylenie standardowe σ/ n). Położenie rozkładu średniej X pokrywa się się położeniem rozkładu pojedynczej obserwacji, ale rozproszenie rozkładu średniej X jest n razy mniejsze od rozproszenia rozkładu pojedynczej obserwacji. 2. Jeśli dodatkowo wiadomo, że zmienne X 1,..., X n są niezależne i mają ten sam rozkład N(µ, σ 2 ), to statystyka n(x µ) (a) ma standardowy rozkład normalny N(0, 1). σ n(x µ) (b) ma rozkład t-studenta z n 1 stopniami swobody. S (n 1)S2 (c) ma rozkład chi-studenta z n 1 stopniami swobody. σ 2 3. Prawo wielkich liczb: X X n n µ. Wniosek: Dla każdej liczby ε > 0, nawet dowolnie małej, prawdopodobieństwo Pr ( X należy do przedziału [µ ε, µ + ε] ) jest bliskie 1 dla dużych liczności próby. Dokładniej, to prawdopodobieństwo dąży do 1, gdy n dąży do. Prawo wielkich liczb uzasadnia użycie średniej próbkowej x jako oszacowania średniej w populacji µ. Wprawdzie x rzadko jest równe µ i zmienia się z próby na próbę, ale gdy n rośnie, to wartości przyjmowane przez x coraz mniej różnią się od µ. Prawo wielkich liczb jest podstawą takich przedsięwzięć businesowych jak kasyna czy też firmy ubezpieczeniowe. Gracz nie jest w stanie przewidzieć swojej wygranej w kilku partiach ruletki. W kasynie rozgrywane są jednak tysiące partii, więc zarząd tej firmy, w przeciwieństwie do gracza, może przewidzieć jaka będzie średnia wygrana kasyna. Z prawa wielkich liczby wynika, że będzie ona bliska wartości oczekiwanej wygranej kasyna w pojedynczej partii, a ta jest większa od zera. Jeśli gracz trafi, to za każdą postawioną złotówkę dostanie 35 zł, w przeciwnym razie straci postawione pieniądze. Ponieważ prawdopodobieństwo trafienia jest równe 1/37, średnia wygrana kasyna w pojedynczej partii wynosi 1/37 kwoty postawionej przez gracza. 4. Centralne twierdzenie graniczne: Gdy próba X 1,..., X n pochodzi z rozkładu normalnego, średnia próbkowa x ma rozkład normalny. A 60

61 jaki jest jej rozkład, gdy próba nie pochodzi z rozkładu normalnego? Okazuje się, że gdy n rośnie to rozkład x coraz bardziej zaczyna przypominać rozkład normalny. Ta prawidłowość zachodzi bez względu na to jaki jest rozkład cechy X w populacji. Wniosek: Wielokrotnie, powiedzmy M razy, pobieramy próbę rozmiaru n i obliczamy odpowiadającą jej średnią próbkową x. Histogram dla tak wyznaczonych M średnich próbkowych x 1,..., x M przypomina swoim kształtem gęstość rozkładu normalnego (dzwon). Twierdzenie 9 (CTG). Niech X 1,..., X n będzie losową próbą prostą z rozkładu o średniej µ i wariancji σ 2 (0, ). Wówczas, dla dużych n, powiedzmy n 25, n(x µ) (a) ma rozkład zbliżony do standardowego rozkładu normalnego N(0, σ 1) (b) średnia X ma rozkład zbliżony do N(µ, σ 2 /n). Rysunek 33: Histogram dla M=10000 średnich próbkowych rozmiaru n = 2500 z rozkładu B(1, 0.4) Rysunek 34: Histogram dla M=10000 średnich próbkowych rozmiaru n = 2500 z rozkładu B(1, 0.5) 61

62 Wniosek: CTG możemy wykorzystać do obliczania prawdopodobieństw zdarzeń generowanych przez X: dla dowolnych a b ( Pr a n(x µ) σ ) b Φ(b) Φ(a). Dokładność tej aproksymacji zależy od rozkładu cechy X w populacji (maleje wraz ze wzrostem skośności tego rozkładu). 62

63 6 Wnioskowanie statystyczne Model: Niech θ będzie parametrem charakteryzującym rozkład interesującej nas cechy (zmiennej losowej) X w populacji, np. jego wartością oczekiwaną, wariancją, medianą, itp. Wartość tego parametru chcemy oszacować znając wartości x 1,..., x n cechy X, zmierzone dla kolejnych elementów próby (czyli przyjęte przez próbę prostą losową X 1,..., X n z tego rozkładu). Definicja 27. Próbą prostą losową o liczebności n nazywamy ciąg niezależnych zmiennych losowych X 1,..., X n, takich że każda z nich ma ten sam rozkład co X. Zmienna X 1 odpowiada potencjalnej wartości cechy X dla elementu populacji wybranego jako pierwszy, X 2 dla drugiego elementu, itd. Zauważmy, że X i możemy traktować jako zmienną losową tylko przed faktycznym wylosowaniem elementu próby. Po wylosowaniu możemy mówić jedynie o konkretnej wartości zmiennej losowej dla wybranego elementu. Wartości x 1,..., x n przyjęte przez zmienne X 1,..., X n będziemy nazywać realizacją próby. Definicja 28. Statystyką opartą na próbie losowej X 1,..., X n nazywamy każdą funkcję T (X 1,..., X n ) tej próby. Funkcja ta jest zwykłą zmienną losową, a odrębna nazwa statystyka ma podkreślać to, że wykorzystujemy tę funkcję do wyciągania wniosków o nieznanym parametrze rozkładu. Przykłady: T (x 1,..., x n ) = x, T (x 1,..., x n ) = s 2, T (x 1,..., x n ) = x (1). Zadaniem statystyki matematycznej jest podanie metod umożliwiających wyciąganie wniosków o całej populacji na podstawie dokładnego przebadania próby prostej los. X 1,..., X n, będącej niewielką częścią tej populacji. Wnioskowanie statystyczne zajmuje się więc następującym zagadnieniem: Jak związać informację z próby z informacją o całej populacji i jak ocenić wiarogodność tego powiązania? We wnioskowaniu statystycznym, dotyczącym nieznanego parametru θ Θ, charakteryzującego rozkład cechy w populacji, wyróżniamy trzy podejścia: 1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+? 2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80% Polaków to zwolennicy programu 500+? 3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+? 63

64 6.1 Estymacja punktowa Estymacja punktowa polega na wykorzystaniu informacji zawartej w próbie losowej X 1,..., X n do oszacowaniu parametru θ za pomocą pewnej statystyki θ n = T (X 1,..., X n ) zwanej estymatorem. Podstawowe fakty 1. θ (zazwyczaj) jest liczbą, ale nieznaną, 2. estymator θ n zależy od danych (tzn. od realizacji x 1,..., x n próby losowej X 1,..., X n ) więc jest zmienną losową, 3. dla każdej realizacji x 1,..., x n próby losowej X 1,..., X n, za wartość nieznanego parametru θ przyjmujemy liczbę θ n = T (x 1,..., x n ). Przykłady estymatorów. 1. Estymatorem średniej µ w populacji, czyli parametru µ = E(X), jest średnia próbkowa µ n = x. Przykład: Estymatorem średnich zarobków w populacji mężczyzn jest średnia zarobków w próbie wybranej z tej populacji. 2. Estymatorem wariancji σ 2 w populacji, czyli parametru σ 2 = Var(X), jest wariancja próbkowa: σ 2 n = s 2. Przykład: Estymatorem wariancji zarobków w populacji mężczyzn jest wariancja zarobków w próbie wybranej z tej populacji. 3. Estymatorem proporcji p w populacji, czyli względnej częstości (inaczej frakcji) występowania w populacji obiektów z pewnej klasy, jest frakcja p n takich obiektów w próbie. Przykład: Estymatorem frakcji mężczyzn z nadciśnieniem w populacji wszystkich mężczyzn jest frakcja mężczyzn z nadciśnieniem w próbie wybranej z tej populacji. 4. Estymatorem różnicy średnich dwóch populacji jest różnica dwóch średnich próbkowych. Przykład: Jeśli µ K i µ M oznaczają nieznane średnie zarobki w populacji kobiet i w populacji mężczyzn, a µ K i µ M są średnimi zarobkami w próbach wybranych z obu tych populacji, to estymatorem µ K µ M jest µ K µ M. 5. Estymatorem różnicy frakcji w dwóch populacjach jest różnica dwóch frakcji próbkowych Przykład: Jeśli p K i p M są nieznanymi frakcjami osób z nadciśnieniem w populacji kobiet i w populacji mężczyzn, a p K i p M są frakcjami takich osób w próbach wybranych z tych populacji, to estymatorem p K p M jest p K p M. 64

65 Estymować możemy nie tylko parametry liczbowe, ale także gęstość rozkładu i dystrybuantę rozkładu. 1. gęstość estymujemy np. za pomocą histogramu, 2. dystrybuantę estymujemy za pomocą dystrybuanty empirycznej: F n (x) def = liczba elementów próby, które są nie większe niż x n = #{j : x j x}, x R. n Rysunek 35: Porównanie gęstości rozkładu N(0, 1) z histogramem dla próby rozmiaru n = z tego rozkładu. Rysunek 36: Porównanie gęstości rozkładu χ 2 3 z histogramem dla próby rozmiaru n = z tego rozkładu 65

66 Rysunek 37: Porównanie dystrybuanty rozkładu N(0, 1) z dystrybuantą empiryczną dla próby rozmiaru n = 100 z tego rozkładu. 6.2 Pożądane własności estymatorów Przypuśćmy, że X 1,..., X n jest próbę prostą losową z populacji, w której mierzona cecha X ma rozkład zależny od nieznanego parametru θ, przyjmującego wartość w ustalonym zbiorze Θ. Niech θ n = T (X 1,..., X n ) będzie estymatorem tego parametru, skonstruowanym w oparciu o tę próbę. Jakie kryteria powinien spełniać θ n, by można było uznać, że jest on sensownym estymatorem θ? Przykład: Chcemy oszacować średnie zarobki pracowników KGHM. Niech x 1, x 2, x 3, x 4 oznaczają zarobki 4 losowo wybranych do próby pracowników tej firmy. Za oszacowanie średnich zarobków w całym kombinacie przyjmiemy θ 4 = T (x 1, x 2, x 3, x 4 ) = Taki estymator z pewnością nie jest sensowny, bo w ogóle nie wykorzystuje informacji zawartej w próbie, a za oszacowanie średniej płacy przyjmuje Nieobciążoność Jedną z cech dobrego estymatora jest jego nieobciążoność Definicja 29. θ n jest nieobciążonym estymatorem parametru θ, jeśli dla każdej wartości tego parametru zachodzi równość E( θ n ) = θ, która oznacza, że wartość oczekiwana estymatora jest równa wartości szacowanego parametru. Intuicyjny sens nieobciążoności: 1. Nieobciążony estymator θ n parametru θ nie ma systematycznej tendencji do tego, by albo niedoszacowywać, albo też przeszacowywać wartość θ. 2. Średnia wartość takiego estymatora jest równa θ. 66

67 Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji, proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest nieobciążony Zgodność Definicja 30. θ n jest zgodnym estymatorem parametru θ, jeśli dla każdej wartości tego parametru i dla każdego ε > 0 zachodzi równość ) lim ( θn Pr należy do przedziału [θ ε, θ + ε] = 1. n Intuicyjny sens zgodności: 1. Zgodność oznacza, że gdy rośnie rozmiar próby to wartości przyjmowane przez estymator są coraz bliższe wartości nieznanego parametru. 2. Zgodny estymator parametru θ zmienia swoją wartość z próby na próbę i rzadko kiedy ta wartość jest równa szacowanemu parametrowi θ. Jednak, gdy n rośnie, to wartości przyjmowane przez θ n coraz mniej różnią się od θ. Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji, proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest zgodny. 6.3 Metody konstrukcji estymatorów Wiadomo, jakie kryteria powinien spełniać estymator (na pewno zgodność, ewentualnie nieobciążoność). Pozostaje do rozwiązania najważniejszy problem: jak skonstruować sensowny estymator θ n parametru θ? Metoda momentów Przypuśćmy, że nieznany parametr θ = (θ 1,..., θ k ) jest k wymiarowy. Dla j = 1,..., k zdefiniujmy 1. j ty moment rozkładu: m j (θ) = E(X j ), 2. j ty moment w próbie: m j = 1 n n X j i. Uwaga: Korzystając z własności wartości oczekiwanej można pokazać, że m j jest nieobciążonym estymatorem m j (θ). Ponadto, z MPWL wynika, że m j jest zgodnym estymatorem m j (θ). Definicja 31. Estymator parametru θ, wyznaczony za pomocą metody momentów, to taka wartość θ n, która jest rozwiązaniem układu równań: i=1 m 1 ( θ n ) = m 1, m 2 ( θ n ) = m 2,.. m k ( θ n ) = m k, 67

68 Uwagi: 1. Estymator wyznaczony za pomocą metody momentów jest zmienną losową, bo jego wartość zależy od próby, tzn. θ n = θ n (X 1,..., X n ). 2. W niektórych sytuacjach ten estymator daje bezsensowne wyniki (na przykład wtedy, gdy szacuje nieznane prawdopodobieństwo za pomocą ujemnej liczby). Przykłady: 1. X 1,..., X n probą z populacji, w której mierzona cecha X ma rozkład B(1, p). Wówczas m 1 = E(X) = p. Zastępując w równaniu p = m 1 nieznany moment rozkładu momentem z próby m 1 = 1 n X i otrzy- n mujemy estymator parametru p i=1 p n = m 1 = 1 n n X i. i=1 2. X 1,..., X n próba z populacji, w której mierzona cecha X ma rozkład N(m, σ 2 ). Wówczas m 1 = E(X) = m, m 2 = E(X 2 ) = σ 2 + m 2. Po przyrównaniu dwóch pierwszych momentów rozkładu do odpowiadających im momentów próbkowych otrzymujemy układ równań z dwiema niewiadomymi m, σ 2 n X i m = 1 n i=1 σ 2 + m 2 = 1 n Xi 2. n i=1 Rozwiązaniem tego układu są m n = X = 1 n n X i, i=1 σ 2 n = 1 n n (X i X) 2 i=1 3. X 1,..., X n i.i.d. U(0, θ) Metoda największej wiarogodności Niech X 1,..., X n będzie losową próbą prostą z populacji, w której mierzona cecha X ma rozkład o gęstości (funkcji prawdopodobieństwa) f(x; θ). Definicja 32. Funkcja wiarogodności: L(θ) = L(θ; x 1,..., x n ) = n f(x i ; θ). i=1 68

69 Definicja 33. Estymatorem największej wiarogodności (estymatorem NW) parametru θ jest ta wartość θ n Θ, która (przy ustalonych, zaobserwowanych wartościach próby x 1,..., x n ) maksymalizuje funkcję wiarogodności L(θ), tzn. Uwagi: L( θ n ) = max θ Θ L(θ). 1. Estymator największej wiarodności jest zmienną losową, bo jego wartość zależy od próby, tzn. θ n = θ n (X 1,..., X n ). 2. Z własności logarytmu wynika, że funkcje L(θ) i ln(l(θ)) osiągaja wartości największe w tym samym punkcie. Wygodniej jest maksymalizować drugą z tych funkcji. 3. Za estymator NW parametru θ będziemy przyjmować wartość θ n, dla której pochodna wzlędem zmiennej θ funkcji ln(l(θ)) jest równa 0. Pominiemy więc sprawdzanie, czy w tym punkcie funkcja ln(l(θ)) faktycznie ma maksimum globalne (a nie np. minimum lokalne). Przykłady: 1. X 1,..., X n probą z populacji, w której mierzona cecha X ma rozkład B(1, p). Funkcja prawdopodobieństwa ma postać: f(x; p) = Pr(X = x) = p x (1 p) 1 x, dla x = 0, 1. Niech x 1,..., x n będzie realizacją próby. Wówczas: (a) Funkcja wiarogodności ma postać: L(p) = [ p x 1 (1 p) 1 x 1 ]... [p xn (1 p) 1 xn] = p x x n (1 p) n (x x n) = p nx (1 p) n(1 x). (b) Logarytm funkcji wiarogodności to ln(l(p)) = ln ( p nx (1 p) n(1 x)) = nx ln(p) + n(1 x) ln(1 p). (c) Pochodna względem zmiennej p funkcji ln(l(p)) jest równa [ ln(l(p)) ] = nx p n(1 x) 1 p. (d) Rozwiązaniem względem p równania [ ln(l(p)) ] = 0, a więc estymatorem NW parametru p rozkładu B(1, p), jest p n = x. 69

70 7 Przedziały ufności Estymacja przedziałowa polega na wykorzystaniu informacji zawartej w próbie losowej X 1,..., X n do skonstruowaniu przedziału liczbowego, który z dużą dozą pewności zawiera wartość szacowanego parametru θ. Przykład: Z populacji 20.6 mln kobiet w wieku od 20 do 29 lat, mieszkających na terenie USA, wybrano losowo próbę n = 654 kobiet. Średnia wartość indeksu BMI w tej próbie była równa x = Co można powiedzieć o średniej wartości µ wskaźnika BMI w całej populacji kobiet w tej grupie wiekowej? Dodatkowe założenie: przypuśmy, że tę próbę możemy potraktować jako próbę prostą losową z populacji o rozkładzie N(µ, σ 2 ), gdzie µ nie jest znane, a odchylenie standardowe σ jest znane i równe 7.5. Przy takim założeniu, średnia próbkowa x ma rozkład N(µ, σ 2 /n), czyli N(µ, (0.3) 2 ). 1. Za oszacowanie (estymator) nieznanej średniej wartości µ indeksu BMI w całej populacji przyjmiemy x = Nie oczekujemy, że x jest dokładnie równe 26.8, więc chcemy wiedzieć, jak precyzyjne jest to oszacowanie. 2. Ponieważ x ma rozkład normalny o średniej µ i odchyleniu standardowym 0.03, z drugiej części reguły wynika następujący Wniosek: dla około 95% wszystkich próbek rozmiaru 654, pobranych z populacji kobiet z analizowanej grupy wiekowej, średnia próbkowa x różni się od µ o mniej niż 2 dwa odchylenia standardowe dla x, bo = Pr (µ 2 n σ X µ + 2 n σ ) = Pr ( X µ X ) 3. Dla naszej próby zmienna losowa X przyjęła wartość x = 26.8, więc x = = 26.2, x = = Z poprzedniego punktu wynika, że mamy 95% pewności, iż przedział [26.2; 27.4] zawiera µ. Nazywamy go przedziałem ufności dla µ na poziomie ufności 0.95 (95% przedział ufności dla średniej rozkładu normalnego przy znanej wariancji). 7.1 Podstawowe pojęcia Wybierzmy liczbę α z przedziału (0, 1), zazwyczaj α = 0.01 albo α = Definicja 34. Niech â = a(x 1,..., X n ) i b = b(x 1,..., X( n ) będą ) dwoma funkcjami próby (statystykami). Mówimy, że przedział C n = â, b jest przedziałem ufności dla parametru θ na poziomie ufności 1 α, jeśli ( ) Pr â < θ < b 1 α, dla każdego θ Θ. ( ) Taki przedział â, b zawiera θ z prawdopodobieństwem 1 α. 70

71 ( ) Definicja 35. Szerokością (długością) przedziału ufności C n = â, b nazywamy różnicę b â, która jest (zazwyczaj) zmienną losową. Oczywiście najbardziej precyzyjne oszacowanie nieznanego parametru θ daje przedział, który na danym poziomie ufności ma najmniejszą długość. Podstawowe fakty 1. θ jest liczbą, ale nieznaną; wartość θ chcemy oszacować, ( ) 2. prawy i lewy koniec przedziału C n = â, b zależą od danych (tzn. od realizacji x 1,..., x n próby losowej) więc są zmiennymi losowymi, 3. dla każdej realizacji x 1,..., x n próby losowej przyjmujemy, że θ należy do przedziału liczbowego (a(x 1,..., x n ), b(x 1,..., x n )). Interpretacja poziomu ufności: Przedział liczbowy (a(x 1,..., x n ), b(x 1,..., x n )), wyznaczony na podstawie tylko jednej realizacji x 1,..., x n próby losowej, albo zawiera nieznaną wartość θ, albo i nie. Tego nie wiemy! Jeśli jednak wielokrotnie wyznaczymy przedział ufności dla θ na poziomie ufności np = 0.95 (za każdym razem wykorzystując inną realizację próby) to około 95% spośród tych przedziałów liczbowych będzie zawierać nieznaną wartość θ. Jak konstruować przedział ufności? Konstrukcja przedziału jest równoważna wskazaniu jego końców â, b, będących pewnymi statystykami. Statystyki te dobieramy tak by przedział miał 1. ustalony poziom ufności (prawdopodobieństwo pokrycia) i jak najmniejszą szerokość. Uwagi 1. Ponieważ zależy nam na tym by to prawdopodobieństwo pokrycia było duże, więc wybieramy α = 0.01 lub α = Zamiast sformułowania na poziomie ufności 1 α używamy także stwierdzenia: na poziomie ufności (1 α) 100%. 7.2 Przedziały ufności średniej populacji Niech X 1,..., X n będzie losową próbą prostą z populacji o nieznanej średniej µ i skończonej wariancji σ 2 <. Naszym celem jest konstrukcja przedziału ufności dla parametru µ na ustalonym poziomie ufności 1 α. Przedział ufności dla średniej µ w populacji ma postać: estymator średniej populacji ± margines błędu. 71

72 Oznaczmy: 1. z α/2 kwantyl rzędu 1 α/2 z rozkładu N(0, 1), tzn. liczba, taka że Φ(z α/2 ) = 1 α/2; 2. t n 1,α/2 kwantyl rzędu 1 α/2 z rozkładu t-studenta z n 1 stopniami swobody. 1. Model 1. X 1,..., X n mają rozkład normalny N(µ, σ 2 ), przy czym n(x µ) wariancja σ 2 jest znana. Wówczas zmienna losowa Z = σ ma standardowy rozkład normalny N(0, 1), więc ( Pr z α/2 n(x µ) σ z α/2 ) = 1 α. Wniosek: Przedział ufności dla µ na poziomie ufności 1 α ma postać ( X σ n z α/2, X + σ n z α/2 ). Dla około około 100(1 α)% prób, tak skonstruowany przedział ufności będzie zawierał nieznaną średnią µ. 72

73 Poniższy rysunek ilustruje opisaną wcześniej interpretację przedziałów ufności. Na podstawie 21 różnych prób, z populacji o rozkładzie normalnym ze znaną wariancją, wyznaczono 21 przedziałów ufności na poziomie ufności 95% dla nieznanej wartości oczekiwanej μ tego rozkładu. Dla każdej z tych prób czerwoną kropką oznaczono odpowiadającą jej średnią próbkową, czyli oszacowanie (wartość estymatora) parametru μ, a strzałkami zaznaczono początek i koniec przedziału ufności, skonstruowanego w oparciu o tę próbę. Choć średnia próbkowa oraz początek i koniec przedziału zmieniają się z próby na próbę, tylko jeden z tych 21 przedziałów (piąty od góry), czyli około 5% spośród nich, nie zawiera prawdziwej wartości parametru μ.

Rozkłady prawdopodobieństwa zmiennych losowych

Rozkłady prawdopodobieństwa zmiennych losowych Rozkłady prawdopodobieństwa zmiennych losowych Rozkład dwumianowy Rozkład normalny Marta Zalewska Zmienna losowa dyskretna (skokowa) jest to zmienna, której zbór wartości jest skończony lub przeliczalny.

Bardziej szczegółowo

2. Zdarzenie B = {2, 4, 6} -wypadła liczba parzysta nie jest elementarne, bo można je przedstawić w postaci sumy trzech zdarzeń elementarnych

2. Zdarzenie B = {2, 4, 6} -wypadła liczba parzysta nie jest elementarne, bo można je przedstawić w postaci sumy trzech zdarzeń elementarnych 1 Prawdopodobieństwo 1.1 Przestrzeń zdarzeń elementarnych Definition 1. Doświadczenie losowe to takie doświadczenie, którego wyniku nie da się przewidzieć, a które można wielokrotnie powtarzać w tych samych

Bardziej szczegółowo

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady WYKŁAD 2 Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady Metody statystyczne metody opisu metody wnioskowania statystycznego syntetyczny liczbowy opis właściwości zbioru danych ocena

Bardziej szczegółowo

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Niech Ω będzie przestrzenią zdarzeń elementarnych. Definicja 1 Rodzinę S zdarzeń losowych (zbiór S podzbiorów zbioru

Bardziej szczegółowo

Rachunek prawdopodobieństwa

Rachunek prawdopodobieństwa Rachunek prawdopodobieństwa Sebastian Rymarczyk srymarczyk@afm.edu.pl Tematyka zajęć 1. Elementy kombinatoryki. 2. Definicje prawdopodobieństwa. 3. Własności prawdopodobieństwa. 4. Zmienne losowe, parametry

Bardziej szczegółowo

Rachunek prawdopodobieństwa i statystyka

Rachunek prawdopodobieństwa i statystyka Rachunek prawdopodobieństwa i statystyka Przestrzeń probabilistyczna Niech Ω będzie dowolnym zbiorem, zwanym przestrzenią zdarzeń elementarnych. Elementy ω tej przestrzeni nazywamy zdarzeniami elementarnymi.

Bardziej szczegółowo

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A) Wykład 3 Niezależność zdarzeń, schemat Bernoulliego Kiedy dwa zdarzenia są niezależne? Gdy wiedza o tym, czy B zaszło, czy nie, NIE MA WPŁYWU na oszacowanie prawdopodobieństwa zdarzenia A: P (A B) = P

Bardziej szczegółowo

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna. Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Bardziej szczegółowo

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga 1 Zagadnienia 1. Przypomnienie wybranych pojęć rachunku prawdopodobieństwa. Zmienna losowa. Rozkład

Bardziej szczegółowo

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 3 Jednowymiarowe zmienne losowe Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej

Bardziej szczegółowo

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa Agata Boratyńska Agata Boratyńska Rachunek prawdopodobieństwa, wykład 2 i 3 1 / 19 Zmienna losowa Definicja Dana jest przestrzeń probabilistyczna

Bardziej szczegółowo

Elementy Rachunek prawdopodobieństwa

Elementy Rachunek prawdopodobieństwa Elementy rachunku prawdopodobieństwa Rachunek prawdopodobieństwa zajmuje się analizą praw rządzących zdarzeniami losowymi Pojęciami pierwotnymi są: zdarzenie elementarne ω oraz zbiór zdarzeń elementarnych

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu. Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu. A Teoria Definicja A.1. Niech (Ω, F, P) będzie przestrzenią probabilistyczną. Zmienną losową określoną na przestrzeni Ω nazywamy dowolną

Bardziej szczegółowo

Przestrzeń probabilistyczna

Przestrzeń probabilistyczna Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty zbiór Σ rodzina podzbiorów tego zbioru P funkcja określona na Σ, zwana prawdopodobieństwem. Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty

Bardziej szczegółowo

Jednowymiarowa zmienna losowa

Jednowymiarowa zmienna losowa 1 Jednowymiarowa zmienna losowa Przykład Doświadczenie losowe - rzut kostką do gry. Obserwujemy ilość wyrzuconych oczek. Teoretyczny model eksperymentu losowego - przestrzeń probabilistyczna (Ω, S, P ),

Bardziej szczegółowo

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15 II WYKŁAD STATYSTYKA 12/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 2 Rachunek prawdopodobieństwa zdarzenia elementarne zdarzenia losowe zmienna losowa skokowa i ciągła prawdopodobieństwo i gęstość prawdopodobieństwa

Bardziej szczegółowo

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) = Zestaw : Zmienne losowe. Które z poniższych funkcji są dystrybuantami? Odpowiedź uzasadnij. Wskazówka: naszkicuj wykres. 0, x 0,, x 0, F (x) = x, F (x) = x, 0 x

Bardziej szczegółowo

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Zbiór możliwych wyników eksperymentu będziemy nazywać przestrzenią zdarzeń elementarnych i oznaczać Ω, natomiast

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA 1 STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA 1. Pojȩcia wstȩpne. Doświadczeniem losowym nazywamy doświadczenie, którego wynik nie jest znany.

Bardziej szczegółowo

4,5. Dyskretne zmienne losowe (17.03; 31.03)

4,5. Dyskretne zmienne losowe (17.03; 31.03) 4,5. Dyskretne zmienne losowe (17.03; 31.03) Definicja 1 Zmienna losowa nazywamy dyskretna (skokowa), jeśli zbiór jej wartości x 1, x 2,..., można ustawić w ciag. Zmienna losowa X, która przyjmuje wszystkie

Bardziej szczegółowo

Dyskretne zmienne losowe

Dyskretne zmienne losowe Dyskretne zmienne losowe dr Mariusz Grządziel 16 marca 2009 Definicja 1. Zmienna losowa nazywamy dyskretna (skokowa), jeśli zbiór jej wartości x 1, x 2,..., można ustawić w ciag. Zmienna losowa X, która

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Zmienna losowa. Rozkład skokowy

Zmienna losowa. Rozkład skokowy Temat: Zmienna losowa. Rozkład skokowy Kody kolorów: żółty nowe pojęcie pomarańczowy uwaga * - materiał nadobowiązkowy Anna Rajfura, Matematyka i statystyka matematyczna na kierunku Rolnictwo SGGW 1 Zagadnienia

Bardziej szczegółowo

Rachunek prawdopodobieństwa- wykład 2

Rachunek prawdopodobieństwa- wykład 2 Rachunek prawdopodobieństwa- wykład 2 Pojęcie dyskretnej przestrzeni probabilistycznej i określenie prawdopodobieństwa w tej przestrzeni dr Marcin Ziółkowski Instytut Matematyki i Informatyki Uniwersytet

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa STATYSTYKA MATEMATYCZNA rachunek prawdopodobieństwa treść Zdarzenia losowe pojęcie prawdopodobieństwa prawo wielkich liczb zmienne losowe rozkłady teoretyczne zmiennych losowych Zanim zajmiemy się wnioskowaniem

Bardziej szczegółowo

Zdarzenia losowe i prawdopodobieństwo

Zdarzenia losowe i prawdopodobieństwo Rozdział 1 Zdarzenia losowe i prawdopodobieństwo 1.1 Klasyfikacja zdarzeń Zdarzenie elementarne pojęcie aprioryczne, które nie może być zdefiniowane. Odpowiednik pojęcia punkt w geometrii. Zdarzenie elementarne

Bardziej szczegółowo

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego 6. Zmienne losowe typu ciagłego (2.04.2007) Pole trapezu krzywoliniowego Przypomnienie: figurę ograniczoną przez: wykres funkcji y = f(x), gdzie f jest funkcją ciągłą; proste x = a, x = b, a < b, oś OX

Bardziej szczegółowo

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1 1 STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1 Klasyczny Rachunek Prawdopodobieństwa. 1. Pojȩcia wstȩpne. Doświadczeniem losowym nazywamy doświadczenie, którego wynik nie jest znany. Posiadamy

Bardziej szczegółowo

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA 1. Trójkę (Ω, F, P ), gdzie Ω, F jest σ-ciałem podzbiorów Ω, a P jest prawdopodobieństwem określonym na F, nazywamy przestrzenią probabilistyczną. 2. Rodzinę F

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Akademicka 15, p.211a bud. Agro II, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014 Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014 Zmienne losowe i ich rozkłady Doświadczenie losowe: Rzut monetą Rzut kostką Wybór losowy n kart z talii 52 Gry losowe

Bardziej szczegółowo

Prawdopodobieństwo geometryczne

Prawdopodobieństwo geometryczne Prawdopodobieństwo geometryczne Krzysztof Jasiński Wydział Matematyki i Informatyki UMK, Toruń V Lieceum Ogólnokształące im. Jana Pawała II w Toruniu 13.03.2014 Krzysztof Jasiński (WMiI UMK) Prawdopodobieństwo

Bardziej szczegółowo

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA Piotr Wiącek ROZKŁAD PRAWDOPODOBIEŃSTWA Jest to miara probabilistyczna określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni metrycznej. σ-ciało podzbiorów

Bardziej szczegółowo

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Marek Kubiak Instytut Informatyki Politechnika Poznańska Plan wykładu Podstawowe pojęcia rachunku prawdopodobieństwa Rozkład

Bardziej szczegółowo

Podstawy nauk przyrodniczych Matematyka

Podstawy nauk przyrodniczych Matematyka Podstawy nauk przyrodniczych Matematyka Elementy rachunku prawdopodobieństwa dr inż. Małgorzata Szeląg Zakład Genetyki Molekularnej Człowieka tel. 61 829 59 04 malgorzata.szelag@amu.edu.pl Pokój 1.118

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 2013/2014 Wykład 3 Zmienna losowa i jej rozkłady Zdarzenia losowe Pojęcie prawdopodobieństwa

Bardziej szczegółowo

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW Rachunek prawdopodobieństwa (probabilitis - prawdopodobny) zajmuje się badaniami pewnych prawidłowości (regularności) zachodzących przy wykonywaniu doświadczeń

Bardziej szczegółowo

Statystyka matematyczna

Statystyka matematyczna Statystyka matematyczna Wykład 5 Magdalena Alama-Bućko 1 kwietnia 2019 Magdalena Alama-Bućko Statystyka matematyczna 1 kwietnia 2019 1 / 19 Rozkład Poissona Po(λ), λ > 0 - parametr tzw. rozkład zdarzeń

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne. Twierdzenia graniczne Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 20.2.208 / 26 Motywacja Rzucamy wielokrotnie uczciwą monetą i zliczamy

Bardziej szczegółowo

Statystyka. Magdalena Jakubek. kwiecień 2017

Statystyka. Magdalena Jakubek. kwiecień 2017 Statystyka Magdalena Jakubek kwiecień 2017 1 Nauka nie stara się wyjaśniać, a nawet niemal nie stara się interpretować, zajmuje się ona głównie budową modeli. Model rozumiany jest jako matematyczny twór,

Bardziej szczegółowo

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie Jarosław Kotowicz Instytut Matematyki Uniwersytet w

Bardziej szczegółowo

Najczęściej spotykane rozkłady dyskretne:

Najczęściej spotykane rozkłady dyskretne: I. Rozkład dwupunktowy: Najczęściej spotykane rozkłady dyskretne: Def. Zmienna X ma rozkład dwupunktowy z prawdopodobieostwem 1 przyjmuje tylko dwie wartości, tzn. P(X = x 1 ) = p i P(X = x 2 ) = 1 p =

Bardziej szczegółowo

Elementy rachunku prawdopodobieństwa (M. Skośkiewicz, A. Siejka, K. Walczak, A. Szpakowska)

Elementy rachunku prawdopodobieństwa (M. Skośkiewicz, A. Siejka, K. Walczak, A. Szpakowska) Elementy rachunku prawdopodobieństwa (M. Skośkiewicz, A. Siejka, K. Walczak, A. Szpakowska) Twierdzenie (o mnożeniu) Podstawowe pojęcia i wzory kombinatoryczne. Niech,, będą zbiorami mającymi odpowiednio,,

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Lista 1a 1. Statystyka. Lista 1. Prawdopodobieństwo klasyczne i geometryczne

Lista 1a 1. Statystyka. Lista 1. Prawdopodobieństwo klasyczne i geometryczne Lista 1a 1 Statystyka Lista 1. Prawdopodobieństwo klasyczne i geometryczne 1. Jakie jest prawdopodobieństwo, że (a) z talii zawierającej 52 karty wybierzemy losowo asa? (b) z talii zawierającej 52 karty

Bardziej szczegółowo

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty Agata Boratyńska Agata Boratyńska Rachunek prawdopodobieństwa, wykład 4 / 9 Przekształcenia zmiennej losowej X

Bardziej szczegółowo

Laboratorium nr 7. Zmienne losowe typu skokowego.

Laboratorium nr 7. Zmienne losowe typu skokowego. Laboratorium nr 7. Zmienne losowe typu skokowego.. Zmienna losowa X ma rozkład dany tabelką: - 0 3 0, 0,3 0, 0,3 0, Naszkicować dystrybuantę zmiennej X. Obliczyć EX oraz VarX.. Zmienna losowa ma rozkład

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej

Bardziej szczegółowo

Rozkłady zmiennych losowych

Rozkłady zmiennych losowych Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli

Bardziej szczegółowo

Diagramy Venna. Uwagi:

Diagramy Venna. Uwagi: Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele Często modelujemy zmienność używając rachunku prawdopodobieństwa. Prawdopodobieństwo opadów deszczu wynosi 80%. (zinterpretuj) Prawdopodobieństwo

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 2. Aksjomatyczna definicja prawdopodobieństwa Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 10.10.2017 1 / 33 Klasyczna definicja prawdopodobieństwa

Bardziej szczegółowo

Rozkłady prawdopodobieństwa

Rozkłady prawdopodobieństwa Tytuł Spis treści Wersje dokumentu Instytut Matematyki Politechniki Łódzkiej 10 grudnia 2011 Spis treści Tytuł Spis treści Wersje dokumentu 1 Wartość oczekiwana Wariancja i odchylenie standardowe Rozkład

Bardziej szczegółowo

07DRAP - Zmienne losowe: dyskretne i ciągłe

07DRAP - Zmienne losowe: dyskretne i ciągłe 07DRAP - Zmienne losowe: dyskretne i ciągłe Słynne rozkłady dyskretne Rozkład parametry P (X = k dla k = E(X Var(X uwagi ( dwumianowy n, p n k p k ( p n k 0,,, n np np( p liczba sukcesów w n próbach Bernoulliego

Bardziej szczegółowo

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3 Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3 Przygotowując wykład korzystam głównie z książki Jakubowski, Sztencel Wstęp do teorii prawdopodobieństwa. Zmienna losowa i jej

Bardziej szczegółowo

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki WYKŁAD 3 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Schemmat Bernouliego Rzucamy 10 razy moneta, próba Bernouliego jest pojedynczy

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Wykład 3: Prawdopodobieństwopodstawowe

Wykład 3: Prawdopodobieństwopodstawowe Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele Często modelujemy zmienność używając rachunku prawdopodobieństwa. Prawdopodobieństwo opadów deszczu wynosi 80%. (zinterpretuj) Prawdopodobieństwo

Bardziej szczegółowo

p k (1 p) n k. k c. dokładnie 10 razy została wylosowana kula amarantowa, ale nie za pierwszym ani drugim razem;

p k (1 p) n k. k c. dokładnie 10 razy została wylosowana kula amarantowa, ale nie za pierwszym ani drugim razem; 05DRAP - Niezależność zdarzeń, schemat Bernoulliego Definicja.. Zdarzenia A i B nazywamy niezależnymi, jeżeli zachodzi równość P(A B) = P(A) P(B). Definicja. 2. Zdarzenia A,..., A n nazywamy niezależnymi

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Wybrane litery alfabetu greckiego α alfa β beta Γ γ gamma δ delta ɛ, ε epsilon η eta Θ θ theta

Bardziej szczegółowo

Ważne rozkłady i twierdzenia

Ważne rozkłady i twierdzenia Ważne rozkłady i twierdzenia Rozkład dwumianowy i wielomianowy Częstość. Prawo wielkich liczb Rozkład hipergeometryczny Rozkład Poissona Rozkład normalny i rozkład Gaussa Centralne twierdzenie graniczne

Bardziej szczegółowo

Zmienne losowe ciągłe i ich rozkłady

Zmienne losowe ciągłe i ich rozkłady Statystyka i opracowanie danych W3 Zmienne losowe ciągłe i ich rozkłady Dr Anna ADRIAN Paw B5, pok47 adan@agh.edu.pl Plan wykładu Rozkład Poissona. Zmienna losowa ciągła Dystrybuanta i funkcja gęstości

Bardziej szczegółowo

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe 4.1. Zmienne losowe dyskretne. Katarzyna Rybarczyk-Krzywdzińska Definicja/Rozkład Zmienne losowe dyskretne Definicja Zmienną losową, która skupiona

Bardziej szczegółowo

Rachunek Prawdopodobieństwa i Statystyka

Rachunek Prawdopodobieństwa i Statystyka Rachunek Prawdopodobieństwa i Statystyka W 2. Probabilistyczne modele danych Zmienne losowe. Rozkład prawdopodobieństwa i dystrybuanta. Wartość oczekiwana i wariancja zmiennej losowej Dr Anna ADRIAN Zmienne

Bardziej szczegółowo

P r a w d o p o d o b i eństwo Lekcja 1 Temat: Lekcja organizacyjna. Program. Kontrakt.

P r a w d o p o d o b i eństwo Lekcja 1 Temat: Lekcja organizacyjna. Program. Kontrakt. P r a w d o p o d o b i eństwo Lekcja 1 Temat: Lekcja organizacyjna. Program. Kontrakt. Lekcja 2 Temat: Podstawowe pojęcia związane z prawdopodobieństwem. Str. 10-21 1. Doświadczenie losowe jest to doświadczenie,

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja

Bardziej szczegółowo

1 Elementy kombinatoryki i teorii prawdopodobieństwa

1 Elementy kombinatoryki i teorii prawdopodobieństwa 1 Elementy kombinatoryki i teorii prawdopodobieństwa 1.1 Elementy kombinatoryki W rozwiązywaniu pewnych problemów związanych z obliczaniem prawdopodobieństwa o skończonej liczbie zdażeń elementarnych bardzo

Bardziej szczegółowo

Wybrane rozkłady zmiennych losowych. Statystyka

Wybrane rozkłady zmiennych losowych. Statystyka Wybrane rozkłady zmiennych losowych Statystyka Rozkład dwupunktowy Zmienna losowa przyjmuje tylko dwie wartości: wartość 1 z prawdopodobieństwem p i wartość 0 z prawdopodobieństwem 1- p x i p i 0 1-p 1

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

Lista 5. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym

Lista 5. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym Lista 5 Zadania na zastosowanie nierównosci Markowa i Czebyszewa. Zadanie 1. Niech zmienna losowa X ma rozkład jednostajny na odcinku [0, 1]. Korzystając z nierówności Markowa oszacować od góry prawdopodobieństwo,

Bardziej szczegółowo

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz. Tematy: WSTĘP 1. Wprowadzenie do przedmiotu. Próbkowe odpowiedniki wielkości populacyjnych. Modele statystyczne i przykładowe zadania wnioskowania statystycznego. Statystyki i ich rozkłady. 2. Estymacja

Bardziej szczegółowo

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018 Katedra Matematyki i Ekonomii Matematycznej SGH 16 października 2018 Definicja σ-algebry Definicja Niech Ω oznacza zbiór niepusty. Rodzinę M podzbiorów zbioru Ω nazywamy σ-algebrą (lub σ-ciałem) wtedy

Bardziej szczegółowo

Statystyka matematyczna

Statystyka matematyczna Statystyka matematyczna Wykład 6 Magdalena Alama-Bućko 8 kwietnia 019 Magdalena Alama-Bućko Statystyka matematyczna 8 kwietnia 019 1 / 1 Rozkłady ciagłe Magdalena Alama-Bućko Statystyka matematyczna 8

Bardziej szczegółowo

12DRAP - parametry rozkładów wielowymiarowych

12DRAP - parametry rozkładów wielowymiarowych DRAP - parametry rozkładów wielowymiarowych Definicja.. Jeśli h : R R, a X, Y ) jest wektorem losowym o gęstości fx, y) to EhX, Y ) = hx, y)fx, y)dxdy. Jeśli natomiast X, Y ) ma rozkład dyskretny skupiony

Bardziej szczegółowo

Wybrane rozkłady zmiennych losowych. Statystyka

Wybrane rozkłady zmiennych losowych. Statystyka Wybrane rozkłady zmiennych losowych Statystyka Rozkład dwupunktowy Zmienna losowa przyjmuje tylko dwie wartości: wartość 1 z prawdopodobieństwem p i wartość 0 z prawdopodobieństwem 1- p x i p i 0 1-p 1

Bardziej szczegółowo

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3. RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3. ZMIENNA LOSOWA JEDNOWYMIAROWA. Zmienną losową X nazywamy funkcję (praktycznie każdą) przyporządkowującą zdarzeniom elementarnym liczby rzeczywiste. X : Ω R (dokładniej:

Bardziej szczegółowo

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego Statystyka Wydział Zarządzania Uniwersytetu Łódzkiego 2017 Podstawowe rozkłady zmiennych losowych Rozkłady zmiennych skokowych Rozkład zero-jedynkowy Rozpatrujemy doświadczenie, którego rezultatem może

Bardziej szczegółowo

Statystyka podstawowe wzory i definicje

Statystyka podstawowe wzory i definicje 1 Statystyka podstawowe wzory i definicje Średnia arytmetyczna to suma wszystkich liczb (a 1, a 2,, a n) podzielona przez ich ilość (n) Przykład 1 Dany jest zbiór liczb {6, 8, 11, 2, 5, 3}. Oblicz średnią

Bardziej szczegółowo

Wykład 1: Przestrzeń probabilistyczna. Prawdopodobieństwo klasyczne. Prawdopodobieństwo geometryczne.

Wykład 1: Przestrzeń probabilistyczna. Prawdopodobieństwo klasyczne. Prawdopodobieństwo geometryczne. Rachunek prawdopodobieństwa MAP1151 Wydział Elektroniki, rok akad. 2011/12, sem. letni Wykładowca: dr hab. A. Jurlewicz Wykład 1: Przestrzeń probabilistyczna. Prawdopodobieństwo klasyczne. Prawdopodobieństwo

Bardziej szczegółowo

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2, Wykład 4. Rozkłady i ich dystrybuanty 6 marca 2007 Jak opisać cały rozkład jedną funkcją? Aby znać rozkład zmiennej X, musimy umieć obliczyć P (a < X < b) dla dowolnych a < b. W tym celu wystarczy znać

Bardziej szczegółowo

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n) MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości

Bardziej szczegółowo

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie) W2 Podstawy rachunku prawdopodobieństwa (przypomnienie) Henryk Maciejewski Jacek Jarnicki Marek Woda www.zsk.iiar.pwr.edu.pl Rachunek prawdopodobieństwa - przypomnienie 1. Zdarzenia 2. Prawdopodobieństwo

Bardziej szczegółowo

Prawdopodobieństwo

Prawdopodobieństwo Prawdopodobieństwo http://www.matemaks.pl/ Wstęp do rachunku prawdopodobieństwa http://www.matemaks.pl/wstep-do-rachunku-prawdopodobienstwa.html Rachunek prawdopodobieństwa pomaga obliczyć szansę zaistnienia

Bardziej szczegółowo

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład - Parametry i wybrane rozkłady zmiennych losowych Parametry zmiennej losowej EX wartość oczekiwana D X wariancja DX odchylenie standardowe inne, np. kwantyle,

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III. Literatura Krysicki W., Bartos J., Dyczka W., Królikowska K, Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, cz. I. Leitner R., Zacharski J., Zarys matematyki wyŝszej

Bardziej szczegółowo

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008 STATYSTYKA MATEMATYCZNA - dział matematyki stosowanej oparty na rachunku prawdopodobieństwa; zajmuje się badaniem zbiorów na podstawie analizy ich części. Nauka, której przedmiotem zainteresowania są metody

Bardziej szczegółowo

Lista 1. Prawdopodobieństwo klasyczne i geometryczne

Lista 1. Prawdopodobieństwo klasyczne i geometryczne Metody statystyczne. Lista 1. 1 Lista 1. Prawdopodobieństwo klasyczne i geometryczne 1. Jakie jest prawdopodobieństwo, że (a) z talii zawierającej 52 karty wybierzemy losowo asa? (b) z talii zawierającej

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 6. Momenty zmiennych losowych Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 8.11.2018 1 / 47 Funkcje zmiennych losowych Mierzalna funkcja Y

Bardziej szczegółowo

Diagramy Venna. Uwagi:

Diagramy Venna. Uwagi: Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele Często modelujemy zmienność używając rachunku prawdopodobieństwa. Prawdopodobieństwo opadów deszczu wynosi 80%. (zinterpretuj) Prawdopodobieństwo

Bardziej szczegółowo

Dokładne i graniczne rozkłady statystyk z próby

Dokładne i graniczne rozkłady statystyk z próby Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 1. Prawdopodobieństwo klasyczne Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 03.10.2017 1 / 19 Rys historyczny Francja, XVII w.: gry hazardowe

Bardziej szczegółowo

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno. Rachunek prawdopodobieństwa Podstawowym celem rachunku prawdopodobieństwa jest określanie szans zajścia pewnych zdarzeń. Pojęcie podstawowe rachunku prawdopodobieństwa to: zdarzenie losowe - zdarzenie

Bardziej szczegółowo

Zmienne losowe ciągłe i ich rozkłady

Zmienne losowe ciągłe i ich rozkłady Rachunek Prawdopodobieństwa i Statystyka - W3 Zmienne losowe ciągłe i ich rozkłady Dr Anna ADRIAN Paw B5, pok47 adan@agh.edu.pl Plan wykładu Zmienna losowa ciągła Dystrybuanta i unkcja gęstości rozkładu

Bardziej szczegółowo

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu 29 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś

Bardziej szczegółowo

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych. Wykład 3 Momenty zmiennych losowych. Wrocław, 18 października 2017r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną

Bardziej szczegółowo

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych. Wykład 3 Momenty zmiennych losowych. Wrocław, 19 października 2016r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną

Bardziej szczegółowo

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 1

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 1 Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 1 Przygotowując wykład korzystam głównie z książki Jakubowski, Sztencel Wstęp do teorii prawdopodobieństwa. Jakubowski, Sztencel:

Bardziej szczegółowo