Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości:

Transkrypt

1 1 Prawdopodobieństwo Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości: 1. Czy zainwestować pieniądze na giełdzie? 2. Czy ubezpieczyć laptop przed uszkodzeniami mechanicznymi? 3. Czy wykupić wycieczkę do Sharm el-sheikh? 4. Czy otworzyć pizzerię na terenie campusu? Każdej z tych decyzji towarzyszy niepewność, inaczej mówiąc losowość. Na giełdzie może nastąpić krach, a w czasie naszego pobytu Sharm el-sheikh może dojść do zamachu terrostycznego, itd. Z oczywistych powodów chcielibyśmy wiedzieć, czy dojdzie do takich zdarzeń. Rachunek prawdopodobieństwa umożliwia oszacowywanie szans wystąpienia tego typu zdarzeń, zwanych zdarzeniami losowymi. Za jego pomocą możemy, na przykład, obliczyć jakie są szanse tego, że 1. skreślimy szóstkę w totolotku, 2. dożyjemy do osiemdemdziesiątki; 3. kobieta, u której test ciążowy dał wynik pozytywny, faktycznie spodziewa się dziecka; Początki rachunku prawdopodobieństwa: rok - wydano napisaną ponad 100 lat wcześniej książkę, w której Girolamo Cardano przeanalizował szanse wygranej w niektórych grach hazardowych (w szczególności w grze w kości) rok - Pierre Simon de Laplace sformułował klasyczną definicję prawdopodobieństwa Andrey Kolmogorov sformalizował matematyczne aspekty rachunku prawdopodobieństwa, a w szczególności podał aksjomaty, które powinno spełniać prawdopodobieństwo. Zastosowania rachunku prawdopodobieństwa: 1. Analiza gier hazardowych - Texas hold em, oczko, kości; 2. Genetyka - prawa Mendla (teoria dziedziczności); 3. Informatyka - badanie złożoności obliczeniowej algorytmów; 4. Metody numeryczne - konstrukcja algorytmów stochastycznych, za pomocą których znajduje się największą (najmniejszą) wartość funkcji na ustalonym zbiorze. 5. Ubezpieczenia - szacowanie liczby wypadków komunikających, które wydarzą się w ustalonym okresie w przyszłości. 1

2 1.1 Przestrzeń zdarzeń elementarnych Definicja 1. Doświadczenie losowe to takie doświadczenie, którego wyniku nie da się przewidzieć, a które można wielokrotnie powtarzać w tych samych warunkach (rzut monetą, rzut kostką, gry hazardowe, totolotek). Definicja 2. Przestrzeń zdarzeń elementarnych to zbiór Ω zawierający wszystkie możliwe wyniki doświadczenia. Każdy podzbiór A Ω nazywamy zdarzeniem losowym. Zdarzenie elementarne, to zdarzenie losowe, którego nie da się przedstawić w postaci sumy prostszych zdarzeń. Podsumowanie: Zbiór Ω zawiera wszystkie możliwe wyniki doświadczenia losowego. Wykluczają się one wzajemnie, zaś w każdym doświadczeniu realizuje się dokładnie jeden wynik, czyli zdarzenie elementarne. Przykłady: 1. Rzucamy jeden raz kostką. Mamy sześć możliwych wyników. Ω = {1, 2, 3, 4, 5, 6}. (a) Zdarzenie A = {4} -wypadła 4 jest elementarne, bo nie można go przedstawić jako sumy dwóch prostszych zdarzeń. (b) Zdarzenie B = {2, 4, 6} -wypadła liczba parzysta nie jest elementarne, bo można je przedstawić w postaci sumy trzech zdarzeń elementarnych C = {2; }, D = {4},E = {6}. 2. Rzucamy dwa razy monetą. Mamy cztery możliwe wyniki: Ω = {(O, O), (O, R), (R, O), (R, R)}. 3. Gramy w totolotka tak długo, aż trafimy szóstkę. Interesuje nas to, za którym razem to się stanie. Możliwych wyników jest teraz nieskończenie wiele, bo przed pojawieniem się pierwszej szóstki, może być dowolnie wiele zakładów, w których skreślimy inny układ. Oczywiście, Ω = {1, 2,...} 4. Mierzymy czas jaki mija od dnia zakupu nowego auta do chwili pierwszej awarii. Ponieważ samochód może się zepsuć w dowolnym momencie, Ω = [0, ) Statystyczna regularność Rozważmy najprostsze doświadczenie losowe jakim jest rzut symetryczną monetą. Przed jego wykonaniem nie jesteśmy w stanie przewidzieć, czy wypadnie orzeł, czy też reszka. Przebiegiem tego prostego doświadczenia losowego rządzi jednak pewna prawidłowość, której efektem jest następujący fakt: jeśli wielokrotnie rzucimy monetą, to w około połowie rzutów pojawi się orzeł. Statystyczna regularność: Wraz ze wzrostem liczby powtórzeń doświadczenia losowego, stabilizuje się częstość pojawiania się każdego z możliwych wyników tego doświadczenia. 2

3 Ta statystyczna regularność, znana hazardzistom od setek lat, oznacza, że jesteśmy w stanie przewidzieć, jaki będzie średni wynik uzyskany w dużej liczbie powtórzeń tego samego doświadczenia losowego. Przykłady: 1. W rzutów symetryczną kostką każdy z sześciu możliwych wyników pojawi się około 2000 razy. 2. W 1000 rzutów parą symetrycznych monet każdy z czterech możliwych wyników (O, O), (O, R), (R, O), (R, R) pojawi się około 250 razy. 3. Jeśli 370 razy zagramy w ruletkę, za każdym razem obstawiając jedną z 37 liczb znajdujących się na kole (niekoniecznie tę samą), to wygramy około 10 razy. 1.2 Przypomnienie podstawowych faktów o zbiorach Pojęcie zbioru 1. Intuicyjnie, zbiór to pojemnik, który może mieścić dowolne obiekty zwane elementami zbioru, np. (a) zbiór wszystkich studentów UJW, (b) zbiór tych mieszkańców Wrocławia, którzy są zwolennikami PiS, (c) zbiór liczb całkowitych. 2. Zbiory oznaczamy zwykle wielkimi literami: A, B, C,... a elementy zbiorów małymi: a, b, c, Zdanie a jest elementem zbioru A zapisujemy a A, a zdanie a nie jest elementem zbioru A zapisujemy a / A. 4. Zbiór nie zawierający żadnego elementu nazywamy zbiorem pustym i oznaczamy. 5. Zbiór możemy określić na dwa sposoby: wymieniając wszystkie jego elementy. Na przykład: np. A = {1, 2, 3}, podając własność charakterystyczną dla wszystkich elementów zbioru, odróżniającą ją od elementów spoza zbioru. Na przykład: B = {x R : x < 4 i x > 0}, co czytamy: B jest zbiorem tych liczb rzeczywistych x, że x jest mniejsze od 4 i x jest większe od Mówimy, że zbiór A jest podzbiorem zbioru B, co zapisujemy A B, jeśli każdy element A jest jednocześnie elementem B. Przykład: Dla A = {1, 2, 3}, B = {1, 2, 3, 4, 5} i C = {2, 3, 5} A jest podzbiorem B, ale nie jest podzbiorem C. Uwaga: Jeśli A B i B A, to A = B. Jeśli A B i B C, to A C. 3

4 1.2.2 Działania na zbiorach Niech A i B będą dwoma podzbiorami pewnego zbioru Ω. 1. Suma zbiorów A i B (zapis symboliczny A B) to zbiór wszystkich elementów, które należą do zbioru A lub należą do zbioru B lub należą do A i B. 2. Iloczyn zbiorów A i B (zapis symboliczny A B) to zbiór wszystkich elementów, które należą do zbioru A i jednocześnie należą do zbioru B. Inne nazwy iloczynu to część wspólna, przekrój. Jeśli A B =, to mówimy, że zbiory A i B są rozłączne. 3. Różnica zbiorów A i B (zapis symboliczny A\B) to zbiór zawierający te elementy zbioru A, które nie należą do zbioru B. 4. Dopełnienie zbioru A do zbioru Ω (zapis symboliczny A c, A. A) to zbiór zawierający te elementy zbioru Ω, które nie należą do A. Rysunek 1: Suma zbiorów A i B. 4

5 Rysunek 2: Iloczyn i różnica zbiorów A i B. Przykład: Dla A = {1, 2, 3} i B = {3, 4, 5, 6} i Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9} mamy A B = {1, 2, 3, 4, 5, 6}, A B = {3}, A \ B = {1, 2}, A = {4, 5, 6, 7, 8, 9}. 5

6 1.3 Prawdopodobieństwo Rysunek 3: Dopełnienie zbioru A. Niech A będzie ustalonym podzbiorem zbioru Ω. Jeśli doświadczenie losowe zakończy się wynikiem ω i ω A, to mówimy, że zaszło zdarzenie A. Gdy zaś ω / A, to mówimy, że nie zaszło zdarzenie A. Definicja 3. Dla dowolnego A Ω, prawdopodobieństwo zdarzenia losowego A to liczba P (A), która podaje jakie są szanse tego, że zajdzie zdarzenie A. Przykłady: 1. Jakie są szanse wygranej w pojedynczej partii ruletki? 2. Jakie są szanse, że w trzech rzutach monetą wypadną trzy reszki? 3. Jakie są szanse skreślenie szóstki w totolotku? 4. Jakie są szanse, że mężczyna mający 50 lat dożyje do osiemdziesiątki? Interpretacja częstościowa prawdopodobieństwa Niech n A oznacza liczbę zajść zdarzenia A w n niezależnych powtórzeniach pewnego doświadczenia losowego. Wówczas n A P (A) = lim n n = lim liczba zajść A w n doświadczeniach n n Uwaga: Liczbę n A n doświadczeniach. Wnioski: nazywamy częstością pojawiania się zdarzenia A w n 6

7 1. Postać prawdopodobieństwa P zależy od doświadczenia losowego P (A) 1 dla każdego A Ω. 3. P ( ) = 0 i P (Ω) = 1, tzn. prawdopodobieństwa zdarzenia niemożliwego i zdarzenia pewnego są równe 0 i Gdy liczba niezależnych powtórzeń eksperymentu dąży do nieskończoności, to względna częstość występowania zdarzenia A dąży do P (A). Jest to tzw. prawo wielkich liczb. 5. Dla ustalonego (dużego) n, P (A) n A n. Przykład: Jeśli w rzutów monetą 5044 razy wypadnie orzeł, to za oszacowanie prawdopodobieństwa wyrzucenia orła w pojedynczym rzucie monetą przyjmiemy liczbę = Problem: Nigdy nie wyznaczymy w ten sposób dokładnej wartości P (A), jako że liczba powtórzeń doświadczenia zawsze będzie skończona Klasyczna definicja prawdopodobieństwa W praktyce prawdopodobieństwo często ustalamy jako częstość/proporcję grupy posiadającą interesującą nas własność. Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z egzaminu. Jakie jest prawdopodobieństwo tego, że losując studenta z tej grupy trafimy na takiego, który dostał 5.0 z egzaminu? Odp. P (A) = Kiedy tak można obliczać prawdopodobieństwo? Definicja 4. (Laplace) Jeśli zbiór Ω jest skończony, a wszystkie zdarzenia elementarne są jednakowo prawdopodobne to dla dowolnego zdarzenia A Ω Przykłady: P (A) = A Ω. 1. W urnie są cztery kule niebieskie i pięć czerwonych. Szanse wylosowania niebieskiej: W rzucie dwoma kostkami szanse uzyskania sumy oczek równej 7 wynoszą 6, bo jest 36 jednakowo prawdopodobnych zdarzeń elementarnych, 36 a sumie 7 sprzyja 6 spośród nich: {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. 3. Prawdopodobieństwo trafienia szóstki w Totolotku: p = 1 ( 49 6 ) = = , bo jest ( 49 6 ) = jednakowo prawdopodobnych sposobów wybrania 6 liczb spośród 49, a tylko jeden z nich sprzyja skreśleniu szóstki. 7

8 1.4 Aksjomaty prawdopodobieństwa Zazwyczaj zbiór Ω nie jest skończony, a nawet jeśli jest, to zdarzenia elementarne nie są jednakowo prawdopodobne. Jakie warunki powinno spełniać prawdopodobieństwo? Andrey Kolmogorov: Ponieważ prawdopodobieństwo ma służyć do oceny szans zajścia rozmaitych zdarzeń losowych, powinno spełniać te same reguły co częstość występowania zdarzenia przy powtarzaniu doświadczenia. I stąd poniższe trzy aksjomaty: 1. Aksjomaty prawdopodobieństwa: Prawdopodobieństwo Pr to dowolna funkcja określona na podzbiorach zbioru Ω spełniająca warunki (a) Pr(A) [0, 1] dla dowolnego zdarzenia A, (b) Pr(Ω) = 1, (c) Pr( i=1a i ) = i Pr(A i) dla dowolnych parami rozłącznych zdarzeń A 1, Własności prawdopodobieństwa wynikające z aksjomatów (a) Pr( ) = 0; (b) Pr(A c ) = 1 Pr(A); (c) Jeśli A B, to Pr(A) Pr(B); (d) Pr(A B) = Pr(A) + Pr(B) Pr(A B); (e) Pr(A B) Pr(A) + Pr(B). 1.5 Przykłady przestrzeni probabilistycznych 1. Ω = {ω 1, ω 2,..., ω n }; p 1,..., p n nieujemne liczby o sumie 1. Przyjmujemy, że p i = Pr({ω i }), 1 i n. Wówczas Pr(A) = p i. {i : ω i A} (a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla skończonego zbioru Ω. (b) To, jakie wartości mają liczby p 1, p 2,..., p n, zależy od analizowanego doświadczenia losowego. Szczególny przypadek: Jeśli wszystkie zdarzenia elementarne jednakowo prawdopodobne, czyli p 1 = p 2 =... = p n = 1 A, to P (A) = n Ω. 2. Ω = {ω 1, ω 2,...}; p 1, p 2,... nieujemne liczby o sumie 1. Przyjmujemy, że p i = Pr({ω i }), i. Wówczas Pr(A) = p i. {i : ω i A} 8

9 (a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla przeliczalnego nieskończonego zbioru Ω. (b) To, jakie wartości mają liczby p 1, p 2,..., zależy od analizowanego doświadczenia losowego. Przykład: Rzucamy symetryczną monetą tak długo, aż wypadnie reszka. Wówczas Ω = {ω 1, ω 2,...}, przy czym dla każdego k = 1, 2,..., zdarzenie elementarne ω k oznacza, że reszka wypadła po raz pierwszy w k-tym rzucie. W tym modelu p k = Pr({ω k }) = 1, bo w k rzutach 2k monetą jest 2 k możliwych wyników, a tylko jeden z nich sprzyja wynikowi ω k = OO,..., OR (najpierw k 1 razy wypada orzeł, a potem pojawia się reszka. 3. Ω - zbiór nieprzeliczalny, a więc zawiera jakiś przedział liczbowy. Jedna z możliwości zdefiniowania prawdopodobieństwa: f - nieujemna funkcja, taka że f(x)dx = 1. Wówczas: Ω Pr(A) = f(x)dx. Szczególny przypadek: prawdopodobieństwo geometryczne: (a) Ω R, na przykład odcinek: Pr(A) = długość(a) długość(ω) (b) Ω R 2, na przykład prostokąt: Pr(A) = pole(a) pole(ω) ; (c) Ω R 3, na przykład prostopadłościan: Pr(A) = objętość(a) objętość(ω) ; Przykład: Patyk o długość 1 łamiemy losowo w dwóch miejscach. jakie jest prawdopodobieństwo, że z tak powstałych kawałków można zbudować trójkąt. Rozwiązanie: Niech x, y oznaczają miejsce pierwszego i drugiego złamania. Oczywiście, Ω = {(x, y) [0, 1] [0, 1] : 0 < x < y < 1}. By rozwiązać to zadanie przyjmijmy następujący rozsądny model: dla każdego podzbioru A Ω Pr(punkt (x, y) A jest proporcjonalne do pola zbioru A). Trzy kawałki patyka mają długości: x, y x,1 y. Jeśłi można z nich zbudować trójkąt to x < y x+1 y, y x < x+1 y i 1 y < x+y x, czyli 0 < x < 1/2, 1/2 < y < 1 i y < x + 1/2. Pole tego obszaru jest równe 1/8, a pole Ω to 1/2. Wobec tego: Pr(z trzech kawałków patyka powstanie trójkąt) = 1/8 1/2 = 1 4. A 9

10 1.5.1 Podstawowe wzory kombinatoryczne Do obliczania prawdopodobieństw w modelach, w których wszystkie zdarzenia elementarne są jednakowo prawdopodobne, przydają się poniższe wzory. 1. Kombinacją k-elementową zbioru n-elementowego nazywamy nieuporządkowany k-elementowy podzbiór wyjściowego zbioru n-elementowego. Innymi słowy: ze zbioru n-elementowego wybieramy k elementów i nie dbamy o ich kolejność. (a) Jeżeli nie dopuszczamy powtórzeń (tak jak w Lotto), to liczba takich kombinacji bez powtórzeń wynosi ( ) n n! =, k = 0, 1,..., n; k k!(n k)! Uwaga: 0! = 1. (b) Gdy dopuszczamy możliwość powtórzeń, to liczba takich kombinacji z powtórzeniami wynosi ( ) n + k 1, k = 0, 1,... k 2. Wariacją k-elementową zbioru n-elementowego nazwamy uporządkowany ciąg k-elementowy złożony z elementów wyjściowego zbioru n- elementowego. Innymi słowy: ze zbioru n-elementowego wybieramy k-elementów, jednak kolejność wyboru ma znaczenie. (a) Jeżeli nie dopuszczamy powtórzeń to liczba takich wariacji bez powtórzeń wynosi n! (n k)! = n(n 1)... (n k + 1), k = 0, 1,..., n; Gdy k = n, to mamy do czynienia z permutacją zbioru n-elementowego i liczba takich permutacji wynosi n!. (b) Gdy dopuszczamy powtórzenia, to liczba takich wariacji z powtórzeniami wynosi n k, k = 0, 1,... Przykład: Kombinacje i wariacje 2-elementowe dla zbioru {1, 2, 3}. 1. kombinacje bez powtórzeń: {1, 2}, {1, 3}, {2, 3}, 2. kombinacje z powtórzeniami: {1, 2}, {1, 3}, {2, 3}, {1, 1}, {2, 2}, {3, 3}, 3. wariacje bez powtórzeń: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), 4. wariacje z powtórzeniami: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), (1, 1), (2, 2), (3, 3). 10

11 2 Prawdopodobieństwo warunkowe Często obliczamy prawdopodobieństwo zdarzenia A wiedząc, że zaszło pewne inne zdarzenie B. Tak wyznaczone prawdopodobieństwo oznaczamy symbolem P (A B) i nazywamy prawdopodobieństwem warunkowym zdarzenia A pod warunkiem zajścia zdarzenia B. Przykłady: 1. Szanse dożycia do następnego roku zależą od wieku, płci, trybu życia, przebytych chorób. 2. Szanse, że kierowca będzie miał stłuczkę w następnym roku zależą od jego wieku, rejonu zamieszkania, doświadczenia. Zajście zdarzenia B może, ale nie musi zmienić prawdopodobieństwo pojawienia się zdarzenia A. 1. W pierwszej urnie same kule białe,a w drugiej same czarne. Rzucamy monetą. Jesli wypadnie orzeł wyciagamy dwie kule z pierwszej urny, a jeśli wypadnie reszka dwie kule z drugiej urny. A - druga z wyciągniętych kul jest biała, B- pierwsza z wyciągniętych kul jest biała. Wówczas Pr(A) = 1/2, ale Pr(A B) = Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, A - orzeł w pierwszym rzucie. Wówczas Pr(A) = Pr(A B) = 1/2. Jak obliczać Pr(A B)? Jeśli wiemy, że zaszło zdarzenie B, to ograniczamy się do zdarzeń elementarnych sprzyjających A i zawartych w B. Intuicja podopowiada, że dla prawdopodobieństwa klasycznego Pr(A B) jest równe liczbie zdarzeń elementarnych sprzyjających A i zawartych w B, podzielonej przez liczbę wszystkich zdarzeń elementarnych zawartych w B, czyli Pr(A B) = A B B = Pr(A B). Pr(B) To prowadzi do definicji w ogólnym przypadku: Definicja 5. Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, ze zaszło zdarzenie B, gdzie Pr(B) > 0, dane jest wzorem Pr(A B) = Pr(A B). Pr(B) Dla B takiego, że Pr(B) = 0, można przyjąć Pr(A B) = 0. Examples: 1. String złożony z czterech bitów jest generowany losowo w taki sposób, że każda z 16 możliwości jest jednakowo prawdopodobna. Jakie jest prawdopodobieństwo tego, że ten string zawiera co najmniej dwa kolejne 0, jeśli wiadomo, że pierwszy bit jest równy 0? 11

12 Rozwiązanie: Niech A oznacza zdarzenie, że string długości 4 zawiera co najmniej dwa kolejne 0, a B - w stringu długości 4 pierwszym bitem jest 0. Oczywiście, A B = {0000, 0001, 0010, 0011, 0100}, Pr(A B) = 5/16, Pr(B) = 8/16 i Pr(A B) = 5/16 8/ Jakie jest prawdopodobieństwo, że w rodzinie z dwójką dzieci są dwaj chłopcy, jeśli wiadomo, że starsze dziecko jest chłopcem? Natychmiastową konsekwencją definicji prawdopodobienstwa warunkowego jest poniższe twierdzenie o mnożeniu, które mówi jak obliczyć prawdopodobieństwo danego zdarzenia, gdy znamy prawdopodobieństwa warunkowe. Twierdzenie 1. Jeśli zdarzenia losowe A 1,..., A n spełniają warunek Pr(A 1... A n 1 ) > 0 to Pr(A 1... A n ) = Pr(A 1 ) Pr(A 2 A 1 )... Pr(A n A 1... A n 1 ). 12

13 Przykład. Spośród dorosłych użykowników internetu, czyli takich, którzy mają co najmniej 18 lat, czatuje 47% osób w wieku lat, 21% w wieku lat i 7% w wieku powyżej 50 lat. Pierwsza grupa wiekowa stanowi 29% dorosłych użytkowników internetu, druga 47%, a trzecia 24%. Jakie jest prawdopodobieństwo zdarzenia C={losowo wybrany dorosły użytkownik internetu korzysta z czatów}? Odpowiemy na to pytanie wykorzystując twierdzenie o mnożeniu. Zdefiniujmy zdarzenie A 1 = { losowo wybrany dorosły użytkownik internetu pochodzi z pierwszej grupy wiekowej}. Analogicznie zdefiniujmy zdarzenia A 2 i A 3. Wówczas: P(A 1 )=0.29, P(A 2 )=0.47, P(A 3 )=0.24, a P(C A 1 )=0.47, P(C A 2 )=0.21, P(C A 3 )=0.07. Obliczamy kolejno: Prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z pierwszej grupy wiekowej jest równe P(A 1 i C)= P(A 1 ) P(C A 1 )=0.29*0.47=0.1363, prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z drugiej grupy wiekowej jest równe P(A 2 i C)= P(A 2 ) P(C A 2 )=0.47*0.21=0.0987, prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z trzeciej grupy wiekowej jest równe P(A 3 i C)= P(A 3 ) P(C A 3 )=0.24*0.07= Prawdopodobieństwo tego, że losowo wybrany dorosły użytkownik internetu korzysta z czatów jest więc równe P(C)= P(A 1 ) P(C A 1 )+ P(A 2 ) P(C A 2 )+ P(A 3 ) P(C A 3 )= = Te obliczenia ilustruje poniższy rysunek. Można z niego także odczytać, jakie jest prawdopodobieństwo, że losowo wybrany dorosły użytkownik internetu nie korzysta z czatów: P(C C )= P(A 1 ) P(C C A 1 )+ P(A 2 ) P(C C A 2 )+ P(A 3 ) P(C C A 3 )= =

14 Przykład: 2% populacji zarażone jest wirusem HIV, czyli Pr(Hiv+) = 0.02, a test do wykrywania obecności wirusa ma następujące własności: 1. Jeżeli osoba poddana testowi ma HIV, to prawdopodobieństwo, że test wykryje tę chorobę wynosi (prawdziwy dodatni wynik testu, czułość), czyli Pr(+ Hiv+) = Gdy osoba poddana testowi nie ma HIV, to prawdopodobieństwo właściwej diagnozy wynosi (prawdziwy ujemny wynik testu, specyficzność), czyli Pr( Hiv ) = Wówczas prawdopodobieństwo, że osoba poddana testowi jest chora i test to wykryje jest równe Pr(+ Hiv+) = Pr(Hiv+) Pr(+ Hiv+) 14

15 Przypisując prawdopodobieństwa kolejnym gałęziom i wykorzystując powyższe twierdzenie o mnożeniu, możemy wyznaczyć prawdopodobieństwa otrzymania wyników: Prawdziwy+, Fałszywy-, Fałszywy+ i Prawdziwy-. Następnie, po dodaniu do siebie prawdopodobieństw otrzymania wyników Prawdziwy+ i Fałszywy+, obliczamy Pr(+), tzn. prawdopodobieństwo, że test da wynik dodatni.

16 2.1 Wzór na prawdopodobieństwo całkowite Definicja 6. Partycją przestrzeni Ω nazywamy dowolną rodzinę parami rozłącznych zbiorów B 1,..., B n o sumie Ω. Twierdzenie 2. Jeśłi B 1,..., B n jest partycją na zdarzenia o dodatnim prawdopodobieństwie, to dla dowolnego zdarzenia A Pr(A) = n Pr(A B i ) Pr(B i ). i=1 Przykład: Jakie jest prawdopodobieństwo, że u losowo wybranej osoby test da wynik dodatni? Ze wzoru na prawdopodobieństwo całkowite Pr(+) = Pr(+ Hiv+) Pr Hiv+) + Pr(+ Hiv ) Pr Hiv ) Wzór Bayesa = ( ) (1 0.02) = Często znamy wynik doświadczenia losowego, a pytamy o jego przebieg, Twierdzenie 3. Jeśłi B 1,..., B n jest partycją na zdarzenia o dodatnim prawdopodobieństwie i Pr(A) > 0, to dla każdego 1 i n, Pr(B i A) = Pr(A B i ) Pr(B i ) n j=1 Pr(A B j) Pr(B j ) = Pr(A B i) Pr(B i ) Pr(A) Przykład: U losowo wybranej osoby test dał wynik dodatni? prawdopodobieństwo, że ma ona Hiv? Jakie jest Pr(Hiv + +) = = Pr(+ Hiv+) Pr(Hiv+) Pr(+ Hiv+) Pr Hiv+) + Pr(+ Hiv ) Pr Hiv ) Pr(+ Hiv+) Pr(Hiv+) = = Pr(+) Wpływ rozkładu a priori: A jakie będzie to prawdopodobieństwo, gdy przyjmiemy, że nie 2% lecz 30% populacji jest zarażona wirusem HIV? 16

17 3 Niezależność zdarzeń Intuicje: Prawdopodobieństwo warunkowe Pr(A B) jest zazwyczaj różne od Pr(A). Tak się dzieje, gdyż zajście zdarzenia B zazwyczaj dostarcza nam dodatkowej informacji o tym, czy zdarzenie A zajdzie, czy też nie. Jeśli wiedza o tym, że zaszło B nie ma wpływu na prawdopodobieństwo zajścia zdarzenia A, a więc gdy Pr(A B) = Pr(A), to mówimy, że zdarzenia A i B są niezależne. Formalna definicja jednego z najważniejszych pojęć rachunku prawdopodobieństwa ma postać: Definicja 7. Zdarzenia A i B są niezależne, gdy Przykłady: Pr(A B) = Pr(A) Pr(B). 1. Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, B - orzeł w pierwszym rzucie. Wówczas A i B są niezależne. 2. Wybieramy losowo jedną rodzinę spośród rodzin mających n dzieci. Niech zdarzenie A polega na tym, że w rodzinie jest co najwyżej jedna dziewczynka, a B - w rodzinie są dziewczynki i chłopcy. Zdarzenia A i B są niezależne jedynie dla n = 3. Uwaga: Zakładamy, że szanse urodzenia chłopca i dziewczynki są takie same Niezależność większej liczby zdarzeń Definicja 8. Zdarzenia A 1,..., A n nazywamy niezależnymi, gdy dla każdego 1 k n i dla każdych 1 i 1 <... < i k n zachodzi Pr(A i1 A ik ) = Pr(A i1 )... Pr(A ik ). Przykład: Rzucamy n razy symetryczną monetą. A k = {orzeł w k-tym rzucie}. Wowczas A 1,..., A n są niezależne. Twierdzenie 4. Jeśli A 1,..., A n są niezależne, to niezależne są również B 1,..., B n, gdzie B i = A i albo B i = A i Schemat Bernoulliego Definicja 9. Schemat Bernoulliego to skończony ciąg niezależnych powtórzeń tego samego doświadczenia losowego o dwu możliwych wynikach, nazywanych umownie sukcesem i porażką. Poszczególne doświadczenia to próby Bernoulliego. Przykłady: 1. n-krotny rzut monetą; za sukces można przyjąć wypadnięcie orła, 17

18 2. n-krotne wypełnienie kuponu totolotka; za sukces można przyjąć trafienie szóstki. Twierdzenie 5. Prawdopodobieństwo pojawienia się dokładnie k sukcesów w schemacie Bernoulliego n prób, z prawdopodobieństwem sukcesu w pojedynczej próbie równym p, wynosi ( ) n p k (1 p) n k, k = 0,..., n. k Przykład: Moneta jest fałszywa i prawdopodobieństwo wyrzucenia orła jest równe 2/3. Jakie jest prawdopodobieństwo, że w 7 rzutach tą monetą cztery razy pojawi się orzeł? Rozwiązanie: W tym przykładzie n = 7, k = 4, p = 2/3, więc ( ) 7 Pr(4 sukcesy w 7 doświadczeniach) = (2/3) 4 (1/3) 3 = 7! !3! 3 =

19 4 Zmienne losowe 4.1 Pojęcia wstępne Definicja 10. Zmienna losowa to funkcja, która przypisuje jakąś wartość liczbową każdemu z możliwych wyników doświadczenia losowego. Przykłady: 1. X = czas przeżycia po przeszczepie serca. Zbiór możliwych wartości [0, ). 2. X = wygrana gracza, który grając w ruletkę stawia 1 zł na którąś z 37 liczb { 1, jeśli nie wypadnie obstawiona liczba, X = 35, jeśli wypadnie obstawiona liczba. 3. Trzykrotny rzut monetą. Osiem możliwych wyników: OOO,ORO,...,RRR. Niech X = liczba wyrzuconych orłów. Wówczas Rodzaje zmiennych losowych: X(OOO) = 3,..., X(RRR) = Dyskretna: - zbiór S przyjmowanych przez nią wartości jest skończony albo przeliczalny, np. wynik rzutu kostką, numer rzutu monetą, w którym po raz pierwszy wypadł orzeł. 2. Ciągła: - zbiór jej wartości zawiera przedział liczbowy, np. temperatura, waga, czy też wzrost losowo wybranego optometrysty. 4.2 Rozkład zmiennej losowej Rozkład: Dla każdego zbioru A R musimy obliczyć Pr(X A), czyli prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość należącą do zbioru A. 1. Aby opisać rozkład dyskretnej zmiennej losowej wystarczy wskazać zbiór przyjmowanych przez nią wartości i podać prawdopodobieństwa z jakimi te wartości są przyjmowane (funkcja prawdopodobieństwa), Przykład: Zmienna losowa X = liczba orłów w trzech rzutach symetryczną monetą przyjmuje wartości 0, 1, 2, 3 z prawdopodobieństwami 1/8, 3/8, 3/8, 1/8. 2. Chcąc opisać rozkład ciągłej zmiennej losowej wystarczy wskazać gęstość jej rozkładu, czyli nieujemną funkcję f, taką że Pr(a X b) = b a f(x)dx dla wszystkich a b. Interpretacja: Pr(a X b) = to pole wykresu pod krzywą. Uwaga: Z własności całki wynika, że 19

20 (a) Pr(a X b) =... = Pr(a < X < b) = b a f(x)dx, (b) Pr(X = a) = 0. Rysunek 4: Pr(1 < X < 3) = pole zaznaczonego obszaru Twierdzenie 6. Funkcja f jest gęstością rozkładu pewnej ciągłej zmiennej losowej wtedy i tylko wtedy, gdy (a) f(x) 0 dla każdego x R, (b) f(x) dx = 1. R Dystrybuanta zmiennej losowej: Inny sposób opisu rozkładu zmiennej losowej: dystrybuanta, czyli funkcja F : R [0, 1], której wartość w każdym punkcie x R jest określona wzorem x F (x) = Pr(X x) = f(s) ds, jeśli X ma rozkład ciągły o gęstości f, {t x} Pr(X = t), jeśli X ma rozkład dyskretny. Twierdzenie 7. Funkcja F jest gęstością rozkładu pewnej zmiennej losowej wtedy i tylko wtedy, gdy 1. F jest niemalejąca. 2. lim x F (x) = 0, lim x F (x) = 1 3. F jest prawostronnie ciągła. 20

21 Rysunek 5: Dystrybuanta rozkładu dwumianowego B(2, 1/2) Rysunek 6: Dystrybuanta rozkładu wykładniczego Dystrybuanta a gęstość (funkcją prawd.). Dla każdego x R, 1. Pr(X = x) = Pr(X x) Pr(X < x) = F (x) F (x ). 2. f(x) = F (x) o ile f jest ciągła w punkcie x. 4.3 Parametry opisujące rozkład zmiennej losowej Rozkład zmiennej losowej możemy też opisywać za pomocą 1. wskaźników położenia: średnia, mediana; 2. wskaźników rozproszenia: wariancja, odchylenie standarowe, kwartyle, rozstęp międzykwartylowy. 21

22 4.3.1 Wartość oczekiwana Definicja 11. Wartość oczekiwana (średnia) zmiennej losowej X to parametr oznaczany symbolem E(X) lub µ X, określony wzorem xf(x) dx, jeśli X ma rozkład ciągły o gęstości f, E(X) = {x i S} x i Pr(X = x i ), jeśli X ma rozkład dyskretny. Przykłady: 1. Rozkład B(1, p): E(X) = 0 (1 p) + 1 p = p. 2. Wygrana w ruletce: E(X) = 1 36/ /37 = 1/37 3. Rozkład U(a, b): E(X) = Uwagi: b a 1 b a x dx = x2 b a b a = a + b Analogia między środkiem masy a wartością oczekiwaną: xf(x) dx to środek ciężkości pręta umieszczonego na osi 0x, którego gęstość masy w punkcie x wynosi f(x), x R. 2. E(X) nie zawsze istnieje. Interpretacja: E(X) to w pewnym sensie średnia wartość przyjmowana przez zmienną losową. Przykład: W 600 rzutach symetryczną kostką, każdy z możliwych wyników powinien pojawić się około 100 razy. Oczekujemy więc, że średni wynik będzie równy Czyli = {x i S} x i Pr(X = x i ) = E(X) = 7 2. Własności: Jeśli istnieją E(X) i E(Y ) to dla dowolnych stałych a, b 1. Jeśli X przyjmuje tylko jedną wartość c, to E(X) = c. 2. E(aX + b) = ae(x) + b; 3. E(X + Y ) = E(Y ) + E(Y ). 4. Jeśłi X i Y są niezależne, to E(XY ) = E(X)E(Y ). Definicja 12. Zmienne X i Y są niezależne, jeśli dla dowolnych A, B R, Pr(X A, Y B) = Pr(X A) Pr(Y B). 22

23 Intuicje: Jeśli X i Y są niezależne, to wiedza o tym, jaką wartość przyjęła jedna z tych zmiennych nie wpływa na prawdopodobieństwo z jakim druga z tych zmiennych przyjmuje swoje wartości. Przykłady: (wykorzystanie liniowości wartości oczekiwanej) 1. Oczekiwana liczba oczek w rzucie dwoma kostkami. Rozwiązanie: E(X + Y ) = E(X) + E(Y ) = = Roztargniony szatniarz losowo zwraca płaszcz każdemu z n klientów. Jaka jest oczekiwana liczba prawidłowo zwróconych płaszczy? Rozwiązanie: X liczba osób, które otrzymała swoje płaszcze. X = X X n, gdzie X i = 1, gdy i-ta osoba dostała swój płaszcz i X i = 0 w przeciwnym razie. Pr(X i = 1) = 1/n, więc E(X) = E(X 1 ) E(X n ) = n 1 = 1. n Twierdzenie 8. (Reguła leniwego statystyka) Niech g będzie ustaloną funkcją. Wartość oczekiwaną zmiennej losowej Y = g(x) można obliczyć ze wzoru g(x)f(x) dx, jeśli X ma rozkład ciągły o gęstości f, E(Y ) = E[g(X)] = g(x i ) Pr(X = x i ), jeśli X ma rozkład dyskretny. {x i S} Wniosek: jeśli znamy rozkład X, to nie musimy wyznaczać rozkładu g(x), by obliczyć E[g(X)] Wariancja zmiennej losowej Wartość oczekiwana jest miarą położenia, charakteryzującą rozkład zmiennej losowej. Niestety, nie opisuje ona w pełni tego rozkładu. Przykład: Pr(X = 0) = 1, Pr(Y = 1) = Pr(Y = 1) = 1/2. Wówczas E(X) = E(Y ) = 0, ale zmienne te mają różne rozproszenia wokół swoich wartości oczekiwanych, bo X jest zawsze równa E(X) = 0, podczas gdy Y zawsze różni się od E(Y ) = 0 o 1. Definicja 13. Wariancja zmiennej losowej X to parametr oznaczany symbolem Var(X) lub σx 2, który mierzy rozproszenie X względem jej wartości oczekiwanej (moment bezwładności): Var(X) = E[(X µ X ) 2 ] = (x µ X ) 2 f(x) dx, jeśli X ma rozkład ciągły, (x i µ X ) 2 Pr(X = x i ), jeśli X ma rozkład dyskretny. {x i S} Uwaga: Var(X) to odchylenie standardowe zmiennej losowej X. Przykłady: 1. Dla zmiennych z poprzedniego przykładu: Var(X) = 0, Var(Y ) = 1. 23

24 2. Rozkład B(1, p). 3. Rozkład U(0, 1). Własności: Jeśli istnieją Var(X) to dla dowolnych stałych a, b 1. Var(X) 0, przy czym Var(X) = 0 Pr(X = c) = 1 dla pewnego c R. 2. Var(X) = E(X 2 ) [E(X)] Var(aX + b) = a 2 Var(X), w szczególności Var(X) = Var( X). 4. Var(X + Y ) = Var(X) + Var(Y ), o ile X i Y są niezależne i istnieje Var(Y ) Kwantyle rozkładu Interesuje nas to, w jakim punkcie x p dystrybuanta F osiąga wartość ustaloną wartość p z przedziału (0, 1).. Definicja 14. Kwantyl rzędu p to taki punkt x p, taki że Uwaga: 1. F (x p ) p F (x p ). x p = F 1 (p) def = inf{x : F (x) p} 2. Dla rozkładu ciągłego, x p to punkt na osi 0x, taki że pole pod gęstością na lewo od niego jest równe p, a pole na prawo równe 1 p, czyli F (x p ) = p. Uwaga: (x p, p) to punkt przecięcia wykresów funkcji y = p i y = F (x)). 3. x 1, x 1, x to pierwszy kwartyl, mediana i trzeci kwartyl. 4. Rozstęp międzykwartylowy: IQR = x Symetria rozkładu: x Mówimy, że ciągła zmienna losowa X ma rozkład symetryczny, jeśli jej gęstość jest symetryczna względem pewnej wartości x 0, tzn, gdy f(x x 0 ) = f( (x x 0 )), x R. Wówczas, (a) x 0 = E(X), (b) mediana jest równa średniej, tzn. x 1/2 = E(X). 2. Jeśli X nie ma rozkładu symetrycznego, to ma rozkład skośny (a) prawoskośny (długie prawe ogony ), gdy x 1/2 < E(X); (b) lewoskośny (długie lewe ogony ), gdy x 1/2 > E(X); 24

25 Rysunek 7: Gęstość rozkładu prawoskośnego χ 2 3, którego medianą jest x 1/2 = , a średnią µ = Dyskretne zmienne losowe Rozkład Bernoulliego Definicja 15. Zmienna losowa X ma rozkład Bernoulliego z parametrem p (0, 1), co oznaczamy X D = B(1, p), jeśli przyjmuje wartości 0 i 1 z prawdopodobieństwami Pr(X = 1) = p i Pr(X = 0) = 1 p. 1. Średnia i wariancja: E(X) = p, and Var(X) = p(1 p). 2. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej: jednokrotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; wówczas X = 1, gdy wypadł orzeł i X = 0, gdy wypadła reszka Rozkład dwumianowy Definicja 16. Zmienna losowa X ma rozkład dwumianowy z parametrami (n, p), co oznaczamy X = D B(n, p), jeśli przyjmuje wartości 0, 1,..., n z prawdopodobieństwami ( ) n Pr(X = k) = p k (1 p) n k, k = 0,..., n. k 1. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej: n -krotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; X = liczba wyrzuconych orłów. 2. Taka zmienna opisuje liczbę sukcesów w n doświadczeniach ze schematu Bernoulliego z prawdopodobieństwem sukcesu p. Jej możliwe wartości to 0, 1,..., n. 3. Średnia i wariancja: E(X) = np, and Var(X) = np(1 p). 25

26 4. Związek z B(1, p): X D = B(n, p) jest sumą n niezależnych zmiennych losowych X 1,..., X n o tym samym rozkładzie B(1, p), X i = 1, gdy pojawił się sukces w i- tym doświadczeniu (a 0, gdy pojawiła się porażka) Rozkład geometryczny Definicja 17. Zmienna losowa X ma rozkład geometryczny z parametrem p, co oznaczamy X D = Geo(p), jeśli przyjmuje wartości 1, 2,... z prawdopodobieństwami Pr(X = k) = (1 p) k 1 p, k = 1, 2, Charakterystyczny eksperyment: rzucamy monetą tak długo aż wypadnie orzeł; X = liczba wykonanych rzutów; możliwe wartości X to x = 1, 2, Średnia i wariancja: E(X) = 1/p, and Var(X) = (1 p)/p X zlicza liczbę niezależnych powtórzeń doświadczenia ze schematu Bernoulliego B(1, p), potrzebnych do tego, by pojawił się pierwszy sukces Rozkład Poissona Definicja 18. Zmienna losowa X ma rozkład Poissona z parametrem λ > 0, co oznaczamy X = D P (λ), jeśli przyjmuje wartości 0, 1, 2,... z prawdopodobieństwami Pr(X = k) = λk exp ( λ), k = 0, 1, 2,.... k! 1. Średnia i wariancja: E(X) = λ, and Var(X) = λ. 2. Liczba szkód komunikacyjnych w ustalonym okresie czasu można dobrze modelować za pomocą rozkładu Poisssona z odpowiednio dobranym parametrem λ. 4.6 Ciągłe zmienne losowe Rozkład jednostajny Definicja 19. Zmienna losowa X ma rozkład jednostajny na przedziale (a, b), co oznaczamy X D = U(a, b), jeśli gęstość i dystrybunta mają postać: f(x) = { 0, x / [a, b], 1 b a, x [a, b]. F (x) = 1. Średnia i wariancja: E(X) = a + b 2 0, x < a, x a b a, a x b, 1, x > b. (b a)2, Var(X) =

27 Rysunek 8: Gęstość rozkładu jednostajnego U(1, 3) Rysunek 9: Dystrybuanta rozkładu jednostajnego U(1, 3) Rozkład wykładniczy Definicja 20. Zmienna losowa X ma rozkład wykładniczy z parametrem λ > 0, co oznaczamy X = D Exp(λ), jeśli gęstość i dystrybunta mają postać: f(x) = { 0, x < 0, λe λx, x 0. F (x) = { 0, x < 0, 1 e λx, x 0. 27

28 Rysunek 10: Gęstość rozkładu wykładniczego Exp(1) Rysunek 11: Dystrybuanta rozkładu wykładniczego Exp(1) 1. Średnia i wariancja: E(X) = 1 λ, Var(X) = 1 λ Brak pamięci: Dla dowolnych s, t > 0 Pr(X t + s X > t) = Pr(X s). 3. Rozkład wykładniczy wykorzystuje się w teorii niezawodności do modelowania czasu pracy urządzeń. Przykładowo, żywotność procesora może być modelowana za pomocą rozkładu wykładniczego o średniej godzin. Brak pamięci oznacza, że procesor się nie zużywa (starzeje), więc bez względu na to jak długo już działał, prawdopodobieństwo, iż nie ulegnie awarii przez następne 1000 godzin, jest takie same jak dla nowego procesora. 28

29 4.6.3 Rozkład normalny Definicja 21. Zmienna losowa X ma rozkład normalny z wartością oczekiwaną µ i wariancją σ 2, co oznaczamy X = D N(µ, σ 2 ), jeśli jej gęstość ma postać: f(x) = 1 e (x µ)2 2σ 2, x R. 2πσ Rysunek 12: Gęstość rozkładu normalnego N(1, 1) 29

30 Rysunek 13: Dystrybuanta rozkładu normalnego N(1, 1) 1. Rozkład normalny jest bardzo często używany do modelowania rozkładów wielu rzeczywistych cech. Przykłady takich cech: (a) błąd pomiarowy, (b) wzrost, wydajność, (c) temperatura ciała, (d) zawartość różnych składników we krwi. 2. Jeśli wielokrotnie powtarzamy ten sam eksperyment losowy, za każdym razem mierząc wartość tej samej cechy, to zmienna losowa X, będąca średnią (sumą) uzyskanych wyników ma rozkład zbliżony do normalnego. W szczególności, jeśli wielkokrotnie zmierzymy pewną wielkość fizyczną (rezystancję, pojemność, lepkość, itp.), a za wynik przyjmiemy średnią ze wszystkich pomiarów, to, przy pewnych dodatkowych warunkach, tak otrzymana wielkość będzie miała rozkład zbliżony do normalnego. 3. Gęstość rozkładu normalnego ma kształt dzwonu, którego osią symetrii jest prosta x = µ. (a) zmiana µ powoduje przesunięcie wykresu gęstości wzdłuż osi 0x; (b) zmiana σ 2 powoduje zmianę kształtu wykresu gęstości f: im większe σ tym wykres jest bardziej spłaszczony i ma cięższe ogony. 30

31 Rysunek 14: Gęstości rozkładów normalnych N(0, 1) i N(1, 1) Rysunek 15: Gęstości rozkładów normalnych N(0, 1) i N(1, (1/2) 2 ) 4. Zmienna losowa o rozkładzie N(m, σ 2 ) może przyjąć każdą wartość z przedziału (, ), ale najbardziej prawdopodobne (najczęściej pojawiające się) są wartości bliskie µ. Potwierdzeniem tego faktu jest Reguła 3σ: Jeśli X ma rozkład N(µ, σ 2 ), to (a) Pr(µ σ < X < µ + σ) = 0.680; (b) Pr(µ 2σ < X < µ + 2σ) = 0.956; (c) Pr(µ 3σ < X < µ + 3σ) =

32

33 5. Standardowy rozkład normalny to rozkład normalny o średniej 0 i wariancji 1. Zmienną losową o takim rozkładzie, gęstość jej rozkładu oraz wariancję oznaczamy symbolami Z, φ oraz Φ. Oczywiście, φ(x) = 1 2π e x2 2, x R. 6. Wartości dystrybuanty rozkładu N(0, 1) można wyznaczyć jedynie numerycznie, bo nie da się obliczyć całki φ(s) x ds. 7. Tablice rozkładu N(0, 1). Dla z [0; 3.49) wyznaczono wartości Φ(z), czyli dystrybuanty rozkładu N(0, 1). Wartości tej dystrybuanty dla pozostałych z szacuje się korzystając z tego, że (a) 1 Φ(z) Φ(3.49) = dla wszystkich z (b) Φ( z) = 1 Φ(z) dla z R. 8. Chcąc znaleźć prawdopodobieństwa dla zmiennej o dowolnym rozkładzie normalnym wykorzystujemy następujący: Fakt: Jeśli X D = N(µ, σ 2 ) to cx + d D = N(µ + d, c 2 σ 2 ) dla dowolnych liczb c, d R,. W szczególności Z = X µ σ D = N(0, 1). Z ostatniej równości wynika, że dla dowolnych a b ( ) ( ) b µ a µ (a) Pr(a < X < b) = Φ Φ, σ σ ( ) a µ (b) Pr(X < a) = Φ, σ ( ) b µ (c) Pr(X > b) = 1 Φ. σ Przykład: Jeśli X = D N(1, 2 2 ) to Pr( 1 < X < 5) = Φ ( ) Φ ( ) = Φ(2) Φ( 1) = Φ(2) (1 Φ(1)) = Φ(2) + Φ(1) 1 = Dla każdego α (0, 1) symbolem z α oznaczamy kwantyl rzędu 1 α rozkładu N(0, 1), to znaczy liczbę z α, taką że dla zmiennej losowej Z mającej rozkład N(0, 1) zachodzi równość Pr(Z z α ) = Φ(z α ) = 1 α. W szczególności: z 0.05 = 1.65, z = 1.95, z 0.01 =

34 Tables T-3 Probability Table entry for z is the area under the standard normal curve to the left of z. z TABLE A Standard normal probabilities (continued) z

35 4.6.4 Rozkład chi-kwadrat Definicja 22. Jeśli zmienne losowe Z 1,..., Z v są niezależne i mają ten sam rozkład N(0, 1), to zmienna losowa X = Z Z 2 v ma rozkład chi-kwadrat z v stopniami swobody, co oznaczamy X D = χ 2 v. 1. Zmienne losowe o rozkładzie chi-kwadrat tworzą rodzinę rozkładów indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0). Zmienna losowa o rozkładzie χ 2 v jest ciągła, przyjmuje wszystkie wartości dodatnie (i tylko takie), a najczęściej te bliskie v. 2. Gęstość rozkładu χ 2 v jest prawoskośna. Jej postać pomijamy, gdyż jest skomplikowana. 3. Dla każdego α (0, 1) symbolem χ 2 v,α oznaczamy kwantyl rzędu 1 α rozkładu chi-kwadrat z v stopniami swobody, to znaczy liczbę χ 2 v,α, taką że dla zmiennej losowej X mającej rozkład χ 2 v zachodzi równość Pr(X χ 2 v,α) = α. 4. Kwantyle χ 2 v,α można wyznaczyć jedynie numerycznie. Ich wartości, dla niektórych v i α, można odczytać z tablic rozładu chi-kwadrat. 35

36 Rysunek 16: Gęstości rozkładów χ 2 2, χ 2 3 i χ

37 T-20 Tables Table entry for p is the critical value (χ 2 ) with probability p lying to its right. ( χ 2 )* Probability p TABLE F χ 2 distribution critical values Tail probability p df

38 4.6.5 Rozkład t-studenta Definicja 23. Jeśli zmienne losowe Z o rozkładzie N(0, 1) i Y o rozkładzie χ 2 v są niezależne, to zmienna losowa T = Z ma rozkład t-studenta z v Y/v stopniami swobody, co oznaczamy T D = t v 1. Zmienne losowe o rozkładzie t-studenta tworzą rodzinę rozkładów symetrycznych, indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0). Zmienna losowa o rozkładzie t v jest ciągła, przyjmuje wszystkie wartości z przedziału (, ), ale najczęściej te bliskie zera. 2. Gęstość rozkładu t v jest symetryczna. Jej postać pomijamy, gdyż jest skomplikowana. 3. Dla każdego α (0, 1) symbolem t v,α oznaczamy kwantyl rzędu 1 α rozkładu t-studenta z v stopniami swobody, to znaczy liczbę t v,α, taką że dla zmiennej losowej T mającej rozkład t v zachodzi równość Pr(T t v,α ) = α. 4. Kwantyle t v,α można wyznaczyć jedynie numerycznie. Ich wartości, dla niektórych v i α, można odczytać z tablic rozładu t-studenta. 38

39 Rysunek 17: Gęstości rozkładów t 2, t 3 i t 5 39

40 Tables T-11 Table entry for p and C is the critical value t with probability p lying to its right and probability C lying between t and t. TABLE D t distribution critical values t* Probability p Upper-tail probability p df z % 60% 70% 80% 90% 95% 96% 98% 99% 99.5% 99.8% 99.9% Confidence level C

41 5 Statystyka Statystyka jest nauką o wnioskowaniu. Jej celem jest uogólnianie informacji zawartych w danych. Przykład: Jak przewidzieć wyniki wyborów parlamentarnych, znając jedynie preferencje wyborcze niewielkiej grupy potencjalnych wyborców? Czym zajmuje się statystyka? 1. Zbieranie danych: spis powszechny, sondaże przedwyborcze, ankiety, eksperymenty fizyczne. 2. Analizowanie danych: opracowywanie, wizualizacja, konstrukcja modeli statystycznych. 3. Interpretowanie danych, czyli wyciąganie wniosków: co jest i co będzie. Dawniej celem statystyki było zbieranie i analizowanie danych dla rządu. Spis ludności to najstarsza i zarazem najdroższa z metod zbierania danych Ten, który przeprowadzono w 2010 roku w USA, kosztował około 14 mld $, czyli 45 $ na osobę. 5.1 Cel statystyki matematycznej Definicja 24. Populacja generalna to zbiór dowolnych elementów (osób, przedmiotów, urządzeń, zdarzeń) posiadających wspólną, interesującą nas cechę. Przykłady populacji i cech: 1. populacja: wszyscy Polacy mające czynne prawo wyborcze, cecha: preferencje polityczne; 2. populacja: wszyscy mężczyżni mający co najmniej 20 lat, cechy: wzrost, waga, poziom cholestoerolu, cisnienie tętnicze; 3. populacja: wszyscy pracownicy wyższych uczelni. cecha: zarobki. Cel wnioskowania statystycznego: sformułowanie wniosków o rozkładzie cechy w populacji, a w szczególności o jego parametrach. Przykłady: 1. jaki procent Polaków ma astygmatyzm, 2. jakie są średnie zarobki pracowników wyższych uczelni, 3. czy otyłość sprzyja nadciśnieniu? Definicja 25. Rozkład cechy: wskazujemy zbiór wszystkich możliwych wartości tej cechy i podajemy jak często każda z tych wartości się pojawia. Definicja 26. Próba to dowolny podzbiór populacji, zazwyczaj znacznie mniej liczny niż ona. 41

42 Jak przebiega wnioskowanie statystyczne? Mierzymy wartości interesującej nas cechy Y dla każdego z elementów próby, wyznaczamy rozkład tej cechy w próbie i na tej podstawie formułujemy wnioski o jej rozkładzie w populacji. Dlaczego ograniczamy się do próby? Populacja jest zazwyczaj bardzo liczna, więc niemożliwe jest przeanalizowanie wszystkich możliwych pomiarów (jaki procent Chińczyków ma dostęp do internetu). Pomiary są kosztowne. Pomiary są czasochłonne (przeżywalność po skomplikowanym zabiegu chirurgicznym). Przeprowadzenie pomiaru jest związane ze zniszczeniem mierzonego obiektu (testy zderzeniowe) Reprezentatywność próby Aby wnioskowanie było sensowne, próba musi być reprezentatywna, tzn. rozkład cechy w próbie nie powinien się zbytnio różnić od rozkładu cechy w populacji. 1. Reprezentatywność próby można sobie zapewnić wybierając ją w sposób losowy, na przykład za pomocą losowania prostego, przy którym każdy z elementów populacji ma takie same szanse, by trafić do próby. Dwa sposoby losowania prostego: (a) Losowanie proste bez zwracania. (b) Losowanie proste ze zwracaniem. Model takiego losowania: wyciągamy z kapelusza (bez zwracania albo ze zwracaniem) wrzucone do niego kartki z numerami kolejnych elementów populacji. Próbę tworzą te obiekty populacji, których numery znalazły się na wylosowanych kartkach. Praktyczniejszy schemat losowania: (a) losowanie warstwowe: najpierw populację dzieli się na podpopulacje, zwane warstwami, a następnie z poszczególnych warstw pobiera się elementy do próby za pomocą losowania prostego. Celem podziału badanej populacji na warstwy i jest wyodrębnienie w zróżnicowanej zbiorowości możliwe jednorodnych grup jednostek. Poszczególne warstwy powinny być silnie zróżnicowane między sobą i homogeniczne (jednorodne) wewnątrz. Warstwowania dokonujemy tak, aby otrzymane warstwy były rozłączne i aby każda jednostka populacji należała do jednej i tylko jednej warstwy. 2. Dlaczego wystarczy ograniczać się do próby losowej? Dzięki stabilizacji częstości (wniosek z MPWL). Obserwując dużą liczbę zdarzeń losowych tego samego typu zauważamy regularność: 42

43 (a) liczba wyrzuconych orłów liczba wyrzuconych reszek 1, gdy moneta jest symetryczna; (b) frakcja urodzonych chłopców 0.51; 3. Nielosowy dobór próby może powodować jej obciążenie, czyli faworyzowania pewnej szczególnej części populacji. Przykłady błędnego doboru próby: Sondaż dotyczący stosunku Polaków do wprowadzenia euro w roku 2011, przeprowadzony wśród członków klubu parlamentarnego PIS. Sondaż dotyczący stosunku Polaków do dopuszczalności zabiegu przerywania ciązy przeprowadzony wśród słuchaczy Radia Maryja, Prognozy wyborcze dotyczące wyników wyborów prezydenckich w USA przeprowadzone w roku 1936 przez Literary Digest. (Sondaż, przeprowadzony wśród ponad 2 mln respondentów, przewidywał miażdżącą wygraną gubernatora Landona. W rzeczywistości prezydentem został Roosvelt. Na czym polegał błędny dobór próby: sondaż przeprowadzono telefonicznie, ograniczając się więc do specyficcznej grupy wyborców) Zastosowania statystyki matematycznej: Wnioskowanie statystyczne wykorzystuje się w takich dziedzinach jak medycyna, genetyka, epidemiologia, finanse, bankowość, ekonomia, marketing, kontrola jakości Trzy główne zadania statystyki matematycznej: 1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+? 2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80% Polaków to zwolennicy programu 500+? 3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+? 43

44 5.2 Wstępna analiza danych Interesująca nas cecha Y może być ilościowa albo jakościowa. 1. Zmienna ilościowa: jej wartościami są liczby (waga, wzrost, ciśnienie). (a) ciągła: (zbiór możliwych wartości zawiera przedział) wzrost, waga, stężenie, (b) dyskretna: (zbiór możliwych wartości jest przeliczalny) liczba punktów z egzaminu, liczba bramek, które Barcelona zdobędzie w sezonie 2015/ Zmienna jakościowa: jej wartościami nie są liczby lecz kategorie (generowane przez płeć, kolor oczu, grupę krwi). (a) porządkowa: kategorie można w naturalny sposób uporządkować: odpowiedzi na pytania w ankiecie: nigdy, rzadko, czasami, często, zawsze; poglądy polityczne: konserwatywne, umiarkowane, liberalne. (b) nieporządkowa: kategorii nie można sensownie uporządkować: płeć, rasa, zawód. Oczywiście, próba może zawierać dane obu typów (np. dla każdego z n losowo wybranych pacjentów mierzymy ciśnienie tętnicze i poziom cholesterolu oraz określamy jego płeć i wykształcenie). 5.3 Opis rozkładu elementów próby Załóżmy, że z populacji Ω została wybrana w sposób reprezentatywny próba s rozmiaru n. Niech x 1,..., x n oznaczają wartości cechy Y, niekoniecznie liczbowe, zmierzone dla kolejnych elementów próby. Gdy n jest duże (genetyka, cyklotron, zderzacz hadronów, transakcje w dużych sieciach sklepowych), konieczne jest wstępne opracowanie danych, by ułatwić wnioskowanie statystyczne. Ponieważ próba może zawierać wszystkie elementy populacji, poniżej opisane metody charakteryzują również rozkład cechy w populacji. Dwa warunki, które ułatwiają analizę danych: 1. Najpierw analizujemy każdą ze zmiennych z osobna, a potem badamy wzajemne relacje między tymi zmiennymi. 2. Analizę każdej ze zmiennych zaczynamy wykonania od rysunków (histogramy, box-ploty, wykresy słupkowe), a potem wyznaczamy różne charakterystki liczbowe (średnią, medianę, wariancję,kwartyle). 44

45 5.3.1 Analiza danych jakościowych Rozkład podaje liczbę lub procent osobników w danej kategorii. 1. wykres kołowy: Prosty sposób prezentacji danych, których wartości dają w sumie pewną całość (a) skład wyznaniowy ludności Warszawy na początku XX wieku : katolicy 60%, Żydzi 32%, Inne wyznania 8%). 2. wykresy słupkowe: Prosty sposób prezentacji danych, których wartości mogą, ale nie muszą dawać w sumie pewną całość (a) dochody osobiste w różnych regionach USA w 1983 (Północny Wschód 300 mld $, Środkowy Wschód 320 mld, Południe 400 mld.); (b) procent użytkowników, którzy stwierdzają, że na ich życie duży wpływ mają: telefony komorkowe, laptopy, ipady. Rysunek 18: Skład wyznaniowy ludności Warszawy na początku XX wieku 45

46 Rysunek 19: Skład wyznaniowy ludności Warszawy na początku XX wieku Analiza danych ilościowych: Rozkład interesuje nas to jakie wartości przyjmuje cecha ilościowa i jak często każda z tych wartości jest przyjmowana. W szczególności interesuje nas kształt, środek, rozrzut rozkładu cechy. 1. Kształt: (a) Ile jest punktów szczytowych (mod)? (b) Czy rozkład jest symetryczny, czy też skośny. 2. Środek: punkt centralny. 3. Rozrzut: odstęp między największymi i najmniejszymi wartościami. 4. Identyfikacja obserwacji odstających (nie pasujących do reszty). EDA dla danych ilościowych: Zaobserwowane w próbie wartości cechy jakościowej: x 1,..., x n. Statystyki porządkowe: Ustawiamy wartości próby x 1,..., x n od najmniejszej do największej otrzymujemy zwane statystykami pozycyjnymi (porządkowymi) x (1)... x (n). Rozkład cechy w próbie: Niech y 1 < y 2... < y k oznaczają różne, uporządkowane rosnąco, wartości próby x 1,..., x n i niech n i będzie liczbą powtórzeń wartości y i w próbie, i = 1,..., k. Wówczas ciąg (y 1, n 1 ),..., (y k, n k ) nazywamy rozkładem cechy w próbie x 1,..., x n. Pokazuje on jakie wartości przyjmuje cecha w próbie i jak często. 46

47 Rozkład częstości cechy w próbie: Jeśli w definicji rozkładu zamiast wartości n i podamy częstość występowania wartości y i, to jest n i /n, to otrzymamy ciąg (y 1, n 1 /n),..., (y k, n k /n) nazywamy rozkładem częstości cechy w próbie x 1,..., x n. Przykład 1. Wyniki 25 rzutów kostką: 1, 2, 2, 3, 6, 6, 2, 5, 4, 3, 5, 6, 1, 3, 2, 2, 2, 2, 6, 5, 4, 3, 4, 5, statystyki pozycyjne to odpowiadające tej próbie: 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 2. rozkład i rozkład częstości dla tej próby: Wartość (liczba oczek) Liczność Częstość Szereg rozdzielczy: Jeśli liczba różnych obserwacji w próbie jest duża, to rozkład częstości jest niezbyt czytelny. Dlatego najpierw grupujemy dane. W tym celu wybieramy liczbę k N i liczby a 1 < a 2 <... a k+1, takie że a 1 < x (1) i a k+1 > x (n). Tworzymy przedziały I 1 = [a 1, a 2 ), I 2 = [a 2, a 3 ),..., I k = [a k, a k+1 ), zwane klasami i obliczamy n 1,..., n k - liczby obserwacji z próby wpadających do przedziałów I 1,..., I k. Obliczamy również kolejne częstości. Przykład: Wydatki (w setkach zł) 1000 losowo wybranych klientów Tesco: Wydatki [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) Liczność Częstość Histogram: Sporządzenie histogramu polega na naniesieniu na poziomej osi układu współrzędnych rozpatrywanych przedziałów i zbudowaniu nad nimi przylegających do siebie słupków. Wysokość h j słupka nad przedziałem I j jest tak dobrana, by pole tego słupka było wprost proporcjonalne do n j. Przykładowo: h j = n j, j = 1,..., k. n(a j+1 a j ) 1. zazwyczaj wysokości słupków dobieramy tak, by suma pól prostokątów była równa 1; 2. Jeśli przedziały klasowe mają te same długości, wysokości słupków są wprost proporcjonalne do liczby obserwacji z odpowiadających im klas. 47

48 3. Nie istnieje jedyny właściwy sposób rysowania histogramu, ale należy uwzględnić następujące zasady: (a) liczba klas: k n (b) końce przedziałów klasowych powinny być wygodnymi liczbami ( [2, 3) a nie [1.99, 3.01) ). (c) jeśli to możliwe, tworzymy przedziały tej samej długości. Rysunek 20: Wydatki 1000 losowo wybranych klientów Tesco Histogram jest sugestywnym środkiem syntezy obserwacji zawartej w próbie, ponieważ jest opisem graficznym. Analizując histogram należy zwrócić uwagę na ogólną prawidłowość z jaką układają się dane i uderzające odstępstwa od tej prawidłowości. Prawidłowość można ocenić 1. wyznaczając środek i rozproszenie histogramu, 2. opisując kształt histogramu, to znaczy, czy jest on symetryczny, czy też skośny (prawoskośny, gdy ma długie prawe ogony, a średnia jest większa od mediany, albo lewoskośny), 3. identyfikując obserwacje odstające, tzn. wartości skrajne, duże lub małe. 48

49 Rysunek 21: Histogram dla rozkładu symetrycznego Rysunek 22: Histogram dla rozkładu prawoskośnego Wykres łodyga-liście Jeśli liczba obserwacji w próbie nie jest zbyt duża, to zamiast histogramu możemy zrobić wykres łodyga-liście. W tym celu: Każdą obserwację dzielimy na dwie części: łodygę i liść. Liśćiem jest ostatnia (położona najbardziej na prawo) z cyfr tworzących tę liczbę. Pozostałe cyfry to łodyga. Uporządkowane malejąco łodygi wypisujemy w pionowej kolumnie, tak by najmniejsza z nich znalazła się na górze. Na prawo od tej kolumny rysujemy pionową linię. Uporządkowane rosnąco liście, odpowiadające ustalonej łodydze, wypisujemy w poziomym wierszu, na prawo od tej łodygi. Zaleta: Nie tracimy informacji wynikającej z grupowania danych. 49

50 Przykład: Łodyga Liście Wykres łodyga liście dla próby 5.0, 1.2, 2.5, 4.1, 1.6, 3.8, 5.0, 2.6, 2.9, 5.8 Wskaźniki sumaryczne: Próbę należy również scharakteryzować za pomocą kilku wskaźników liczbowych umożliwiających odpowiedź na pytania: gdzie leży środek próby? jak duże jest rozproszenie cechy w próbie wokół owego środka? Wskaźniki określające środek próby nazywamy wskaźnikami położenia. Wskaźniki określające rozproszenie próby wokół środka nazywamy wskaźnikami rozproszenia. Wskaźniki położenia 1. Wartość średnią w próbie x 1,..., x n, oznaczaną x, otrzymujemy dodająć do siebie wartości x 1,..., x n i dzieląc otrzymany wynik przez n (liczbę obserwacji), tzn. x = x 1 + x x n. n Uwaga: x jest estymatorem (oszacowaniem) średniej w populacji. 2. Medianą w próbie x 1,..., x n jest środek próby, tzn. liczba M, taka że połowa wartości próby jest większa niż M a druga połowa jest mniejsza niż M. Aby znaleźć medianę Ustawiamy obserwacje od najmniejszej do największej otrzymując wartości x (1)... x (n). Jeśli n jest nieparzyste, to mediana jest środkową obserwacją wśród x (1),..., x (n). Jeśli n jest parzyste, to mediana jest równa średniej arytmetycznej z dwóch środkowych obserwacji spośród x (1),..., x (n). To oznacza, że { x((n+1)/2), gdy n jest nieparzyste, M = x (n/2) + x (n/2+1), gdy n jest parzyste. 2 Przykłady: 50

51 (a) Dla próby 6, 2, 1, 8, 4 statystykami porządkowymi są 1, 2, 4, 6, 8. Ponieważ n = 5 jest liczbą nieparzystą, medianą jest środkowa, czyli trzecia statystyka porządkowa: M = x (3) = 4. (b) Dla próby 7, 2, 1, 8 statystykami porządkowymi są 1, 2, 7, 8. Ponieważ n = 4 jest liczbą parzystą, medianą jest średnia z dwóch środkowych statystyk porządkowych: czyli średnia z drugiej i trzeciej statystyki porządkowej: M = x (2) + x (3) 2 = Uwaga: Mediana w próbie jest estymatorem mediany w populacji, Średnia a mediana = 3, Mediana dzieli powierzchnię histogramu na połowę, a średnia to środek ciężkości histogramu; 2. Mediana jest odporna na obserwacje odstające, a średnia nie; 3. Jeżeli histogram jest prawoskośny (długie prawe ogony), to średnia jest zwykle większa niż mediana. 4. Obie te miary położenia są jednakowo ważne; 5. Mediana zawsze jest dobra miarą położenia, a średnia jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny; 6. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Wskaźniki rozproszenia Analiza danych, przeprowadzana jedynie na podstawie miar położenia, może prowadzić do błędnych wniosków. Przykładowo, z równości median zarobków w dwóch grupach pracowników, nie wynika, że zarobki w tych grupach mają ten sam rozkład. W pierwszej grupie wszyscy mogą bowiem zarabiać tyle samo, podczas gdy w drugiej mogą być tacy, co zarabiają dużo i tacy,co zarabiają mało. Analizując dane trzeba więc także uwzględnić ich rozproszenie. Przykład: Dwie próby 10, 0, 10 i 0, 0, 0, 0 mają te same średnie 0 i te same mediany 0, ale pierwsza z nich jest znacznie bardziej rozproszona. 1. Pierwszy i trzeci kwartyl w próbie x 1,..., x n. Pierwszy kwartyl Q1 to mediana z tych obserwacji z próby, które są położone na lewo od mediany M w uporządkowanej próbie x (1)... x (n). Trzeci kwartyl Q3 to mediana z tych obserwacji z próby, które są położone na prawo od mediany M w uporządkowanej próbie x (1)... x (n). Uwaga: (a) Q1 i Q3 to estymatory pierwszego i trzeciego kwartyla w populacji. (b) Q1, M, Q3 dzielą próbę na cztery, mniej wiecej równoliczne, części. 51

52 2. Rozstęp międzykwartylowy w próbie IQR = Q3 Q1. IQR jest lepszą miarą rozproszenia w próbie niż x n x 1, bo obie eksremalne st. poz. mogą być obserwacjami odstającymi. Uwaga: IQR = Q3 Q1 jest estymatorem rozstępu międzykwartylowego w populacji pierwszego i trzeciego kwartyl w populacji. 3. kwantyl rzędu p, gdzie p (0, 1): x p = inf{x : Fn (x) p} = { X([np]) gdy np N, X ([np]+1) gdy np / N. Inne podejście, odpowiadające podanej powyżej defincji mediany: { X([np]) + X ([np]+1) x p = gdy np N, 2 X ([np]+1) gdy np / N. Uwaga: x p jest estymatorem kwantyla rzędu p w populacji 4. Wariancja w próbie x 1,..., x n, oznaczaną symbolem s 2, otrzymujemy dodając do siebie kwadraty odchyleń kolejnych obserwacji od średniej x i dzieląc otrzymany wynik przez n 1, tzn. s 2 = (x 1 x) 2 + (x 2 x) (x n x) 2. n 1 Uwaga: s 2 jest estymatorem wariancji w populacji. 5. Odchylenie standardowe w próbie x 1,..., x n, oznaczane symbolem s, to dodatni pierwiastek z wariancji w próbie, tzn. (x1 x) s = 2 + (x 2 x) (x n x) 2. n 1 Uwaga: (a) s mierzy rozproszenie próby wokół średniej próbkowej, więc używa się tego parametru, gdy za wskaźnik położenia przyjmuje się x; (b) s 0, przy czym s = 0 wtedy i tylko wtedy, gdy wszystkie wartości w próbie są takie same. s i s 2 rośną wraz z rozproszeniem. (c) s jest lepsze od s 2, bo wyraża się w tych samych jednostkach co wartości w próbie. (d) IQR jest odporne na obserwacje odstające, a s 2 nie jest (nawet jedna obserwacja odstająca drastycznie zwiększa s 2 ). (e) IQR zawsze jest dobrą miarą rozproszenia, a s 2 jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny; Znając medianę i kwartyle możemy sporządzić jeszcze jeden rysunek ułatwiający wnioskowanie o próbie. Jest nim 52

53 Wykres pudełkowy: Bardzo przydatnym, graficznym środkiem wstępnej analizy danych, jest wykres pudełkowy. Można z niego odczytać pięć wielkości charakteryzujących próbę: najmniejszą obserwację, pierwszy kwartyl Q 1, medianę M, trzeci kwartyl Q 3, największą obserwację. Skala na osi pionowej odpowiada wartościom obserwacji. Dolna podstawa ramki to pierwszy kwartyl, górna to trzeci kwartyl. Długosć pionowego boku ramki to oczywiście IQR. Poziomy odcinek wewnątrz ramki to mediana. Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację. Podobnie konstruuje się dolny wąs. Zmodyfikowany box-plot: Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację mniejszą lub równą Q IQR. Analogicznie dla dolnego wąsa. Obserwacje odstające, czyli te spoza przedziału [Q IQR, Q IQR], są nanoszone indywidualnie. 1. Za pomocą box-plotów dobrze porównuje się rozkłady tej samej cechy w kilku próbach (np. zarobki mężczyzn i kobiet). 2. Ponieważ (x, s) nie są odporne na obserwacje odstające i mogą prowadzić do błędnych wniosków, gdy rozkład cechy nie jest symetryczny, do analizy zawsze należy dołączyć box-plot. Rysunek 23: Box-plot dla próby rozmiaru n = 100 z rozkładu normalnego N(0, 1). 53

54 Rysunek 24: Box-ploty dla trzech prób rozmiaru n = 100 z rozkładów normalnych N(0, 1), N(1, 2 2 ) i N(1, 3 2 ) Rysunek 25: Zmodyfikowany box-plot dla próby rozmiaru n = 50 z rozkładu chi-kwadrat z jednym stopniem swobody. Wykres przebiegu. Czasami dane ilościowe z próby są pomiarami pewnej wielkości, zbieranymi w następujących po sobie momentach czasowych. Wówczas dobrym pomysłem na ich wizualizację jest sporządzenie ich wykresu w funkcji czasu. Dane tego typu noszą nazwę szeregu czasowego, a odpowiadający im wykres jest zwany wykresem przebiegu. Analizując taki wykres można stwierdzić czy istnieje zależność między wartościami obserwowanymi w sąsiednich momentach czasowych, ogólna tendencja wzrostowa albo spadkowa (trend), zmienność sezonowa (kształt wycinka wykresu pojawiający się w kolejnych przedziałach czasowych). 54

55 Rysunek 26: Notowania akcji firmy Microsoft od stycznia roku do marca roku Podsumowanie Przeprowadzając wstępną analizę danych 1. Wyznaczamy wskaźniki liczbowe charakteryzujące środek i rozproszenie próby, czyli średnią i wariancję w próbie lub medianę i kwartyle w próbie. 2. Rysujemy box-plot, gdyż ułatwia on przeanalizowanie położenia i rozproszenia próby. 3. Rysujemy histogram by ocenić kształt, środek, rozrzut rozkładu cechy. Za jego pomocą (a) znajdujemy punkty szczytowe, czyli najczęściej powtarzające się wartości (modę) (dla nich słupki histogramu są najwyższe), (b) oceniamy czy rozkład jest symetryczny, czy też skośny. (c) znajdujemy środek - punkt centralny (d) wyznaczamy rozrzut, czyli odstęp między największymi i najmniejszymi wartościami. (e) identyfikujemy obserwacje odstające (niepasujące do pozostałych obserwacji). 4. Jeśli histogram jest symetryczny, środek i rozrzut rozkładu oceniamy za pomocą średniej i wariancji. W przeciwnym razie podajemy też medianę i kwartyle. 5. Jeśli w próbie są obserwacje odstające, środek i rozrzut rozkładu oceniamy za pomocą mediany i kwartyli, bo średnia i wariancja nie są odporne na takie obserwacje. 55

56 Przykład: Roczne dochody (w dolarach) 15 losowo wybranych pracownic banku JPMorgan to 16015, 17516, 19312, 16555, 18206, 20788, 12641, 16904, 15953, 17124, 19338, 18405, 17813, 19090, Dla tej próby statystyki porządkowe mają postać: 12641, 15953, 16015, 16555, 16904, 17124, 17274, 17516, 17813, 18206, 18405, 19090, 19312, 19338, 20788, a podstawowe miary położenia i rozproszenia są równe x = = s 2 = ( ) ( ) 2 = M = 17516, bo n = 15, więc medianą jest środkowa, czyli ósma obserwacja w uporządkowanej rosnąco próbie. 4. Q1 = 16555, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli Q3 = 19090, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli IQR = Q3 Q1 = = Rysunek 27: Box-plot dla danych o zarobkach w banku JPMorgan 56

57 Rysunek 28: Zmodyfikowany box-plot dla danych o zarobkach w banku JPMorgan 5.4 Zgodność z rozkładem normalnym Znaczna część procedur statystycznych wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można (nieformalnie) sprawdzać wykonując pewne proste (orientacyjne) obliczenia lub rysując wykres kwantyl-kwantyl. Przypuśćmy, że x 1,..., x n jest próbą z jakiegoś rozkładu normalnego. 1. Wykorzystanie reguły 3σ:. Jeśłi X ma rozkład N(µ, σ 2 ), to Pr(µ kσ < X < µ + kσ) jest równe 0.68 dla k = 1, 0.95 dla k = 2 i dla k = 3. Wniosek: Procent obserwacji x i w próbie, które różnią się od x o mniej ks, czyli spełniają warunek {i : x ks x i x + ks}, powinien niewiele odbiegać od 68% dla k = 1, 95% dla k = 2 i 99.7% dla k = 3. Przykład: Dla próby , , 1.519, , , , , , , , , , , , , , , , , (a) n = 20, x = , s 2 = , (b) 14/20 = 70% obserwacji jest w przedziale x ± 1s; (c) 19/20 = 95% obserwacji jest w przedziale x ± 2s; (d) 20/20 = 100% obserwacji jest w przedziale x ± 3s; (e) Można uznać, że próba pochodzi z rozkładu normalnego. 2. Histogram: powinien swoim kształtem przypominać gęstość rozkładu normalnego. 57

58 Rysunek 29: Histogram sugeruje, że próba pochodzi z rozkładu normalnego Rysunek 30: Histogram sugeruje, że próba nie pochodzi z rozkładu normalnego 3. Punkty na wykresach kwantylowych powinny układać się wzdłuż linii prostej. (a) QQPlot tworzą punkty (b) P-P plot tworzą punkty ( ( ) i Φ 1, x (i) ), i = 1,..., n. n ( x(i) x ( i n, Φ s )), i = 1,..., n. 58

59 Rysunek 31: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu normalnego Rysunek 32: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu wykładniczego 5.5 Własności średniej z próby Niech X 1,..., X n będzie losową próbą prostą z populacji (rozkładu) o średniej µ i skończonej wariancji σ 2 < i niech X i S 2 oznaczają średnią i wariancję w próbie, tzn. X = X X n n Przykłady:, S 2 = (X 1 X) 2 + (X 2 X) (X n X) 2. n 1 1. Rzut symetryczną monetą. x 1,..., x n wyniki kolejnych rzutów (x 1 = 1, liczba wyrzuconych orłów gdy w i-tym rzucie wypadł orzeł), x = liczba wykonanych rzutów. 2. Rzut monetą, która niekoniecznie jest symetryczna, a orzeł wypada z liczba wyrzuconych orłów prawdopodobieństwem p, x = liczba wykonanych rzutów. 3. Rzut kostką x i - wynik i-tego rzutu, x = 59 suma wyrzuconych oczek liczba wykonanych rzutów

60 Własności średniej 1. Nieobciążoność Zmienna losowa X ma wartość oczekiwaną µ i wariancję σ 2 /n (odchylenie standardowe σ/ n). Położenie rozkładu średniej X pokrywa się się położeniem rozkładu pojedynczej obserwacji, ale rozproszenie rozkładu średniej X jest n razy mniejsze od rozproszenia rozkładu pojedynczej obserwacji. 2. Jeśli dodatkowo wiadomo, że zmienne X 1,..., X n są niezależne i mają ten sam rozkład N(µ, σ 2 ), to statystyka n(x µ) (a) ma standardowy rozkład normalny N(0, 1). σ n(x µ) (b) ma rozkład t-studenta z n 1 stopniami swobody. S (n 1)S2 (c) ma rozkład chi-studenta z n 1 stopniami swobody. σ 2 3. Prawo wielkich liczb: X X n n µ. Wniosek: Dla każdej liczby ε > 0, nawet dowolnie małej, prawdopodobieństwo Pr ( X należy do przedziału [µ ε, µ + ε] ) jest bliskie 1 dla dużych liczności próby. Dokładniej, to prawdopodobieństwo dąży do 1, gdy n dąży do. Prawo wielkich liczb uzasadnia użycie średniej próbkowej x jako oszacowania średniej w populacji µ. Wprawdzie x rzadko jest równe µ i zmienia się z próby na próbę, ale gdy n rośnie, to wartości przyjmowane przez x coraz mniej różnią się od µ. Prawo wielkich liczb jest podstawą takich przedsięwzięć businesowych jak kasyna czy też firmy ubezpieczeniowe. Gracz nie jest w stanie przewidzieć swojej wygranej w kilku partiach ruletki. W kasynie rozgrywane są jednak tysiące partii, więc zarząd tej firmy, w przeciwieństwie do gracza, może przewidzieć jaka będzie średnia wygrana kasyna. Z prawa wielkich liczby wynika, że będzie ona bliska wartości oczekiwanej wygranej kasyna w pojedynczej partii, a ta jest większa od zera. Jeśli gracz trafi, to za każdą postawioną złotówkę dostanie 35 zł, w przeciwnym razie straci postawione pieniądze. Ponieważ prawdopodobieństwo trafienia jest równe 1/37, średnia wygrana kasyna w pojedynczej partii wynosi 1/37 kwoty postawionej przez gracza. 4. Centralne twierdzenie graniczne: Gdy próba X 1,..., X n pochodzi z rozkładu normalnego, średnia próbkowa x ma rozkład normalny. A 60

61 jaki jest jej rozkład, gdy próba nie pochodzi z rozkładu normalnego? Okazuje się, że gdy n rośnie to rozkład x coraz bardziej zaczyna przypominać rozkład normalny. Ta prawidłowość zachodzi bez względu na to jaki jest rozkład cechy X w populacji. Wniosek: Wielokrotnie, powiedzmy M razy, pobieramy próbę rozmiaru n i obliczamy odpowiadającą jej średnią próbkową x. Histogram dla tak wyznaczonych M średnich próbkowych x 1,..., x M przypomina swoim kształtem gęstość rozkładu normalnego (dzwon). Twierdzenie 9 (CTG). Niech X 1,..., X n będzie losową próbą prostą z rozkładu o średniej µ i wariancji σ 2 (0, ). Wówczas, dla dużych n, powiedzmy n 25, n(x µ) (a) ma rozkład zbliżony do standardowego rozkładu normalnego N(0, σ 1) (b) średnia X ma rozkład zbliżony do N(µ, σ 2 /n). Rysunek 33: Histogram dla M=10000 średnich próbkowych rozmiaru n = 2500 z rozkładu B(1, 0.4) Rysunek 34: Histogram dla M=10000 średnich próbkowych rozmiaru n = 2500 z rozkładu B(1, 0.5) 61

62 Wniosek: CTG możemy wykorzystać do obliczania prawdopodobieństw zdarzeń generowanych przez X: dla dowolnych a b ( Pr a n(x µ) σ ) b Φ(b) Φ(a). Dokładność tej aproksymacji zależy od rozkładu cechy X w populacji (maleje wraz ze wzrostem skośności tego rozkładu). 62

63 6 Wnioskowanie statystyczne Model: Niech θ będzie parametrem charakteryzującym rozkład interesującej nas cechy (zmiennej losowej) X w populacji, np. jego wartością oczekiwaną, wariancją, medianą, itp. Wartość tego parametru chcemy oszacować znając wartości x 1,..., x n cechy X, zmierzone dla kolejnych elementów próby (czyli przyjęte przez próbę prostą losową X 1,..., X n z tego rozkładu). Definicja 27. Próbą prostą losową o liczebności n nazywamy ciąg niezależnych zmiennych losowych X 1,..., X n, takich że każda z nich ma ten sam rozkład co X. Zmienna X 1 odpowiada potencjalnej wartości cechy X dla elementu populacji wybranego jako pierwszy, X 2 dla drugiego elementu, itd. Zauważmy, że X i możemy traktować jako zmienną losową tylko przed faktycznym wylosowaniem elementu próby. Po wylosowaniu możemy mówić jedynie o konkretnej wartości zmiennej losowej dla wybranego elementu. Wartości x 1,..., x n przyjęte przez zmienne X 1,..., X n będziemy nazywać realizacją próby. Definicja 28. Statystyką opartą na próbie losowej X 1,..., X n nazywamy każdą funkcję T (X 1,..., X n ) tej próby. Funkcja ta jest zwykłą zmienną losową, a odrębna nazwa statystyka ma podkreślać to, że wykorzystujemy tę funkcję do wyciągania wniosków o nieznanym parametrze rozkładu. Przykłady: T (x 1,..., x n ) = x, T (x 1,..., x n ) = s 2, T (x 1,..., x n ) = x (1). Zadaniem statystyki matematycznej jest podanie metod umożliwiających wyciąganie wniosków o całej populacji na podstawie dokładnego przebadania próby prostej los. X 1,..., X n, będącej niewielką częścią tej populacji. Wnioskowanie statystyczne zajmuje się więc następującym zagadnieniem: Jak związać informację z próby z informacją o całej populacji i jak ocenić wiarogodność tego powiązania? We wnioskowaniu statystycznym, dotyczącym nieznanego parametru θ Θ, charakteryzującego rozkład cechy w populacji, wyróżniamy trzy podejścia: 1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+? 2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80% Polaków to zwolennicy programu 500+? 3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+? 63

64 6.1 Estymacja punktowa Estymacja punktowa polega na wykorzystaniu informacji zawartej w próbie losowej X 1,..., X n do oszacowaniu parametru θ za pomocą pewnej statystyki θ n = T (X 1,..., X n ) zwanej estymatorem. Podstawowe fakty 1. θ (zazwyczaj) jest liczbą, ale nieznaną, 2. estymator θ n zależy od danych (tzn. od realizacji x 1,..., x n próby losowej X 1,..., X n ) więc jest zmienną losową, 3. dla każdej realizacji x 1,..., x n próby losowej X 1,..., X n, za wartość nieznanego parametru θ przyjmujemy liczbę θ n = T (x 1,..., x n ). Przykłady estymatorów. 1. Estymatorem średniej µ w populacji, czyli parametru µ = E(X), jest średnia próbkowa µ n = x. Przykład: Estymatorem średnich zarobków w populacji mężczyzn jest średnia zarobków w próbie wybranej z tej populacji. 2. Estymatorem wariancji σ 2 w populacji, czyli parametru σ 2 = Var(X), jest wariancja próbkowa: σ 2 n = s 2. Przykład: Estymatorem wariancji zarobków w populacji mężczyzn jest wariancja zarobków w próbie wybranej z tej populacji. 3. Estymatorem proporcji p w populacji, czyli względnej częstości (inaczej frakcji) występowania w populacji obiektów z pewnej klasy, jest frakcja p n takich obiektów w próbie. Przykład: Estymatorem frakcji mężczyzn z nadciśnieniem w populacji wszystkich mężczyzn jest frakcja mężczyzn z nadciśnieniem w próbie wybranej z tej populacji. 4. Estymatorem różnicy średnich dwóch populacji jest różnica dwóch średnich próbkowych. Przykład: Jeśli µ K i µ M oznaczają nieznane średnie zarobki w populacji kobiet i w populacji mężczyzn, a µ K i µ M są średnimi zarobkami w próbach wybranych z obu tych populacji, to estymatorem µ K µ M jest µ K µ M. 5. Estymatorem różnicy frakcji w dwóch populacjach jest różnica dwóch frakcji próbkowych Przykład: Jeśli p K i p M są nieznanymi frakcjami osób z nadciśnieniem w populacji kobiet i w populacji mężczyzn, a p K i p M są frakcjami takich osób w próbach wybranych z tych populacji, to estymatorem p K p M jest p K p M. 64

65 Estymować możemy nie tylko parametry liczbowe, ale także gęstość rozkładu i dystrybuantę rozkładu. 1. gęstość estymujemy np. za pomocą histogramu, 2. dystrybuantę estymujemy za pomocą dystrybuanty empirycznej: F n (x) def = liczba elementów próby, które są nie większe niż x n = #{j : x j x}, x R. n Rysunek 35: Porównanie gęstości rozkładu N(0, 1) z histogramem dla próby rozmiaru n = z tego rozkładu. Rysunek 36: Porównanie gęstości rozkładu χ 2 3 z histogramem dla próby rozmiaru n = z tego rozkładu 65

66 Rysunek 37: Porównanie dystrybuanty rozkładu N(0, 1) z dystrybuantą empiryczną dla próby rozmiaru n = 100 z tego rozkładu. 6.2 Pożądane własności estymatorów Przypuśćmy, że X 1,..., X n jest próbę prostą losową z populacji, w której mierzona cecha X ma rozkład zależny od nieznanego parametru θ, przyjmującego wartość w ustalonym zbiorze Θ. Niech θ n = T (X 1,..., X n ) będzie estymatorem tego parametru, skonstruowanym w oparciu o tę próbę. Jakie kryteria powinien spełniać θ n, by można było uznać, że jest on sensownym estymatorem θ? Przykład: Chcemy oszacować średnie zarobki pracowników KGHM. Niech x 1, x 2, x 3, x 4 oznaczają zarobki 4 losowo wybranych do próby pracowników tej firmy. Za oszacowanie średnich zarobków w całym kombinacie przyjmiemy θ 4 = T (x 1, x 2, x 3, x 4 ) = Taki estymator z pewnością nie jest sensowny, bo w ogóle nie wykorzystuje informacji zawartej w próbie, a za oszacowanie średniej płacy przyjmuje Nieobciążoność Jedną z cech dobrego estymatora jest jego nieobciążoność Definicja 29. θ n jest nieobciążonym estymatorem parametru θ, jeśli dla każdej wartości tego parametru zachodzi równość E( θ n ) = θ, która oznacza, że wartość oczekiwana estymatora jest równa wartości szacowanego parametru. Intuicyjny sens nieobciążoności: 1. Nieobciążony estymator θ n parametru θ nie ma systematycznej tendencji do tego, by albo niedoszacowywać, albo też przeszacowywać wartość θ. 2. Średnia wartość takiego estymatora jest równa θ. 66

67 Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji, proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest nieobciążony Zgodność Definicja 30. θ n jest zgodnym estymatorem parametru θ, jeśli dla każdej wartości tego parametru i dla każdego ε > 0 zachodzi równość ) lim ( θn Pr należy do przedziału [θ ε, θ + ε] = 1. n Intuicyjny sens zgodności: 1. Zgodność oznacza, że gdy rośnie rozmiar próby to wartości przyjmowane przez estymator są coraz bliższe wartości nieznanego parametru. 2. Zgodny estymator parametru θ zmienia swoją wartość z próby na próbę i rzadko kiedy ta wartość jest równa szacowanemu parametrowi θ. Jednak, gdy n rośnie, to wartości przyjmowane przez θ n coraz mniej różnią się od θ. Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji, proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest zgodny. 6.3 Metody konstrukcji estymatorów Wiadomo, jakie kryteria powinien spełniać estymator (na pewno zgodność, ewentualnie nieobciążoność). Pozostaje do rozwiązania najważniejszy problem: jak skonstruować sensowny estymator θ n parametru θ? Metoda momentów Przypuśćmy, że nieznany parametr θ = (θ 1,..., θ k ) jest k wymiarowy. Dla j = 1,..., k zdefiniujmy 1. j ty moment rozkładu: m j (θ) = E(X j ), 2. j ty moment w próbie: m j = 1 n n X j i. Uwaga: Korzystając z własności wartości oczekiwanej można pokazać, że m j jest nieobciążonym estymatorem m j (θ). Ponadto, z MPWL wynika, że m j jest zgodnym estymatorem m j (θ). Definicja 31. Estymator parametru θ, wyznaczony za pomocą metody momentów, to taka wartość θ n, która jest rozwiązaniem układu równań: i=1 m 1 ( θ n ) = m 1, m 2 ( θ n ) = m 2,.. m k ( θ n ) = m k, 67

68 Uwagi: 1. Estymator wyznaczony za pomocą metody momentów jest zmienną losową, bo jego wartość zależy od próby, tzn. θ n = θ n (X 1,..., X n ). 2. W niektórych sytuacjach ten estymator daje bezsensowne wyniki (na przykład wtedy, gdy szacuje nieznane prawdopodobieństwo za pomocą ujemnej liczby). Przykłady: 1. X 1,..., X n probą z populacji, w której mierzona cecha X ma rozkład B(1, p). Wówczas m 1 = E(X) = p. Zastępując w równaniu p = m 1 nieznany moment rozkładu momentem z próby m 1 = 1 n X i otrzy- n mujemy estymator parametru p i=1 p n = m 1 = 1 n n X i. i=1 2. X 1,..., X n próba z populacji, w której mierzona cecha X ma rozkład N(m, σ 2 ). Wówczas m 1 = E(X) = m, m 2 = E(X 2 ) = σ 2 + m 2. Po przyrównaniu dwóch pierwszych momentów rozkładu do odpowiadających im momentów próbkowych otrzymujemy układ równań z dwiema niewiadomymi m, σ 2 n X i m = 1 n i=1 σ 2 + m 2 = 1 n Xi 2. n i=1 Rozwiązaniem tego układu są m n = X = 1 n n X i, i=1 σ 2 n = 1 n n (X i X) 2 i=1 3. X 1,..., X n i.i.d. U(0, θ) Metoda największej wiarogodności Niech X 1,..., X n będzie losową próbą prostą z populacji, w której mierzona cecha X ma rozkład o gęstości (funkcji prawdopodobieństwa) f(x; θ). Definicja 32. Funkcja wiarogodności: L(θ) = L(θ; x 1,..., x n ) = n f(x i ; θ). i=1 68

69 Definicja 33. Estymatorem największej wiarogodności (estymatorem NW) parametru θ jest ta wartość θ n Θ, która (przy ustalonych, zaobserwowanych wartościach próby x 1,..., x n ) maksymalizuje funkcję wiarogodności L(θ), tzn. Uwagi: L( θ n ) = max θ Θ L(θ). 1. Estymator największej wiarodności jest zmienną losową, bo jego wartość zależy od próby, tzn. θ n = θ n (X 1,..., X n ). 2. Z własności logarytmu wynika, że funkcje L(θ) i ln(l(θ)) osiągaja wartości największe w tym samym punkcie. Wygodniej jest maksymalizować drugą z tych funkcji. 3. Za estymator NW parametru θ będziemy przyjmować wartość θ n, dla której pochodna wzlędem zmiennej θ funkcji ln(l(θ)) jest równa 0. Pominiemy więc sprawdzanie, czy w tym punkcie funkcja ln(l(θ)) faktycznie ma maksimum globalne (a nie np. minimum lokalne). Przykłady: 1. X 1,..., X n probą z populacji, w której mierzona cecha X ma rozkład B(1, p). Funkcja prawdopodobieństwa ma postać: f(x; p) = Pr(X = x) = p x (1 p) 1 x, dla x = 0, 1. Niech x 1,..., x n będzie realizacją próby. Wówczas: (a) Funkcja wiarogodności ma postać: L(p) = [ p x 1 (1 p) 1 x 1 ]... [p xn (1 p) 1 xn] = p x x n (1 p) n (x x n) = p nx (1 p) n(1 x). (b) Logarytm funkcji wiarogodności to ln(l(p)) = ln ( p nx (1 p) n(1 x)) = nx ln(p) + n(1 x) ln(1 p). (c) Pochodna względem zmiennej p funkcji ln(l(p)) jest równa [ ln(l(p)) ] = nx p n(1 x) 1 p. (d) Rozwiązaniem względem p równania [ ln(l(p)) ] = 0, a więc estymatorem NW parametru p rozkładu B(1, p), jest p n = x. 69

70 7 Przedziały ufności Estymacja przedziałowa polega na wykorzystaniu informacji zawartej w próbie losowej X 1,..., X n do skonstruowaniu przedziału liczbowego, który z dużą dozą pewności zawiera wartość szacowanego parametru θ. Przykład: Z populacji 20.6 mln kobiet w wieku od 20 do 29 lat, mieszkających na terenie USA, wybrano losowo próbę n = 654 kobiet. Średnia wartość indeksu BMI w tej próbie była równa x = Co można powiedzieć o średniej wartości µ wskaźnika BMI w całej populacji kobiet w tej grupie wiekowej? Dodatkowe założenie: przypuśmy, że tę próbę możemy potraktować jako próbę prostą losową z populacji o rozkładzie N(µ, σ 2 ), gdzie µ nie jest znane, a odchylenie standardowe σ jest znane i równe 7.5. Przy takim założeniu, średnia próbkowa x ma rozkład N(µ, σ 2 /n), czyli N(µ, (0.3) 2 ). 1. Za oszacowanie (estymator) nieznanej średniej wartości µ indeksu BMI w całej populacji przyjmiemy x = Nie oczekujemy, że x jest dokładnie równe 26.8, więc chcemy wiedzieć, jak precyzyjne jest to oszacowanie. 2. Ponieważ x ma rozkład normalny o średniej µ i odchyleniu standardowym 0.03, z drugiej części reguły wynika następujący Wniosek: dla około 95% wszystkich próbek rozmiaru 654, pobranych z populacji kobiet z analizowanej grupy wiekowej, średnia próbkowa x różni się od µ o mniej niż 2 dwa odchylenia standardowe dla x, bo = Pr (µ 2 n σ X µ + 2 n σ ) = Pr ( X µ X ) 3. Dla naszej próby zmienna losowa X przyjęła wartość x = 26.8, więc x = = 26.2, x = = Z poprzedniego punktu wynika, że mamy 95% pewności, iż przedział [26.2; 27.4] zawiera µ. Nazywamy go przedziałem ufności dla µ na poziomie ufności 0.95 (95% przedział ufności dla średniej rozkładu normalnego przy znanej wariancji). 7.1 Podstawowe pojęcia Wybierzmy liczbę α z przedziału (0, 1), zazwyczaj α = 0.01 albo α = Definicja 34. Niech â = a(x 1,..., X n ) i b = b(x 1,..., X( n ) będą ) dwoma funkcjami próby (statystykami). Mówimy, że przedział C n = â, b jest przedziałem ufności dla parametru θ na poziomie ufności 1 α, jeśli ( ) Pr â < θ < b 1 α, dla każdego θ Θ. ( ) Taki przedział â, b zawiera θ z prawdopodobieństwem 1 α. 70

71 ( ) Definicja 35. Szerokością (długością) przedziału ufności C n = â, b nazywamy różnicę b â, która jest (zazwyczaj) zmienną losową. Oczywiście najbardziej precyzyjne oszacowanie nieznanego parametru θ daje przedział, który na danym poziomie ufności ma najmniejszą długość. Podstawowe fakty 1. θ jest liczbą, ale nieznaną; wartość θ chcemy oszacować, ( ) 2. prawy i lewy koniec przedziału C n = â, b zależą od danych (tzn. od realizacji x 1,..., x n próby losowej) więc są zmiennymi losowymi, 3. dla każdej realizacji x 1,..., x n próby losowej przyjmujemy, że θ należy do przedziału liczbowego (a(x 1,..., x n ), b(x 1,..., x n )). Interpretacja poziomu ufności: Przedział liczbowy (a(x 1,..., x n ), b(x 1,..., x n )), wyznaczony na podstawie tylko jednej realizacji x 1,..., x n próby losowej, albo zawiera nieznaną wartość θ, albo i nie. Tego nie wiemy! Jeśli jednak wielokrotnie wyznaczymy przedział ufności dla θ na poziomie ufności np = 0.95 (za każdym razem wykorzystując inną realizację próby) to około 95% spośród tych przedziałów liczbowych będzie zawierać nieznaną wartość θ. Jak konstruować przedział ufności? Konstrukcja przedziału jest równoważna wskazaniu jego końców â, b, będących pewnymi statystykami. Statystyki te dobieramy tak by przedział miał 1. ustalony poziom ufności (prawdopodobieństwo pokrycia) i jak najmniejszą szerokość. Uwagi 1. Ponieważ zależy nam na tym by to prawdopodobieństwo pokrycia było duże, więc wybieramy α = 0.01 lub α = Zamiast sformułowania na poziomie ufności 1 α używamy także stwierdzenia: na poziomie ufności (1 α) 100%. 7.2 Przedziały ufności średniej populacji Niech X 1,..., X n będzie losową próbą prostą z populacji o nieznanej średniej µ i skończonej wariancji σ 2 <. Naszym celem jest konstrukcja przedziału ufności dla parametru µ na ustalonym poziomie ufności 1 α. Przedział ufności dla średniej µ w populacji ma postać: estymator średniej populacji ± margines błędu. 71

72 Oznaczmy: 1. z α/2 kwantyl rzędu 1 α/2 z rozkładu N(0, 1), tzn. liczba, taka że Φ(z α/2 ) = 1 α/2; 2. t n 1,α/2 kwantyl rzędu 1 α/2 z rozkładu t-studenta z n 1 stopniami swobody. 1. Model 1. X 1,..., X n mają rozkład normalny N(µ, σ 2 ), przy czym n(x µ) wariancja σ 2 jest znana. Wówczas zmienna losowa Z = σ ma standardowy rozkład normalny N(0, 1), więc ( Pr z α/2 n(x µ) σ z α/2 ) = 1 α. Wniosek: Przedział ufności dla µ na poziomie ufności 1 α ma postać ( X σ n z α/2, X + σ n z α/2 ). Dla około około 100(1 α)% prób, tak skonstruowany przedział ufności będzie zawierał nieznaną średnią µ. 72

73 Poniższy rysunek ilustruje opisaną wcześniej interpretację przedziałów ufności. Na podstawie 21 różnych prób, z populacji o rozkładzie normalnym ze znaną wariancją, wyznaczono 21 przedziałów ufności na poziomie ufności 95% dla nieznanej wartości oczekiwanej μ tego rozkładu. Dla każdej z tych prób czerwoną kropką oznaczono odpowiadającą jej średnią próbkową, czyli oszacowanie (wartość estymatora) parametru μ, a strzałkami zaznaczono początek i koniec przedziału ufności, skonstruowanego w oparciu o tę próbę. Choć średnia próbkowa oraz początek i koniec przedziału zmieniają się z próby na próbę, tylko jeden z tych 21 przedziałów (piąty od góry), czyli około 5% spośród nich, nie zawiera prawdziwej wartości parametru μ.

Pokazać jeszcze