Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15 1

TABLICE ROZKŁADÓW... 3 ROZKŁAD NORMALNY... 4 ROZKŁAD T-STUDENTA... 15 2

Tablice gęstości lub dystrybuanty: TABLICE ROZKŁADÓW W obliczeniach statystycznych konieczne jest posługiwanie się teoretycznymi rozkładami prawdopodobieństwa w celu obliczenia np. prawdopodobieństw osiągnięcia przez zmienną losową wartości z pewnego przedziału. W tym celu korzysta się z podstawowych własności: P( X a) F( a), P( b X ) 1 F( b), P( a X b) F( b) F( a). Większość rozkładów używanych w rachunku prawdopodobieństwa i statystyce dana jest w postaci wzorów opisujących ich gęstość prawdopodobieństwa. Dystrybuantę i gęstość prawdopodobieństwa łączy zależność: x F ( x) f ( t) dt. Zatem aby móc obliczyć dystrybuantę dowolnego ciągłego rozkładu prawdopodobieństwa konieczne jest obliczenie całki z jego gęstości. Zwykle gęstości rozkładów prawdopodobieństwa opisane są bardzo skomplikowanymi wzorami i nie są znane sposoby ich analitycznego całkowania. W związku z tym, aby obliczyć wartość dystrybuanty danego rozkładu konieczne jest wykorzystanie metod numerycznego całkowania. Dawniej kiedy komputery nie istniały, lub nie były powszechne tworzono tablice dystrybuant różnych rozkładów na podstawie wartości całek obliczonych numerycznie, dla z góry ustalonych wartości x i parametrów rozkładów. Tablice kwantyli: W testowaniu hipotez statystycznych wygodniej jest korzystać z tablic kwantyli rozkładów. W rzeczywistości zarówno tablice dystrybuanty jak i kwantyli zawierają te same informacje, lecz podane w różny sposób ułatwiający ich wykorzystanie w danym zagadnieniu. Kwantyle oblicza się na podstawie wzoru: F( q) p, gdzie q oznacza szukaną wartość kwantyla, a p jest znanym prawdopodobieństwem. Innymi słowy poszukiwana jest taka wartość q, dla której dystrybuanta osiąga wartość p. 3

Inne sposoby obliczania prawdopodobieństw lub kwantyli: Obecnie komputery są tak powszechne, że w praktycznych obliczeniach nie korzysta się z tablic i są one przydatne jedynie ze względów dydaktycznych. Nawet podstawowe narzędzia biurowe (np. LibreOffice Calc, czy Microsoft Office Excel) oferują funkcje do obliczania gęstości, dystrybuanty czy kwantyli popularnych rozkładów prawdopodobieństwa. ROZKŁAD NORMALNY W literaturze zwykle spotyka się tablice rozkładu normalnego w postaci jego gęstości lub dystrybuanty. W praktycznych zastosowaniach najwygodniej jest używać tablic dystrybuanty. Zadanie 1. Wykorzystując arkusz kalkulacyjny utwórz tablicę dystrybuanty standaryzowanego rozkładu normalnego. Rozwiązanie: Gęstość rozkładu normalnego opisana jest wzorem: 1 x 2 1 f ( x) e, 2 gdzie oznacza średnią, a odchylenie standardowe. W przypadku rozkładu normalnego standaryzowanego = 0 i =1. Zatem f ( u) 1 e 2 Tablice rozkładu normalnego zwykle skonstruowane są w taki sposób, że w pierwszej kolumnie są wartości odciętych x (dla rozkładu standaryzowanego oznaczane umownie u lub z). W nagłówku tabeli znajdują się także wartości u (czyli x), ale podane z większą dokładnością. 2 u 2. 2 Tab. 1. Układ treści w tabeli dystrybuanty rozkładu normalnego. u z dokładnością do 0,01 u z dokładnością wartości F(u) do 0,1 4

Należy zwrócić uwagę na to, że w tabeli znajdują się tylko dodatnie wartości u. Wynika to z tego, że rozkład normalny jest rozkładem symetrycznym względem wartości średniej (dla rozkładu standaryzowanego = 0). Zatem wystarczy utworzyć tablicę dla jednej połowy rozkładu, gdyż druga jest identyczna. Zwykle tablice są utworzone dla prawej połowy rozkładu. Sytuacja ta jest odwzorowana na Rys. 1. W celu utworzenia tablicy dystrybuanty rozkładu normalnego należy utworzyć nagłówek tablicy (liczby od 0,00 do 0,09 z krokiem 0,01) oraz pierwszą kolumnę (liczby od 0,0 do 3,0 z krokiem 0,1), a następnie odpowiednio blokując odwołania do pierwszej kolumny i nagłówka tabeli wykorzystać funkcję arkusza obliczającą skumulowane wartości rozkładu normalnego standaryzowanego. Przykładowe rozwiązanie znajduje się w pliku TabeleRozkładów.xlsx. Aby odczytać wartość dystrybuanty dla podanej wartości u należy znaleźć w lewej kolumnie tę wartość z dokładnością do 0,1, a następnie w nagłówku tabeli z dokładnością do 0,01. W miejscu przecięcia się wiersza (dokładność 0,1) i kolumny (dokładność 0,01) znajduje się szukana wartość F(u). Przykładowo w celu znalezienia dystrybuanty dla wartości u=1,25 w pierwszej kolumnie należy odszukać wartość 1,2, a następnie w nagłówku tabeli wartość 0,05 (w sumie 1,2+0,05=1,25). Szukana wartość wynosi F(u) = 0,894350. Możliwe jest również odczytanie kwantyla rozkładu normalnego przy wykorzystaniu tablicy dystrybuanty. Należy znaleźć wartość F(u) najbliższą danej wartości p, a następnie odczytać wartość u. 5

Rys. 1. Wykres a) rozkładu gęstości i b) dystrybuanty standaryzowanego rozkładu normalnego z zaznaczonym obszarem ujętym w tablicy dystrybuanty. Tab. 2. Dystrybuanta rozkładu normalnego standaryzowanego dla 0 u 3. 6

Zadanie 2. Korzystając z tabeli dystrybuanty rozkładu normalnego znaleźć: a) F(1,25); F(-1,25); F(0); F(-0,1); F(0,1); b) P(U<1,25); P(U>1,25); P(U<-1,25); P(U>-1,25); P(U>-0,1); c) P(1<U<1,25); P(-1<U<1,25); P(-1<U<-0,1); d) P( U <1); P( U >1); Dla każdego przypadku wykonaj rysunek i zaznacz rozwiązanie na wykresie gęstości i dystrybuanty. Rozwiązanie: a) W pierwszej kolumnie należy odszukać wartość 1,2, a następnie w nagłówku tabeli wartość 0,05 (w sumie 1,2+0,05=1,25). Szukana wartość wynosi F(1,25) = 0,894350. Obliczenie F(-1,25) wymaga wykorzystania symetrii funkcji gęstości rozkładu prawdopodobieństwa. Skoro funkcja f(u) jest symetryczna względem wartości 0, to pola pod nią w przedziałach (-,-1,25) i (1,25, ) są takie same. Zatem wystarczy skorzystać z własności F( u) 1 F( u). Zatem F ( 1,25) 1 F(1,25) 10,894350 0,10565. 7

Wartość F(0) odczytuje się dla u=0,00 (czyli u=0,0+0,00) i wynosi ona F(0)=0,5. Wartość F(-0,1) odczytuje się dla u=0,10 (czyli u=0,1+0,00) i odejmuje od 1. Wynosi ona F ( 0,1) 1 F(0,1) 10,539828 0,460172 8

Wartość F(0,1) odczytuje się dla u=0,10 (czyli u=0,1+0,00). F ( 0,1) 0,539828 b) W celu obliczenia prawdopodobieństw osiągnięcia przez zmienną losową wartości mniejszej lub większej od zadanej, należy wyrazić zagadnienie przy pomocy dystrybuanty. Następnie postępuje się identycznie jak w przykładzie a). P ( U 1,25) F(1,25) 0,894350 P ( U 1,25) 1 F(1,25) 0,10565 P ( U 1,25) 1 F(1,25) 0,10565 P ( U 1,25) 1 F( 1,25) 1 (1 F(1,25)) 0,894350 P ( U 0,1) 1 F( 0,1) 1(1 F(0,1)) 0,539828 9

c) W celu rozwiązania zadań z tego podpunktu należy wykorzystać fakt, że dla każdej zmiennej losowej ciągłej P( a X b) F( b) F( a). P ( 1U 1,25) F(1,25) F(1) 0,894350-0,841345 0.053005 P( 1 U 1,25) F(1,25) F( 1) F(1,25) (1 F(1)) 0,894350-(1-0,841345) 0.735695 P( 1 U 0,1) F( 0,1) F( 1) (1 F( 0,1)) (1 F(1)) (1-0.539828)- (1-0.841345)= 0.301517 10

d) Wyrażenie U a można zapisać inaczej jako U a U a czyli a U a. Oznacza ono zbiór pomiędzy wartościami a i a. Zatem rozwiązanie będzie następujące: P( U 1) P( 1 U 1) F(1) F( 1) F(1) (1 F(1)) 0.841345- (1-0.841345) 0.68269 Wyrażenie U a można zapisać inaczej jako U a U a. Oznacza ono zbiór wartości mniejszych od a lub większych od a. Zatem rozwiązanie będzie następujące: P( U 1) P( U (, 1) (1, )) F( 1) (1 F(1)) (1 F(1)) (1 F(1)) 2(1 F(1)) 2(1 0.841345) 0.31731 Zadanie 3. Korzystając z tabeli dystrybuanty rozkładu normalnego znaleźć kwantyle: a) q 0,1 ; b) q 0,5 ; c) q 0,9 ; Dla każdego przypadku wykonaj rysunek i zaznacz rozwiązanie na wykresie gęstości o dystrybuanty. 11

Rozwiązanie: Aby znaleźć kwantyle korzystając z tabeli dystrybuanty należy odnaleźć najbliższą wartość dystrybuanty do podanej wartości p. Jeśli wartość p<0,5 to należy odszukać F(-q)=1-p, a po odczytaniu wartości u p konieczna jest zmiana jej znaku na przeciwny. a) F ( q 0, 1) 0,1 F ( q0, 1) 1 0,1 0,9 Wartością najbliższą 0,9 zawartą w tabeli jest 0,899727. Odczytując wartość u p dla wiersza i kolumny otrzymuje się kolejno 1,2 i 0,08, czyli q q 0,1 0,1 1,28 1,28 b) Kwantyl q 0,5 dzieli rozkład na dwie równe części. Wiadomo, że standaryzowany rozkład normalny jest symetryczny względem wartości 0, czyli P(U<0)=P(U>0)=0,5. Zatem q 0,5 =0 (Rys. 1). c) F ( q 0, 9) 0,9 Wartością najbliższą 0,9 zawartą w tabeli jest 0,899727. Odczytując wartość u dla wiersza i kolumny otrzymuje się kolejno 1,2 i 0,08, czyli q 0,9 1,28 12

Zadanie 4. Zmienna losowa X ma rozkład normalny o średniej = 5 i odchyleniu standardowym =15. Korzystając z tablicy dystrybuanty rozkładu normalnego oblicz prawdopodobieństwa: a) P(X<3); b) P(3<X<6); c) P(X >18). Rozwiązanie: W przypadku, gdy zachodzi potrzeba odczytania wartości dystrybuanty dla dowolnego rozkładu normalnego, konieczne jest dokonanie standaryzacji. Standaryzację przeprowadza się według wzoru: u x. Oznacza to, że dowolny rozkład normalny można sprowadzić do rozkładu standaryzowanego (w tym przypadku w celu skorzystania z tablicy dystrybuanty standaryzowanego rozkładu normalnego). Aby obliczyć prawdopodobieństwo P(a<X<b) wartości a i b należy odnieść do rozkładu standardowego zgodnie z wyżej przytoczonym wzorem: u a a ; u b b Następnie należy obliczyć P(u a <U<u b ) identycznie jak w zadaniu 2. a) Dla P(X<3) obliczenia należy wykonać następujące kroki: 3 3 5 2 u 3 0,133333 ; 15 15 P X 3) P( U u ) F( ), ( 3 u3 13

następnie korzystając z tablicy dystrybuanty standaryzowanego rozkładu normalnego odczytać wartość dystrybuanty dla u=-0,133-0,13: F ( 0,13) 1 F(0,13) 10,551717 0,448283. b) Przebieg obliczeń dla P( 3 X 6) będzie identyczny: 3 5 6 5 u 3 0,133333 ; u 6 0, 066667 15 15 P( 3 X 6) P( u3 U u6) F( u6) F( u3) F(0,07) F( 0,13) 0,527903-0,448283 0,07962 c) 18 185 13 u 18 0,86667; 15 15 P( X 18) P( U u18) 1 F( u18) 1 F(0,87) 10,807850 0,19215. Zadanie 5. Zmienna losowa X ma rozkład normalny o średniej =-1 i odchyleniu standardowym =0,15. Korzystając z tablicy dystrybuanty rozkładu normalnego oblicz kwantyle q 0,25 i q 0,75. Rozwiązanie: Tak samo jak w zadaniu 3, należy odczytać kwantyle rozkładu standaryzowanego korzystając z tablicy. Otrzymuje się następujące wyniki: u q 0,68; 0,25 u q 0,68. 0,75 Kolejnym krokiem jest odniesienie ich do danego rozkładu nie będącego rozkładem standaryzowanym przy użyciu wzoru wykorzystanego do standaryzacji Zatem: q q x p u p q x p u q x u q q 0,15( 0,68) ( 1) 1,102; 0,25 0,25 q x q u 0,150,68 ( 1) 0,898. 0,75 0,75 p 14

Zadanie 6. ROZKŁAD T-STUDENTA Wykorzystując arkusz kalkulacyjny utwórz tablicę kwantyli rozkładu T-Studenta. Rozwiązanie: Gęstość rozkładu T-Studenta opisana jest wzorem: df 1 2 1 f ( t) df 1, 1 df 2 df t 2 2 2 1 df gdzie df oznacza liczbę stopni swobody (parametr rozkładu). W przypadku tego rozkładu zwyczajowo zamiast symbolu x używa się symbolu t, oznaczającego wartości zmiennej losowej. Rozkład T-Studenta przy dużych wartościach df (~30) zbiega do rozkładu normalnego standaryzowanego. Podobnie jak rozkład normalny standaryzowany jest to rozkład symetryczny względem wartości t=0. W praktycznych zastosowaniach najczęściej korzysta się z kwantyli rozkładu T-Studenta. Z tego powodu konstrukcja tablic rozkładu T-Studenta jest inna niż konstrukcja tablic rozkładu normalnego. W pierwszej kolumnie znajduje się liczba stopni swobody, która jest powiązana np. z liczebnością próby. W nagłówku tablicy znajdują się wartości poziomu istotności, jak dla testu jednostronnego i dwustronnego (Tab. 2). Wewnątrz tabeli są wartości kwantyli t prawego skrzydła rozkładu T-Studenta. Tab. 2. Układ treści w tabeli kwantyli rozkładu T-Studenta. dla testu jednostronnego dla testu dwustronnego df liczba stopni swobody wartości t dla prawego skrzydła rozkładu W przypadku odczytywania wartości dla testu jednostronnego oznacza to, że całe prawdopodobieństwo jest pod jednym z ogonów rozkładu 15

Rys. 2. Wykres gęstości rozkładu T-Studenta z zaznaczonym kwantylem t odczytywanym jak dla testu jednostronnego (prawostronnego). Rys. 3. Wykres gęstości rozkładu T-Studenta z zaznaczonym kwantylem t odczytywanym jak dla testu dwustronnego. Gdy konieczne jest odczytanie kwantyla dla testu lewostronnego, wykorzystuje się symetrię rozkładu T-Studenta: odczytuje się kwantyl jak dla testu jednostronnego (prawostronnego), a następnie zmienia się jego znak na przeciwny. W celu utworzenia tablicy w arkuszu kalkulacyjnym należy określić nagłówek i kolumnę określającą liczbę stopni swobody. Następnie konieczne jest użycie funkcji zwracającej kwantyle rozkładu T-Studenta dla wartości 1- (np. w arkuszu Excel: =ROZKŁ.T.ODWR(1-B$2;$A5)). Przykładowe rozwiązanie znajduje się w pliku TabeleRozkładów.xlsx. 16

Zadanie 7. Korzystając z tablic rozkładu T-Studenta odczytać kwantyle: a) q 0,9 b) q 0,1 dla df=5. 17

Rozwiązanie: a) Wartość q 0,9 odczytuje się jak dla testu jednostronnego dla =0,1: q 1,475884. 0,9 b) Wartość q 0,1 odczytuje się jak dla testu jednostronnego dla =0,1 i zmienia się znak na przeciwny: q 1,475884. 0,1 Zadanie 8. Korzystając z tablic rozkładu T-Studenta dla df=15 odczytać wartości krytyczne t spełniające warunki: a) P(t>T)=0,01 b) P(t<T)=0,99 c) P(t<T)=0,01 d) P( T >t)=0,05 e) P( T <t)=0,95 Rozwiązanie: a) Poszukiwana jest taka wartość t, począwszy od której w kierunku malejących wartości t zawierać się będzie pole pod wykresem gęstości równe 0,01. Czyli poszukiwany jest kwantyl rozkładu dla wartości p=0,01, czyli q 0,01. Korzystając z tablic, należy odczytać wartość t dla =0,01, df=15 jak dla testu jednostronnego i zmienić jego znak: t 2,602480. 18

b) Poszukiwana jest taka wartość t, począwszy od której w kierunku rosnących wartości t zawierać się będzie pole pod wykresem gęstości równe 0,99. Czyli, jak poprzednio poszukiwany jest kwantyl rozkładu dla wartości p=0,01, q 0,01 : t 2,602480. c) Poszukiwana jest taka wartość t, począwszy od której w kierunku rosnących wartości t zawierać się będzie pole pod wykresem gęstości równe 0,01. Czyli, poszukiwany jest kwantyl dla p=1-0,01=0,99, q 0,99. Korzystając z tablic, należy odczytać wartość t dla =0,01, df=15 jak dla testu jednostronnego: t 2,602480. d) Poszukiwana jest taka wartość t, dla której zajdzie P (( T t) ( T t)) 0, 05, przy czym P( T t) P( T t). Innymi słowy poszukiwana jest taka wartość t, która na obu ogonach rozkładu oddzieli takie samo pole równe co do wartości połowie 0,05. Czyli poszukiwane są kwantyle q 0,025 i q 0,975. Z tablic należy odczytać wartość jak dla testu dwustronnego przy =0,05: t 2,131450. Zatem rozwiązaniem zadania są wartości 19

t 2,131450. e) Poszukiwana jest taka wartość t, dla której zajdzie P ( t T t) 0, 95, przy czym. Innymi słowy poszukiwana jest taka wartość t, dla której pomiędzy t, a t będzie pole równe 0,95. W praktyce jest to przypadek identyczny jak w zadaniu d) bowiem na obu ogonach rozkładu oddzielone zostanie takie samo pole równe co do wartości połowie 1-0,95=0,05. Czyli jak poprzednio poszukiwane są kwantyle q 0,025 i q 0,975. Z tablic należy odczytać wartość jak dla testu dwustronnego przy =0,05: t 2,131450. Zatem rozwiązaniem zadania są wartości t 2,131450. 20