# # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl http:/// Krzywa rozkładu normalnego krzywa rozkładu Gaussa lub krzywą rozkładu normalnego 80 80 60 60 40 40 0 0 00 80 00 80 60 60 40 40 0 0 0-4 -3 - - 0 3 4 pomiar 0-4 -3 - - 0 3 4 pomiar ( x) = exp σ π ( x µ ) Φ σ chemików
Rozkład normalny Kiedy mówimy o rozkładzie normalnym to: 68% pomiarów znajduje się w przedziale µ ± σ 95% pomiarów znajduje się w przedziale µ ± σ 99,7% pomiarów znajduje się w przedziale µ ± 3σ Standardyzowana zmienna Dla rozkładu normalnego, dokładną proporcję próbek, o które są w określonym interwale można odszukać w tablicach statystycznych. Tablice zakładają, że zmienna jest standardyzowana: z = x µ σ z N(0,) chemików
Rozkład standardyzowanej zmiennej Gęstość prawdopodobieństwa rozkładu normalnego (postać unormowana, standardyzowana). ϕ ( x) ( z) = exp σ π ( x µ ) Φ σ z = exp π Całka Laplace a prawdopodobieństwo wystąpienia wartości zmiennej w przedziale od 0 do z i µ 0 z i z z ( ) = exp dz Φ z i π z i 0 chemików 3
Przykład Podczas miareczkowania uzyskano normalny rozkład wyników, ze średnią 0,5 ml oraz odchyleniem standardowym 0,0 ml. Jaka część pomiarów będzie w przedziale od 0, ml do 0,0 ml? z = (0,-0,5)/0,0 = -,5 Φ(z ) = 0,0668 z = (0,0-0,5)/0,0 =,5 Φ(z ) = 0,9938 Przykład Z tablic statystycznych proporcja obiektów, o wartości poniżej z i z z µ 0,0668 0,9938 z p = 0,9938 0,0668 = 0,970 9,70% pomiarów znajduje się w przedziale od 0, ml do 0,0 ml chemików 4
Przedział ufności Pewna wartość leży w przedziale, którego zakres determinuje: precyzja danej metody (σ), liczba pomiarów (z liczbą powtórzeń rośnie nasza pewność co do wyniku). Załóżmy, że robimy po 5 powtórzeń 5 pomiarów rozkład indywidualnych średnich rozkład próbkowania średniej błąd standardowy średniej: informuje o stopniu rozproszenia średnich z próbki względem średniej dla populacji: σ/ n Przedział ufności Zakres wartości, których z określoną ufnością możemy być pewni. O przedziale ufności decyduje stopień ufności im większy tym przedział jest szerszy. Dla dużej liczby pomiarów przedział ufności ma postać: µ ± zα/ ( σ/ n ) wartość tablicowa odczytana dla danego poziomu ufności chemików 5
Przedział ufności 90% 95% 98% 99% ( σ / n ) < x < µ +,64( / n ) µ,64 σ ( σ / n ) < x < µ +,96( / n ) µ,96 σ ( σ / n ) < x < µ +,33( / n ) µ,33 σ ( σ / n ) < x < µ +,58( / n ) µ,58 σ Przedział ufności dla małej liczby próbek Im mniej próbek, tym σ jest mniej dokładnie wyznaczone, zatem przedział ufności ma postać: µ ± t ( α/, n )( σ/ n ) Wprowadza się pojęcie liczby stopni swobody (n-): liczba niezależnych różnic (x i -µ). Wartość t zależy od przyjętego poziomu ufności i liczby stopni swobody. chemików 6
Przedział ufności dla małej liczby próbek 0,05 0,05 0,0 0,005 6,34,706 3,8 63,657,90 4,303 6,965 9,95 3,353 3,8 4,54 5,84 4,3,776 3,747 4,604 5,05,57 3,365 4,03 6,943,447 3,43 3,707 7,895,365,998 3,499 8,860,306,896 3,355 9,833,6,8 3,50 0,8,8,764 3,69 µ ± t ( α/, n )( σ/ n ) Przykład Zawartość sodu w moczu wyznaczono stosując elektrodę selektywną. Uzyskano następujące wyniki: 0, 97, 99, 98, 0 i 06 mm. Ustal 95% i 99% przedziały ufności dla tychże pomiarów. µ = 00,5 mm σ = 3,7 mm df = 6 - µ ± t ( α/, n )( σ/ n ) ( 6) = 00,5 3,4 mm ( 6) = 00,5 5,4 mm 00,5 ±,57 3,7 / ± 00,5 ± 4,03 3,7 / ± chemików 7
Dokładność oszacowanej wielkości ε = t ( α/, n )( σ/ n ) n = t ( α/,n ) ε σ Przykład Dla poziomu ufności 95% określ liczbę próbek jaka jest potrzebna do oszacowania grubości powłoki chromu, jeśli dokładność pomiaru wynosi ±0,0 mm, a σ obliczone dla 6 pierwszych pomiarów wynosi 0,0 mm.,57 0,0 = 0,0 n = 7 chemików 8
Testowanie hipotez - wprowadzenie Testowanie hipotez Cel: ustalenie w sposób obiektywny na podstawie zgromadzonych wyników pomiarów słuszności postulowanej hipotezy chemików 9
Porównanie średniej z daną wartością Przygotowujemy lek, który zawiera wszystkie składniki oraz czynny komponent w ilości 00,0 mg. Przykład : 4 razy oznaczono składnik aktywny; średnia wynosi 98, mg, a odchylenie standardowe jest znane a priori (0,8). Przykład : 6 razy oznaczono aktywny składnik i uzyskano następujące wartości: 98,9 00,3 99,7 99,0 00,6 98,6 Porównanie średniej z daną wartością Średnia pomiarów wynosi: 99,5 Odchylenie standardowe wynosi: 0,8 Czy wartość średnia jest naprawdę różna niż faktyczna masa substancji aktywnej (µ 0 = 00 mg)? Aby sprawdzić czy powyższe jest prawdą, konieczny jest test hipotezy. chemików 0
Porównanie średniej z daną wartością Zarówno średnia jak i odchylenie standardowe są przybliżeniem wartości prawdziwych. Estymatory Czy możemy przyjąć, że te dwa estymatory są równe odpowiednio µ oraz σ??? Hipoteza zerowa i alternatywna Hipoteza 0 (H 0 ): średnia µ zbioru pomiarów jest równa wartości µ 0 H 0 : µ = µ 0 Hipoteza alternatywna (H ): średnia µ zbioru pomiarów jest różna od wartości µ 0 H : µ µ 0 chemików
Hipoteza Czasem hipotezę alternatywną formułuje się jako: H > H < Przedział ufności Dla przykładu, przyjmując 95% przedział ufności: ( σ / n ) < x < µ +,96( / n ) µ,96 σ ( σ / ) = 98, ±,96 0,4 = 98, 0, 78 98, ±,96 n ± odrzucamy hipotezę H 0 bo 00 mg jest poza przedziałem ufności, a przyjmujemy hipotezę H chemików
Przedział ufności 0.4 0.35 0.3 0.5 φ(x) 0. 0.5 0. 0.05 0-5 -4-3 - - 0 3 4 5 z µ ± z α/ ( )( σ/ n ) Przedział ufności Dla przykładu, odchylenie standardowe nie jest a priori znane, lecz oszacowane na podstawie ograniczonej liczby pomiarów Dlatego, stosujemy test t (przyjmując 95% przedział ufności) µ ± t ( α/, n )( σ/ n ) 0,8 ( n ) = 99,5±,57 = 99,5 0,85 99,5 ±,57 σ/ ± 6 00 mg jest w przedziale ufności dlatego przyjmujemy hipotezę H 0 chemików 3
Kroki testowania hipotez Ustal hipotezy H 0 i H Ustal poziom α, np. α = 5% Ustal przedział ufności Sprawdź, czy µ 0 znajduje się w przedziale ufności Przyjmij, lub odrzuć hipotezę H 0 Porównanie wartości testu z wartością krytyczną Możemy powiedzieć, że 95% wszystkich pomiarów znajduje się w przedziale: ( n ) < x < µ,96( σ/ n ) µ,96 σ/ + Jeśli przyjmiemy, że H 0 : µ = µ 0 jest prawdą, wówczas H 0 jest także spełniona dla wszystkich pomiarów z tego interwału chemików 4
Porównanie wartości testu z wartością krytyczną Dla oryginalnych i z-transformowanych wartości Porównanie wartości testu z wartością krytyczną w jednostkach z µ µ z = σ/ n 0 < crit Gdy crit =,96 to przyjmujemy 95% chemików 5
Porównanie wartości testu z wartością krytyczną Ustal hipotezy H 0 i H Ustal poziom α, np. α = 5% Jaka jest krytyczna z-wartość? Jaką wartość przyjmuje z dla µ Jeśli z <crit to przyjmujemy H 0 Porównanie wartości testu z wartością krytyczną Przykład : µ µ 0 z = σ/ n = 98, 00 0,8/ 4 = 4,50 >,96 Zatem, odrzucamy H 0 chemików 6
Porównanie wartości testu z wartością krytyczną Przykład : t µ µ 0 99,5 00 = = =,5 t σ/ n 0,83/ 6 ( 0,05,5 ) =,57 Poziom ufności i błąd α Przyjmując, że przedział ufności obejmuje 95% rozkładu, 5% znajduje się poza przedziałem (poziom ufności p = 95%). Te 5% zwane jest poziomem istotności BŁĄD I rodzaju, zwany także błędem α. Jest to prawdopodobieństwo popełnienia błędu związanego z odrzuceniem hipotezy H 0, podczas gdy jest ona prawdziwa. chemików 7
Błąd β Przyjmijmy, że nasza metoda jest obciążona błędem systematycznym, tzn. zamiast 00 mg mamy 98,0 mg. błąd systematyczny bez błędu systematycznego Błąd β Błąd β jest to prawdopodobieństwo popełnienia błędu związanego z przyjęciem hipotezy H 0, podczas gdy jest ona nieprawdziwa błąd systematyczny - (z>=,55) = - 0,994 = 0,006 chemików 8
Testowanie hipotez Tablice statystyczne dwustronny jednostronny chemików 9
Tablice statystyczne α - poziom istotności - α: poziom ufności t vs. rozkład normalny 0.4 0.4 rozkład t, n=5 rozkład t, n=30 0.35 rozkład normalny 0.35 rozkład normalny 0.3 0.3 0.5 0.5 0. 0. 0.5 0.5 0. 0. 0.05 0.05 0-5 -4-3 - - 0 3 4 5 0-5 -4-3 - - 0 3 4 5 dla nieskończenie dużej liczby pomiarów t 0,05 = z 0,05 chemików 0
Testowanie hipotez Poprzednio, rozważaliśmy czy średnia jest statystycznie różna niż deklarowana wartość? Testowaliśmy następującą hipotezę zerową: H 0 : µ = µ 0 Wartości krytyczne dla rozkładu normalnego lub t, w zależności od sytuacji. Testowanie hipotez Kiedy hipoteza może zawierać nierówność? H : µ µ 0 H : µ µ 0 Wyobraźmy sobie, że kupujemy rudę pewnego metalu, a sprzedawca gwarantuje jego zawartość na poziomie co najmniej równym 0g/kg. Dla nas im więcej tym lepiej Kupujący testuje zatem ryzyko związane z mniejszą zawartością metalu. Sprzedający testuje ryzyko sprzedaży większej niż deklarowana zawartości metalu. chemików
Porównanie średnich dwóch populacji Mamy dwa zbiory zawierające n i n wyników. Czy średnie dwóch zbiorów są takie same? H 0 : µ = µ Porównanie średnich dwóch populacji Dla zbiorów, w których n > 30 możemy przyjąć normalny rozkład średniej, nawet jeśli nie mamy do końca do czynienia z rozkładem normalnym samych pomiarów, a wariancja wynosi: σ /n. Wówczas, różnice µ -µ też śledzą rozkład normalny, a wariancja tego rozkładu wynosi: (σ /n + σ /n ). z = ( σ /n ) + ( σ /n ) µ µ chemików
Porównanie średnich dwóch populacji Jeśli: H 0 : µ = µ H : µ µ H 0 jest przyjęta, gdy z < z crit (test dwustronny). Porównanie średnich dwóch populacji Jeśli H 0 : µ = µ H : µ > µ H 0 jest przyjęta, gdy z < z crit (test jednostronny). chemików 3
Porównanie średnich dwóch populacji Jeśli H 0 : µ = µ H : µ < µ H 0 jest przyjęta, gdy z > -z crit (test jednostronny). Porównanie średnich dwóch populacji Przyjmujemy H 0 jeśli 0 jest w przedziale ufności: ( µ µ ) ± z ( σ /n ) + ( σ ) α/ /n test dwustronny ( µ µ ) ±,95 ( σ /n ) + ( σ ) α = 5% /n chemików 4
Porównanie średnich dwóch populacji H 0 : µ = µ H : µ > µ Test jednostronny ( µ ) +,95 ( σ / n ) + ( σ n ) µ / α =,5% Jeśli 0 jest mniejsze niż wartość krytyczna to hipoteza H 0 jest spełniona Przykład Porównujemy dwie procedury, które mają wpływ na zawartość azotu w próbkach Procedurę podejrzewamy, że wpływa na obniżenie zawartości azotu H 0 : µ = µ H : µ < µ Procedura : µ =,05 g/00g, σ = 0,050 (n = 30) Procedura : µ =, g/00g, σ = 0,040 (n = 3) chemików 5
Porównanie średnich dwóch populacji H 0 : µ = µ µ - µ = 0 H : µ < µ µ - µ < 0 Test jednostronny ( µ µ ),95 ( σ / n ) + ( σ n ) / Porównanie średnich dwóch populacji H 0 : µ = µ H : µ < µ Test jednostronny ( µ µ ),95 ( σ / n ) + ( σ n ) / Jeśli 0 jest większe niż wartość krytyczna H 0 jest spełniona chemików 6
Przykład z = ( σ /n ) + ( σ /n ) µ µ z =,05, ( 0,050/30) + ( 0,040/3) =,96 Porównanie średnich dwóch populacji Dla małej liczby próbek: test t opiera się o następujące założenia: próbki o średniej µ i µ oraz wariancjach σ i σ mają rozkład normalny wariancje są równe Gdy ostatni warunek jest pełniony możemy obliczyć łączną wariancję jako: σ = ( n σ ) + ( n ) n + n σ chemików 7
Porównanie średnich dwóch populacji Test t dla porównania dwóch średnich o małej liczbie próbek przyjmuje postać: t ( α/,n + n ) = σ µ µ ( /n + /n ) Porównanie średnich dwóch populacji Dla testu dwustronnego H 0 jest przyjęta jeśli t < t crit Dla testu jednostronnego, gdy H : µ > µ, H 0 jest przyjęta dla t < t crit Dla testu jednostronnego, gdy H : µ < µ, H 0 jest przyjęta dla t > -t crit chemików 8
Przykład Procedura : µ =,05 g/00g, σ = 0,050 (n = 8) Procedura : µ =, g/00g, σ = 0,040 (n = 7) H 0 : µ = µ H : µ < µ 7 0,050 + 6 0,040 σ = = 0,045 3 0,6 t = =,46 0,045(/7 + /8) t crit (3 st. swobody, 95%) =,77 Test Cochrana Jeśli wariancje nie są statystycznie porównywalne, wówczas aby porównać dwie średnie stosujemy test Cochrana µ µ t = t ( σ /n ) + ( σ/n ) dla n - stopni swobody t dla n - stopni swobody t t' = ( σ /n ) + t ( σ/n ) ( σ /n + ( σ /n ) chemików 9
Przykład Procedura : µ =,05 g/00g, σ = 0,050 (n = 9) Procedura : µ =, g/00g, σ = 0,00 (n = 8) H 0 : µ = µ H : µ < µ t =,860 t' = 0,6 =,8 ( 0,050/8) + ( 0,0/7) ( 0,050/8) +,895( 0,00/7) ( 0,050/8) + ( 0,00/7) =,86 Jeśli t < -t' to przyjmujemy hipotezę H Porównanie średnich - parowanie Próbki są parowane jeśli istnienie pomiędzy nimi odpowiedniość :, np.: zmierzono zawartość azotu w próbkach dwiema technikami analitycznymi, których wyniki przedstawiono poniżej: Procedura Procedura chemików 30
Porównanie średnich - parowanie Pod uwagę bierzemy różnice odpowiednich próbek d = d i = x i -x i n d i H 0 : H : d = 0 d 0 Porównanie średnich - parowanie Tak sformułowana hipoteza zerowa sprowadza problem do testowania, czy różnica pomiędzy wartością średnia, a zerem jest statystycznie istotna. Możemy stosować ten sam test co wcześniej, kiedy rozmawialiśmy o tabletkach. W zależności od liczby pomiarów w rachubę wchodzą wartości krytyczne rozkładu normalnego lub rozkładu t. chemików 3
Porównanie średnich - parowanie Dla dużej liczby próbek (co najmniej), możemy przyjąć rozkład normalny. Wówczas statystyka ma postać: z = d 0 σ/ n odchylenie standardowe różnic Zakładając dany poziom α, wówczas w tablicach odczytujemy wartość krytyczną dla tego poziomu (np. 0,05) Porównanie średnich - parowanie Zakładając dany poziom α, wówczas w tablicach odczytujemy wartość krytyczną dla tego poziomu (np. 0,05) zakładając H 0 : H : d = 0 d 0 wartość krytyczna wynosi,96 dla testu dwustronnego z < crit chemików 3
Porównanie średnich - parowanie Zakładając dany poziom α, wówczas w tablicach odczytujemy wartość krytyczną dla tego poziomu (np. 0,05) zakładając H 0 : H : d d = 0 > 0 t < crit H 0 : H : d d = 0 < 0 t > -crit Przykład Procedura Procedura di 0. -0, -0, 0, 0, 0, 0, -0, z d 0 = di d = = 0,05 n σ/ n σ = n ( di d) i= n = 0,6 chemików 33
Rozwiązanie n d ( di d) i i= d = = 0,05 σ = n n = 0,6 d 0,05 t = = = 0,88 σ/ n 0,6/ 8 Porównanie wariancji Do porównania dwóch wariancji stosujemy test F Wyraża on stosunek dwóch wariancji σ F = > σ, σ σ df = n df = n chemików 34
Wartości krytyczne dla testu F α = 0,05 dla testu jednostronnego lub α = 0,05 dla testu dwustronnego Liczba stopni swobody n 3 4 5 6 7 8 9 0 647,79 799,50 864,6 899,58 9,85 937, 948, 956,66 963,8 968,63 Liczba stopni swobody n 38,5 39,00 39,7 39,5 39,30 39,33 39,36 39,37 39,39 39,40 3 7,44 6,04 5,44 5,0 4,88 4,73 4,6 4,54 4,47 4,4 4, 0,65 9,98 9,60 9,36 9,0 9,07 8,98 8,90 8,84 5 0,0 8,43 7,76 7,39 7,5 6,98 6,85 6,76 6,68 6,6 6 8,8 7,6 6,60 6,3 5,99 5,8 5,70 5,60 5,5 5,46 7 8,07 6,54 5,89 5,5 5,9 5, 4,99 4,90 4,8 4,76 8 7,57 6,06 5,4 5,05 4,8 4,65 4,53 4,43 4,36 4,30 9 7, 5,7 5,08 4,7 4,48 4,3 4,0 4,0 4,03 3,96 0 6,94 5,46 4,83 4,47 4,4 4,07 3,95 3,85 3,78 3,7 Test F Formułowanie hipotez H 0 : H : σ σ = σ σ test dwustronny H 0 : H : σ σ = σ > σ test jednostronny α dla testu jednostronnego odpowiada α testu dwustronnego chemików 35
Przykład σ σ = 0,05 = 0,04 (n= 8) (n = 7) 0,05 F = =,5 0,04 Przykład Czy różnice pomiędzy wariancjami dwóch metod są statystycznie istotne? F < crit -> H 0 F 0,05,7,6 = 5,70 chemików 36