Statystyka opisowa- cd.

12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa- cd. Wykład 4 Dr inż. Adam Deptuła

HISTOGRAM UNORMOWANY Pole słupka = wysokość słupka x długość przedziału Pole słupka = n i n h h, i = 1, 2,..., k i - numer przedziału, k - liczba przedziałów ( słupków ) Pole histogramu unormowanego = suma pól słupków=1 i k 1 n n i h h 1

STATYSTYKA OPISOWA 40 30 20 10 0-3,7-1,7 0,3 2,3 4,3

STATYSTYKA OPISOWA (X 1000) 4 3 2 1 0-5 -3-1 1 3 5 7

STATYSTYKA OPISOWA 1600 1200 800 400 0-5 -3-1 1 3 5 7

GĘSTOŚCI ROZKŁADÓW. GĘSTOŚCI NORMALNE Niech x 1, x 2,..., x n oznaczają obserwacje cechy ciągłej X, otrzymywane niezależnie. Przy nieograniczenie rosnącej liczności próbki n, łamane częstości histogramów unormowanych ( takich, że suma pól słupków = 1, gdy wysokość słupka = częstość/h, h = długość przedziału ) zbliżają się do krzywej ciągłej, nazywanej krzywą gęstości lub gęstością cechy X

Gdy liczba przedziałów histogramu wzrasta, wysokości sąsiednich słupków są zbliżone, więc łamana częstości staje się coraz bardziej gładka, zbliża się nieograniczenie do pewnej idealnej krzywej ciągłej (gęstości). Zatem, dla dużej liczności próbki: częstość obserwacji w przedziale = wysokość słupka x h = w przybliżeniu pole pod wykresem gęstości dla tego przedziału. Pole pod krzywą gęstości = 1 7

Określenie Niech f(x), x- dowolna liczba rzeczywista, będzie funkcją, której wykres to krzywa gęstości. Wówczas funkcję f nazywamy gęstością rozkładu cechy X Gęstość spełnia warunki: f ( x) 0, x (, ), f ( x) dx 1. 8

Kształty gęstości opisujemy podobnie jak histogramu: np. gęstość prawostronnie skośna: gdy maleje wolniej do zera przy x zbliżającym się do prawego krańca zakresu wartości cechy niż przy x zbliżającym się do jego lewego krańca. Moda = argument gęstości f, w którym występuje maksimum lokalne Gęstość jednomodalna, dwumodalna, lub wielomodalna posiada jedno, dwa, lub wiele maksimów lokalnych, odpowiednio

Wykres gęstości jednomodalnej, prawostronnie skośnej 1,5 1,2 0,9 0,6 0,3 0 0 0,4 0,8 1,2 1,6 2 2,4 2,4

Dla próbki o dużej liczności i histogramu unormowanego: Częstość obserwacji q j ni n j i1 i1 ni nh h pole pod wykresem gęstości f(x) dla x q = q f ( x) dx

Definicja. Niech 0 < p <1. Kwantylem rzędu p nazywamy punkt q p na osi poziomej, taki że pole pod gęstością na lewo od niego wynosi p 0,4 0,3 0,2 0,1 0-5 -3-1 1 3 5 Pole zakreskowane = 0,84. Zatem kwantyl rzędu 0,84 = 1.

Mediana: q 0, 5 Pierwszy kwartyl: q 0, 25 Trzeci kwartyl: q 0, 75 Rozstęp mięzykwartylowy: q0,75 q0, 25 Wartość średnia gęstości : = środek ciężkości obszaru płaskiego pomiędzy gęstością a osią poziomą: xf ( x) dx

Mediana Liczba q 0,5, taka że pole pod wykresem gęstości na lewo od mediany wynosi 0,5. Zatem q 0,5 f ( x) dx = 0,5 = f ( x) dx. q 0,5

standardowe odchylenie: = Parametry próbki 2 ( x ) f ( x) dx Parametry gęstości Wartość średnia: x Wartość średnia: Odchylenie Odchylenie standardowe: s standardowe Pierwszy kwartyl: Q 1 Pierwszy kwartyl: q 0, 25 Mediana: x med Mediana: q 0, 5 Trzeci kwartyl: Q 3 Trzeci kwartyl: q 0, 75

GĘSTOŚĆ NORMALNA:, ( x) 1 e 2 ( x) 2 /(2 2 ) gdzie, są ustalonymi parametrami określającymi gęstość jednoznacznie, - dowolna liczba, > 0. Krzywa normalna: wykres gęstości normalnej

Własności gęstości normalnej: Symetryczna względem, ( x), ( x), dla wszystkich x Maksimum w punkcie Parametr jest modą, średnią i medianą Standardowe odchylenie =

GĘSTOŚĆ NORMALNA N(0,1) 0,4 0,3 0,2 0,1 0-5 -3-1 1 3 5

Wykresy gęstości normalnych N(2,2) oraz N(2,1) 0,4 0,3 2,1 2,2 0,2 0,1 0-8 -4 0 4 8 12

Wykresy gęstości normalnych 0,4 0,3 0,2 N(0,2) N(2,1) N(2,2) 0,1 0-10 -6-2 2 6 10 14

Określenie: Cecha X ma rozkład normalny z parametrami,, jeśli krzywa gęstości cechy jest wykresem gęstości normalnej:,. Zapis: X N (, ) Standardowa gęstość normalna: gęstość normalna z parametrami 0, 1: Oznaczenie:. 0,1 : =

Standaryzacja Niech X ~ N(, ). Wówczas ( X ) Z ~ N(0,1) Rozkład cechy Z nazywamy standardowym Reguła pięciu procent: rozkładem normalnym. Pole pod wykresem gęstości normalnej o parametrach, dla przedziału ( 2, 2 ) jest równe 0,95. Stąd pole pod wykresem na zewnątrz tego odcinka wynosi 0,05.

Interpretacja. Przy dużej liczności próbki, jeśli cecha ma rozkład normalny, to częstość obserwacji w ( - 2, + 2) 0,95: 95% elementów w ( - 2, + 2). Podobnie: częstość obserwacji w ( - 3, + 3) 0,9972 ( jest to tzw prawo trzech sigm ).

Jeśli X ~ N(, ), to częstość obserwacji w przedziale ( a, b) pole pod wykresem gęstości na ( a, b) = b a b, ( x ) dx 0, 1( z) dz. a 0 < x < b: (a - )/ < z = ( x - )/ < (b -)/

Przykład. Wiadomo, że wzrost dorosłych Polaków jest cechą ciągłą o rozkładzie N (176,6,5 ). Jaki procent dorosłych Polaków ma wzrost powyżej 195 cm? 176,6,5( x) dx ( z) dz = 195 195176 6,5 ( z) dz = 2,92 2,92 1 ( z) dz 1 (2,92) 1 0,9982 0,0018.

Definicja Dystrybuantą standardowej gęstości normalnej nazywamy funkcję: x ( x ) ( z) dz. Kwantyl rzędu p gęstości ( dystrybuanty )standardowej normalnej (0 < p <1 ) ( ) p. q p

Obliczanie kwantyla: Przy jakim wzroście x znajdziemy się wśród 10 % najniższych Polaków? Przy wzroście x q 0, 1 = kwantyl rzędu 0,1 dla N (176,6,5) : q 0,1 (1),6,5 q 0,1 6,5 176 176 ( x) dx ( z) dz 0, 1 1,29 (2) ( z) dz 0,1.

Ponieważ ( z) 0 mamy z (1) i (2): q 0,1 176 6,5 1,29, czyli q 167, 6 (cm). 0,1 10 % dorosłych Polaków ma nie więcej niż 167,6 cm wzrostu.

Zadanie. X ~ N(30,5) ( np. X = dochód w tys. zł. ). (a) Jaka jest w przybliżeniu częstość obserwacji nie przekraczających 20 ( w licznych próbkach)? Częstość obserwacji 20 (2) =1 (2) = 1-0,9772 = 0, 0228. 2030 20 5 30,5( x) dx = ( z) dz = (b) Znaleźć kwantyle: q 0, 25, q 0, 75

Zadanie. Wiadomo, że kwantyle rzędu 0,1 i 0,2 rozkładu standardowego normalnego wynoszą: z 1,285 i 0, 845 0,1 z 0,2. (a) Znaleźć kwantyle 0, 1 q i 0, 2 q rozkładu N(70,10). (b) Wiadomo, że waga dorosłego mężczyzny w danym rejonie ma rozkład N(70,10). Jaką wagę przekracza 20% dorosłych mężczyzn?.

WYKRESY KWANTYLOWE. X Niech X ~ N(, ). Wówczas Z ~ N(0,1) Niech x p oraz z p będą kwantylami rzędu p gęstości cech X oraz Z, odpowiednio. Zatem: x p (1), (x)dx = p = (z)dz x p z p (2), (x)dx = (z)dz x p

Z równości (1) i (2): (z) > 0, więc: równoważnie: x p z p ( z)dz = (z)dz = p x x p z p, p z p.

i n Dla p, i 1,2,..., n 1, Niech x 1 : n x2: n... xn: n elementami próbki x i n z i. n będą uporządkowanymi dużego n: x i:n x i /n. 1, x2 xn ( x i) x i : n x,..., Wykres kwantylowy:, z ) punktów (, z ) x i i, i 1,2,..., n 1 n n ( x i: n i, 1,2,..., n 1 n x z (, i = 1,..,n) Dla i bliski wykresowi, leżących na prostej, gdyż

x p z, p i p. n Zatem punkty wykresu kwantylowego są położone blisko prostej x z, przy założeniu że elementy próbki są obserwacjami cechy o rozkładzie normalnym N (, ), otrzymywanymi niezależnie.

99,9 99 95 80 50 20 5 0,1 1-2,2-1,2-0,2 0,8 1,8 2,8 3,8

99,9 99 95 80 50 20 5 0,1 1 0 1 2 3 4 5

99,9 99 95 80 50 20 5 0,1 1-1 -0,6-0,2 0,2 0,6 1

Wszystkie zadania dot. rozkładu normalnego w których należy policzyć prawdopodobieństwo sprowadzają się tak naprawdę do kilku przypadków, które tutaj omówimy. Do każdego przypadku będzie dołączony rysunek ilustrujący podane prawdopodobieństwo oraz wzór. Na kolokwium wystarczy pamiętać wzór jednak w stresie można zapomnieć wzoru więc warto przeanalizować obrazki i wyrobić sobie intuicję dotyczącą rozkładu normalnego.