Marta Zalewska Wojciech Zieliński Stanisław Jaworski Konrad Furmańczyk. Zbiór zadań z podstaw statystyki



Podobne dokumenty
1.1 Wstęp Literatura... 1

Elementy Rachunek prawdopodobieństwa

Porównanie dwóch rozkładów normalnych

Weryfikacja hipotez statystycznych

1 Podstawy rachunku prawdopodobieństwa

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Estymacja parametrów rozkładu cechy

Z poprzedniego wykładu

Rozkłady statystyk z próby

Testowanie hipotez statystycznych cd.

Wykład 3 Hipotezy statystyczne

Wnioskowanie statystyczne. Statystyka w 5

Estymacja punktowa i przedziałowa

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

hipotez statystycznych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Zadania ze statystyki, cz.6

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Weryfikacja hipotez statystycznych

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Rozkłady zmiennych losowych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Prawdopodobieństwo Odp. Odp. 6 Odp. 1/6 Odp. 1/3. Odp. 0, 75.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA

1 Weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

ESTYMACJA. Przedział ufności dla średniej

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

1. szereg wyliczający (szczegółowy) - wyniki są uporządkowane wyłącznie według wartości badanej cechy, np. od najmniejszej do największej

Biostatystyka, # 3 /Weterynaria I/

Hipotezy statystyczne

Hipotezy statystyczne

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Badanie normalności rozkładu

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Rozkłady prawdopodobieństwa zmiennych losowych

Teoria Estymacji. Do Powyżej

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Rachunek Prawdopodobieństwa i Statystyka

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

WYKŁAD 5 TEORIA ESTYMACJI II

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka matematyczna i ekonometria

Wykład 5: Statystyki opisowe (część 2)

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Testowanie hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Porównanie wielu rozkładów normalnych

Rozkłady statystyk z próby. Statystyka

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Kolokwium ze statystyki matematycznej

Analiza struktury i przeciętnego poziomu cechy

Estymacja parametrów w modelu normalnym

a)dane są wartości zmiennej losowej: 2, 4, 2, 1, 1, 3, 2, 1. Obliczyć wartość średnią i wariancję.

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wydział Matematyki. Testy zgodności. Wykład 03

Transkrypt:

Marta Zalewska Wojciech Zieliński Stanisław Jaworski Konrad Furmańczyk Zbiór zadań z podstaw statystyki

Spis treści Przedmowa 3 1 Analiza danych 4 2 Elementy rachunku prawdopodobieństwa 15 3 Rozkład dwumianowy 19 4 Rozkład normalny 22 5 Analiza jednej populacji 26 6 Porównanie dwóch populacji 36 7 Jednoczynnikowa analiza wariancji 42 8 Testy zgodności 47 9 Testy niezależności 51 10 Regresja liniowa 55 11 Analiza korelacji 63 Bibliografia 69 Tablice 72 Często używane wzorki 87 Wybrane pojęcia 88 Przydatne funkcje w arkuszu Excel 91

Przedmowa Niniejsza książeczka powstała na bazie wieloletnich doświadczeń dydaktycznych prowadzenia przedmiotów statystycznych na Warszawskim Uniwersytecie Medycznym Jej celem jest zebranie podstawowych informacji pojawiających się w trakcie wykładów oraz udostępnienie Studentom zadań i najbardziej niezbędnych tablic statystycznych Książeczka składa się z rozdziałów będących jednocześnie tematami kolejnych spotkań wykładowych i ćwiczeniowych Na początku każdego rozdziału podane są najważniejsze fakty i wzory, następnie rozwiązane są przykładowe zadania i podanych jest kilkanaście zadań do samodzielnego rozwiązania Nie należy traktować książki jako wykładu ze statystyki czy ekonometrii, lecz jako przewodnik do lepszego zrozumienia wykładów i ćwiczeń Na końcu zebrane są najważniejsze tablice statystyczne niezbędne przy rozwiązywaniu zadań W dobie komputeryzacji wiele zadań można rozwiązać posługując się odpowiednim oprogramowaniem Pokazano wykorzystanie arkusza kalkulacyjnego Excel, niemniej jednak zadania oczywiście można również rozwiązać posługując się innym oprogramowaniem statystycznym Do zadań nie podano odpowiedzi Wynika to stąd, że celem tych zadań jest nie tyle uzyskanie konkretnego wyniku liczbowego ile zmuszenie Czytelnika do maksymalnie samodzielnej analizy zagadnienia Poza tym, każde z prezentowanych zadań można rozwiązać korzystając z różnych technik statystycznych Na zakończenie podano garść informacji bibliograficznych Literatura przedmiotu jest bardzo bogata i wybór tych a nie innych książek po pierwsze nie wyczerpuje spektrum bibliograficznego, a po drugie podyktowany jest ich dostępnością w księgarniach i bibliotekach Ze względu na podstawowy charakter wykładu w spisie literatury można znaleźć zarówno pozycje najnowsze jak i sprzed kilkudziesięciu lat Należy zwrócić uwagę, że ich zabytkowość w niczym nie umniejsza ich wartości merytorycznej i poznawczej

4 Analiza danych Wersja 26/8/2014 1 Analiza danych Analiza danych jest działem statystyki zajmującym się syntetycznym opisem zbiorów danych Techniki analizy danych stosowane są zazwyczaj tam, gdzie nie są znane mechanizmy rządzące obserwowanymi zjawiskami i na podstawie uzyskiwanych informacji budowany jest pewien model zjawiska oraz formułowane są różnorakie przypuszczenia, które mogą być weryfikowane technikami zaliczanymi do prezentowanej wcześniej grupy metod wnioskowania statystycznego Spośród wielu mierników stosowanych w analizie danych prezentowanych jest tylko kilka częściej spotykanych w zastosowaniach praktycznych Zbierane dane mogą być przedstawione w jednej z dwóch postaci Jedną z nich jest próba prosta lub dane indywidualne, tzn do dyspozycji są kolejno zbierane informacje X 1, X 2,, X n Druga postać danych, to szereg rozdzielczy lub dane skumulowane Przedział klasowy Liczebność x 0 x 1 n 1 x 1 x 2 n 2 x k 1 x k n k Pojęcie przedziału klasowego może rzeczywiście opisywać pewien przedział na prostej, ale też może być to pojedyncza wartość (np liczba oczek na kostce) lub wielkość opisowa (np barwa) W dalszym ciągu zajmować się będziemy tylko obserwacjami cech ilościowych W przypadku próby prostej niech X 1:n X 2:n X n:n będzie uporządkowanym ciągiem danych Dla szeregu rozdzielczego konstruowany jest szereg skumulowany Przedział klasowy Liczebność skumulowana x 0 x 1 n (1) = n 1 x 1 x 2 n (2) = n 1 + n 2 x k 1 x k n (k) = n 1 + n 2 + + n k (= n) Dla liczby p takiej, że 0 p 1, niech x p, n p, h p oznaczają początek, liczebność i długość przedziału zawierającego obserwację o numerze [p n] oraz niech n (p) oznacza liczebność skumulowaną przedziału poprzedzającego przedział o początku x p Symbol [z] oznacza największą liczbę całkowitą nie większą niż z Mierniki położenia są grupą charakterystyk opisujących poziom obserwowanej cechy, tzn w sposób syntetyczny charakteryzujących wartości przyjmowane przez badaną cechę

Wersja 26/8/2014 Analiza danych 5 1 Średnia określona jest wzorem 1 n X i, n i=1 x = 1 k ẋ i n i, n i=1 dla próby prostej, dla szeregu rozdzielczego Jest to liczba charakteryzująca środek ciężkości danych Liczba ẋ i oznacza środek przedziału (x i 1, x i ) 2 Mediana określona jest wzorem X [n/2]:n, Me = x 05 + h 05 n 05 ( n 2 n (05) dla próby prostej, ), dla szeregu rozdzielczego Mediana charakteryzuje geometryczny środek danych Połowa danych znajduje się poniżej mediany, zaś druga połowa powyżej 3 Dolny kwartyl określony jest wzorem X [n/4]:n, dla próby prostej, Q 1 = x 025 + h ( 025 n ) n 025 4 n (025), dla szeregu rozdzielczego Dolny kwartyl rozdziela dane w proporcji 1 : 3, tzn poniżej dolnego kwartyla znajduje się czwarta część danych, zaś powyżej reszta 4 Górny kwartyl określony jest wzorem X [3n/4]:n, dla próby prostej, Q 3 = x 075 + h ( ) 075 3n n 075 4 n (075), dla szeregu rozdzielczego Górny kwartyl rozdziela dane w proporcji 3 : 1 5 Dominanta (moda) jest najczęściej występującą wartością W przypadku danych skumulowanych wyznaczana jest ona za pomocą wzoru n D n D 1 D = x D + h D 2n D n D+1 n D 1 Tutaj x D, h D oraz n D są odpowiednio początkiem, szerokością oraz liczebnością przedziału o największej ilości danych (tzn n D = max{n 1,, n k }), natomiast n D 1 oraz n D+1 są liczebnościami przedziałów sąsiadujących z przedziałem o liczebności n D Należy zauważyć, że wyznaczanie dominanty ma sens dla szeregów o jednym maksimum Mierniki rozproszenia są grupą charakterystyk opisujących zróżnicowanie cechy, tzn w sposób syntetyczny opisujących zróżnicowanie wartości przyjmowanych przez badaną cechę

6 Analiza danych Wersja 26/8/2014 1 Wariancja określona jest wzorem 1 n (X i x) 2, dla próby prostej, n S 2 i=1 = 1 k n i (X i x) 2, dla szeregu rozdzielczego n i=1 Jest to liczba charakteryzująca rozrzut danych wokół ich środka ciężkości Stosowany jest również nieco inny sposób wyznaczania wariancji: 1 n (X i x) 2, dla próby prostej, n 1 S 2 i=1 = 1 k n i (X i x) 2, dla szeregu rozdzielczego n 1 i=1 2 Odchylenie standardowe S jest pierwiastkiem z wariancji S 2 Zaletą odchylenia standardowego jest to, że wyrażone jest ono w tych samych jednostkach co oryginalne dane (jednostką wariancji jest kwadrat jednostek pomiarowych) 3 Współczynnik zmienności określony wzorem V = 100% S x opisuje względne zróżnicowanie danych, tzn udział odchylenia standardowego w wartości średniej 4 Odchylenie przeciętne określone jest wzorem 1 n X i x, dla próby prostej n i=1 d = 1 k n i X i x, dla szeregu rozdzielczego, n i=1 Odchylenie przeciętne, podobnie jak odchylenie standardowe mierzy rozrzut danych wokół średniej W wartości odchylenia przeciętnego każda z danych ma taki sam udział, natomiast w wartości odchylenia standardowego większy udział mają dane dalekie od średniej, tzn im obserwacja jest bardziej odległa od średniej, tym jej udział w odchyleniu standardowym jest większy 5 Rozstęp R jest różnicą między największą a najmniejszą daną i pokazuje zakres zmienności zjawiska 6 Odchylenie ćwiartkowe określone jest wzorem Q = Q 3 Q 1 2

Wersja 26/8/2014 Analiza danych 7 Histogram Wielobok częstości Histogram skumulowany 0 025 050 075 1 Min Q 1 Me Q 3 Max Wykres kwartylowy i opisuje zakres zmienności środkowych 50% danych W analizie danych pomocne są prezentacje graficzne Na rysunku pokazane są cztery najczęściej stosowane sposoby prezentacji: histogram (wykres słupkowy), wielobok częstości, skumulowany histogram oraz wykres kwartylowy Pierwsze dwa z tych wykresów mogą być kojarzone z funkcją gęstości rozkładu prawdopodobieństwa, zaś pozostałe z dystrybuantą Inną formą prezentacji danych są wykresy pudełkowe Przykładowy wykres: Q 1 Me Q 3 Wykres pudełkowy Na wykresie zaznaczone są także obserwacje odstające (oznaczone na wykresie symbolem ) oraz obserwacje ekstremalne (oznaczone na wykresie symbolem ) Obserwację X nazywamy odstającą, jeżeli X > Q 3 + 15(Q 3 Q 1 ) lub X < Q 1 15(Q 3 Q 1 ), natomiast nazywamy ją ekstremalną, jeżeli X > Q 3 + 2 15(Q 3 Q 1 ) lub X < Q 1 2 15(Q 3 Q 1 ) Tablice kontyngencji W wielu badaniach obserwowane są dwie cechy X oraz Y, przy czym zbiór wartości cechy X jest podzielony na k klas, natomiast zbiór wartości Copyright c Marta Zalewska & Wojciech Zieliński & Stanisław Jaworski & Konrad Furmańczyk

8 Analiza danych Wersja 26/8/2014 cechy Y na m klas Wyniki tych badań zapisywane są następującej postaci tablic kontyngencji: Klasy Klasy cechy Y cechy X 1 2 m 1 n 11 n 12 n 1m 2 n 21 n 22 n 2m k n k1 n k2 n km Wielkość n ij oznacza, że w wśród n danych było n ij obserwacji i-tej klasy cechy X i jednocześnie j-tej klasy cechy Y Oczywiście k i=1 m j=1 n ij = n Na podstawie tak zebranych informacji odpowiada się na pytanie, czy obserwowane cechy są czy nie są zależne W tym celu wyznaczane są warunkowe rozkłady jednej cechy względem drugiej: lub Rozkłady warunkowe cechy X względem Y Klasy Klasy cechy Y cechy X (1) (2) (m) 1 n 11 /n 1 n 12 /n 2 n 1m /n m 2 n 21 /n 1 n 22 /n 2 n 2m /n m k n k1 /n 1 n k2 /n 2 n km /n m Rozkład warunkowe cechy Y względem X Klasy Klasy cechy Y cechy X 1 2 m (1) n 11 /n 1 n 12 /n 1 n 1m /n 1 (2) n 21 /n 2 n 22 /n 2 n 2m /n 2 (k) n k1 /n k n k2 /n k n km /n m W powyższych rozkładach n i = m j=1 n ij oznacza ogólną liczbę obserwacji i-tej klasy cechy X, natomiast n j = k i=1 n ij ogólną liczbę obserwacji j-tej klasy cechy Y Wnioskowanie jest następujące: jeżeli rozkłady warunkowe cechy X względem Y (lub rozkłady warunkowe cechy Y względem X) są mniej więcej takie same, to możemy podejrzewać, że obserwowane cechy są niezależne W przeciwnym przypadku cechy należy uznać za zależne Przykład W celu zbadania istnienia związku między wykształceniem (W ) a zarobkami (Z) wylosowano 950 osób Wartości badanych cech podzielono na następujące klasy: Zarobki 500 500 1000 1000 1500 1500 2000 2000 Klasa Z 1 Z 2 Z 3 Z 4 Z 5

Wersja 26/8/2014 Analiza danych 9 Wykształcenie podstawowe średnie wyższe ponad wyższe Klasa W 1 W 2 W 3 W 4 Uzyskano następujące dane W 1 W 2 W 3 W 4 Z 1 21 41 93 47 Z 2 33 37 35 53 Z 3 45 75 27 43 Z 4 30 48 50 55 Z 5 71 47 49 50 Czy powyższe świadczą o istnieniu zależności między wykształceniem i zarobkami? Rozwiązanie Zbadano łącznie N = 950 osób Zaobserwowano następujące liczby osób w poszczególnych klasach każdej z cech: Zarobki Z 1 Z 2 Z 3 Z 4 Z 5 Liczebność n 1 = 202 n 2 = 158 n 3 = 190 n 4 = 183 n 5 = 217 Wykształcenie W 1 W 2 W 3 W 4 Liczebność n 1 = 200 n 2 = 248 n 3 = 254 n 4 = 248 Rozkład warunkowy wykształcenia w grupach zarobkowych: W 1 W 2 W 3 W 4 (Z 1 ) 0104 0203 0460 0233 (Z 2 ) 0209 0234 0222 0335 (Z 3 ) 0237 0395 0142 0226 (Z 4 ) 0164 0262 0273 0301 (Z 5 ) 0327 0217 0226 0230 (Z) 0211 0261 0267 0261 Rozkład wykształcenia w poszczególnych grupach zarobkowych można przedstawić graficznie w następujący sposób: Z1 Z2 Z3 Z4 Z5 Z W 1 W 2 W 3 W 4

10 Analiza danych Wersja 26/8/2014 Warunkowe rozkłady w poszczególnych grupach zarobkowych nie są takie same (odpowiednie linie na wykresie nie są równoległe) Wnioskujemy więc, że wykształcenie i zarobki nie są niezależnymi cechami W podobny sposób można analizować rozkłady zarobków w poszczególnych klasach wykształcenia Rozkład warunkowy zarobków względem wykształcenia: Z 1 Z 2 Z 3 Z 4 Z 5 (W 1 ) 0105 0165 0225 0150 0355 (W 2 ) 0165 0149 0302 0194 0190 (W 3 ) 0366 0138 0106 0197 0193 (W 4 ) 0190 0214 0173 0222 0202 (W ) 0213 0166 0200 0193 0228 Rozkład zarobków w poszczególnych klasach wykształcenia można przedstawić graficznie w następujący sposób: W1 W2 W3 W4 W Z 1 Z 2 Z 3 Z 4 Z 4 Podobnie jak wcześniej wnioskujemy, że wykształcenie i zarobki nie są niezależnymi cechami Zadania do samodzielnego rozwiązania W poniższych zadaniach wyznaczyć wskaźniki położenia oraz rozproszenia analizowanych zmiennych Podać interpretację wyznaczonych wskaźników 11 Zużycie papieru (w kg) w Polsce w latach 1960 1971 na jednego mieszkańca: 22, 22, 21, 23, 23, 23, 23, 24, 24, 25, 24, 25 Przyjąć upraszczające założenie, że liczba mieszkańców w Polsce w tym okresie była stała 12 Liczba koni (w mln szt) w Polsce w latach 1947 1974 wynosiła: 20, 23, 27, 28, 29, 27, 27, 26, 26, 25, 26, 27, 28, 28, 27, 27, 26, 26, 26, 26, 26, 27, 26, 26, 25, 24, 24, 23 13 Procentowa zawartość tłuszczu w mleku 50 krów: 335, 416, 324, 423, 342, 373, 356, 398, 370, 447, 394, 392, 362, 353, 393, 416, 322, 410, 372, 426, 392, 366, 378, 396, 381, 428, 350, 339, 383, 427, 426, 371, 393, 427, 406, 378, 396, 389, 393, 406, 399, 377, 422, 378, 366, 341, 353, 354, 408, 344 Ponadto, skonstruować szereg rozdzielczy (od 32 co 02) i na podstawie tego szeregu również wyznaczyć wskaźniki położenia i rozproszenia Porównać uzyskane wyniki

Wersja 26/8/2014 Analiza danych 11 14 Procentowa zawartość skrobi w każdym z 80 ziemniaków wylosowanych z partii ziemniaków: Zawartość skrobii 9 11 11 13 13 15 15 17 17 19 19 21 21 23 23 25 Liczba ziemniaków 1 2 7 20 30 16 3 1 15 Czas dojazdu pracowników z miejsca zamieszkania do pracy: Czas dojazdu 5 15 15 25 25 35 35-45 45 55 55 65 Liczba pracowników 3 5 25 15 5 2 W poniższych zadaniach wyznaczyć wskaźniki położenia oraz rozproszenia analizowanych zmiennych i na tej podstawie przeprowadzić analizę porównawczą 16 Powierzchnia użytkowa mieszkań na wsiach w latach 1978 i 1988 Powierzchnia 1978 1988 20 40 50 60 40 60 300 300 60 80 400 350 80 100 150 150 100 120 80 100 120 140 20 40 17 Struktura bezrobocia wśród mężczyzn i kobiet Miesiące bez pracy mężczyźni kobiety 0 3 214 153 3 6 161 139 6 9 121 116 9 12 108 96 12 15 396 496 18 Powierzchnia użytkowa mieszkań na wsiach i w miastach Powierzchnia miasto wieś 20 40 80 50 40 60 350 300 60 80 400 400 80 100 100 150 100 120 50 80 120 140 20 20

12 Analiza danych Wersja 26/8/2014 19 Struktura wynagrodzeń miesięcznych w przemyśle i budownictwie Płaca przemysł budownictwo 0 200 250 100 200 400 450 350 400 600 150 400 600 800 100 100 800 1000 50 50 110 Opinie konsumentów dotyczące dwóch gatunków kawy na podstawie badań sondażowych Każdy z sześćdziesięciu konsumentów oceniał każdą z dwóch kaw w skali punktowej Ocena kawa Szatanex kawa Lureksja 3 4 6 4 14 16 5 17 21 6 19 13 7 6 4 W poniższych zadaniach przeprowadzić graficzną analizę zależności pomiędzy badanymi cechami 111 Właściciel palarni kawy twierdzi, że stopień palenia kawy nie ma wpływu na jej smak, a dokładnie na gorzkość W celu udowodnienia tej tezy wybrano pewną mieszankę kawy i poddano ją procesowi palenia w różnym stopniu Uzyskano następujące wyniki: smak kawy normalna gorzka bardzo gorzka słabo palona 5 9 4 mocno palona 2 12 8 bardzo mocno palona 1 7 14 W oparciu o powyższe dane odpowiedzieć na pytanie, czy właściciel palarni ma rację? 112 Poniższa tabela przedstawia liczbę psów zdrowych i chorych na nosówkę w zależności od tego, czy pies ma rodowód, czy go nie ma Zbadać, czy istnieje zależność między zdrowotnością psa a posiadaniem przez niego rodowodu Psy z rodowodem Psy bez rodowodu Psy zdrowe 300 200 Psy chore 40 20

Wersja 26/8/2014 Analiza danych 13 113 Przypuszczano, że sposób zapewniania sobie posiłków w pracy przez pracowników, którym firma nie zapewnia regularnego wyżywienia, zależy od płci W tym celu wylosowano pewną grupę pracowników i uzyskano następujące wyniki: Płeć śniadanie z domu obiad na mieście zamówienie do pracy Mężczyźni 68 36 23 Kobiety 36 50 18 W oparciu o powyższe dane odpowiedzieć na pytanie, czy przypuszczenie można uznać za uzasadnione 114 Pracownicy fabryk pewnego zjednoczenia charakteryzują się różną absencją Wysunięto przypuszczenie, że absencja zależy do płci Zweryfikować to przypuszczenie na podstawie poniższych danych Liczba dni Płeć nieobecności Kobiety Mężczyźni 0 5 300 500 5 20 80 70 20 i więcej 20 30 115 W badaniach budżetów rodzinnych wylosowano 2000 gospodarstw domowych i zanotowano średni miesięczny dochód na głowę oraz fakt posiadania magnetowidu Czy można na tej podstawie powiedzieć, że fakt posiadania magnetowidu jest wskaźnikiem zamożności rodziny? Dochód Magnetowid na głowę jest nie ma poniżej 200 404 231 200 400 486 300 400 600 242 137 600 800 57 44 800 1000 29 28 1000 i więcej 24 18 116 Zbadać, czy istnieje zależność między stopniem związania kiełbasy a jej smakowitością słabo związana związana dobrze związana dostateczna 9 5 3 dobra 4 12 6 b dobra 1 6 14 117 W pewnym doświadczeniu chemicznym bada się grubość powłoki niklowej uzyskiwanej dla trzech różnych rodzajów kąpieli galwanicznych Uzyskano następujące

wyniki Czy na tej podstawie można powiedzieć, że grubość powłoki zależy od rodzaju kąpieli? Grubość Liczba pomiarów w kąpieli powłoki A B C 4 8 32 51 68 8 12 123 108 80 12 16 10 26 26 16 20 41 34 28 20 24 18 20 24 118 W ankiecie rozesłanej wśród pracowników pewnego konsorcjum pytano, czy chcieliby zmienić obecne miejsce pracy Uzyskano następujące wyniki Czy chęć zmiany pracy zależy od aktualnych zarobków? Zarobek Odpowiedź aktualny Tak Nie 500 700 46 62 700 900 94 146 900 1100 249 501 1100 1300 126 326 1300 1500 43 135 1500 1700 26 70

Wersja 26/8/2014 Elementy rachunku prawdopodobieństwa 15 2 Elementy rachunku prawdopodobieństwa Rachunek prawdopodobieństwa zajmuje się analizą praw rządzących zdarzeniami losowymi Pojęciami pierwotnymi są: zdarzenie elementarne ω oraz zbiór zdarzeń elementarnych Ω Doświadczenie losowe to realizacja określonego zespołu warunków wraz z góry określonym zbiorem wyników Zdarzenie losowe A jest podzbiorem zbioru zdarzeń elementarnych Ω Prawdopodobieństwo (definicja aksjomatyczna) jest taką funkcją określoną na zbiorze zdarzeń losowych, że 1 P (A) 0, 1 2 P (Ω) = 1 3 P (A B) = P (A) + P (B), o ile A B = Prawdopodobieństwo (definicja klasyczna) Jeżeli Ω składa się z n jednakowo prawdopodobnych zdarzeń elementarnych, to prawdopodobieństwo zdarzenia A składającego się z k zdarzeń elementarnych wyraża się wzorem P (A) = k n Prawdopodobieństwo warunkowe zajścia zdarzenia A pod warunkiem realizacji zdarzenia B: P (A B) P (A B) = (P (B) > 0) P (B) Prawdopodobieństwo całkowite Jeżeli zdarzenia B 1,, B n są takie, że B i B j = dla wszystkich i j, B 1 B n = Ω oraz P (B i ) > 0 dla wszystkich i, to dla dowolnego zdarzenia A zachodzi P (A) = P (A B 1 )P (B 1 ) + + P (A B n )P (B n ) Twierdzenie Bayesa Jeżeli zdarzenia B 1,, B n są takie, że B i B j = dla wszystkich i j, B 1 B n = Ω oraz P (B i ) > 0 dla wszystkich i, to dla dowolnego takiego zdarzenia A, że P (A) > 0 zachodzi P (B k A) = P (B k )P (A B k ) P (A B 1 )P (B 1 ) + + P (A B n )P (B n ) Niezależność zdarzeń Zdarzenia A oraz B są niezależne, jeżeli P (A B) = P (A) oraz P (B A) = P (B) Równoważnie: P (A B) = P (A)P (B) Zmienna losowa (cecha) jest funkcją określoną na zbiorze zdarzeń elementarnych o wartościach rzeczywistych Rozkładem zmiennej losowej nazywamy zbiór wartości zmiennej losowej oraz prawdopodobieństwa z jakimi są te wartości przyjmowane

16 Elementy rachunku prawdopodobieństwa Wersja 26/8/2014 Dystrybuanta F jest funkcją określoną na zbiorze liczb rzeczywistych R wzorem Najważniejsze własności dystrybuanty: 1 0 F (x) 1 2 F ( ) = 0, F ( ) = 1 3 dystrybuanta jest funkcją niemalejącą 4 P {a < X b} = F (b) lim x a+ F (x) F (x) = P {X x}, x R Funkcja gęstości rozkładu prawdopodobieństwa f jest funkcją określoną na zbiorze liczb rzeczywistych R wzorem f(x) = Najważniejsze własności funkcji gęstości: 1 f(x) 0 2 P {a < X b} = b a f(x)dx { F (x), jeżeli F (x) istnieje, 0, w przeciwnym przypadku Zmienna losowa skokowa (dyskretna) jest to zmienna, której zbiór wartości jest skończony lub przeliczalny Jeżeli x 1 oraz x 2 są kolejnymi wartościami zmiennej losowej skokowej, to nie przyjmuje ona żadnych wartości między x 1 a x 2 Zmienna losowa ciągła jest to zmienna przyjmująca wszystkie wartości z pewnego przedziału (najczęściej zbioru liczb rzeczywistych) Jeżeli x 1 oraz x 2 są wartościami zmiennej losowej ciągłej, to może ona przyjąć dowolną wartość między x 1 a x 2 Wartość oczekiwana (średnia) EX zmiennej losowej X jest liczbą charakteryzującą położenie zbioru jej wartości EX = { xi P {X = x i }, dla zmiennej losowej skokowej, xf(x)dx, dla zmiennej losowej ciągłej Wariancja D 2 X zmiennej losowej jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX D 2 X = { (xi EX) 2 P {X = x i }, dla zmiennej losowej skokowej, (x EX) 2 f(x)dx, dla zmiennej losowej ciągłej Odchylenie standardowe DX zmiennej losowej X jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX DX = D 2 X

Wersja 26/8/2014 Elementy rachunku prawdopodobieństwa 17 Kwantyl rzędu p zmiennej losowej X jest to taka liczba x p, że F (x p ) = p Frakcja Jeżeli A jest danym podzbiorem zbioru wartości zmiennej losowej X, to frakcją nazywamy liczbę p = P {X A} Zadania do samodzielnego rozwiązania 21 Tarcza strzelecka składa się z trzech koncentrycznych kół o promieniach odpowiednio 1, 2 i 3 Za trafienie w środkowe koło zdobywa się trzy punkty, za trafienie w kolejne pierścienie (licząc od środka koła) odpowiednio dwa i jeden punkt Jakie jest prawdopodobieństwo uzyskania co najmniej trzech punktów w dwóch strzałach? (Zakładamy, że każdy strzał trafia w tarczę) 22 W grupie studenckiej jest 20 osób Na ćwiczeniach Student do odpowiedzi losowany jest na podstawie wyniku rzutu kostką dwudziestościenną Jakie jest prawdopodobieństwo, że ten sam Student zostanie wyrwany do odpowiedzi trzykrotnie z rzędu? 23 Autobus przyjeżdża na przystanek co piętnaście minut Jakie jest prawdopodobieństwo tego, że przychodząc na przystanek w losowym momencie będziemy czekać na autobus nie dłużej niż pięć minut? 24 Pan Roztargniony zapomniał ostatniej cyfry telefonu do znajomego W związku z tym wykręcając numer telefonu ostatnią cyfrę wybiera losowo Jakie jest prawdopodobieństwo tego, że dodzwoni się, jeżeli ma do dyspozycji cztery żetony telefoniczne? 25 Na egzamin przygotowanych jest 100 pytań Student zna odpowiedź na 80 z nich Egzaminator przerywa egzamin w chwili, gdy Student nie umie odpowiedzieć na pytanie, lecz nie później niż po piątym pytaniu Ocena końcowa jest równa liczbie pytań, na które odpowiedział Student Jakie jest prawdopodobieństwo tego, że Student otrzyma ocenę co najmniej dobrą? 26 Rzucono trzy kostki Jakie jest prawdopodobieństwo, że przynajmniej na jednej kostce wypadnie jedynka, jeżeli na każdej kostce wypadnie inna liczba oczek? 27 Z talii 52 kart wyciągnięto losowo jedną kartę Jakie jest prawdopodobieństwo, że jest to siódemka, jeżeli wiadomo, że wyciągnięta karta nie jest ani figurą ani asem? 28 Z talii 52 kart wyciągamy losowo jedną kartę Rozpatrzmy zdarzenia: A wyciągnęliśmy asa, B wyciągnęliśmy kartę koloru czerwonego, C wyciągnęliśmy asa karo, D wyciągnęliśmy dziewiątkę Które z par zdarzeń są wzajemnie niezależne?

18 Elementy rachunku prawdopodobieństwa Wersja 26/8/2014 29 Rzucamy czterokrotnie symetryczną monetą Obliczyć prawdopodobieństwo uzyskania 0, 1, 2, 3 oraz 4 orłów Dane są następujące zdarzenia: A wypadły cztery orły, B wypadła parzysta liczba orłów, C wypadło więcej orłów niż reszek Obliczyć prawdopodobieństwa następujących zdarzeń: P (A), P (B), P (C), P (A B), P (B A), P (A C), P (C A), P (B C), P (C B) 210 Troje dzieci: Ania, Basia i Czesio zmywają szklanki Najstarsza Ania zmywa dwa razy częściej niż młodsza Basia, zaś Basia trzy razy częściej niż najmłodszy Czesio Wiadomo, że prawdopodobieństwo zbicia szklanki w czasie zmywania wynosi dla Ani 001, dla Basi wynosi 004 natomiast dla Czesia 05 Jakie jest prawdopodobieństwo, że w czasie zmywania zostanie zbita jedna szklanka? Pewnego dnia po powrocie z pracy mama zauważyła, że jedna ze szklanek jest zbita, a żadne z dzieci nie chce się przyznać do zniszczenia szklanki Które z dzieci najprawdopodobniej zmywało tego dnia? 211 Przedsiębiorstwo zawarło umowy z zakładami Z 1, Z 2 oraz Z 3 na dostawę podzespołów Zakład Z 1 dostarcza 50%, zakład Z 2 dostarcza 35% natomiast zakład Z 3 dostarcza 15% potrzebnych podzespołów Wiadomo, że 95% dostaw zakładu Z 1, 80% dostaw zakładu Z 2 oraz 85% dostaw zakładu Z 3 odpowiada wymaganiom technicznym Jakie jest prawdopodobieństwo, że jeden wylosowany podzespół odpowiada wymaganiom technicznym? Do punktu serwisowego zgłasza się klient z urządzeniem, w którym uszkodzony jest podzespół Jakie jest prawdopodobieństwo, że producentem zepsutego podzespołu był zakład Z 1? 212 Na wspólnej klasówce z matematyki spotkali się Studenci I roku z dwóch grup W pierwszej grupie jest 15 pań oraz 10 panów, zaś w drugiej jest 12 panów i 13 pań Prawdopodobieństwo, że pani z grupy pierwszej rozwiąże zadanie na klasówce wynosi 08, natomiast prawdopodobieństwo to dla pana wynosi 07 W drugiej grupie prawdopodobieństwa te kształtują się odpowiednio 09 oraz 085 Jak duży odsetek wszystkich Studentów rozwiąże zadanie na klasówce? Przy sprawdzaniu prac okazało się, że ktoś przygotował ściągawkę Określić, kim najprawdopodobniej był autor ściągawki (tzn określić płeć i grupę autora) 213 Wśród 300 zdających egzamin wstępny z matematyki jest 200 absolwentów klas matematyczno fizycznych, 75 absolwentów klas ogólnokształcących oraz 25 absolwentów klas humanistycznych Prawdopodobieństwo zdania egzaminu przez absolwenta klasy matematyczno fizycznej wynosi 09, klasy ogólnokształcącej wynosi 025, zaś klasy humanistycznej 01 Jakie jest prawdopodobieństwo, że losowo wybrany przystępujący do egzaminu zda go pomyślnie? Jaki jest odsetek absolwentów klas matematyczno fizycznych, klas humanistycznych oraz klas ogólnokształcących wśród osób, które zdały egzamin?

Wersja 26/8/2014 Rozkład dwumianowy 19 3 Rozkład dwumianowy Zmienna losowa X ma rozkład dwumianowy B(n, p) z parametrami n oraz p, jeżeli P {X = k} = ( ) n p k (1 p) n k, k = 0, 1,, n k Schemat Bernoulliego Wykonujemy dwuwynikowe doświadczenie Wyniki nazywane są umownie sukcesem oraz porażką Prawdopodobieństwo sukcesu wynosi p Doświadczenie wykonujemy w sposób niezależny n krotnie Niech zmienną losową X będzie ilość sukcesów Zmienna X ma rozkład B(n, p) Zmienną losową związaną z wynikiem pojedynczego doświadczenia nazywamy dwupunktową i oznaczamy D(p) Rozkład dwumianowy ma następującą własność: P n,p {X = k} = P n,1 p {X = n k} Wynika to z dowolności nazwania jednego z dwóch możliwych wyników pojedynczego doświadczenia sukcesem, a drugiego porażką Oczekiwana liczba sukcesów w rozkładzie dwumianowym B(n, p) wynosi np, natomiast wariancja tych wyników jest równa np(1 p): EX = np, D 2 X = np(1 p) Rozkład dwumianowy jest stablicowany dla typowych wartości n oraz p W tablicy 1 podano wartości Q(k; n, p) = P n,p {X k} = n P {X = i} dla p 05 Dla p > 05 mamy Q(k; n, p) = 1 Q(n k + 1; n, 1 p) Dla dużych n oraz wartości 1 p takich, że np(1 p) > 9 oraz n+1 < p < n n+1 rozkład dwumianowy z parametrami (n, p) przybliża się rozkładem normalnym N(np, np(1 p)) Do wyznaczania prawdopodobieństw różnych zdarzeń losowych związanych ze zmienną losową o rozkładzie dwumianowym można skorzystać z dostępnej w arkuszu Excel funkcji ROZKŁDWUM(liczba s; próby; prawdopodobieństwo s; skumulowany) Argument skumulowany jest argumentem logicznym Jeżeli chcemy wyznaczyć wartość funkcji rozkładu prawdopodobieństwa, to przyjmujemy skumulowany=0 Jeżeli chcemy wyznaczyć wartość dystrybuanty, to przyjmujemy skumulowany=1 i=k

20 Rozkład dwumianowy Wersja 26/8/2014 Przykład Wezwania pogotowia mogą być uzasadnione lub nie Prawdopodobieństwo tego, że kolejne wezwanie będzie nieuzasadnione wynosi 5% Obliczyć prawdopodobieństwo, że wśród kolejnych dziesięciu wezwań a co najmniej dwa będą nieuzasadnione, b dokładnie trzy będą nieuzasadnione, c co najwyżej jedno będzie nieuzasadnione Rozwiązanie 1 Doświadczenie Analiza zasadności kolejnego wezwania pogotowia 2 Badana cecha Obserwowaną cechą jest zasadność wezwania Jest to cecha dwupunktowa o rozkładzie (nieuzasdnione, p = 005; uzasadnione, 1 p = 095) Nas interesuje zmienna losowa X opisująca liczbę nieuzasadnionych wezwań wśród dziesięciu Ta zmienna losowa ma rozkład dwumianowy z parametrami n = 10 oraz p = 005 3 Obliczenia W punkcie a mamy obliczyć prawdopodobieństwo P {X 2} P {X 2} = P {X = 2} + P {X = 3} + + P {X = 10} 10 = P {X = i} = Q(2; 10, 005) = 008614 i=2 Ostatnia wartość została odczytana w tablicy 1 W Excelu: P {X 2} = 1 P {X 1} = 1 ROZKŁDWUM(1; 10; 005; 1) W punkcie b mamy obliczyć prawdopodobieństwo P {X = 3} W Excelu: P {X = 3} = P {X 3} P {X 4} = Q(3; 10, 005) Q(4; 10, 005) = 001150 000103 = 001047 P {X = 3} = ROZKŁDWUM(3; 10; 005; 0) W punkcie c mamy obliczyć prawdopodobieństwo P {X 1} W Excelu: P {X 1} = 1 P {X 2} = 1 Q(2; 10, 005) = 1 008614 = 091386 P {X 1} = ROZKŁDWUM(1; 10; 005; 1) 4 Odpowiedź Prawdopodobieństwo tego, że co najmniej dwa wezwania będą nieuzasadnione wśród kolejnych dziesięciu wynosi 008614, odnotowania trzech nieuzasadnionych wezwań wśród dziesięciu wynosi 001047, zaś odnotowania co najwyżej jednego nieuzasadnionego wezwania jest równe 091386 Zadania do samodzielnego rozwiązania 31 Co jest bardziej prawdopodobne: wygrać z równorzędnym przeciwnikiem trzy partie z pięciu czy dwie z trzech?

Wersja 26/8/2014 Rozkład dwumianowy 21 32 Wyjeżdżamy na czternastodniowy urlop Jakie jest prawdopodobieństwo tego, że będziemy mieli dziesięć dni pięknej pogody, jeżeli prawdopodobieństwo niepogodnego dnia wynosi 1/6? 33 Załóżmy, że prawdziwa jest hipoteza Mendla, iż dla krzyżówki grochu w drugim pokoleniu stosunek nasion żółtych do zielonych jest jak 3 : 1 Wylosowano dziesięć nasion Obliczyć prawdopodobieństwo, że będą co najwyżej cztery nasiona żółte 34 Środek owadobójczy zabija przeciętnie 90% owadów Środek ten zastosowano na dziesięciu owadach Obliczyć prawdopodobieństwo, że co najwyżej dwa osobniki przeżyją 35 Wadliwość procesu produkcyjnego wynosi 10% Obliczyć prawdopodobieństwo, że na osiem wylosowanych produktów będą co najwyżej dwa złe 36 W pewnym gatunku zwierząt prawdopodobieństwo urodzenia osobnika płci męskiej wynosi 06 Obliczyć prawdopodobieństwo, że w miocie, w którym urodziło się pięcioro młodych będą co najmniej cztery osobniki męskie 37 W stawie hodowlanym są dwa gatunki ryb w proporcji 8 : 2 Obliczyć prawdopodobieństwo, że wśród dziesięciu złowionych ryb będzie co najmniej siedem ryb liczniejszego gatunku 38 W jeziorze jest tysiąc ryb, w tym sto ryb zaobrączkowanych Obliczyć prawdopodobieństwo, że wśród dziesięciu złowionych ryb będzie co najmniej siedem ryb zaobrączkowanych 39 Właściciel kurzej fermy stwierdził, że kogutków wykluwa się trzy razy więcej niż kurek Obliczyć prawdopodobieństwo, że z pięciu losowo wybranych jajek wykluje się co najmniej jeden kogutek, ale nie mniej niż dwie kurki 310 Producent podaje, że w co czwartym jajku niespodziance znajduje się zajączek Ribbon Jakie jest prawdopodobieństwo, że wśród dwudziestu kupionych jajek jest a) przynajmniej pięć jajek z zajączkiem Ribbon; b) nie więcej niż piętnaście jajek bez zajączka Jaka jest najbardziej prawdopodobna ilość jajek z zajączkami?