1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

Podobne dokumenty
1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

Bardzo silnie z poj ¾eciem populacji statystycznej zwiazane ¾ jest poj ¾ecie próby statystycznej.

1 Miary asymetrii i koncentracji

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Statystyczna analiza danych z wykorzystaniem pakietów SPSS i Statistica Skrypt dla studentów 2012 rok

1 Próba a populacja. Nasze rozwa zania zaczniemy od przedyskutowania podstawowych poj ¾eć statystycznych,

Wyk ad II. Stacjonarne szeregi czasowe.

Pochodne cz ¾astkowe i ich zastosowanie.

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

1 Testy statystyczne. 2 Rodzaje testów

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

1 Wieloczynnikowa analiza wariancji

Statystyka w analizie i planowaniu eksperymentu

Wyznaczniki, macierz odwrotna, równania macierzowe

Statystyka w analizie i planowaniu eksperymentu

Funkcje dwóch zmiennych

Równania ró znicowe wg A. Ostoja - Ostaszewski "Matematyka w ekonomii. Modele i metody".

1 Poj ¾ecie szeregu czasowego

Ocena ryzyka kredytowego

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Ekstrema funkcji wielu zmiennych.

Wprowadzenie do równań ró znicowych i ró zniczkowych.

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Opis przedmiotu: Probabilistyka I

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Statystyka w analizie i planowaniu eksperymentu

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Statystyka matematyczna

Rozkłady zmiennych losowych

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

W1. Wprowadzenie. Statystyka opisowa

1 Regresja liniowa cz. I

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Kolokwium ze statystyki matematycznej

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Rozkłady statystyk z próby

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

1 Przygotowanie ankiety

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

1 Testy statystyczne. 2 Rodzaje testów

Konkurs Matematyczny, KUL, 30 marca 2012 r.

1 Podstawy rachunku prawdopodobieństwa

przedmiot podstawowy obowiązkowy polski drugi

Wykład 10 Testy jednorodności rozkładów

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka i eksploracja danych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Matematyka ubezpieczeń majątkowych r.

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Aleksander Adamowski (s1869) zmienn ą losow ą T o rozkładzie wykładniczym o średniej 5 minut.

Wybrane rozkłady zmiennych losowych. Statystyka

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Metody Statystyczne. Metody Statystyczne.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Estymacja parametrów rozkładu cechy

Teoretyczne podstawy algorytmów komputerowego modelowania procesów Markowa

Sterowanie wielkością zamówienia w Excelu - cz. 3

MATEMATYKA 4 INSTYTUT MEDICUS FUNKCJA KWADRATOWA. Kurs przygotowawczy na studia medyczne. Rok szkolny 2010/2011. tel

Wybrane rozkłady zmiennych losowych. Statystyka

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Zmienne losowe. Statystyka w 3

ZASADA SZUFLADKOWA DIRICHLETA

1 Wieloczynnikowa analiza wariancji ciag ¾ dalszy

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Z Wikipedii, wolnej encyklopedii.

Weryfikacja hipotez statystycznych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka matematyczna

Próba własności i parametry

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

Symulacja w przedsiębiorstwie

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Planimetria 1 12 godz.

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka w analizie i planowaniu eksperymentu

Centralne twierdzenie graniczne

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

TABLICE PODSTAWOWYCH ROZKŁADÓW PRAWDOPODOBIEŃSTWA. T4. Tablica kwantyli rozkładu chi-kwadrat (I część - poziomy kwantyli 0,5)

Jedna z krawędzi powstałego prostopadłościanu miałaby długość 10 km. P F

Transkrypt:

Kurs w zakresie zaawansowanych metod komputerowej analizy danych Podstawy statystycznej analizy danych 8.03.014 - godziny ćwiczeń autor: Adam Kiersztyn 1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów W tym punkcie naszych rozwa zań przedstawimy praktyczne sposoby wyznaczania podstawowych miar statystycznych bez zastosowania komputerów. Mo ze si¾e bowiem tak zdarzyć, ze b ¾eda¾ Państwo musieli wyznaczyć podstawowe miary takie jak średnia, odchylenie standardowe, mediana czy te z dominanta i nie b ¾eda¾ mieli Państwo dost ¾epu do niezb ¾ednego oprogramowania. W takich przypadkach dobrze jest zastosować zaprezentowane poni zej metody. Przyk ad 1 Za ó zmy, ze wyniki pewnego do swiadczenia reprezentuje poni zsza tabelka warto sć cechy (x i ) liczebno sć (n i ) - 5-1 10 0 15 1 5 0 3 5 Chcemy wyznaczyć podstawowe charakterystyki. W tym celu rozbudowujemy nasza¾ tabelk ¾e dodajac ¾ dodatkowe kolumny oraz jeden wiersz, w którym b ¾edziemy zliczali sumy odpowiednich kolumn. Rozbudowana tabelka przyjmuje nast ¾epujac ¾a¾ postać x i n i x i n i x i n i N i 5 10 0 5 1 10 10 10 15 0 15 0 0 30 1 5 5 5 55 0 40 80 75 3 5 15 45 80 suma 80 60 180 gdzie kolumna trzecia jest iloczynem kolumny pierwszej i drugiej, kolumna czwarta jest iloczynem kolumny pierwszej i trzeciej, natomiast ostatnia kolumna zawiera liczebno sci skumulowane, które powstaja¾ z obliczania sum cz ¾e sciowych drugiej kolumny do danego poziomu. Na podstawie powy zszych danych otrzymujemy 1

nast ¾epujace ¾ wyniki S = X = kx x i n i kx x i n i kx n i = kx n i 180 X = 80 60 80 = 3 4 ; 3 = 7 4 16 ; ponadto atwo stwierdzamy, ze dominanta wynosi D = 1 (najwi ¾eksza liczebno sć jest dla warto sci 1) oraz mediana Me = 1, bowiem dla warto sci 1 pierwszy raz liczebno sć skumulowana przekracza 40. W podobny sposób mo zna dokonać niezb ¾ednych obliczeń dla szeregu rozdzielczego przedzia owego, jedyna¾ ró znica¾ jest dodanie kolumny zawierajacej ¾ środki przedzia ów. Rozwa zmy nast ¾epujacy ¾ przyk ad. Przyk ad Dla danych z przyk adu?? wyznaczyć podstawowe miary statystyki opisowej. Podobnie jak poprzednio rozbudowujemy nasza¾ tabel ¾e o dodatkowe kolumny i wiersz, przyjmuje wówczas ona nast ¾epujac ¾a¾ postać przedzia liczebno sć (n i ) srodek przedzia u ( _x i ) _x i n i _x i n i N i 155+161 [155; 161) = 158 316 4998 161+167 [161; 167) 7 = 164 1148 1887 9 167+173 [167; 173) 8 = 170 1360 3100 17 173+179 [173; 179) 7 = 176 13 1683 4 179+185 [179; 185) 4 = 18 78 13496 8 185+191 [185; 191] 7 = 188 1316 47408 35 suma 35 6100 1066136 Podobnie jak poprzednio wyznaczamy warto sć sredniej oraz wariancji S = 1066136 35 X = 6100 35 = 10 7 10 7 = 095 45 Natomiast wyznaczenie mediany i dominanty wymaga troch ¾e dodatkowych obliczeń i zastosowania wzorów (5) i (6) z poprzednich konspektów. Wszelkie niezb ¾edne informacje sa¾ jednak bezpo srednio dost ¾epne w powy zszej tabeli. My wówczas Me = x Me + N k Me X 1 n i n Me i Me = 173 + 17; 5 17 7 6 = 173; 43

n D n D 1 8 7 D = D = x D + i D = 167 + n D n D 1 + n D n D+1 8 7 + 8 7 6 = 170: Liczby losowe (generatory liczb losowych, tablice liczb losowych) Istotnym zagadnieniem statystyki matematycznej jest generowanie liczb losowych, ma ono zastosowanie mi ¾edzy innymi podczas wybierania próby losowej. W zwiazku ¾ z tym musimy przybli zyć sobie dost ¾epne generatory liczb losowych. Skupimy si ¾e tutaj na generatorach zaimplementowych w arkuszu Excel oraz na tablicach liczb losowych. W internecie mo zna znaleźć wiele tablic liczb losowych, jednak dobór w aściwych tablic mo ze nastr ¾eczać du ze problemy. Znacznie wygodniejszym sposobem jest wygenerowanie liczb losowych spe niajacych ¾ nasze wymagania. W tym celu wykorzystamy dost¾epna¾ w programie Excel funkcj¾e "LOS()", która zwraca nam liczb ¾e pseudolosowa¾ pobrana¾ ze zmiennej o rozk adzie jednostajnym na przedziale (0,1). Innymi s owy otrzymujemy liczb ¾e (pseudolosowa) ¾ z przedzia u (0,1). Pojawia si ¾e tutaj naturalne pytanie w jaki sposób uzyskać liczby losowe z innych podzbiorów liczb rzeczywistych. Jest to mo zliwe poprzez odpowiednie przekszta cenie wyniku danej funkcji, dla przyk adu formu a zwraca nam naturalne liczby losowe ze zbioru f1; ; : : : ; 10g : Istotna¾ wada¾ generatora zastosowanego w programie Excel jest fakt, ze liczby sa¾ pobierane z rozk adu równomiernego. Czasami chcemy, aby próba by a pobierana zgodnie z innym rozk adem, wtedy mamy dwa wyjścia. Jedno z nich polega na umiej ¾etnym z o zeniu funkcji kwantyli z adanego ¾ rozk adu z funkcja¾ LOS(). Drugi sposób polega na skorzystaniu z innych dost ¾epnych w internecie generatorów liczb losowych. Ćwiczenie 1 Napisać formu ¾e pozwalajac ¾a¾ otrzymać jako wynik ca kowite liczby losowe ze zbioru f 5; 4; : : : ; ; 3g : 3 Rozk ad normalny Jednym z najwa zniejszych rozk adów rozwa zanych w statystyce matematycznej jest rozk ad normalny (rozk ad Gaussa). W celu dok adnego określenia rozk adu 3

nale zy podać średnia ¾() oraz odchylenie standardowe (). Przyj¾e o si¾e pisać w skrócie N (; ) lub N ; : G¾estość rozk adu normalnego wyra za si¾e wzorem f (x) = 1 p exp! (x ) : Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości dystrybuanty tego rozk adu zosta y stablicowane i sa¾ stosowane w wielu badaniach statystycznych. Poni zszy rysunek przedstawia kilka przyk adowych g ¾estości Jedna¾ z wielu w asności rozk adu normalnego jest jego symetryczność wzgl ¾edem średniej, w szczególności dla g ¾estości standardowego rozk adu normalnego zachodzi w asność f (x) = f ( x) : Dystrybuant ¾e standardowego rozk adu normalnego zazwyczaj oznacza si¾e przez (x) : Istotna¾ umiej¾etnościa¾ jest w aściwe odczytywanie wartości z tablic rozk adu normalnego. 3.1 Tablice standardowego rozk adu normalnego Nale zy zauwa zyć, ze zarówno w internecie jak te z w ró znych pozycjach ksia zkowych ¾ mo zna odnaleźć tablice dystrybuanty rozk adu normalnego. Tablice te jednak moga¾ ró znić si¾e mi¾edzy soba¾ dok adnościa, ¾ jak równie z ogólnym sposobem reprezentacji danych. W jednym z najbardziej popularnych podr ¾eczników do statystyki W. Krysicki, J. Bartos, Rachunek prawdopodobieństwa i statystyka 4

matematyczna w zadaniach tablice te przyjmuja¾ nast¾epujac ¾ a¾ postać 5

Dla przyk adu odczytajmy z tablic (1:3) : W tym celu post¾epujemy w sposób zaprezentowany na poni zszym rysunku i otrzymujemy wynik (1:3) = 0:8907: Jeśli natomiast naszym zadaniem jest wyznaczenie punktu x 0 dla którego np. (x 0 ) = 0:64 post¾epujemy w nieco inny sposób. W gaszczu ¾ wartości odszukujemy najbli zszej 0:64 i odczytujemy jej wspó rz ¾edne jak na rysunku poni zej otrzymujemy zatem odpowiedź x 0 = 0:36: Przyk ad 3 Za ó zmy, ze zmienna losowa X ma standardowy rozk ad normalny N (0; 1) : Obliczmy korzystajac ¾ z tablic standardowego rozk adu P (X < 1) = (1) = 0:8413 P (X 0:5) = 1 P (X < 0:5) = 1 (0:5) = 1 0:6915 = 0:3085 P (X < 0:) = ( 0:) = 1 (0:) = 1 0:5793 = 0:407 P ( 0:7 < X < 0:3) = (0:3) ( 0:7) = (0:3) + (0:7) 1 = = 0:6179 + 0:7580 1 = 0:3359 W powy zszych przyk adach wykorzystaliśmy podstawowe w asności wszystkich dystrybuant oraz faktu, ze dla standardowego rozk adu normalnego ( a) = 1 (a) : Nale zy w tym miejscu jeszcze zanotować, ze dla zmiennych losowych typu ciag ego ¾ o dystrybuancie F b ¾edacej ¾ funkcja¾ ciag a ¾ prawdziwe sa¾ nast¾epujace ¾ wzory P (X < a) = F X (a) ; (1) 6

P (X a) = F X (a) ; () P (X = a) = 0; (3) P (X > a) = 1 P (X a) = 1 F X (a) ; (4) P (X a) = 1 P (X < a) = 1 F X (a) ; (5) P (a < X < b) = F X (b) F X (a) : W ostatnim wzorze ka zda¾ z nierówności < mo zna zastapić ¾ przez nierówność : 3. Zastosowanie programu Excel do wyznaczania wartości rozk adu normalnego W programie Excel ma do dyspozycji 4 funkcje zwiazane ¾ z rozk adem normalnym. Pierwsza¾ z nich jest funkcja ROZK AD.NORMALNY Jako parametry tej funkcji podajemy cztery wartości. Pierwsza z nich "X" oznacza wartość dla której chcemy obliczyć wartość funkcji, "Średnia" oznacza średnia¾ rozk adu, natomiast "Odchylenie_std" oznacza odchylenie standardowe : Ostatnia zmienna "Skumulowany" ma wartość logiczna¾ prawda jeśli chcemy obliczyć wartość dystrybuanty w punkcie, natomiast wartość fa sz jeśli chcemy obliczyć wartość g ¾estości w punkcie. 7

Kolejna¾ funkcja¾ dzia aj ac ¾ a¾ niejako w sposób odwrotny jest funkcja ROZK AD.NORMALNY.ODW Zmienne średnia oraz odchylenie standardowe maja¾ to samo znaczenie co w poprzedniej funkcji, natomiast zmienna "Prawdopodobieństwo" oznacza wartość prawdopodobieństwa. Innymi s owy jako wynik otrzymamy taki punkt x 0 dla którego P (X < x 0 ) = p; gdzie X ma rozk ad normalny ze średnia¾ i odchyleniem standardowym podanym jako parametry funkcji oraz wartościa¾ p podana¾ jako parametr "Prawdopodobieństwo". Oprócz omówionych powy zej funkcji dost ¾epne sa¾ jeszcze dwie funkcje pozwalajace ¾ wyznaczać odpowiednie wartości dla standardowego rozk adu normalnego N (0; 1) : 3.3 Standaryzacja rozk adu Podczas prowadzenia analiz statystycznych musimy wyznaczyć wartość prawdopodobieństwa pewnego zdarzenia zwiazanego ¾ z rozk adem normalnym, który 8

nie jest standardowym rozk adem normalnym. W takim przypadku nie mo zemy skorzystać z tablic statystycznych. W tablicach zawarte sa¾ bowiem jedynie wartości dystrybuanty zmiennej losowej o rozk adzie N (0; 1) : Mo zemy skorzystać wówczas ze standaryzacji rozk adu normalnego. Nale zy zauwa zyć, ze jeśli zmienna losowa ma rozk ad N (; ) to zmienna losowa U = X ma rozk ad N (0; 1) : Przyk ad 4 Niech X b ¾edzie zmienna¾ losowa¾ o rozk adzie normalnym ze srednia¾ 0 i odchyleniem 3: Obliczyć P (X 3) ; P (X 1 < ) ; P (jx 1j < 1) : Rozwiazanie: ¾ W pierwszym przypadku mamy X 0 P (X 3) = P 3 0 = P (U 1) = 1 3 3 (1) = 1 0:8413 = 0:1587 w drugim przypadku P (X 1 < ) = P (X < 3) = P (X < 1:5) = P (U < 0:5) = (0:5) = 0:6915; natomiast w ostatnim podpunkcie mamy P (jx 1j < 1) = P ( 1 < X 1 < 1) = P (0 < X < ) = P 0 < U < = 3 = 3 (0) = 0:7486 0:5 = 0:486 Ćwiczenie Niech X b ¾edzie zmienna¾ losowa¾ o rozk adzie normalnym N ( ; 1). Obliczyć P (X < 0) ; P (X > ) ; P (X + 1 < 0) : Ćwiczenie 3 Za ó zmy, ze czas dzia ania zarówki ma rozk ad normalny ze srednia¾ 100 godzin i odchyleniu 100 godzin. Obliczyć prawdopodobieństwo, ze a) zarówka b ¾edzie swieci a nieprzerwanie przez wi ¾ecej ni z miesiace, ¾ b) zarówka b ¾edzie swieci a krócej ni z miesiac, ¾ c) zarówka b ¾edzie swieci a mi ¾edzy 50 a 60 dni. 9