2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba



Podobne dokumenty
Przedmiot statystyki. Graficzne przedstawienie danych.

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Laboratorium 3 - statystyka opisowa

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Estymacja parametrów w modelu normalnym

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka opisowa- cd.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka Matematyczna Anna Janicka

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Wykład 5: Statystyki opisowe (część 2)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

1 Podstawy rachunku prawdopodobieństwa

Xi B ni B

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 4: Statystyki opisowe (część 1)

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Statystyczne metody analizy danych

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Pozyskiwanie wiedzy z danych

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Biostatystyka, # 1 /Weterynaria I/

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Dyskretne zmienne losowe

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Analiza statystyczna w naukach przyrodniczych

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Parametry statystyczne

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wykład 10: Elementy statystyki

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

3. Podstawowe pojęcia statystyki matematycznej i rachunku prawdopodobieństwa wykład z Populacja i próba

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Schemat oceniania: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Ekstrema globalne funkcji

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka opisowa. Robert Pietrzykowski.

Graficzna prezentacja danych statystycznych

Wykład 3. Rozkład normalny

Środowisko R wprowadzenie. Wykład R1; Pakiety statystyczne

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

You created this PDF from an application that is not licensed to print to novapdf printer (

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyki opisowe i szeregi rozdzielcze

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Pochodna funkcji: definicja, podstawowe własności wykład 5

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Wykład: 20 godz., ćwiczenia: 20 godz. Zasady zaliczenia: zaliczenie ćwiczeń na ocenę, zaliczenie wykładu - egzamin (pisemne).

Statystyka stosowana. Podreczniki. Oceny. Przygotowanie do zajęć

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Pochodna funkcji: definicja, podstawowe własności wykład 6

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Biostatystyka, # 3 /Weterynaria I/

Oceny: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi:

Oceny: Statystyka stosowana. Zalecane podręczniki: Dane. Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Wstęp do statystyki praktycznej. Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa:

Transkrypt:

2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski. Próba- skończony podzbiór populacji podlegający szczegółowemu badaniu. Rozważane zbiory danych można je interpretować jako próby z pewnych popualcji; w dalszym ciągu-terminy próba i zbiór danych będą używane zamiennie. 1

Wskaźniki sumaryczne Histogram sugestywny środek syntezy informacji zawartej w zbiorze danych; wskaźniki sumaryczne miary liczbowe pozwalające na zwięzły opis zbioru danych lub populacji (zbiorowości), z której ten zbiór danych został wybrany. Wskaźniki: -położenia określają centrum zbioru danych; -rozproszenia określają rozproszenie cechy wokół wskaźnika położenia. 2

Wskaźniki położenia Niech x 1, x 2,..., x n oznacza próbę o liczności n. Definicja 1 Wartościa średnia w próbie, oznaczana x, nazywamy średnia arytmetyczna x = 1 n x i. n Dla danych dotyczacych cen mieszkań w dzielnicy B wartość średnia wynosi: i=1 x = 1 (420 + 350 +... + 299) 290,71 17 3

Mediana Średnia w próbie sensowna, gdy histogram jest w przybliżeniu symetryczny (tak jak w przypadku histogramu dla danych dotyczących cen mieszkań w dzielnicy B). Przykład. Wynagrodznie pracowników w pewnej firmie: 2400 zł (1 osoba), 2900 zł (9 osób), 3100 zł (6 osób), 3400 zł (5 osób), 4100 zł (4 osoby), 4800 zł (2 osoby), 6000 zł (2 osoby), 6500 zł (1 osoba), 14000 zł (1 osoba). Średnia wynagrodzenie wynosi: 2400+9 2900+6 3100+5 3400+4 41002 4800+2 6000+14000 31 3954,84 Można oczekiwać, że histogram dla tych danych nie będzie symetryczny. 4

Mediana c.d. histogram dla zbioru danych PENSJE 0 2 4 6 8 10 2000 4000 6000 8000 10000 12000 14000 pensje Rysunek 1: Histogram dla danych PENSJE Histogram dla danych PENSJE nie jest symetryczny ma prawy ogon dłuższy niż lewy ogon. Nawiązując do terminologii z książki J. Koronackiego i J. Mielniczuka (Rozdz. 1.2) jest on prawostronnie skośny. 5

Analogicznie określamy lewostronna skośność histogramu. W tym przypadku bardziej sensownym wskaźnikiem położenia będzie tzw. mediana. 6

Mediana definicja Uprządkowane niemalejąco elementy próby x 1, x 2,..., x n oznaczmy przez x (1), x (2),..., x (n 1), x (n), gdzie x (1) x (2)... x (n 1) x (n). Dla danych PENSJE: x (1) = 2400; x (2) = x (3) =... = x (10) = 2900; x (11) = x (12) =... = x (16) = 3100; x (17) = x (18) =... = x (21) = 3400... x (30) = 6500 x (31) = 14000 7

Definicja 2 Mediana w próbie (lub mediana próby), oznaczna x med nazywamy następujac a wielkość x med = x ((n+1)/2), jeśli n jest nieparzyste, 1 2 (x (n/2) + x (n/2+1) ), jeśli n jest parzyste. Cechą mediany jest odporność na obserwacje odstajace, czyli wartości bardzo wyraźnie odstające od innych obserwacji w próbie. Jeśli w danych PENSJE 14000 zamienić na 140000, wartość mediany się nie zmieni! 8

Inne odporne wskaźniki położenia Średnia ucinana (z parametrem k). Otrzymujemy ją odrzucając k najmniejszych i k największych obserwacji w próbie, a następnie obliczając średnią dla pozostałych elementów próby. Średnia winsorowska z parametrem k. Otrzymujemy ją zastępując k najmiejszych elementów próby elementem x (k+1) a k największych elementem x (n k) i obliczając dla tak zmodyfikowanej próby średnią. 9

Wskaźniki rozproszenia Definicja 3 Rozstępem próby o liczności n, oznaczanym przez R, nazywamy różnicę R = x (n) x (1) gdzie x (1) i x (n) sa, odpowiednio, najmniejszym i największym elementem w próbie. Definicja 4 Wariancję w próbie, oznaczana przez s 2, określamy wzorem s 2 = 1 n 1 n (x i x) 2, gdzie x oznacza średnia w próbie. Pierwiastek z wariancji nazywamy odchyleniem standardowym w próbie; oznaczamy go przez s. i=1 10

Kwartyle i rozstęp międzykwartylowy Uprządkowane niemalejąco elementy próby x 1, x 2,..., x n oznaczamy przez x (1), x (2),..., x (n 1), x (n). Niech m = 1 + 0,25 (n 1). Definicja 5 Kwartyl dolny Q 1 określamy wzorem x (m), jeśli m jest całkowite, Q 1 = (1 w)x (d) + w x (d+1), jeśli m nie jest całkowite, gdzie d = E(x) (d jest równa części całkowitej z x) a w = m d. Kwartyl górny określamy analogicznie, przyjmując m = 1 + 0,75 (n 1). Definicja 6 Rozstępem międzykwartylowym IQR nazywamy różnicę IQR = Q 3 Q 1. 11

Uwagi o innych definicjach kwartyli W środowisku R kwartyle są obliczane wg. wyżej podanej definicji (jeżeli użyta jest opcja domyślna). W książce [1] kwartyl dolny definowany jest jako mediana dla podpróby składającej się z obserwacji mniejszych niż mediana; analogicznie jest tam definiowany kwartyl górny. Niektórzy autorzy zamiast kwartyli obliczają tzw. zawiasy (ang. hinges). Zawiasy dolny i górny będziemy oznaczać przez, odpowiednio, Q 1 i Q 3. Q 1 jest w przybliżeniu równe Q 1 a Q 3 jest w przybliżeniu równe Q 3 dokładne definicje znajdują się na liście zadań nr 2! 12

Wykres ramkowy Dla danych dotyczących cen mieszkań w osiedlu B mamy: MIN = 198; Q1 = Q 1 = 270; x med = 277; Q3 = Q 3 = 327; MAX = 420; gdzie MIN i MAX oznaczają, odpowiednio, minimalną i maksymalną obserwację w próbie (zbiorze danych). Wykres ramkowy składa się z ramki -dolna podstawa ramki ma współrzędną y-wą równą Q 1, współrzędna górnej podstawy ramki jest równa Q 3 ; poziomy odcinek wewnątrz ramki odpowiada medianie w próbie. 13

Wykres ramkowy c.d. Określamy ĨQR := Q 3 Q 1. Odcinek wychodzący z górnej podstawy ramki kończy się linią poziomą o współrzednej pionowej równej: m 1 = MAX, jeśli MAX Q 3 + 1,5 ĨQR, MAX0, jeśli MAX > Q 3 + 1,5 ĨQR, gdzie MAX0 oznacza największą onserwację ze zbioru obserwacji mniejszych lub równych Q 3 + 1,5 ĨQR. Jeśli MAX > Q 3 + 1,5 ĨQR, to zaznaczamy na wykresie wszystkie obserwacje większe niż Q 3 + 1,5 ĨQR. Analogicznie, odcinek wychodzący z dolnej podstawy ramki kończy się linią poziomą o współrzednej y-wej równej: 14

MIN, jeśli MIN Q 1 1,5 ĨQR, m 2 = MIN0, jeśli MIN < Q 1 1,5 ĨQR, gdzie MIN0 oznacza najmniejszą obserwację ze zbioru obserwacji większych lub równych Q 1 1,5 ĨQR. Jeśli MIN < Q 1 1,5 ĨQR, to zaznaczamy na wykresie wszystkie obserwacje mniejsze niż Q 1 1,5 ĨQR. 15

200 250 300 350 400 B Rysunek 2: Wykres ramkowy dla danych dotyczących cen mieszkań w B 16

Wykres ramkowe dla danych z dwóch prób 100 150 200 250 300 350 400 A B Rysunek 3: Wykresy ramkowy dla danych dotyczących cen mieszkań w A i B 17

Literatura [1] Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT. Warszawa 2001. 18