Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Podobne dokumenty
Oceny. Podreczniki. Dane. Statystyka matematyczna i stosowana

Wstęp do statystyki praktycznej. Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa:

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Oceny: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi:

Oceny. Statystyka stosowana. Podreczniki. Przygotowanie do zajęć. Dane

Statystyka stosowana. Podreczniki. Oceny. Przygotowanie do zajęć

Oceny: Statystyka stosowana. Zalecane podręczniki: Dane. Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Schemat oceniania: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi: Przygotowanie studenta do zajęć:

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Laboratorium 3 - statystyka opisowa

Przedmiot statystyki. Graficzne przedstawienie danych.

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka Matematyczna Anna Janicka

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wykład 5: Statystyki opisowe (część 2)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Pozyskiwanie wiedzy z danych

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wykład 9 Wnioskowanie o średnich

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Estymacja parametrów w modelu normalnym

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Analizy wariancji ANOVA (analysis of variance)

Wykład 4: Statystyki opisowe (część 1)

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Wykład 3. Rozkład normalny

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Testowanie hipotez statystycznych.

Statystyczne metody analizy danych

Statystyki opisowe i szeregi rozdzielcze

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Analiza statystyczna w naukach przyrodniczych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Rozkłady statystyk z próby

Parametry statystyczne

You created this PDF from an application that is not licensed to print to novapdf printer (

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Estymacja punktowa i przedziałowa

W1. Wprowadzenie. Statystyka opisowa

Próba własności i parametry

Statystyka matematyczna dla leśników

Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Statystyka opisowa- cd.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Metody Statystyczne. Metody Statystyczne.

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Wykład 2. Transformacje (przekształcenia) danych

Wykład 2. Standaryzacja: Przykład: wpływ stałej addytywnej: odejmujemy 20. Liniowa transformacja zmiennych. Liniowa transformacja zmiennych, cd.

Xi B ni B

Y \ X , 2 0, 1 0, 1 1 0, 1 0, 3 0, 2. E(XY ) = i,j. x i y j p ij. i wtedy. x i y j p (X) = i,j. y j p (Y ) i wtedy

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

MODELE LINIOWE. Dr Wioleta Drobik

Testowanie hipotez statystycznych.

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Testowanie hipotez statystycznych.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Transkrypt:

Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód Zmienne i rekordy Rekordy odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna pewna charakterystyka danego obiektu Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków Rodzaje zmiennych Zmienne Dane pracowników CyberStat Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne

Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Wykres kołowy Rozkład podaje liczbę lub procent osobników w danej kategorii. Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6 Zmienna ilościowa Diagram pnia i liścia Pień na ogół wszystkie cyfry poza ostatnią Liść na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22 Wykres słupkowy

Opis rozkładu Kształt, środek, rozrzut. Kształt Ile punktów szczytowych (mod)? Symetryczny albo skośny. Środek punkt centralny Rozrzut odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty). Histogramy Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie Tabela częstości Class Count Percent Class Count Percent 0.1-5.0 30 60 20.1-25 1 2 5.1-10.0 10 20 25.1-30 2 4 10.1-15 4 8 30.1-35 0 0 15.1-20 2 4 35.1-40 1 2 Miary położenia rozkładu Średnia z próby: symbol y oznacza liczbę; arytmetyczną średnią z obserwacji Symbol Y oznacza pojęcie średniej z próby Średnia jest środkiem ciężkości zbioru danych

6 å i1 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 y y + y +... + y 11+ 13 +... + 1 56 i 1 2 6 y 56 / 6 9.33 Przykłady Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = Odchylenia dev y - y i i dev1 y1 - y 11-9.33 1.67 Σ dev i =? Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Mediana próbkowa: Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna nie mają na nią wpływu obserwacje odstające Średnia to środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna

Średnia a mediana Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3 Miary położenia cd.:kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. Rozstęp międzykwartylowy IQR=Q3-Q1 (inter-quartile range) Przykład Dane: 3 5 6 2 1 7 4 Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja: mediany, kwartyli, maximum i minimum z danych. Ramka ( pudełko ) powstaje z obrysowania kwartyli Linie ( wąsy ) ciągą się do wartości najmniejszej i największej.

BoxPlot Przykładowy zmodyfikowany wykres ramkowy (boxplot) 12 10 8 6 4 2 0 5 1 0 1 5 Zmodyfikowany Boxplot Miary rorzutu: Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR Rozstęp (max min) bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IQR=Q3-Q1) rozstęp środkowych 50% obserwacji Standardowe odchylenie / Wariancja Współczynnik zmienności (CV) Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n å( i 2 ) /( 1) (definition) i1 s y - y n - n 2 ( å yi 2 ny ) /( n 1) (calculations) i1 - -

W mianowniku jest n-1: SS s,where n -1 n n 2 2 2 å( i ) å i i1 i1 SS y - y y - ny Miary rozrzutu, cd. Współczynnik zmienności (CV) Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4) Rozstęp = CV s / y Próbkowa wariancja: s 2 Przeciętny kwadrat odległości od średniej próbkowej: s 2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y s z definicji: SS = wariancja: s 2 = s= Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji n-1 Σ dev i =0 stąd devn -å devi i1 n-1 stopni swobody = n-1 jednostek informacji Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Współczynnik zmienności: CV=

Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu ( normalny ), to około: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej Przykład cd Średnia = 14.4, odchylenie standardowe s = 2.9. y Nierówność Czebyszewa Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej. Odcinek Ocena s z histogramu I ( y - 2 s, y + 2 s) zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Przykład (puls po ćwiczeniach) Przykład 95 % pomiarów jest pomiędzy 75 a 125 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 Faktyczne s = 13.4 13 20 20 18 12

Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność: Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością? Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie