Przedmiot statystyki. Graficzne przedstawienie danych.



Podobne dokumenty
Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Wykład 10: Elementy statystyki

Wykład 13. Zmienne losowe typu ciągłego

Wykłady 14 i 15. Zmienne losowe typu ciągłego

Statystyka matematyczna i ekonometria

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Wykład ze statystyki. Maciej Wolny

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Przedmiot statystyki. Graficzne przedstawienie danych.

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Analiza danych. TEMATYKA PRZEDMIOTU

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Dyskretne zmienne losowe

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Zbiory liczbowe i funkcje wykład 1

3. Podstawowe pojęcia statystyki matematycznej i rachunku prawdopodobieństwa wykład z Populacja i próba

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Estymacja parametrów w modelu normalnym

Z-LOGN1-006 Statystyka Statistics

Sposoby prezentacji problemów w statystyce

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Pojęcie funkcji. Funkcja liniowa

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Z-LOG-033I Statystyka Statistics

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wprowadzenie do analizy korelacji i regresji

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA MATEMATYCZNA

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

PDF created with FinePrint pdffactory Pro trial version

Biostatystyka, # 1 /Weterynaria I/

Testy dla dwóch prób w rodzinie rozkładów normalnych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

W1. Wprowadzenie. Statystyka opisowa

Rachunku prawdopodobieństwa: rys historyczny, aksjomatyka, prawdopodobieństwo warunkowe,

KONSPEKT FUNKCJE cz. 1.

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wykład 11: Podstawowe pojęcia rachunku prawdopodobieństwa

1.1 Wstęp Literatura... 1

KARTA KURSU. Kod Punktacja ECTS* 1

Statystyczne metody analizy danych

6.4 Podstawowe metody statystyczne

MODELE LINIOWE. Dr Wioleta Drobik

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

PRZEWODNIK PO PRZEDMIOCIE

Rozkłady zmiennych losowych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Podstawowe pojęcia statystyczne

Statystyka matematyczna dla leśników

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Testy post-hoc. Wrocław, 6 czerwca 2016

Kilka uwag o testowaniu istotności współczynnika korelacji

Wydział Matematyki. Testy zgodności. Wykład 03

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Podstawy statystyki opisowej

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Funkcje: wielomianowa, wykładnicza, logarytmiczna wykład 2

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Pojęcie funkcji. Funkcja liniowa

Wykład 13. Podstawowe pojęcia rachunku prawdopodobieństwa

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wykład: 20 godz., ćwiczenia: 20 godz. Zasady zaliczenia: zaliczenie ćwiczeń na ocenę, zaliczenie wykładu - egzamin (pisemne).

Literatura. Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010.

166 Wstęp do statystyki matematycznej

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

studia stacjonarne w/ćw zajęcia zorganizowane: 30/15 3,0 praca własna studenta: 55 Godziny kontaktowe z nauczycielem akademickim: udział w wykładach

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Transkrypt:

Przedmiot statystyki. Graficzne przedstawienie danych. dr Mariusz Grządziel 23 lutego 2009 Przedmiot statystyki Statystyka dzieli się na trzy części: -zbieranie danych; -opracowanie i kondensacja danych (analiza danych); -wyciąganie wniosków na podstawie danych (wnioskowanie statystyczne). Statystyka i gospodarka przestrzenna Ceny mieszkań używanych we Wrocławiu (ceny proponowane przez sprzedających): Ceny mieszkań w dzielnicy A (miasta Wrocławia): 65,80,139,180,355,158,240,205,265,305,200,155,209, 310,149,254,188,265,275,200,184,130,260,250,195 Ceny mieszkań w dzielnicy B (miasta Wrocławia): 420,350,275,277,327,223,198,275,350,327,260,306, 270,295,270,220,299 Średnia cena w dzielnicy A: 208,8;średnia cena w dzielnicy B: 290,71. Czy ceny mieszkań w dzielnicy B są wyższe niż w dzielnicy A? Analiza zależości cech Powierzchnia (w metrach kwadratowych) mieszkań w dzielnicy B: 94,73,75,80,74,60,50,63,74,74,56,85,80,80,80,75,60 Dane nt. mieszkań z dzielnicy B można przedstawić jako tzw. szereg dwucechowy: (94; 420), (73, 35),..., (60; 299). Wykres rozproszenia Dane te można przedstawić przy pomocy wykresu rozproszenia: Wykres rozproszenia+prosta MNK Do chmury punktów na wykresie rozproszenia można dopasować prostą w następujący sposób. Oznaczmy dane ( szereg dwucechowy ) przez (x 1, y 1 ),..., (x n, y n ) Chcemy znaleźć prostą y = b 0 + b 1 x taką,że n S(b 0, b 1 ) = (y i b 1 x i b 0 ) 2 suma kwadratów odchyleń k=1 przyjmuje wartość minimalną (jeśli nie wszystkie wsółrzędne x-owe są równe jednej liczbie, to istnieje dokładnie jedna para liczb, dla których krytetium S przyjmuje wartość minimalną). Otrzymana prosta MNK (od Metody Najmniejszych Kwadratów)- 1

cena 200 250 300 350 400 50 60 70 80 90 powierzchnia (metry kw.) Rysunek 1: Wykres rozproszenia dla danych: powierzchnia i ceny mieszkań w dzielnicy B cena (tys. z³) 200 300 400 50 60 70 80 90 powierzchnia (metry kw.) Rysunek 2: Wykres rozproszenia dla danych: powierzchnia i ceny mieszkań w dzielnicy B+prosta MNK odpowiada minmalnej wartości funkcji S(b 0, b 1 ); wielkość y i b 1 x i b 0 można interpretować jako odchyelenie i tej obserwacji y i od wartości przewidywanej b 1 x i + b 0 Dla danych nt. mieszkań w dzielnicy B prosta ta dana jest równaniem: y = 74,78729 + 2,97698x Wykres rozproszenia+prosta MNK Problem: czy rozważana zależność liniowa między zmiennymi jest w jakimś sensie istotna statystycznie? adekwatna? Wstępna analiza danych i wnioskowanie statystyczne Schemat postępowania: dla posiadanego zbioru danych wykonujemy wstępną analizę: obliczamy wskaźniki sumaryczne (średnią itd.) oraz sporządzamy odpowiednie wykresy statystyczne; następnie przeprowadzamy odpowiednie analizy statystyczne (testujemy odpowiednie hipotezy itd.) 2

Cechy ilościowe i jakościowe Cena mieszkań w dzielnicy B- przykład cechy ilościowej (mamy tu do czynienia z liczbami odpowiadającymi wartościom mierzonych wielkości); -cechy jakościowe: płeć; typ schorzenia; Histogram i szereg rozdzielczy Dla zbioru danych liczbowych y 1, y 2..., y n niech: MIN1 oznacza liczbę mniejszą od najmniejszej z liczb y 1, y 2..., y n ; MAX1 oznacza liczbę większą lub równą od największej z liczb y 1, y 2..., y n ; MIN1 < MIN i MAX1 MAX mogą być odpowiednimi zaokrągleniami wartości, odpowiednio, minimalnej i maksymalnej naszego zbioru danych. (M IN i M AX oznaczają, odpowiednio, wartość minimalną i maksymalną dla {y 1, y 2..., y n }). Podzielmy odcinek (MIN1, MAX1] na k przedziałów (zwanych klasami) o równej długości: (x 0, x 1 ], (x 1, x 2 ],..., (x k 1, x k ], gdzie x 0 = MIN1, x k = MAX1 Funkcję przyporządkowującą poszczególnym przedziałom liczbę elementów naszego zbioru danych do nich należących będziemy nazywać szeregiem rozdzielczym. Ustalenie liczby klas w szeregu rozdzielczym Istnieje kilka reguł ustalania liczby klas k szeregu rozdzielczego w zależności od liczby obserwacji n. Oto niektóre z nich: k log 2 n + 1; k n. Szereg rozdzielczy dla danych: ceny mieszkań w B Dla danych: ceny mieszkań w B : 420,350,275,277,327,223,198,275,350,327, 260,306,270,295,270,220,299 znajdujemy: MIN = 198, MAX = 420. Przyjmujemy: MIN1 = 150; MAX1 = 450 oraz k = 5. Otrzymujemy szereg rozdzielczy, przedstawiony w postaci tabeli: klasa (150, 210] (210, 270] (270, 330] (330, 390] (390, 450] liczność 1 5 8 2 1 Histogram częstości Jeśliby histogram liczebności przeskalować w ten sposób, że wysokości słupków odpowiadałyby ilorazom liczebości klas i liczby wszystkich obserwacji n, wtedy otrzymalibyśmy histogram częstości. Wysokości słupków tego histogramu byłyby równe: 1 17 0,06; 5 0,29 itd. 17 Histogram probabilistyczny Jeśliby histogram przeskalować tak, aby suma pól wszystkich prostkątów ( słupków ) była równa 1, otrzymamy tzw. histogram probabilistyczny (od probability (ang.) - prawdopodobieństwo). Histogram probabilistyczny: oszacowanie rozkładu jedności prawdopodobieństwa dla danej cechy. 3

0 2 4 6 8 150 200 250 300 350 400 450 Rysunek 3: Histogram liczebności dla danych ceny mieszkań w B Jeśli funkcja h-funkcja, odpowiadająca histogramowi probabilistycznemu, to prawdopodobieństwo, że wartość danej cechy X będzie się mieściła w [a, b] : P (a < X < b) b a h(x)dx Histogram probabilistyczny dla cen mieszkań w B 0.000 0.002 0.004 0.006 0.008 150 200 250 300 350 400 450 Rysunek 4: Histogram probablistyczny dla cen mieszkań w B Wielobok częstości Oznaczmy długość klasy histogramu przez H. Jeżeli połączymy odcinakmi: punkt (MIN1 H/2, 0); środki boków słupków histogramu probabilistycznego leżących na przeciw podstaw tych słupków; punkt (MAX1 + H/2, 0); otrzymamy tzw. probabilistyczny wielobok częstości (por. Rys. 3) 4

0.000 0.002 0.004 0.006 0.008 100 200 300 400 500 Rysunek 5: Histogram probabilistyczny+probabilistyczny wielobok częstości dla danych ceny mieszkań w B Literatura [1] Bednarski, T. Elementy matematyki w naukach ekonomicznych. Oficyna ekonomiczna. Kraków 2004. [2] Komsta, Ł, Wprowadzenie do środowiska R. Strona WWW http://r.meteo.uni.wroc.pl/doc/contrib/komsta-wprowadzenie.pdf [3] Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT. Warszawa 2001. [4] Łomnicki, A., Wprowadznie do statystyki dla przyrodników. PWN. Warszawa 2003. [5] Ostasiewicz, S., Rusnak, Z., Siedlecka, U. Statystyka. Elementy teorii i zadania. Wyd. Akadamii Ekonomicznej we Wrocławiu, 1999 [6] The R Project for Statistical Computing. Strona WWW http://www.r-project.org/ [7] Verzani, J. simpler-using R for Introductory Statistics. http://r.meteo.uni.wroc.pl/doc/contrib/verzani-simpler.pdf 5