Literatura. Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010.

Podobne dokumenty
POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka w pracy badawczej nauczyciela

Próba własności i parametry

Statystyka Matematyczna Anna Janicka

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Podstawowe pojęcia statystyczne

Statystyka matematyczna i ekonometria

Podstawowe pojęcia cd. Etapy badania statystycznego

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

W1. Wprowadzenie. Statystyka opisowa

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Wykład ze statystyki. Maciej Wolny

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki Cz. 1. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Statystyczny opis danych

Sposoby prezentacji problemów w statystyce

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Wykład 10: Elementy statystyki

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka matematyczna dla leśników

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Spis treści 3 SPIS TREŚCI

STATYSTYKA. dr Agnieszka Figaj

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Miary statystyczne w badaniach pedagogicznych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Wykład 2 Zmienne losowe i ich rozkłady

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Ekonomii i Finansów Dr Katarzyna Brzozowska-Rup

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Statystyczne metody analizy danych

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wykład 1: O statystyce i analizie danych

przedmiot podstawowy obowiązkowy polski drugi

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

STATYSTYKA MATEMATYCZNA

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Przedmiot i rola statystyki

laboratoria 24 zaliczenie z oceną

Z poprzedniego wykładu

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Opis przedmiotu: Probabilistyka I

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka matematyczna dla leśników

Graficzna prezentacja danych statystycznych

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Dr Roman Sosnowski

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Wydział Matematyki. Testy zgodności. Wykład 03

Badania Statystyczne

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Podstawy statystyki opisowej

1 Podstawy rachunku prawdopodobieństwa

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

Pozyskiwanie wiedzy z danych

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Przedmiotowe Zasady Oceniania III LO w Łomży. Statystyka. Klasa II-III

Rozkłady zmiennych losowych

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Podstawy statystyki opisowej

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Transkrypt:

Metody statystyczne

Literatura Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010. Stąpor K. Wykłady z metod statystycznych dla informatyków z przykładami w języku R. Wydawnictwo Politechniki Sląskiej. 2015 W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, Część I i II, PWN, 2006 Jóźwiak J., Podgórski J., Statystyka od podstaw, PWE, Warszawa 2012. Stąpor K., Skowronek M. Przykłady i zadania do wykładu z metod statystycznych dla informatyków. Wydawnictwo Politechniki Sląśkiej. 2013 Online: https://www.probabilitycourse.com/

Wykład 1 1. Statystyka - Wprowadzenie 2. Statystyka opisowa: Rozkład empiryczny cechy Metody prezentacji rozkładu cechy

Statystyka - wprowadzenie

Statystyka - podstawowe pojęcia (cz. 1) Statystyka - dyscyplina wiedzy zajmująca się metodami pozyskiwania, prezentacji i analizy danych odnoszących się do powtarzalnych, masowych zjawisk lub wyników eksperymentów "Alternatywna" definicja statystyki. Cytat: "Kłamstwa, bezczelne kłamstwa i statystyka" Statystyka opisowa - sumaryczny opis danych, np. obliczenie średniej, ile jest jakich przypadków. Jest to wstępne opracowanie danych, bez posługiwania się rachunkiem prawdopodobieństwa Statystyka matematyczna - wnioskowanie o badanej zbiorowości na podstawie danych częściowych, bo zebranie wszystkich danych jest niemożliwe, kosztowne lub niecelowe. Korzysta się z rachunku prawdopodobieństwa. Zakres wykładów: Statystyka opisowa (descriptive statistics) Rachunek prawdopodobieństwa (probability calculus) Statystyka matematyczna (mathematical statistics)

Przykład: Statystyka - podstawowe pojęcia (cz. 2) Badamy wejścia na nasz serwis WWW: jakie były używane przeglądarki, jak długo trwał pobyt w naszym serwisie, jak dużo podstron było w tym czasie odwiedzonych. Prezentujemy dane np. na wykresie jaka przeglądarka jest najpopularniejsza. Dokonujemy analizy np. obliczamy jaki był średni czas pobytu w naszym serwisie. Zebraliśmy dane części odwiedzających i na podstawie tych danych wnioskujemy o wszystkich odwiedzających Badanie statystyczne - proces pozyskiwania danych, w powyższym przykładzie będzie automatyczne Zbiorowość generalna (populacja generalna, population) czyli co albo kogo badamy - kompletny zbiór elementów lub możliwych wyników generujących dane do badań statystycznych. Np. wejścia na nasz serwis WWW, mieszkańcy Polski, samochody, dni miesiąca (badamy czy było słonecznie), możliwe wyniki pomiaru wytrzymałości materiału. Cecha (właściwość, variable) statystyczna czyli pod jakim kątem badamy - właściwość elementów zbiorowości, którą badamy. Np. zbiorowość: wejścia na nasz serwis WWW - badamy cechę: jaka była użyta przeglądarka, zbiorowość: mieszkańcy Polski - cecha: ile zarabiają zbiorowość: samochody - cecha: jaka marka

Statystyka - podstawowe pojęcia (cz. 3) Badanie pełne (całkowite) - badamy wszystkie elementy zbiorowości. Dostarcza pełnej informacji, ale często jest niecelowe (crash-testy) lub niewykonalne. Koszt badania może być większy niż korzyści z analizy danych. Badanie częściowe - badamy tylko część elementów zbiorowości. Główne zadanie statystyki to wnioskowanie o właściwościach zbiorowości na podstawie badań częściowych (np. sondaż przedwyborczy - wynik wyborów) Próba (sample)- część zbiorowości poddania badaniu częściowemu. Próba losowa - próba dobrana przez losowanie elementów zbiorowości. Próbę dobiera się tak, aby była reprezentacyjna dla całej zbiorowości

Statystyka - podstawowe pojęcia (cz. 4) Cechy statystyczne: jakościowe (niemierzalne) - kolor oczu, płeć, wykształcenie (categorical data, qualitative data) mierzalne (ilościowe) - można wyrazić liczbowo (numerical data, quantitative data): typu skokowego (dyskretnego): liczba osób w rodzinie typu ciągłego: waga typ skokowy - przyjmuje skończoną lub przeliczalną liczbę wartości (discrete) typ ciągły - może przyjąć każdą wartość rzeczywistą z pewnego przedziału (continuous) Uwaga: Dla cechy jakościowej można przypisać wartości liczbowe, np. kolorom - numery i traktować je jako mierzalne

Rozkład empiryczny cechy

Dane indywidualne (cz. 1) Dane indywidualne uzyskane z badania (posłużą jako przykład na dalszej części wykładu): Zanotowano 25 odwiedzin (wizyt) na jakimś portalu internetowym. Ile podstron obejrzanych w czasie wizyty: 3,1,3,2,3,2,1,4,2,4,4,2,1,4,5,3,3,2,4,2,2,3,2,5,3 Jak długo trwała wizyta (w min.): 64,77,51,70,69,50,72,47,93,52,60,56,63,59,58,82,60,63,65,67,61,71,66,62,68 Jaka przeglądarka była używana: F,F,C,IE,IE,F,C,C,F,IE,F,IE,C,C,IE,C,C,F,F,IE,IE,F,C,C,C F - Firefox, IE - Internet Explorer, C - Chrome Zbiorowość: wizyty. Próbka liczy 25 elementów (25 obserwacji) Badanie dotyczy 3 cech: ile podstron - cecha mierzalna skokowa czas pobytu - cecha mierzalna ciągła typ przeglądarki - cecha jakościowa Cechy oznaczamy dużymi literami alfabetu: X, Y, Z Indywidualne wartości poszczególnych cech oznaczamy: x i, y i z i (i=1,2,...,n) indeks dolny oznacza numer elementu (obserwacji) Liczebność próbki oznaczamy przez n. W przykładzie n=25 Liczebność pełnej populacji oznaczamy przez N

Dane indywidualne (cz. 2) Przed przystąpieniem do analizy zebrane dane indywidualne dobrze przedstawić tabelarycznie, aby były bardziej czytelne. W takiej postaci wprowadza się je do specjalistycznego programu statystycznego (np. SPSS, R) lub arkusza kalkulacyjnego (np. Excel - MS Office, Calc - Libre Office), jeśli analizę będziemy przeprowadzać z pomocą programu komputerowego: Numer obserwacji X Y Z 1 3 64 F 2 1 77 F 3 3 51 C............ 25 3 68 F

Rozkład empiryczny cechy (empirical distribution) Aby przystąpić do jakichkolwiek analiz statystycznych należy określić empiryczny rozkład cechy Empiryczny rozkład cechy: uszeregowanym rosnąco wartościom (przyjmowanym przez cechę) przyporządkowanie częstości ich występowania. Uwaga: Gdy cecha jest jakościowa to "uszeregowanie rosnąco" należy rozumieć jako np. alfabetyczne. Można też przypisać dla cechy jakościowej liczby i zrobić to uszeregowanie wg tych liczb Częstość może być podana jako częstość absolutna (absolute frequency) lub częstość względna (relative frequncy, percentage). Częstość absolutna danej wartości cechy to inaczej liczebność czyli ile razy dana wartość występuje. Częstość względna cechy = liczebność (częstość) absolutna cechy / liczebność całego badanego zbioru

Metody prezentacji rozkładu empirycznego cechy

Szereg rozdzielczy - prezentacja rozkładu za pomocą tabeli (cz. 1) Szereg rozdzielczy - tabelaryczne przedstawienie empirycznego rozkładu cechy (frequency table, frequency distribution table) W pierwszej kolumnie podajemy wartości cechy (lub przedziały wartości), a w następnych częstość występowania tej wartości. Szereg rozdzielczy używanych przeglądarek www (cecha jakościowa) Typ przęglądarki Częstość absolutna (Liczba wizyt) Częstość względna Chrome 10 10/25 = 0,4 Firefox 8 8/25 =0,32 Internet Explorer 7 7/25 = 0,28 Razem 25 1

Szereg rozdzielczy (cz. 2) Szereg rozdzielczy obejrzanych podstron portal WWW (cecha mierzalna) Liczba podstron x i Częstość absolutna (Liczba wizyt) n i Częstość względna w i =n i /n 1 3 0,12 2 8 0,32 3 7 0,28 4 5 0,20 5 2 0,08 Razem 25 1

Szereg rozdzielczy (cz. 3) Szereg rozdzielczy dla rozkładu cechy mierzalnej ciągłej (np. czas pobytu na portalu) gdy dokładny pomiar otrzymalibyśmy 25 różnych wartości (25 różnych czasów z dokładnością np. do sekundy). Liczebność każdej wartości byłaby 1. Więc szereg zrobiony w ten sposób przedstawiałby mało czytelną informację, szczególnie, gdy wartości byłoby dużo więcej niż 25 jak postępujemy: obszar między najmniejszą a największą wartością dzielimy na przedziały rozłączne (klasy). Częstości są przypisywane nie wartościom a przedziałom (czyli podajemy ile wartości jest w danym przedziale). Przyjmuje się upraszczające założenie, że wszystkie wartości w danym przedziale są identyczne ze środkiem przedziału przedziały są najczęściej tej samej długości. Ewentualnie pozostawia się skrajne przedziały otwarte liczba przedziałów jest zazwyczaj od 5 do 20. Tak, aby szereg rozdzielczy dawał przejrzysty obraz rozkładu Uwaga: Praktyka: Gdy cecha skokowa przyjmuje dużo różnych wartości traktuje się ją jak ciągłą i w szeregu w takiej sytuacji również przedstawiamy liczebność przedziałów.

Szereg rozdzielczy (cz. 4) Szereg rozdzielczy czasu pobytu na portalu WWW Czas pobytu w min. Częstość absolutna (Liczba wizyt) n i Częstość względna w i =n i /n 45-55 4 0,16 55-65 11 0,44 65-75 7 0,28 75-85 2 0,08 85-95 1 0,04 Razem 25 1 Obszar zmienności: 93-47 = 46. 5 klas (przedziałów) o rozpiętości 10 Przyjmujemy, że przedziały są prawostronnie domknięte, np. 55 wliczamy do przedziału 45-55. Można takie przedziały: 46-55, 56-65 itd.

Szereg kumulacyjny Szereg kumulacyjny to rodzaj szeregu rozdzielczego, w którym dla wartości cechy zamiast częstości podaje się częstość skumulowaną (absolutną lub względną) (cumulative frequency table, cumulative percentage). Częstość skumulowana (absolutna lub względna) to suma częstości danej wartości i wartości poprzedzających Szereg kumulacyjny liczby obejrzanych stron Liczba podstron Skumulowana częstość x i absolutna (liczba wizyt) n i (x i ) Skumulowana częstość względna w i (x i ) 1 3 0,12 2 11 (=3+8) 0,44 (=0,12+0,32) 3 18 (=3+8+7) 0,72 (=0,12+0,32+0,28) 4 23 0,92 5 25 1,00 Oznaczenia: n i (x i ) = x 1 +...+x i (Zsumowane częstości absolutne do i-tej) Oznaczenia: w i (x i ) = w 1 +...+w i (Zsumowane częstości względne do i-tej) Informacja, którą możemy łatwo odczytać: np. prawie połowa wizyt (0,44) to nie więcej niż obejrzane 2 strony

Szereg kumulacyjny (cz. 2) Szereg kumulacyjny czasu pobytu na portalu WWW Czas pobytu w min. x i Skumulowana częstość absolutna (Liczba wizyt) n i (x i ) Skumulowana częstość względna w i (x i ) 45-55 4 0,16 55-65 15 0,60 65-75 22 0,88 75-85 24 0,96 85-95 25 1,00 Informacja, którą możemy łatwo odczytać: np. 60% wizyt to maksymalnie 65 minut czasu pobytu na portalu

Histogram - graficzne przedstawienie rozkładu (histogram) Histogram - graficzne przedstawienie rozkładu empirycznego cechy za pomocą wykresu słupkowego (vertical bar chart) Oś pozioma - wartości cechy Oś pionowa - częstości (liczebności) danej wartości cechy. Może być to częstość absolutna, względna lub skumulowana W przypadku cechy skokowej lub jakościowej słupki wykresu nie stykają się. W przypadku cechy ciągłej słupki wykresu stykają się. Szerokość słupka jest taka jaka wielkość przedziału wartości. Wysokość słupka wskazuje częstość wartości cechy należących do danego przedziału Krótko: histogram - przedstawienie na wykresie słupkowym częstości występowania cechy.

Wielobok liczebności - inny sposób graficznego przedstawienia rozkładu Wielobok liczebności (frequency polygon)- inny sposób graficznego przedstawienia rozkładu empirycznego cechy. Wielobok liczebności jest łamaną otrzymaną przez połączenie środków górnych podstaw prostokątów histogramu. Dla cechy ciągłej przy małej rozpiętości przedziałów wielobok liczebności staje się krzywą rozkładu ("wygładzona łamana")

Podsumowanie Najważniejsze pojęcia: populacja (zbiorowość) cecha jakościowa i mierzalna (skokowa i ciągła) empiryczny rozkład cechy tabelaryczne przedstawienie empirycznego rozkład cechy: szereg rozdzielczy, szereg skumulowany graficzne za pomocą wykresu przedstawienie empirycznego rozkład cechy: histogram, wielobok liczebności