You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

Podobne dokumenty
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 4: Statystyki opisowe (część 1)

Wykład 5: Statystyki opisowe (część 2)

Wykład 1: O statystyce i analizie danych

Idea wnioskowania statystycznego

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wykład 6/7/8: Graficzna analiza danych

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Statystyki opisowe i szeregi rozdzielcze

Statystyka Matematyczna Anna Janicka

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

W1. Wprowadzenie. Statystyka opisowa

Wykład 3: Prezentacja danych statystycznych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Sposoby prezentacji problemów w statystyce

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Wykład 1: O statystyce i analizie danych. Arkusz danych w programie STATISTICA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wykład 5: Analiza dynamiki szeregów czasowych

Pozyskiwanie wiedzy z danych

Badanie zależności skala nominalna

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Podstawowe pojęcia statystyczne

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

ZARZĄDZANIE DANYMI W STATISTICA

Próba własności i parametry

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Wykład 1. Statystyka międzynarodowa - wprowadzenie Rynek pracy w Unii Europejskiej

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Wykład 1. Wprowadzenie w tematykę zajęć

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka. Opisowa analiza zjawisk masowych

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

1 Podstawy rachunku prawdopodobieństwa

Graficzna prezentacja danych statystycznych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Wprowadzenie do analizy dyskryminacyjnej

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Statystyka w pracy badawczej nauczyciela

PDF created with FinePrint pdffactory Pro trial version

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analizy wariancji ANOVA (analysis of variance)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testy nieparametryczne

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyczne metody analizy danych

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka matematyczna i ekonometria

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

POLITECHNIKA OPOLSKA

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka opisowa- cd.

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Analiza korespondencji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Analiza autokorelacji

Transkrypt:

Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego zjawiska posługujemy się zwykle zaawansowanymi metodami statystycznymi. Zastosowanie tych złożonych narzędzi analitycznych winno zostać poprzedzone wnikliwym opisem zebranego materiału, dokonanym za pomocą odpowiednich metod statystyki opisowej i analizy graficznej.

Kryteria doboru metod opisu danych Dobór metod statystycznych zależy od (dotyczy to nie tylko prezentacji danych): postawionych problemów badawczych; typu zbioru danych; liczebności zbioru danych; specyfiki rozważanych cech statystycznych.

Typy danych statystycznych Ze względu na charakter jednostek statystycznych podlegających badaniu wyodrębniamy trzy podstawowe typy zbiorów danych: dane ankietowe (kwestionariuszowe) - charakteryzują się losowym doborem próby z większej populacji, jednostki podlegające badaniu są nierozróżnialne i mogą to być: osoby, przedmioty, firmy etc.; dane przekrojowe - zwykle są efektem przeprowadzenia badania pełnego, jednostki podlegające badaniu są rozróżnialne i mogą to być: państwa, regiony, miasta itp.; dane czasowe - jednostki są tutaj kolejnymi momentami (okresami) czasu, w których dokonywano pomiaru - mogą to być sesje giełdowe, dni, tygodnie, lata. Oczywiście są one rozróżnialne, co więcej istotna jest ich kolejność.

Dobór metody statystycznej zależy także od charakteru cech podlegających analizie. Podstawowy podział cech statystyczny ma charakter dychotomiczny i prowadzi do wyodrębnienia cech mierzalnych (liczbowych) i nominalnych (jakościowych). wzrost, waga, płaca, wiek,... Typy cech statystycznych Cechy mierzalne to: miesięczne wydatki na żywność, liczba osób w rodzinie,... stopa bezrobocia, inflacja, gęstość zaludnienia,... kurs dolara, temperatura, liczba wypadków samochodowych,... Cechy jakościowe (nominalne) to: płeć, wykształcenie, miejsce zamieszkania, poglądy polityczne,... typ gospodarstwa domowego, posiadane dobra materialne,... ustrój polityczny, przynależność do organizacji międzynarodowych,...

Prezentacja danych w programie Statistica Wybór grupy analiz: Wybór analizy:

Pojedyncze cechy: grupowanie danych (TABELE LICZNOŚCI) Sposób grupowania danych zależy od charakteru cechy statystycznej: dla cech jakościowych i cech mierzalnych o małej liczbie możliwych wartości w tabeli wyodrębnia się wszystkie kategorie zaś dla cech mierzalnych o większym zakresie wartości tworzy się tzw. szeregi przedziałowe. Tabele liczności dla cech jakościowych powinny zawierać listę wartości danej cechy, liczbę odpowiadających im jednostek statystycznych oraz strukturę procentową. W przypadku cech liczbowych możliwe jest wyznaczenie dodatkowo liczności i procentów skumulowanych.

Pojedyncze cechy: grupowanie danych (TABELE LICZNOŚCI)

Pojedyncze cechy: charakterystyki liczbowe (STATYSTYKI OPISOWE) Sposób prezentacji danych tylko dla cech liczbowych Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - są w związku z tym nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, percentyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.

Pojedyncze cechy: charakterystyki liczbowe (STATYSTYKI OPISOWE) średnia arytmetyczna; minimum i maksimum; mediana (wartość środkowa - połowa obserwacji nie przekracza, połowa jest większa od wartości mediany); kwartyl dolny i kwartyl górny (1/4 obserwacji nie przekracza dolnego kwartyla, 1/4 nie jest mniejsza od kwartyla górnego); percentyle (rzędu p: p-ta część obserwacji nie przekracza percentyla rzędu p); modalna (wartość najczęstsza); odchylenie standardowe (najpopularniejsza miara rozproszenia danych); rozstęp (zakres wartości - różnica pomiędzy maksimum i minimum); rozstęp kwartylowy (połowa różnicy pomiędzy górnym i dolnym kwartylem); skośność (współczynnik asymetrii: równa 0 to rozkład symetryczny, wartości dodatnie świadczą o przewadze obserwacji niskich i średnich, przy stosunkowo nielicznych, lecz wyraźnie większych pomiarach - tzw. asymetrią prawostronną charakteryzuje się na przykład rozkład płac).

Prezentacja zależności pomiędzy dwiema cechami Dla dwóch cech jakościowych: TABELE WIELODZIELCZE Analiza powinna obejmować stworzenie dwuwymiarowej tabeli liczebności, w której dodatkowo zostałyby wyznaczone struktury procentowe wg wierszy i/lub kolumn. Porównanie tych struktur pozwala na wyciągnięcie wniosków o istnieniu lub braku zależności pomiędzy obiema cechami. Prezentacja graficzna w postaci skategoryzowanego wykresu kołowego, histogramu lub histogramu trójwymiarowego.

Prezentacja zależności pomiędzy dwiema cechami Dla dwóch cech liczbowych: ANALIZA KORELACJI Analiza polega na wyznaczeniu współczynnika korelacji liniowej (r) i interpretacji siły oraz kierunku zależności. Prezentacja graficzna w postaci wykresu rozrzutu.

Prezentacja zależności pomiędzy dwiema cechami Dla cechy jakościowej i liczbowej: ANALIZA PRZEKROJÓW Idea analizy sprowadza się do wyznaczenia statystyk opisowych dla cechy liczbowej (zwanej też zależną) w kategoriach wyznaczonych przez wartości cechy jakościowej (niezależnej, grupującej). Porównanie wartości średnich (a także innych miar) pozwala wyciągnąć wnioski o tym, czy pomiędzy obiema cechami występuje jakiś związek. Ilustracja graficzna za pomocą skategoryzowanego wykresu średnich lub wykresu ramkowego.

Wnioskowanie statystyczne Celem analizy statystycznej nie jest zwykle tylko opisanie (prezentacja) posiadanych danych, czyli tzw. próby statystycznej. Najczęściej informacje z próby powinny pozwolić wyciągnąć wnioski o całej populacji, która nie mogła (z różnych względów) być poddana badaniu w całości. Zdefiniowane w poprzednim zdaniu cele tzw. wnioskowania statystycznego są możliwe do realizacji poprzez użycie odpowiednich narzędzi analitycznych - testów statystycznych.

Wnioskowanie statystyczne Idea większości testów statystycznych jest następująca (poszczególne etapy przedstawiono w dużym uproszczeniu): stawiamy pewną hipotezę (tzw. hipotezę zerową); określamy miarę nieprawdziwości hipotezy zerowej (tzw. statystyka testowa); na podstawie twierdzeń statystyki matematycznej wyznaczany jest rozkład wartości statystyki testowej przy losowym doborze próby przy założeniu prawdziwości hipotezy zerowej; wyznaczamy empiryczną wartość statystyki testowej na podstawie posiadanych danych i określamy prawdopodobieństwo uzyskania takiej wartości (tzw. prawdopodobieństwo testowe p); jeżeli wartość p jest bliska zera odrzucamy hipotezę zerową, w przeciwnym razie stwierdzamy, iż nie ma podstaw do jej odrzucenia.

Podział wykresów ze względu na sposób ich tworzenia Biorąc pod uwagę sposób przetwarzania danych podczas tworzenie wykresu możemy dokonać nieformalnego podziału na wykresy prezentacyjne i wykresy statystyczne. Wykresy prezentacyjne wiernie odzwierciedlają dane źródłowe, podczas ich tworzenia nie odbywają się żadne dodatkowe przekształcenia wyjściowych danych. Liczba elementów wykresu odpowiada liczności zbioru danych. Wykresy statystyczne stanowią wizualizację przeprowadzonych uprzednio analiz statystycznych (na przykład grupowania danych czy też statystyk opisowych). Do grupy wykresów prezentacyjnych można zaliczyć m.in. wykresy: słupkowe, liniowe, warstwowe, rozrzutu, obrazkowe. Do grupy wykresów statystycznych można zaliczyć m.in. wykresy: histogramy, kołowe, ramkowe.

Wykres słupkowy a histogram (różnica między wykresami statystycznymi i prezentacyjnymi) Tworząc wykres słupkowy wiernie odzwierciedlamy wszystkie wartości na wykresie Tworząc histogram dokonujemy najpierw zliczenia liczby wystąpień każdej wartości cechy

Wykresy słupkowe Celem analizy będzie prezentacja danych o stopie bezrobocia (ogółem) w państwach UE w roku 2008. Przed sporządzeniem wykresu dane sortujemy według analizowanej zmiennej (polecenia DANE / SORTUJ) a następnie wywołujemy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWO-KOLUMNOWE. Ustalamy zakres skali i jej częstość Aktywizując oś w zakładce tytuł dokonujemy jej opisu. Włączamy wszystkie etykiety przypadków Usuwamy roboczy tytuł i nadajemy własny Aby wyróżnić jeden słupek innym kolorem stosujemy pewien trick w oknie edytora danych wykresu dodajemy drugi wykres słupkowy i przenosimy tam dane dla Polski W arkuszu danych wyróżniamy etykietę Polski, co znajduje odzwierciedlenie na wykresie

Wykres dla wybranych przypadków Dynamika poziomu bezrobocia w wybranych krajach w latach 1998-2009 Aby wykonać poniższy wykres dokonujemy najpierw pewnych operacji na arkuszu danych. Za pomocą opcji DANE / PODZBIÓR tworzymy nowy arkusz zawierający tylko dane o całkowitej stopie bezrobocia w Polsce i krajach ościennych z UE (w latach 1998-2009). Następnie dokonujemy zamiany znaczenia kolumn i przypadków wykorzystując polecenie DANE / TRANSPONUJ / PLIK. Następnie wykorzystujemy poznany już wcześniej WYKRES LINIOWY (ZMIENNYCH).

Wykres rozrzutu z wyróżnionymi przypadkami Porównanie poziomu bezrobocia wśród kobiet i mężczyzn z roku 2009 Za pomocą narzędzia wyróżniania etykietujemy punkty odpowiadające ciekawym państwom W celu porównania poziomu bezrobocia wśród kobiet i mężczyzn za pomocą opcji funkcja użytkownika dodajemy prostą o równaniu y = x, która określa położenia państw o tej samej stopie bezrobocia wśród obu płci Ustalamy taki wspólny zakres skali na obu osiach, by nie pominąć żadnej obserwacji W arkuszu danych, przed sporządzeniem wykresu, wyróżniamy przypadek odpowiadający Polsce