ZAAWANSOWANE TECHNIKI KOMPUTERWEJ ANALIZY DANYCH. dr Adam SOJDA

Podobne dokumenty
W1. Wprowadzenie. Statystyka opisowa

Pozyskiwanie wiedzy z danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Próba własności i parametry

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyczne metody analizy danych

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka Matematyczna Anna Janicka

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka w pracy badawczej nauczyciela

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Opisowa analiza zjawisk masowych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Miary statystyczne w badaniach pedagogicznych

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka matematyczna i ekonometria

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Podstawowe pojęcia statystyczne

Wykład 4: Statystyki opisowe (część 1)

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Graficzna prezentacja danych statystycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Wykład ze statystyki. Maciej Wolny

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Sposoby prezentacji problemów w statystyce

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

You created this PDF from an application that is not licensed to print to novapdf printer (

przedmiot podstawowy obowiązkowy polski drugi

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Parametry statystyczne

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Estymacja punktowa i przedziałowa

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Wykład 5: Statystyki opisowe (część 2)

Statystyka opisowa. Robert Pietrzykowski.

Biostatystyka, # 1 /Weterynaria I/

KARTA PRZEDMIOTU / SYLABUS

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Testy nieparametryczne

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki, cz.6

Metody statystyczne w pedagogice Kod przedmiotu

Laboratorium 3 - statystyka opisowa

KARTA PRZEDMIOTU / SYLABUS

4.2. Statystyczne opracowanie zebranego materiału

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyki opisowe i szeregi rozdzielcze

Opisowa analiza struktury zjawisk statystycznych

BIOSTATYSTYKA. Liczba godzin. Zakład Statystyki i Informatyki Medycznej

Analiza struktury i przeciętnego poziomu cechy

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Statystyka opisowa SYLABUS A. Informacje ogólne

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka matematyczna dla leśników

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Rozdział 1. Analiza Struktury. Jan Żółtowski. Problem 1.1. Lp. Pytanie Odpowiedź

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Transkrypt:

ZAAWANSOWANE TECHNIKI KOMPUTERWEJ ANALIZY DANYCH dr Adam SOJDA lato 2016

ZTKAD - wiadomości wstępne Warunki zaliczenia przedmiotu Egzamin - zadania - proste obliczenia, test wyboru, analiza zrzutów ekranowych Projekt - zaliczenie Test Praktyczny - przy komputerze Pozytywna ocena końcowa zaliczenie wszystkich elementów na co najmniej ocenę dostateczny (3.0) Ocena końcowa średnia ważona - 0.4 / 0.2 / 0.4 za E / P /TP

ZTKAD - wiadomości wstępne Materiały: http://dydaktyka.polsl.pl/roz6/asojda/ default.aspx Szukamy Google dydaktyka sojda wykłady laboratorium wyniki egzaminu

ZTKAD - podręczniki Anna Malarska statystyczna analiza danych wspomagana programem SPSS SPSS Kraków 2005

ZTKAD - podręczniki Andrzej Stanisz Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny StatSoft Polska stron 1900

ZTKAD - podręczniki Przemysław Biecek Przewodnik po pakiecie R https://cran.r-project.org/doc/ contrib/biecek-r-basics.pdf

ZTKAD - podręczniki Jinjer Simon Excel. Profesjonalna analiza i prezentacja danych Helion

ZTKAD - podręczniki Dobosz M. Wspomagana komputerowo statystyczna analiza wyników badań. EXIT. Warszawa 2004 Górniak J., Wachnicki J.: Pierwsze kroki w analizie danych SPSS for Windows Wydawnictwo SPSS Kraków 2004 Luszniewicz A., Słaby T.: Statystyka z pakietem komputerowym Statistica PL. Wydawnictwo C.H. Beck W-wa 2001 Nawojczyk M.: Przewodnik po statystyce dla socjologów. Wydawnictwo SPSS Kraków 2010 Bedyńska S. (red), Statystyczny Drogowskaz, Tom 1-3, Wydawnictwo Akademickie i Profesjonalne sp. z o.o., Warszawa 2012

ZTKAD - programy IBM SPSS - dostarczony Statistica PL - strona CK POLSL https://www.polsl.pl/jednostki/rjp2/strony/ Witamy.aspx R, RStudio - darmowy https://www.rstudio.com/home/ Excel - we własnym zakresie Open Office - darmowy https://www.openoffice.org/pl/

ZTKAD - wiadomości podstawowe Informatyka umiejetność obsługi programu Excel, Word - inny edytor i arkusz kalkulacyjny Statystyka elementy statystyki opisowej średnia, wariancja, odchylenie standardowe, dominanta, kwantyle, współczynnik asymetrii, zmienności, kurtoza badanie zależności pomiędzy zmiennymi: współczynnik korelacji liniowej Pearsona statystyka χ 2 i miary na miej konstruowane wariancja wewnątrz i międzygrupowa

ZTKAD - wiadomości podstawowe elementy statystyki matematycznej zmienna losowa i jej parametry i rozkłady wartość oczekiwana, wariancja, rozkłady teoretyczne: normalny, χ 2, t-studenta, F jednostajny Poissona testowanie hipotez statystycznych badanie zgodności z rozkładem normalnym testy o średniej, średnich testy o wskaźniku struktury inne

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA (z fr. enquête, dosł. "zebranie świadectw w celu wyjaśnienia problemów wymagających rozstrzygnięcia ) - technika używana w naukach społecznych posługująca się narzędziem zwanym kwestionariuszem ankiety. Jest specyficzną, pisemną formą wywiadu, należącą do badań skategoryzowanych, które są ściśle określone przez zespół reguł i zasad właściwych dla określonego badania. Ankiety służą do zebrania dużej liczby informacji o zjawiskach występujących w społeczeństwie przy wykorzystaniu z reguły małych nakładów sił i środków

ZTKAD - Ankieta - podstawowe narzędzie badacza ankieta jest arkuszem z wydrukowanymi na nim pytaniami i wolnymi miejscami na wpisywanie odpowiedzi lub też z gotowymi odpowiedziami, spośród których osoby badane wybierają te, które uważają za prawidłowe ankieta jest techniką gromadzenia informacji polegającą na wypełnieniu najczęściej samodzielnie przez badanego specjalnych kwestionariuszy na ogół o wysokim stopniu standaryzacji w obecności lub częściej bez obecności ankietera technika pośredniego zdobywania informacji przez pytania stawiane wybranym osobom za pośrednictwem drukowanej listy pytań kwestionariusza

ZTKAD - Ankieta - podstawowe narzędzie badacza PODZIAŁ ANKIET ze względu na dostęp do informacji o respondencie: jawne (imienne) ankiety, które mogą wskazać na osobę respondenta ze względu na zawarte w nich pytania, np. pytania o wiek, miejsce zamieszkania, miejsce urodzenia, anonimowe (bezimienne) - nie są podpisywane, ponadto nie zawierają żadnych pytań, które mogłyby ujawnić osobę respondenta, gdyby na nie odpowiedział. Ankiety anonimowe cieszą się lepszym powodzeniem, ponieważ respondenci chętniej, częściej i rzetelniej odpowiadają na pytania. ze względu na częstotliwość przeprowadzania: jednorazowe (sporadyczne) badające dane zjawisko w danym momencie tylko raz, okresowe (badania panelowe) ankiety wielokrotnie powtarzane wśród tej samej zbiorowości w równych odstępach czasu, np. kwartał.

ZTKAD - Ankieta - podstawowe narzędzie badacza RODZAJE PYTAŃ pytania otwarte pozwalają respondentowi na całkowitą swobodę wypowiedzi, pytania półotwarte pozwalają na zaprezentowanie własnej odpowiedzi oprócz innych zaproponowanych wcześniej wariantów dotyczących pytania, pytania zamknięte rodzaj pytań zaopatrzonych w listę wcześniej przygotowanych możliwości odpowiedzi do wyboru, dostarczających ujednoliconych i zestandaryzowanych odpowiedzi, które w efekcie są łatwe do analizy i skracają czas przeprowadzania badań Typ pytań zamkniętych: koniunktywny pozwala na wybranie kliku możliwych odpowiedzi, dysjunktywny pozwala na wybranie tylko jednej odpowiedzi, alternatywny pozwala na wybranie jednej odpowiedzi np. TAK/ NIE

ZTKAD - Ankieta - podstawowe narzędzie badacza RODZAJE PYTAŃ pytania filtrujące pytania stosowane w celu dokonania eliminacji tych osób, których nie dotyczy dane pytanie. Pomagają uniknąć błędów logicznych i merytorycznych, związanych z zadawaniem pytań osobom, których nie dotyczą, pytania kontrolne pomagają zweryfikować szczerość udzielanych odpowiedzi przez respondenta, pytania projekcyjne pytania zadawane są nie wprost, lecz pośrednio, co powoduje, że badany wyrazi swoją opinię. np. respondent, pracownik firmy XYZ, nie jest pytany o to, jak ocenia pracę zarządu, lecz jaka jest według niego opinia pozostałych pracowników na ten temat, pytania rangowane są to pytania, w których respondent zostaje poproszony o ponumerowanie gotowych odpowiedzi wg określonego kryterium np. od najmniej istotnych dla siebie do najbardziej, pytania metryczkowe obejmują cechy demograficzno-społeczne badanego, jak: wiek, płeć, wykształcenie, wykonywany zawód, stan cywilny itd.; zaleca się, aby były umieszczone na końcu kwestionariusza

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 1 wiek samochodu: podać dokładny rok produkcji: wybrać jeden z przedziałów np. 1-2 2-5 5-10 10-15 15-25 powyżej 25

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 2 kolor samochodu: biały niebieski zielony żółty srebrny czerwony czarny

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 3 dzień przeznaczony na naukę poniedziałek wtorek środa czwartek piątek sobota niedziela

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 4 ulubiony gatunek filmowy (zaznacz maksymalnie 2) komedia dramat melodramat SF sensacyjny horror XXX

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 4 a Najwięcej przyjemności sprawia mi oglądanie następujących kategorii filmów XXX kategoria zdecydowanie się nie zgadzam raczej się nie zgadzam nie mam zdania raczej się zgadzam zdecydowanie się zgadzam xxx

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Uwaga: pytanie 4 a należy do grupy drażliwych respondent może nie być szczery respondent może nie chcieć odpowiedzieć na pytanie pytania nie powinno się zadawać respondentowi

ZTKAD - Ankieta - podstawowe narzędzie badacza Ankiety zebrane

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Czas na wersję elektroniczną jaki format zapisu danych uniwersalne formaty plików *.csv - tekst rozdzielony znakami tabulacji *.xls - arkusz excel kodowanie znaków - UFT-8 polskie znaki - tylko w konieczności (windows-1250, iso-8859-2, UTF-16, UTF-18) wybór programu do analizy danych funkcje umiejętność obsługi i prostota dostosowanie do potrzeb

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Zakładamy bazę danych z wypełnionych ankiet wyniki z ankiety - wiersz pytania kolumny numerujemy ankiety - jedna kolumna na numer identyfikacyjny ankiety pierwszy wiersz informacja o kolejnych pytaniach CZY WPISUJEMY CAŁE PYTANIE?

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA ID Pyt_1_rok_ prod Pyt_1_rok_prod _przedz Pyt_2_kolor Pyt_3_dzień 100001 2010 5-10 niebieski poniedziałek 100002 2015 1-2 zielony poniedziałek 100003 2013 2-5 żółty poniedziałek 100004 2014 1-2 czerwony niedziela 100005 2010 5-10 czerwony sobota 100005 1970 powyżej 25 zielony wtorek CZY WPISUJEMY CAŁE PYTANIE? ZAWSZE BRAKUJE MIEJSCA

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA ID Pyt_4_1_film Pyt_4_2_film 100001 komedia SF 100002 SF - 100003 XXX - 100004 - - 100005 dramat SF 100005 komedia SF

ZTKAD - Ankieta - podstawowe narzędzie badacza BRAKUJE DANYCH w analizach braki danych - oznaczają miejsca w danych, dla których wartości nie są znane. dlaczego powstają braki danych: naturalne - nie otrzymaliśmy wszystkich wyników, nie wróciły wszystkie wysłane ankiety część danych została usunięta brak odpowiedzi przez respondenta nie chciał odpowiedzieć, nie wiedział co odpowiedzieć i nie było takiej opcji, celowo nie odpowiedział, bo mógł (max 3 a wybiera 2) pytanie nie było dla niego np. osoby niepalącej nie pytamy się o ulubioną markę papierosów.

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA wpisywanie ręczne danych za każdym razem poniedziełek poniedziałek CZY MOŻNA TO UPROŚCIĆ? ZAKODOWAĆ ODPOWIEDZI

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA pytanie zmienna (zmienne) cecha(y) statystyczna(e) Co czyta komputer, program? liczba rzeczywista, całkowita ciąg znaków, znak wartości logiczne {prawda, fałsz} To wartości jakie może przyjmować zmienna. Nie mieszamy tych kategorii, jak liczby to liczby, jak znaki to znaki, jak wartości liczbowe, to wartości liczbowe. Wyjątek pusty.

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Płeć: kategoria kodowanie_1 znak kodowanie_2 liczba Kobieta K 0 Mężczyzna M 1 Uwaga: co jest liczbą program potraktuje jak liczbę!!

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA KODOWANIE - zamieniamy wartości na liczby w sposób naturalny, jak najbardziej prosty i konsekwentny Liczba zostaje liczbą Logiczne: Fałsz - 0 Prawda - 1 Znaki: dni tygodnia (są różne sposoby kodowanie dni tygodnia zobacz excel ) PN - 1, WT - 2, ŚR - 3, CZ - 4, PT - 5, SO - 6, ND - 7 kolory: dowolny sposób kolejność jak w ankiecie

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA KODOWANIE braków danych wszystkie wartości zmiennych to liczby, zatem brak danych też powinien być LICZBĄ albo komórka powinna być pusta W programach istnieją dwa rodzaje braków danych: systemowe - pusta komórka -. zdefiniowane - nie dotyczy, nie wiem, nie chcę odpowiadać Jaką liczba? zmienna ma 10 kategorii brak danych zakodujemy liczbą odstającą od normalnych kategorii np. 999, 998, 997

ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Co z brakami danych pomijamy, uzupełniamy np. jakąś wartością? programy oferują opcje zastępowania braków danych

ZTKAD - Analiza danych - WPROWADZENIE Zbiorowość statystyczna - zbiór dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech (ale nie identycznych) poddanych badaniu statystycznemu. Zbiorowość (populację) generalną stanowią wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne. Zbiorowość próbna (próba) podzbiór populacji generalnej, obejmujący część jej elementów. Badaniom podlega próba, wnioski są uogólniane na zbiorowość generalną. Próba mała n 30, próba duża n >30.

ZTKAD - Analiza danych - WPROWADZENIE Reprezentatywność próby zależy od: nieobciążoności losowy dobór elementów, struktura próby jest podobna do struktury populacji schematy losowania elementów do próby uzupełnić uzupełnić liczności próba powinna mieć odpowiednią liczbę elementów

ZTKAD - Analiza danych - WPROWADZENIE Cechy statystyczne własności, którymi charakteryzują się jednostki statystyczne (obiekty). PODZIAŁ I Cechy stałe wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu, ale decydują o przynależności: rzeczowe co lub kogo poddajemy badaniu, przestrzenne gdzie badamy, czasowym okres badania. Cechy zmienne własności, które różnią poszczególne jednostki statystyczne.

ZTKAD - Analiza danych - WPROWADZENIE PODZIAŁ II Cechy niemierzalne jakościowe - określane za pomocą określeń słownych np. preferencje polityczne, kolor oczu, ulubiony gatunek filmowy, Cechy mierzalne ilościowe - warianty możemy wyrazić liczbowo za pomocą jednostek fizycznych, np. waga, wzrost, czas dojazdu, czas reakcji na bodziec, Cechy skokowe przyjmują tylko niektóre wartości. Stanowią je najczęściej podzbiory zbioru liczb całkowitych np. liczba dzieci, Cechy ciągłe przyjmują dowolną wartość z przedziału liczbowego np. czas Cechy quasi-mierzalne cechy o charakterze porządkowym np. oceny w szkole.

ZTKAD - Analiza danych - WPROWADZENIE Cechy przyjmują określony rozkład. Rozkład jest reprezentowany w postaci par liczb w formie tabelarycznej lub graficznej, gdzie zbiór wariantów cechy zestawiony jest z odpowiadającymi im liczebnościami (częstościami). 30% Wykres kołowy 16% czerwony zielony biały czarny fioletowy 400 HISTOGRAM 21% Wykres słupkowy 20% 13% 300 22 21 200 17 15 14 100 11 11 9 6 0 10-20 20-30 30-40 40-50 2012 0 czerwony zielony biały czarny fioletowy

ZTKAD - Analiza danych - WPROWADZENIE Opis statystyczny analiza rozkładu cechy dokonana za pomocą określonych procedur statystycznych. Efektem opisu statystycznego są pewne charakterystyki liczbowe. Wnioskowanie statystyczne - wyciąganie wniosków odnośnie populacji generalnej na podstawie danych uzyskanych z próby. Pomiar - ustalenie poziomu natężenia badanej cechy. Jest to procedura przyporządkowania wariantom cech statystycznych różnych symboli. Rolę symboli może pełnić: liczba np. 80 kg, 30 min; słowo np. kobieta, mężczyzna ; symbol np..

ZTKAD - Analiza danych - WPROWADZENIE poziom nominalny - podstawowe rozróżnienie i podział obiektów ze względu na charakteryzujące je odmiany. kategoriom czy też wariantom cechy można przypisać pewne liczby np. kobieta - 1, mężczyzna - 2. Liczby te spełniają jedynie rolą nazw kategorii - nie można wykonywać na nich żadnych operacji matematycznych. (programy statystyczne mogą wymagać kodowania zmiennych za pomocą wartości liczbowych, bądź tekstowych), poziom porządkowy - pozwala się na uporządkowanie jednostek według stopnia natężenia tej cechy. posiadana wiedza nie pozwala na ocenę o ile bardziej czy też o ile większe są od siebie poszczególne kategorie, poziom ilościowy - interwałowy (przedziałowy) - można ocenić różnice pomiędzy poszczególnymi kategoriami, poziom ilościowy - ilorazowy - występuje zero absolutne (fizyczny punkt zerowy) np. waga, wzrost, wiek, dochody.

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia - dowolna funkcja f(x 1,,x n ) spełniająca warunek min{x 1,,x n } f(x 1,,x n ) max{x 1,,x n } rodzaje: średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia ucinana, średnia ważona, średnia winsorowska

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia arytmetyczna x = n x i i=1 n = x 1 +...+ x n n średnia geometryczna x g = n x i i=1 n = x 1... x n n średnia harmoniczna x h = n n i=1 1 x i = 1 n x 1 +...+ 1 x n

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ucinana (trimmed) - wartości porządkuje się odrzuca się pewien procent wartości (k-wartości) najmniejszych i największych z pozostałych wyznacza się średnią x tk = n k i=k+1 x i ( ) n 2k = x k+1 ( ) +...+ x ( n k) n 2k

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia winsorowska - wartości porządkuje się a pewien procent wartości najmniejszych i największych zastępuje się najbliższą nie odrzuconych wartością. x wk = ( k)x k+1 n k i=k+1 ( ) + x i n ( ) + ( k)x ( n k) = k x k+1 ( ) + x k+1 ( ) +...+ x n k ( ) + k x n k ( ) n

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia ważona dla kolejnych wartości zmiennych ustala się nieujemne wagi, z których przynajmniej jedna jest większa od zera wagi do obserwacji : w 1,,w n x w = n i=1 n i=1 w i x i w i = w 1x 1 +...+ w n x n w 1 +...+ w n

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Średnia - wyznaczamy Zadanie Dla kolejnych wartości 1, 2,, 10 wyznaczyć powyższe średnie. Dla średniej ważonej waga kwadrat wartości - wagi: 1, 4, 9, 16, 25,, 100 Dla średniej uciętej i winsorowskiej k=2

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia arytmetyczna: x = n x i i=1 n = x 1 +...+ x n n x == 1+ 2 + 3+ 4 + 5 + 6 + 7 + 8 + 9 +10 10 = 55 10 = 5,5

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia geometryczna: x g = n x i i=1 n = x 1... x n n x g == 10 1 2 3 4 5 6 7 8 9 10 = 10 3628800 = 4,5287

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia harmoniczna: x h = n n i=1 1 x i = 1 n x 1 +...+ 1 x n x h = 10 1 1 + 1 2 + 1 3 + 1 4 + 1 5 + 1 6 + 1 7 + 1 8 + 1 9 + 1 10 = 10 2,9290 = 3,4141

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ucinana - 2 najmniejsze i 2 największe wartości x tk = n k i=k+1 x i ( ) n 2k = x k+1 ( ) +...+ x ( n k) n 2k x == 3+ 4 + 5 + 6 + 7 + 8 10 4 = 33 6 = 5,5

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia winsorowska - 2 najmniejsze i 2 największe wartości x wk = ( k)x k+1 n k i=k+1 ( ) + x i n ( ) + ( k)x ( n k) = k x k+1 ( ) + x k+1 ( ) +...+ x n k ( ) + k x n k ( ) n x = 3+ 3+ 3+ 4 + 5 + 6 + 7 + 8 + 8 + 8 10 = 55 10 = 5,5

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ważona x w = x w = n i=1 n i=1 w i x i w i = w 1 x 1 +...+ w n x n w 1 +...+ w n 1 1+ 4 2 + 9 3+16 4 + 25 5 + 36 6 + 49 7 + 64 8 + 81 9 +100 10 1+ 4 + 9 +16 + 25 + 36 + 49 + 64 + 81+100 x w == 3025 385 = 7,8571

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Kwantylem rzędu p (0 < p < 1) ozn. k p nazywamy taką wartość cechy, że p100% obserwacji w zbiorze ma wartości nie większe od niej. Kwartyl pierwszy Q 1 dzieli zbiorowość uporządkowana na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% ma wartości równe bądź wyższe od tego kwartyla. Kwartyl drugi mediana (M e ), wartość środkowa Q 2 dzieli zbiorowość na dwie równe części; połowa ma wartości mniejsze bądź równe wartości mediany, a połowa wartości cechy równe bądź większe medianie. Kwartyl trzeci Q 3 dzieli zbiorowość uporządkowana na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% ma wartości równe bądź wyższe od tego kwartyla.

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Mediana (M e ) (zwana też wartością środkową, wartością przeciętną lub drugim kwartylem) wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Mediana jest kwantylem rzędu 0,5 (k 0,5 ), czyli drugim kwartylem (Q 2 ). Np. 2,2,2,3,3,4,4,5,6 Mediana M e = 3 Np. 2,2,2,3,3,4,4,5,6,7 Mediana M e = 3,5

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej x i n i n i przedział liczebności 0-20 10 10 (1..10] 20-40 30 40 (10 40] 40-60 50 90 (40 90] k p = x 0 + pn ni h 0 n 0 k 0,5 = x 0 + 0,5 120 ni pn = 0,5 120 = 60 n 0 20 60-80 20 110 (90 110] 80-100 10 120 (110 120] k 0,5 = 40 + 60 40 50 20 k 0,5 = 48

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Dominanta - wartość pojawiająca się najczęściej - moda, modalna (ozn. D o, M o ) Np. 2,2,2,3,3,4,4,5,6 Dominanta D o =2 30% Wykres kołowy 16% czerwony zielony biały czarny fioletowy 20% 13% 21% Dominanta D o = fioletowy

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Dominanta - wartość pojawiająca się najczęściej - moda, modalna (ozn. D o, M o ) 50 D o = x 0 + ( n 0 n ) ( n 0 n ) + ( n 0 n ) h 0 + 37,5 25 12,5 0 10 30 50 20 10 0 20 40 60 80 100 D o = 40 + D o = 40 + D o = 40 + ( n 0 n ) ( n 0 n ) + ( n 0 n ) 20 + ( 50 n ) ( 50 n ) + ( 50 n ) 20 + ( 50 30) 50 30 ( ) + ( 50 20) 20 = 48

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii rozkŀad skrajnie asymetryczny rozkŀad jednomodalny rozkŀad skrajnie asymetryczny 140 140 140 105 105 105 70 70 70 35 35 35 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii 140 rozkŀad siodŀowy 120 90 rozkŀad bimodalny 105 60 70 35 30 0 1 2 3 4 5 6 7 8 9 120 rozkŀad wielomodalny 0 1 2 3 4 5 6 7 8 9 90 60 30 0 1 2 3 4 5 6 7 8 9

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii - skośności - informuje, czy przeważają wartości poniżej, czy też powyżej poziomu przeciętnego. rozkład symetryczny - x = D O = M e asymetria prawostronna - przeważnie - x > M e > D O asymetria lewostronna - przeważnie - x < M e < D O

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii Współczynniki asymetrii: klasyczny: A = m 3 s 3 klasyczno- pozycyjny: pozycyjny: A s = x D O s ( ) ( Q Q ) 2 1 ( ) + ( Q Q ) 2 1 A = Q Q 3 2 Q Q Q 3 2

ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik skupienia KURTOZA miara koncentracji - miara skupienia wartości zmiennej wokół średniej. K = m 4 s 4 m k = N i=1 ( x i x ) k N