Przygotowanie danych

Podobne dokumenty
Porównywanie populacji

STATYSTYKA DLA PEDAGOGÓW

A N K I E T A. Zalety i wady ankiety. wielka możliwość nieszczerych odpowiedzi przy posyłaniu ankiet pocztą wiele z nich nie wraca

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

R-PEARSONA Zależność liniowa

Wykład 3: Prezentacja danych statystycznych

Miary statystyczne w badaniach pedagogicznych

Tabela 1. Rozproszenie wartości zmiennych. Zmienna Populacja Wartości dyrektorzy szkół gimnazjalnych

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Testy nieparametryczne

1 Podstawowe pojęcia

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

OPRACOWANIE DANYCH W PSPP

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Podstawowe pojęcia statystyczne

W1. Wprowadzenie. Statystyka opisowa

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Metodologia badań psychologicznych. Wykład 12. Korelacje

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Badanie zależności skala nominalna

(x j x)(y j ȳ) r xy =

Badania Statystyczne

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA. dr Agnieszka Figaj

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

OPRACOWANIE DANYCH W PSPP

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Pozyskiwanie wiedzy z danych

Przypomnienie: Ćwiczenie 1.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

4.2. Statystyczne opracowanie zebranego materiału

Metodologia badań psychologicznych

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Sposoby prezentacji problemów w statystyce

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STRUKTURA PRACY BADAWCZEJ (EGZAMINACYJNEJ lub DYPLOMOWEJ) INSTRUKCJA: w pracy egzaminacyjnej część teoretyczna powinna zawierać maksymalnie 1 stronę.

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

Wykład ze statystyki. Maciej Wolny

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Rysunek zwykle bardziej przemawia do wyobraźni niż kolumna liczb. Dlatego tak często dane statystyczne przedstawia się graficznie.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Analiza Współzależności

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka w pracy badawczej nauczyciela

Rozdział 1. Analiza Struktury. Jan Żółtowski. Problem 1.1. Lp. Pytanie Odpowiedź

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

KORELACJE I REGRESJA LINIOWA

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

RAPORT z diagnozy umiejętności matematycznych

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Statystyka matematyczna i ekonometria

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

ANALIZA JEDNOZMIENNOWA. podstawowe pojęcia

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Podstawowe definicje statystyczne

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Jak przekształcać zmienne jakościowe?

Statystyka Matematyczna Anna Janicka

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Analiza struktury i przeciętnego poziomu cechy

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza korespondencji

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Jak korzystać z arkusza kalkulacyjnego?

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

1 Podstawy rachunku prawdopodobieństwa

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

KORELACJE (zmienne ilościowe i porządkowe)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Zawartość. Zawartość

Badania eksperymentalne

Transkrypt:

2 Przygotowanie danych

2 Przygotowanie danych Przed opracowaniem statystycznym należy uporządkować dane. Czynność ta ułatwia opracowywanie danych. Od czasu, kiedy pojawiły się komputery, procedury porządkowania danych zmieniły się w sposób zasadniczy. Przed ręcznym opracowaniem danych należy je rzeczywiście uporządkować, natomiast do opracowania za pomocą komputera wystarczy je jedynie przygotować. Aby lepiej zrozumieć wyniki opracowania statystycznego należy zapoznać się z całkowitym postępowaniem: od przygotowania danych do otrzymania końcowych wyników. Ujmując to językiem bardziej beletrystycznym: oprócz wyników należy znać też drogę do ich otrzymania. Przygotowanie danych jakościowych Dane w tym przypadku uporządkuje się robiąc zestawienia tabelaryczne. Do każdej kategorii zmiennej należy policzyć ilość jednostek (liczebność lub f ). zwykle wyrażana jest w postaci liczb absolutnych (np. ile respondentów wybrało pojedyncze odpowiedzi na pytanie w ankiecie) i procentów (ile procentów respondentów wybrało którą odpowiedź). Tak uporządkowane dane nadają się do kolejnych opracowań. Już samo uporządkowanie danych umożliwia pierwszą analizę. Te tabele pokazują stan każdej zmiennej w badanej populacji. Oto przykład najprostszej tabeli, która pokazuje strukturę zmiennej tryb studiów wśród badanej grupy studentów pedagogiki.

3 Tabela 1. Tryb studiów Procent liczebności Studia dzienne 25 43,9 Studia zaoczne 32 56,1 Razem 57 100,0 W przypadku zmiennych nominalnych posiadających więcej niż dwa stopnie, kategorie w tabeli porządkuje się najczęściej według liczebności malejących lub rosnących. Powiększa to przejrzystość wyników i ułatwia zrozumienie interpretacji. Oto przykład takiej tabeli, w której zawarto odpowiedzi respondentów dotyczące oglądalności programów telewizyjnych rosnąco: Tabela 2. Odpowiedzi respondentów Procent liczebności Programy publicystyczne 11 7,6 Programy przyrodnicze 24 16,7 Seriale 34 23,6 Programy sportowe 59 41,0 Programy rozrywkowe 82 56,9 Wiadomości 88 61,1 Liczba wszystkych respondentow N=144 Jeszcze częściej sporządza się tabele po liczebnościach malejących: Tabela 3. Odpowiedzi respondentów Procent liczebności Prawo 38 32,5 Zarządzanie 31 26,5 Socjologia 19 16,2 Pedagogika 18 15,4 Politologia 11 9,4 N=117 100,0

4 Nie ma potrzeby, aby utrzymywać kolejność np. z kwestionariuszu ankiety. W przypadku, gdy już w ankiecie istnieją pewne merytoryczne argumenty, uzasadniające zastosowaną kolejność - należy ją zostawić. Postępowanie tego rodzaju należy jednak do rzadkości. Jeżeli zmienna jest porządkową i posiada więcej niż dwa stopnie, można dodać kolumnę liczebności skumulowanych F (lub F%). Te liczebności pokazują, ile jednostek (lub %) jest razem do pewnego stopnia (liczebność tych, którzy są pod tą kategorią wraz z nią). Dla każdej kategorii należy zsumować wszystkie liczebności niższych kategorii. Ma to sens jednak jedynie wtedy, gdy jest to naprawdę niezbędne. Oto przykład takiej tabeli: Tabela 4. Udział uczniów w akcjach charytatywnych Procent liczebności Skumulowany procent liczebności Nigdy 10 14,9 14,9 Rzadko 8 11,9 26,8 Czasami 15 22,4 49,2 Często 12 17,9 67,1 Zawsze 22 32,8 100,0 Razem 67 100,0* *suma wszystkich procentów w kolumnie nie wynosi 100%, lecz jedynie 99,9% z powodu zaokrągleń poszczególnych procentów. Przykład ten pokazuje jednocześnie, jak postępować w rzadkich przypadkach, w których suma poszczególnych procentów nie wynosi 100%. Takiej sytuacji nie można przemilczeć, lecz należy ją czytelnikowi precyzyjnie wyjaśnić. Rozwiązaniem w tej sytuacji jest zaokrąglenie jednego z procentów w kolumnie niezgodnie z zasadami, aby suma wynosiła (np. zamiast poprawnie 11,9 należy napisać 12,0). Ten procent należy oznaczyć gwiazdką i w przypisie wyjaśnić czytelnikowi. Innym rozwiązaniem jest pozostawienie końcowego procentu 99,9% i ponowne opisanie tego w przypisie.

5 Wyniki w statystyce na ogół zaokrągla się do dwóch miejsc po przecinku. Istnieje jednak pewien wyjątek: procenty w tabelach zaokrągla się do jednego miejsca po przecinku. Nie dotyczy to procentów, z których oblicza się kolejne wyniki. Tam znowu obowiązuje prawo dwóch miejsc po przecinku. W taki sposób przebiega porządkowanie danych dla wszystkich nominalnych i porządkowych zmiennych w badaniu. Te tabele pokazują stan w badanej populacji. Często oprócz stanu po pojedynczych zmiennych bada się także związki między zmiennymi. Do takich celów należy sporządzić tabele, które zawierają więcej zmiennych. Są to tabele korelacyjne (krzyżowe). Najczęściej taka tabela zawiera dwie zmienne, ponieważ tabela z trzema zmiennymi jest już bardzo skomplikowana i trudna do odczytania (nawet dla specjalistów). Poniżej zaprezentowano przykład tabeli dwóch zmiennych: stopień wykształcenia i udział w manifestacjach ekologicznych. Tabela 5. Tabela korelacyjna respondentów według wykształcenia i udziału w manifestacjach ekologicznych Często Średnio Rzadko Razem Średnie 25 12 10 47 Licencjackie 8 9 11 28 Magisterskie 12 5 15 32 Razem 45 26 36 107 Z tej tabeli niełatwo zrozumieć, jaki jest związek zmiennych. Należy wyliczyć jeszcze procenty we wszystkich komórkach tabeli. Procenty można obliczyć trzema sposobami, otrzymując w ten sposób trzy odmienne tabele. Zostały one umieszczone na kolejnych stronach. W tabeli nr 6 procenty zostały obliczone według wykształcenia, w tabeli nr 7 według udziału, a w tabeli nr 8 z liczebności całej populacji (N=107).

6 Tabela 6. Procenty według kategorii zmiennej niezależnej Średnie 25 Często Średnio Rzadko Razem 53,2% Licencjackie 8 28,6% Magisterskie 12 37,5% Razem 45 42,1% 12 25,5% 9 32,1% 5 15,6% 26 24,3% 10 21,3% 11 39,3% 15 46,9% 36 33,6% 47 28 32 107 W tej tabeli w wierszach obliczano procenty z sumy na końcu wiersza. W pierwszym wierszu liczebność 25 przedstawia 53,2% od sumy 47 (na prawym krańcu wiersza). Wszystkie procenty w tym wierszu dają razem (53,2% + 25,5% + 21,3% = ). Tak samo oblicza się procenty we wszystkich wierszach. Tabela 7. Procenty według kategorii zmiennej zależnej Średnie 25 Często Średnio Rzadko Razem 55,6% Licencjackie 8 17,8% Magisterskie 12 26,7% Razem 45 * 12 46,2% 9 34,6% 5 19,2% 26 10 27,8% 11 30,6% 15 41,7% 36 * 47 43,9% 28 26,2% 32 29,9% 107 W tej tabeli w kolumnach obliczano procenty z sumy na końcu kolumny (na dole). W drugiej kolumnie np. liczebność 12 przedstawia 46,2% od sumy 26 (na dnie kolumny). Wszystkie procenty w tej kolumnie dają razem (46,2% + 34,6% + 19,2% = ). Tak samo oblicza się procenty we wszystkich kolumnach. Gwiazdką zostały oznaczone wartości ponieważ suma wszystkich procentów w tych kolumnach (np. 55,6+17,8+26,7) nie wynosi 100,0 lecz 100,1. Stało się to w wyniku zaokrąglenia poszczególnych wartości procentowych.

7 Tabela 8. Procenty z liczebności całej populacji (N=107) Średnie 25 Często Średnio Rzadko Razem 23,4% Licencjackie 8 7,5% Magisterskie 12 11,2% Razem 45 42,1% 12 11,2% 9 8,4% 5 4,7% 26 24,3% 10 9,3% 11 10,3% 15 14,0% 36 33,6% 47 43,9% 28 26,2% 32 29,9% 107 W tej tabeli w komórkach obliczano procenty z liczebności całej populacji. W pierwszej komórce (górna lewa) liczebność 25 stanowi 23,4% wszystkich respondentów (N=107). Procenty we wszystkich komórkach tworzą razem (23,4% + 11,2% + 9,3% + 7,5% + 8,4% + 10,3% + 11,2% + 4,7% + 14,0% = ). Procenty w kolumnie razem oraz w wierszu razem zostały też obliczone z N=107. Pierwsza tabela pokazuje, jaki wpływ ma wykształcenie na udział w manifestacjach ekologicznych. Z doświadczeń wiadomo, że ludzie z odmiennym wykształceniem mają odmienne poglądy, które decydują o ich działaniach. Ponieważ obie zmienne są powiązane, należy określić, która z nich jest zmienną niezależną, a która zależną. Można założyć, że w tej parze wykształcenie jest zmienną niezależną, a działania zmienną zależną. Dlatego akurat pierwsza tabela jest najbardziej odpowiednia. Przy badaniu związków (zależności) między zmiennymi, praktycznie zawsze należy obliczać procenty w przedstawiony sposób. Druga tabela pokazuje, jaki wpływ mają działania na wykształcenie. Z wyjątkiem bardzo nietypowych i rzadko spotykanych przypadków, taki kierunek wpływu jest bezsensowny. Dlatego też nigdy nie korzysta się z takich tabel. Trzecia tabela nie nadaje się do analizy związku między zmiennymi. Z tego powodu jest właśnie zupełnie niepotrzebna, ponieważ niepotrzebne jest włączenie niezwiązanych zmiennych do wspólnej tabeli. W przypadku gdy zmienne są powiązane, sensowna jest jedynie pierwsza tabela.

8 Przygotowanie danych ilościowych Uporządkowane dane jakościowe (nominalne lub porządkowe) nadają się już do interpretacji. Inaczej jest w przypadku danych ilościowych (przedziałowych i ilorazowych). Porządkuje się je w celach łatwiejszego opracowania. Korzystanie z komputera w opracowaniu danych przyniosło radykalną zmianę: porządkowanie danych ilościowych przed opracowaniem jest już zupełnie niepotrzebne. Dlatego też zagadnienie dotyczące porządkowania danych ilościowych omawiam w sposób skrócony. Dane ilościowe porządkuje się na dwa sposoby. Szereg szczegółowy prosty Wartości zmiennej uporządkuje się rosnąco. Sposób ten zostanie zilustrowany jednym przykładem. W pewnym badaniu badano oceny i osiągnięcia testowe uczniów z różnych przedmiotów. Oto nieuporządkowany szereg wyników testu z chemii: 11, 6, 29, 9, 8, 14, 28, 12, 17, 11, 21, 18, 2, 25, 5 Najniższa wartość wynosi 2 punkty, a najwyższa 29 punktów. Zaczynając od wartości 2 wszystkie wartości są uszeregowane rosnąco. Tabela 9. Szereg szczegółowy prosty wyników testu z chemii x 2 5 6 8 9 11 12 14 17 18 21 22 25 28 29 R 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 W szeregu szczegółowym prostym do wartości zmiennej (x) dodaje się liczby porządkowe, czyli rangi (R). Rangi te pokazują kolejność jednostek od początku szeregu. Tak powstałe rangi umożliwiają ustalenie położenia (pozycji) każdej jednostki. Służą też do głębszych analiz, wynikających z położenia jednostek. Jednak powstałe w ten sposób rangi nie mają większego znaczenia w badaniach. Zupełnie odmienna sytuacja jest w przypadku rang powstałych w inny sposób. W badaniach często bada się zjawiska, które bardzo trudno mierzyć ilościowo (lub nie jest nawet możliwe). Większość zmiennych porządkowych ma taką naturę. Dotyczy to głównie licznych cech ludzkich, takich jak np.: motywacja, pilność, uprzejmość, popularność, komunikatywność, itd. Proces edukacyjny umożliwia bardzo skuteczne rozwiązanie problemu

9 pomiaru tych cech. Nauczyciel (wychowawca) jest w stanie stosunkowo rzetelnie uszeregować swoich uczniów według właściwości tego rodzaju. W ten sposób otrzymuje się zmienne porządkowe rangi. Często jest to jedyny sposób pozwalający na otrzymanie danych, potrzebnych m.in.: do porównywania populacji, do obliczania współczynników korelacji, itd. Dlatego właśnie rangi mają wielkie znaczenie w badaniach edukacji. Szereg rozdzielczy z przedziałami klasowymi Tego sposobu używa się w sytuacjach, gdy liczebność grupy przewyższa liczebność zwykłej szkolnej klasy. Oto odpowiedzi nauczycieli na pytanie o staż pracy: Tabela 10. Staż pracy Przedziały klasowe Procent liczebności skumulowana Skumulowany procent liczebności 3-5 3 3,4 3 3,4 6-8 5 5,6 8 9,0 9-11 5 5,6 13 14,6 12-14 6 6,7 19 21,3 15-17 11 12,4 30 33,7 18-20 15 16,9 45 50,6 21-23 10 11,2 55 61,8 24-26 7 7,9 62 69,7 27-29 9 10,1 71 79,8 30-32 6 6,7 77 86,5 33-35 6 6,7 83 93,2 36-38 4 4,5 87 97,7 39-41 2 2,2 89 100,0 N=89 100,0* *suma wszystkich procentów w kolumnie nie wynosi 100%, lecz jedynie 99,9%, z powodu zaokrągleń poszczególnych procentów.