Podstawy obsługi SPSS Interfejs programu SPSS Deklarowanie zmiennych Wprowadzanie danych Zapisywanie i wczytywanie zbioru danych Operacje na zmiennych Podstawowe obliczenia statystyczne (rozkład częstości, statystyki opisowe, tabele)
Interfejs programu SPSS Czyli, jak TO wygląda
Podgląd zmiennych Tu deklarujemy zmienne, zmieniamy ich parametry, wartości jaki mogą one przyjmować itp.
Wybierz jednostki statystyczne Drukowanie Cofnij i ponów Zmienne i ich parametry Podziel zbiór danych Grupowanie zmiennych Pasek ikon: dostęp do najczęściej używanych funkcji programu Ostatnio używane procedury Zapisywanie pliku Szukaj Włącz wagę dla obliczeń Otwieranie pliku Wstaw zmienne Wstaw jednostki statystyczne Wyświetl etykiety Idź do jednostki statystycznej
Operacje edycyjne Kopiuj, wklej itp Operacje na zbiorze danych Wykresy Wyświetlanie/ukrywanie elementów interfejsu Analizy statystyczne Operacje na plikach Otwieranie, zapisywanie itp. Przekształcenia danych
Zakładka dane: przełącza do trybu edycji zbioru danych, dostęp do każdej jednostki statystycznej i wartości zmiennych Zakładka zmienne: tryb edycji zmiennych, deklarowanie nowych zmiennych, edycja parametrów zmiennych w zbiorze
Deklarowanie zmiennych
Deklarowanie zmiennych Nazwa zmiennej Typ zmiennej (numeryczna, czy tekstowa) Wielkość zmiennej Etykieta zmiennej (opis) Zdeklarowane wartości zmiennej Wartości oznaczone jako brak danych Poziom pomiaru zmiennej
Nazwa zmiennej nazwa zmiennej powinna odzwierciedlać faktycznie reprezentowaną przez daną zmienną cechę niektóre (starsze) wersje SPSS ograniczają długość nazwy zmiennej do 8 znaków, co wymusza stosowanie nazw skrótowych.
Typ zmiennej (numeryczna/tekstowa) Typ zmiennej określa czy wartości zmiennej są liczbami, czy ciągiem znaków. Na zmiennych, które przyjmują wartości będące ciągiem znaków nie możliwe jest wykonywanie większości obliczeń statystycznych. Często ciągi znaków wykorzystuje się dla pytań otwartych
Wielkość (szerokość) zmiennej Dla zmiennych przyjmujących wartości numeryczne (liczby) określa ilość cyfr i miejsc po przecinku Dla zmiennych przyjmujących wartości będące ciągami znaków (tekst) określa długość (liczbę znaków) ciągu znaków
Etykieta zmiennej Jest to skrótowy opis zmiennej. dzięki temu możemy łatwiej zorientować się do jakiej cechy dana zmienna się odnosi. Etykiety zmiennych są wyświetlane przy wynikach obliczeń
Zadeklarowane wartości (etykiety kodów zmiennej) Gdy zmienna przyjmuje wartości numeryczne, można konkretnym kodom (liczbom) przypisać etykiety (co dany kod oznacza) Np. zmienna PLEC zawierająca informację o płci respondenta przyjmuje wartości 1 dla kobiet i 2 dla mężczyzn. Dzięki etykietom kodów łatwo dowiemy się co oznaczają wartości zmiennej numerycznej
Braki Danych Czasem nie chcemy, aby jakieś wartości zmiennej były uwzględniane przy obliczeniach statystycznych. Możemy to uzyskać oznaczając te wartości jako brak danych
Poziom pomiaru zmiennej Poziom nominalny np. płeć, wyznanie, miejsce urodzenia, kolor oczu (różnice) Poziom porządkowy np. poziom wykształcenia, wielkość miejsca zamieszkania (bardziej/mniej) Poziom interwałowy np. wyniki testów IQ (o ile bardziej) i ilorazowy np. wzrost w metrach, dochód miesięczny (istnieje PUNKT ZEROWY, iloraz-stosunek ilościowy zmiennych)
Poziomu pomiaru Zmienne ilorazowe posiadają wszystkie cechy zmiennych interwałowych, porządkowych i nominalnych Zmienne interwałowe posiadają wszystkie cechy zmiennych porządkowych i nominalnych Zmienne porządkowe posiadają wszystkie cechy zmiennych nominalnych
Deklarowanie zmiennych Utworzymy zmienne opisujące następujące cechy: płeć, czy pali papierosy, jakiej marki papierosy pali, ile papierosów dziennie pali.
Pierwsza zmienna określa płeć respondenta. Najpierw nadajemy jej nazwę wpisując w kolumnie Name odpowiedni tekst i naciskamy Enter.
Wybieramy typ numeryczny 0 Określamy typ zmiennej. Będzie ona przyjmować wartości liczbowe. Zmienna będzie przyjmować wartości 1 i 2 są to liczby całkowite więc nie potrzebujemy miejsc dziesiętnych. W pole Decimal Places wpisujemy 0
Określamy etykietę zmiennej wpisując w kolumnie Label odpowiedni tekst
Tu wpisujemy wartość dla której określamy etykietą 1 kobieta Klikamy OK Określamy etykiety kodów, czyli opisujemy wartości przyjmowane przez zmienną Najpierw klikamy add i podobnie definiujemy etykietę dla wartości 2 mężczyzna. Tu wpisujemy etykietę dla wartości 1
Pozostaje określić jeszcze poziom pomiaru. Zmienna plec ma charakter nominalny
Deklarowanie zmiennych Zmienna pali etykieta: czy pali papierosy Wartości: 1 tak; 2 nie; Zmienna marka Etykieta: jakiej marki papierosy pali Wartości: 1 Extra mocne; 2 Fajrant; 3 -Wiarus; 4 -Stołeczne; 5 -różne; 6 -odmowa odpowiedzi; 7 -nie dotyczy Brak danych: 6; 7; Zmienna ilepali Etykieta: ile papierosów dziennie pali Brak danych: 0
Wprowadzanie danych
Data View Jest to tryb pracy, w którym mamy bezpośredni dostęp zbioru danych Możemy wprowadzać dane i je edytować
Wiersze reprezentują kolejne jednostki statystyczne (np. respondentów). Numer kolejnej jednostki statystycznej znajduje się w nagłówku wiersza W kolumnach znajdują się zadeklarowane zmienne. Nazwa każdej zmiennej znajduje się w nagłówku kolumny
Ikona wyświetlania etykiet kodów. Pozwala włączyć/wyłączyć wyświetlanie etykiet wartości zmiennych
Zapisywanie/wczytywanie zbioru danych Zapisywanie i wczytywanie zbioru danych możemy wykonać używając ikon lub menu Ikony zapisywania i wczytywania zbioru danych Z menu wybieramy: File Save lub File Open Data
Operacje na zmiennych Wybór jednostek statystycznych Pozwala wybrać do dalszych analiz tylko takie jednostki statystyczne, które spełniają określone warunki (np. kobiety z wyższym wykształceniem, mieszkające w miastach powyżej 500tys. Mieszkańców) Rekodowanie Umożliwia przekodowanie lub pogrupowanie wartości zmiennej w zbiorze. Np. wartości zmiennej określające liczbę lat respondenta możemy pogrupować w kategorie wiekowe. Obliczanie wartości zmiennej Często podczas prowadzenia analiz musimy obliczyć wartość nowej zmiennej bazując na danych istniejących w zbiorze danych. Np. wyznaczyć ilość lat respondenta znając rok urodzenia.
Wybór jednostek statystycznych
Wybierz wszystkie jednostki Wybierz te jednostki stat., które spełniają określony warunek Wybierz losową próbkę jednostek Lista zmiennych w zbiorze
V44<=5 (v47=5 & v48=3) Lista zmiennych w zbiorze Kalkulator, pozwala na wprowadzanie operatorów logicznych i arytmetycznych do warunku Pole gdzie zapisujemy warunek, który spełniać mają wybrane jednostki
Podstawowe operatory logiczne i arytmetyczne: + dodawanie - odejmowanie / dzielenie * mnożenie ** potęgowanie ~ negacja (nie jest tak, że) = równość ~= nie równa się < mniejsze niż > większe niż <= mniejsze lub równe niż >= większe lub równe niż & koniunkcja logiczna i alternatywa lub ( )
Rekodowanie
Lista zmiennych w pliku Tym przyciskiem dodajemy zmienne do przekształcenia Zmienne poddane przekształceniu Tu określamy nazwę i etykietę dla zmiennej wynikowej Szczegółowe określenie parametrów przekształcenia
Nazwa i etykieta nowej zmiennej Przekształcenie: Wartości zmiennej marka zostaną przekodowane W wartości zmiennej gr_marka
Wartości źródłowe Wartości wynikowe
Konkretna wartość zmiennej źródłowej Systemowe i zadeklarowane braki danych Zakres wartości od - do Zakres wartości od najmniejszej do Zakres wartości od do wartości największej Wszystkie pozostałe wartości
Systemowy brak danych zmiennej wynikowej Dodaje przekształcenie do listy Zmienia utworzone przekształcenie Zmienia utworzone przekształcenie Nowa wartość zmiennej wynikowej Przepisuje wartość zmiennej źródłowej do zmiennej wynikowej
Obliczanie wartości zmiennej
Zmienna wynikowa Lista zmiennych w pliku Wyrażenie algebraiczne Jego wynik zostanie przypisany zmiennej wynikowej
Podstawowe obliczenia statystyczne Rozkład częstości zmiennej Miary tendencji centralnej Miary dyspersji rozkładu Kurtoza i skośność Statystyki opisowe Tabele Krzyżowe Korelacje
Rozkład częstości zmiennej Częstości są najprostszą i najczęściej wykonywaną procedurą w programie SPSS. Dzięki tej procedurze możemy sprawdzić jak wygląda procentowy rozkład wartości zmiennej (odpowiedzi). Np. jaki odsetek osób pali papierosy? Analyze Descriptive Statistics Frequencies
Dodatkowe statystyki Tym przyciskiem dodajemy zmienne do analizy Lista zmiennych wybranych do analizy Lista zmiennych w pliku, które możemy wybrać do analizy
Miary tendencji centralnej Miary dyspersji rozkładu Kurtoza i skośność rozkładu
Otuput: tu wyświetlane są wyniki wszystkich procedur statystycznych Outline: jest to spis wyników wykonanych procedur
Dodatkowe statystyki wybrane przez użytkownika Rozkład częstości zmiennej
Miary tendencji centralnej Średnia suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek Dominanta (modalna) wartość zmiennej, która w danym rozkładzie występuje najczęściej Kwantyle wartości cechy badanej zbiorowości, które dzielą ją na określone części pod względem liczby jednostek. Kwartyle pierwszy kwartyl 25% do 75%, drugi kwartyl 50% do 50% (mediana), trzeci kwartyl 75% do 25% Decyle dzielą zbiorowość na 10 części Percentyle dzielą zbiorowość na 100 cześci
Miary dyspersji rozkładu Odchylenie standardowe o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej. s = ( x N Wariancja średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej całej zbiorowości. Im zbiorowość jest bardziej zróżnicowana tym większa jest wartość wariancji 2 ( xi X ) 2 s = i N X 2 )
Kurtoza i skośność Współczynnik asymetrii rozkładu przyjmuje wartość 0 dla rozkładu symetrycznego, wartość > 0 dla asymetrii prawostronnej, wartość < 0 dla asymetrii lewostronnej. Kurtoza miara koncentracji rozkładu zmiennej w porównaniu do rozkładu normalnego. Wartość >0 koncentracja większa od rozkładu normalnego, wartość <0 koncentracja mniejsza od rozkładu normalnego
Kurtoza i skośność Skośność Rozkład symetryczny Asymetria prawostronna Asymetria lewostronna Kurtoza Rozkład normalny Rozkład platykurtyczny Rozkład leptokurtyczny
Statystyki opisowe Statystyki opisowe (średnia, odchylenie std., wariancja, kurtoza, współczynnik skośności rozkładu itp.,) możemy obliczyć niezależnie od rozkładu częstości miennej. Analyze Descriptive Statistics Descriptive
Tu wybieramy statystyki
Średnia Odchylenie standardowe, wariancja, min, max itp Kurtoza i skośność
Tabele krzyżowe Tabele krzyżowe to tabele zawierające rozkład częstości wielu zmiennych. Dzięki nim możemy np. określić jaki odsetek osób palących pali papierosy marki Stołeczne Analyze Descriptive Statistics Crosstabs
Zmienne w wierszach Zmienne w kolumnach Zmienne warstwując Lista zmiennych w zbiorze danych `zawartość komórek tabeli krzyżowej
Procenty w wierszach, procenty w kolumnach, procenty w całym zbiorze
p³eæ * jakiej marki papierosy pali Crosstabulation p³eæ Total kobieta mê czyzna Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total jakiej marki papierosy pali Extra mocne Fajrant Wiarus Sto³eczne ró ne Total 1 3 2 1 1 8 12,5% 37,5% 25,0% 12,5% 12,5% 100,0% 50,0% 60,0% 50,0% 50,0% 33,3% 50,0% 6,3% 18,8% 12,5% 6,3% 6,3% 50,0% 1 2 2 1 2 8 12,5% 25,0% 25,0% 12,5% 25,0% 100,0% 50,0% 40,0% 50,0% 50,0% 66,7% 50,0% 6,3% 12,5% 12,5% 6,3% 12,5% 50,0% 2 5 4 2 3 16 12,5% 31,3% 25,0% 12,5% 18,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 12,5% 31,3% 25,0% 12,5% 18,8% 100,0% Odsetek kobiet palących określone marki papierosów
p³eæ * jakiej marki papierosy pali Crosstabulation p³eæ Total kobieta mê czyzna Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total jakiej marki papierosy pali Extra mocne Fajrant Wiarus Sto³eczne ró ne Total 1 3 2 1 1 8 12,5% 37,5% 25,0% 12,5% 12,5% 100,0% 50,0% 60,0% 50,0% 50,0% 33,3% 50,0% + 6,3% 18,8% 12,5% 6,3% 6,3% 50,0% 1 2 2 1 2 8 12,5% 25,0% 25,0% 12,5% 25,0% 100,0% 50,0% 40,0% 50,0% 50,0% 66,7% 50,0% 6,3% 12,5% 12,5% 6,3% 12,5% 50,0% = 2 5 4 2 3 16 12,5% 31,3% 25,0% 12,5% 18,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 12,5% 31,3% 25,0% 12,5% 18,8% 100,0% Odsetek kobiet palących Fajranty Odsetek mężczyzn palących Fajranty
Korelacje Współczynnik korelacji liniowej Pearsona. Mierzy siłę związku prostoliniowego między dwiema zmiennymi. Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej towarzyszy, średnio, stały przyrost drugiej zmiennej. Współczynnik korelacji kolejnościowej Spearmana. Służy do opisu korelacji zmiennych, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności.
Korelacje Współczynniki korelacji przyjmują wartości od -1 do +1-1 maksymalna korelacja ujemna (im więcej jednej cechy tym mniej drugiej) +1 maksymalna korelacja pozytywna (im więcej jednej cechy tym więcej drugiej) 0 brak związku korelacyjnego między zmiennymi
China Russia Korelacje Korelacja Pearsona Istotność (dwustronna) N Korelacja Pearsona Istotność (dwustronna) N China Russia 1,926**,000 300 300,926** 1,000 300 300 **. Korelacja jest istotna na poziomie 0.01
Współczynnik korelacji, który chcemy policzyć Lista zmiennych w zbiorze danych Lista zmiennych wybranych do analizy
Poziom istotności Poziom istotności to prawdopodobieństwo odrzucenia testowanej hipotezy, gdy jest ona prawdziwa (błąd I rodzaju). W przypadku korelacji w teście istotności sprawdzamy hipotezę, że istnieje związek między zmiennymi. Przyjmuje się, że korelacja jest istotna statystycznie, przy poziomie istotności co najwyżej 0,05
Y i =β 0 + β 1 X 1i + β2x 2i +.. +β p X pi 95% przedział ufności Prosta regresji
Model - Podsumowanie b Model 1 R R-kwadrat Skorygowane R-kwadrat Błąd standardowy oszacowania,926 a,857,857,25481 a. Predyktory: (Stała), Russia b. Zmienna zależna: China Often the independent variables are measures in different units. The standardized coefficients or betas are an attempt to make the regression coefficients more comparable. Współczynniki a Współczynniki niestandaryzowane Współczynniki standaryzowane Model 1 (Stała) Russia B Błąd standardowy Beta 2,825,124 22,779,000,637,015,926 42,325,000 t Istotność a. Zmienna zależna: China
Wykorzystanie programu SPSS w analizie danych CBOS
CBOS marzec 2005 Jaki odsetek respondentów deklaruje udział w wyborach prezydenckich? Na kogo głosowałoby najwięcej badanych osób? Jaki odsetek respondentów deklaruje udział w wyborach parlamentarnych? Na którą partię głosowałoby najwięcej badanych osób?
CBOS marzec 2005 Jakie jest średnie zaufanie do osób publicznych? Jaki jest stosunek respondentów do Partii Demokratycznej? Jaki jest rozkład cech społecznodemograficznych przebadanej populacji? (płeć, wiek, poziom wykształcenia, miesięczne dochody netto na 1 osobę w gospodarstwie domowym).
CBOS marzec 2005 Jaki jest rozkład poziomu wykształcenia w populacji przebadanych kobiet i populacji przebadanych mężczyzn? Jakie są cechy społ.-demog. osób zamierzających głosować na poszczególnych kandydatów do fotela prezydenckiego? Czy istnieje związek między zainteresowaniem polityką, rokiem urodzenia, poziomem wykształcenia i wielkością miejsca zamieszkania?