Karol Karasiewicz SPSS od samego początku Baza danych 1
Plan prezentacji Praca z bazą danych... 3 Wygląd bazy danych... 3 Tworzenie nowej bazy danych... 4 Wprowadzanie danych... 8 Wprowadzanie danych w SPSS... 8 Importowanie danych z innych programów... 11 Jak SYNTAX może ułatwić pracę na tym etapie?... 11 2
Praca z bazą danych Baza danych w SPSS jest podstawowym plikiem, na którym SPSS pracuje i wykonuje wszystkie analizy. Najogólniej rzecz biorąc baza danych jest zbiorem zmiennych i obserwacji wypełnionych informacjami w postaci numerycznej lub tekstowej. Obserwacja w SPSS to jeden wiersz w zbiorze danych. Obserwacją statystyczną jest jedna badana jednostka. W psychologii najczęściej badanymi jednostkami są ludzie (osoby), jednakże nie zawsze tak jest. Np. w badaniu dotyczącym jakości życia małżeństw badaną jednostką są małżeństwa (a więc dwie osoby) i dla każdego małżeństwa (dwóch osób) powinniśmy zapewnić jeden wiersz danych. Analogicznie w badaniu kultury organizacyjnej na rynku firm komputerowych badanymi jednostkami są firmy tak więc jeden wiersz zapewniony będzie dla jednej organizacji. Zmienna w SPSS to jakaś własność (cecha) badanej jednostki. Nie jest tym samym, czym jest zmienna w rozumieniu metodologii, czy szerzej psychologii. SPSS określenia zmienna używa raczej do wskaźnika danej zmiennej. W SPSS zmienna jest reprezentowana przez jedną kolumnę danych. SPSS (jak zresztą wszystkie programy administrujące bazami danych) wymusza formatowanie zmiennej. Tzn. wszystkie informacje w zmiennej muszą posiadać taki sam format. Dlatego najlepiej, gdy zmienna zawiera najmniejszą możliwą porcję informacji Np. jeśli mamy informacje o imieniu i nazwisku badanej osoby, to lepiej jest stworzyć dwie zmienne IMIĘ i NAZWISKO niż jedną zawierającą obie te informacje. Wygląd bazy danych Po uruchomieniu SPSS wygląda nieco, jak Excel lub inny arkusz kalkulacyjny. W dolnym lewym rogu okna znajdują się dwie zakładki DANE i ZMIENNE. Aby SPSS wyglądał jak na poniższej rycinie, należy wybrać zakładkę DANE. Ryc. 1 W takim widoku bazy danych możemy wprowadzać i oglądać dane w bazie. Aby już wprowadzone dane zmieniać (np. przeliczać itd.) nie jest konieczne przechodzenie do widoku danych, w ogóle nie jest konieczne, aby baza danych była widoczna dokładnie zobaczyć to będzie można później. Jednakże aby utworzyć nową bazę danych, albo zmienić strukturę już istniejących danych (logikę zmiennych) należy przejść do zakładki ZMIENNE. 3
Ryc. 2 W widoku tym nieco zmienia się logika działania SPSS. Teraz naszym obiektem zainteresowań są ZMIENNE, a więc również zmienne są w wierszach ponieważ są niejako obserwacjami, badanymi jednostkami. Naszym celem jest ustalić pewne własności (cechy) tych badanych zmiennych dlatego cechy zmiennych są kolumnami (a więc niejako zmiennymi). Z początku może się to wydawać trudne i pokręcone jednakże po chwili jest w zasadzie naturalne. Tworzenie nowej bazy danych SPSS nie jest najwygodniejszym programem do wprowadzania danych. Jest szereg programów znacznie to ułatwiających (np. Excel, czy inne arkusze kalkulacyjne) łącznie z formularzami internetowymi. Jednakże czasem utworzenie i wprowadzenie danych bezpośrednio do SPSS jest konieczne. Aby to zrobić, należy zacząć od przygotowania zbioru danych w widoku ZMIENNE (patrz Ryc. 2 s. 4). Poszczególne kolumny w SPSS w widoku ZMIENNE są standardowo stałe NAZWA, TYP, SZEROKOŚĆ, DZIESIĘTNE, ETYKIETA, WARTOŚCI, BRAKI DANYCH, KOLUMNY, WYRÓWNANIE, POZIOM. NAZWA jest nazwą zmiennej, która jest przeznaczona dla komputera, SPSS zawsze rozpoznawać będzie zmienną według jej nazwy. Jest szereg zasad tworzenia nazw zmiennych SPSS, pośród których najważniejsze to: Używaj jedynie liter (najlepiej alfabetu łacińskiego, bez polskich ogonków) i cyfr, Jeśli używasz cyfr do nazywania zmiennych cyfra nie może być pierwszym znakiem nazwy, Nigdy nie używaj znaków przypominających arytmetyczne np. +, -,! itd. ani SPACJI. TYP określa format danych, w którym zapisana jest informacja w zmiennej. W psychologii w zasadzie korzystamy z trzech typów danych NUMERYCZNY, TEKSTOWY i DATY. De facto wszystkie inne typy danych są jedynie wariacjami na temat typu numerycznego, innymi sposobami przedstawienia liczb. TYP NUMERYCZNY używamy najczęściej, zawsze gdy chcemy wpisać jakiś wynik liczbowy, ale również przy wpisywaniu odpowiedzi z pytań zamkniętych (z predefiniowaną pulą odpowiedzi np. płeć, stan cywilny itd.) Ryc. 3 4
W polach Szerokość i Miejsca dziesiętne można zdefiniować największą liczbę cyfr możliwą do wpisania (Szerokość) oraz liczbę miejsc dziesiętnych wyświetlanych na ekranie (Miejsca dziesiętne). Jeśli chcemy, aby SPSS wyświetlał jedynie liczby całkowite w pole Miejsca dziesiętne wpiszmy cyfrę 0, jeśli ma zaokrąglać liczby do drugiego miejsca po przecinku cyfrę 2 i td. Ważne jest, że w ten sposób definiujemy jedynie sposób wyświetlania liczb, a nie ich przetwarzania lub samą wartość. Jeśli np. wpiszemy liczbę 123,123 i ustawimy 0 miejsc dziesiętnych, SPSS będzie wyświetlał liczbę 123, ale pamiętał będzie o wartości po przecinku i do analiz będzie używał liczby niezaokrąglonej 123,123. TYP TEKSTOWY używamy w zasadzie jedynie do pytań otwartych, gdzie nie jesteśmy w stanie przewidzieć wartości zmiennej, odpowiedzi badanej osoby. Zmienne w formacie tekstowym mogą zawierać dowolny ciąg znaków liter, cyfr, znaków przestankowych, arytmetycznych itd. Jednak zmienne tekstowe nie mogą być przeliczane jedynie można policzyć, ile razy w próbie wystąpił dany ciąg znaków. Ryc. 4 W polu Znaki możemy zdefiniować maksymalną długość wpisywanego tekstu. Jeśli (jak w przykładzie) wymusimy maksymalnie 8 znaków, wówczas SPSS nie pozwoli nam wpisać całego słowa Konstantynopolitańczykowianeczka lecz przyjmie jedynie pierwszych 8 jego znaków. Jeśli jednak zdefiniujemy zbyt szeroki zakres np. 1000 znaków dla zmiennej, która tego nie wymaga, wówczas plik będzie miał zbędnie duży rozmiar (w megabajtach), a to znacznie spowalnia proces jego przetwarzania i analizowania. Stąd też polecany jest bardzo mocno rozsądek w tej mierze (jak i w innych również). TYP DATA I CZAS używamy do określenia zmiennej, w której przechowujemy informacje o dacie i czasie, np. data urodzenia, data badania, czas reakcji na bodziec, godzina rozpoczęcia zadania, itd. Data jest w zasadzie również wariacją na temat formatu liczbowego (numerycznego) dzięki czemu pozwala na dokonywanie przeliczeń np. można obliczyć różnicę między datą i godziną rozpoczęcia wykonywania zadania i datą/godziną jego zakończenia obliczając w ten sposób czas pracy w latach, godzinach i minutach, sekundach. Ryc. 5 Po zdefiniowaniu zmiennej, jako DATA i CZAS możemy wybrać jeden z szergu predefiniowanych formatów daty i czasu. Jeśli nie znajdziemy formatu, który by nam odpowiadał, kierując się wskazówkami możemy zdefiniować własny format daty i czasu wybierając opcję Niestandardowy. ETYKIETA jest miejscem, w którym możemy wpisać nazwę zmiennej, jaką chcemy wyświetlać w tabelach i na wykresach. O ile SPSS rozpoznaje zmienne po ich nazwie (i w związku z tym ma pewne ograniczenia co do nazw zmiennych), to etykiety zmiennej są jedynie dla użytkownika (człowieka) i jego wygody. A więc prawie nie ma żadnych ograniczeń. Możliwe jest stosowanie wszystkich znaków i ich kombinacji, ważne by zmieścić się w 250 znakach długości etykiety. Choć z praktycznego punktu widzenia najlepiej jest stosować bardzo zwięzłe etykiety. 5
WARTOŚCI jest miejscem, w którym możemy zażądać od SPSS, aby za określone wartości liczbowe na wykresach i w tabelach podstawiał dowolne etykiety. Stosujemy to najczęściej w odniesieniu do pytań typu zamkniętego, gdzie mamy predefiniowaną pulę odpowiedzi i za każdą z nich zamiast wprowadzać cały tekst wpisujemy pewną liczbę np. PŁEĆ, gdzie za Kobieta wpisujemy 1, a za Mężczyzna wpisujemy 0. Ryc. 6 Aby zdefiniować etykiety dla konkretnych wartości liczbowych należy wpisać cyfrę w pole Wartość i jej nazwę w pole Etykieta, a następnie kliknąć przycisk Dodaj. Np. aby wskazać, że wartość 0 oznacza mężczyznę należy wpisać 0 w pole Wartość i Mężćzyzna w pole Etykieta koniecznie należy wówczas kliknąć przycisk DODAJ. Ryc. 7 Zawsze można już wpisana etykietę usunąć klikając na nią (jak w lewej części powyższej ryciny - Ryc. 7, s. 6) lub (uprzednio zmieniając bądź to liczbę w polu Wartość bądź nazwę w polu Etykieta zmienić (jak po prawej stronie tej ryciny). BRAKI DANYCH to miejsce, w którym możemy wskazać, które wartości zmiennej SPSS ma traktować, jak brak danych. Np. możemy zażądać, żeby SPSS nie liczył żadnych odpowiedzi typu Nie wiem, które w danej zmiennej zakodowane są jako liczba -9 oraz wszystkich odpowiedzi Odmawiam odpowiedzi, które zakodowane są jako liczba 999. Taka sytuacja (kiedy konkretne i często rozrzucone wartości są brakami) jest przedstawiona po prawej części poniższej ryciny (Ryc. 8 s. 7). Jeśli jednak chcemy, że wartości (również wartości niecałkowite typu 12,12 w pewnym zakresie były traktowane, jako brak, to lepiej jest postępować, jak na poniższej rycinie w jej lewej części. Tutaj w pola Dolna granica i Górna granica powinniśmy wpisać wartości krańców przedziału, który ma być traktowany, jako braki danych. Jeśli w polu Dolna granica wpiszemy LO lub w polu Górna granica wpiszemy HI, SPSS odpowiednio uzna to, jako - i +. Pamiętajmy jednak, aby nie wpisać LO i HI jednocześnie wówczas dowolna wartość wpisana do zmiennej będzie traktowana, jako brak danych. 6
Ryc. 8 POZIOM to ostatnia z istotnych kolumn w tym widoku. Pozwala określić, na jakiej skali mierzona jest dana zmienna, czyli ile informacji zawiera. Jest to bardzo przydatne narzędzie i bardzo ułatwia późniejszą pracę czyniąc ją wygodniejszą. Poziom ILOŚCIOWY to zmienne ilorazowe i interwałowe oraz (w psychologii nie znam) absolutne. Poziom Porządkowy jest przeznaczony dla zmiennych porządkowych, a Nominalny dla zmiennych jakościowych (nominalnych). Ryc. 9 7
Wprowadzanie danych SPSS funkcjonuje zarówno, jako program do analizy danych, jak i program do ich gromadzenia (administrator baz danych). O ile w kwestii analizowania danych pod kątem istniejących zależności itd. SPSS spisuje się świetnie, jako administrator baz danych już tak wygodny nie jest. Stąd też bardzo często dane wprowadzamy nie do SPSS wprost, ale poprzez inne programy np. Excel lub z plików tekstowych typu ASCI lub CSV. Wprowadzanie danych do SPSS przećwiczymy za pomocą prostego (i niezbyt mądrego) przykładu zawierającego odpowiedzi 5 osób na następujące pytania: 1. Twoja płeć: A) Kobieta B) Mężczyzna C) Odmowa odpowiedzi 2. Rok urodzenia: r Odmowa odpowiedzi 3. Gdzie spędziłeś(aś) ostatnie wakacje? (Możesz wskazać więcej niż 1 odpowiedź) A) We własnym miejscu zamieszkania B) W kraju C) Za granicą, w Europie D) Za granicą, poza Europą 4. Jakie miasto w Polsce Twoim zdaniem powinien zobaczyć każdy zagraniczny turysta? (Wpisz) 5. Podaj dokładną datę urodzin Twojej matki: B) Nie znam rrrr/mm/dd Zanim zabierzemy się za wprowadzanie danych musimy przemyśleć sprawę przygotowania odpowiedniej bazy danych. Chodzi o to, aby w bazie tej znalazły się odpowiednie zmienne, aby miały odpowiednie nazwy, etykiety, aby były odpowiedniego typu i poziomu pomiaru i ponadto, aby miały odpowiednio zdefiniowane wartości i wartości braków danych (jeśli jest konieczne). Pierwszą zmienną w bazie danych zawsze powinna być zmienna identyfikująca obserwację, np. o nazwie ID. Najwygodniej, gdy zmienna ta jest kolejną liczbą całkowitą zaczynając od 1. Jest to bardzo istotna zmienna, która pozwala np. na łączenie wielu baz danych (SPSS mając ten sam numer badanej obserwacji potrafi ją zidentyfikować w różnych bazach danych), albo pozwala wrócić do informacji o badanej jednostce np. do ankiety respondenta itd. Kolejne zmienne, to kolejne odpowiedzi respondenta na kolejne pytania kwestionariusza lub kolejne zaznaczenia obserwatora w formularzu obserwacji itd. Bardzo istotne jest, aby pamiętać, że przy pytaniach wielokrotnego wyboru (jak w pytaniu 3 niniejszego przykładu), gdzie respondent może wprowadzić więcej niż jedną odpowiedź przygotować tyle kolumn (zmiennych w SPSS), ile mamy opcji odpowiedzi (tu akurat 4) i dla każdej opcji zaznaczać odpowiedź respondenta. Tak więc dla wprowadzania danych z tego kwestionariusza należałoby przygotować następujące zmienne: ID, zmienna typu NUMERYCZNY, o szerokości co najmniej 3 i 0 miejscach dziesiętnych, bez zdefiniowanych wartości i bez braków danych, poziom pomiaru: PORZĄDKOWY lub NOMINALNY. Można dla niej zdefiniować ładną etykietę (dla czystości języka polskiego) np. Nr identyfikacyjny respondenta. Proszę zwrócić uwagę, że zdefiniowanie tej zmiennej ogranicza się jedynie do wpisania w pole NAZWA słowa ID, w pole etykieta odpowiedniej etykiety oraz wybrania z listy wartości NOMINALNY dla kolumny POZIOM. Ryc. 10 8
PLEC zawierającą informację o płci, typu NUMERYCZNY, o szerokości 1 i 0 miejscach dziesiętnych, na poziomie NOMINALNYM, ze zdefiniowanymi wartościami 0 Mężczyzna i 1 Kobieta oraz -9 Odmowa odpowiedzi. Wartość -9 ma być również traktowana, jako brak danych. Niektórzy badacze definiują płeć, jako zmienną ciągłą (ilościową) definiującą Poziom kobiecości i pisząc 0 Mężczyzna mają namyśli zeową kobiecość, a 1 100% kobiecości. Więc teoretycznie poziom ilościowy wydaje się być również dopuszczalny. Ryc. 11 URODZENIE zmienna o typie NUMERYCZNY, szerokości 4 i 0 miejscach dziesiętnych, etykiecie Rok urodzenia respondenta i wartości -9 zdefiniowanej, jako brak danych (można również zażądać etykietowania wartości -9 jako Odmowa odpowiedzi ). Zmienna ta ma charakter ilościowy. Ryc. 12 WAKACJE1 i tutaj jest pytanie wielokrotnego wyboru, a więc konieczne jest zdefiniowanie tylu zmiennych, ile mamy opcji odpowiedzi (tutaj 4 na każdą z odpowiedzi można udzielić odzielnej, niezależnej odpowiedzi). A więc niech zmienna nazywa się np. WAKACJE1, niech będzie zmienną numeryczną o szerokości 1 i 0 miejscach dziesiętnych, niech ma etykietę Wakacje spędzone we własnym miejscu zamieszkania i niech wartość 1 będzie oznaczała TAK a 0 Nie wybrano. Nie musimy definiować braków danych można jedynie zaznaczyć lub nie zaznaczyć danej opcji. I niech zmienna ta będzie miała charakter nominalny (choć można sądzić, że pewnie wyraża ona jedynie pewne kontinuum od 0% czasu spędzonego we własnym miejscu zamieszkania do 100% czasu w wakacje. Ryc. 13 Analogicznie WAKACJE2 dla opcji B) W kraju, WAKACJE3 dla opcji C) Za granicą w Europie i WAKACJE4 dla opcji D) Za granicą, poza Europą. 9
MIASTO - I wreszcie ostatnia kwestia, jakie miasto w Polsce powinien zobaczyć zagraniczny turysta. Zmienna powinna być w typie TEKSTOWY, ponieważ pytanie jest otwarte, o długości 25 znaków (można sądzić, że miasto raczej nie ma dłuższej nazwy), powinna mieć etykietę Miasto, które powinien zobaczyć każdy zagraniczny turysta. I tyle zwróćmy uwagę, że automatycznie dla zmiennych tekstowych ustawiony zostanie poziom NOMINALNY. Ryc. 14 Wprowadzanie danych w SPSS Aby wprowadzić dane do SPSS wystarczy przejść do zakładki DANE w edytorze danych SPSS. Wówczas każdy wiersz będzie zawierał informację o jednej obserwacji statystycznej, a każda kolumna o zmiennej. I wprowadzanie danych polega jedynie na wprowadzaniu odpowiednich liczb i liter w odpowiednie kolumny. Dodatkowo można sobie ułatwić wprowadzanie danych poprzez skorzystanie z opcji Etykiety wartości w menu WIDOK. 10
Gdy opcja ta jest zaznaczona, można nieco łatwiej wpisywać dane do zmiennych ze zdefiniowanymi etykietami wartości za pomocą kliknięć myszą. Np. w zmiennej PŁEĆ zdefiniowaliśmy uprzednio trzy wartości -9 dla opcji Odmowa odpowiedzi, 1 dla Kobieta i 0 dla Mężczyzna. Teraz przy zaznaczonej opcji Etykiety wartości nie musimy wpisywać danej cyfry (choć nadal oczywiście możemy), ale wystarczy ją wyklinać za pomocą myszy i rozwijalnej listy. Importowanie danych z innych programów Importowanie danych do SPSS z Excela Excel jest dość wygodnym programem do wprowadzania danych lub ich wstępnej obróbki np. ma formularze do wprowadzania danych, ma też narzędzia do kontroli poprawności wprowadzania danych itd. Excel ma również jedną niezaprzeczalną zaletę w stosunku do SPSS jest zainstalowany na niemal każdym komputerze i nawet, gdy nie jest to program firmy Microsoft, to darmowe wersje typu OpenOffice lub GogleDocs naprawdę niewiele się od płatnego programu różnią. Stąd też warto umieć sprowadzić dane z Excela do SPSS. Po otworzeniu SPSS należy wybrać polecenie PLIK --> OTWÓRZ --> DANE, jak na poniższej rycinie. W otwartym oknie należy koniecznie wybrać Typ pliku -> Excel (*.xls) i odnaleźć plik na własnym komputerze. 11
Ryc. 15 Po odnalezieniu pliku w komputerze i próbie otwarcia go SPSS spyta, jaki zbiór danych i jaki ich zakres należy do SPSS zaimportować. Ryc. 16 Oczywiście, jeśli plik danych jest w innym formacie, należy znaleźć inny typ pliku. W dalszej części zobaczymy, jak zaimportować plik z formatu tekstowego typu ASCI. Tymczasem po wybraniu pliku SPSS pyta o wybór zakresu danych do zaimportowania. Ryc. 17 12
Jeśli dane zawierają nazwy zmiennych (jak to doradzam w poradniku dotyczącym wprowadzania danych), to należy zaznaczyć to żądanie w kreatorze. Następnie również należy wybrać akrusz w polu Arkusz i (ewentualnie) zakres w polu Zakres. Gdy nic nie wpiszemy do tego pola zostanie zaimportowany pełen zakres, wszystkie wpisane dane, a dokładniej wszystkie użyte komórki. Po zaimportowaniu danych (kliknięciu przycisku )K) należy sprawdzić, czy generalnie zostały zaimportowane właściwe dane i czy jest ich tyle, ile oczekiwano czy jest tyle samo wierszy, czy jest tyle samo zmiennych. Generalnie należy przejrzeć i dokonać wizualnej inspekcji zaimportowanych danych. Importowanie danych z pliku tekstowego typu ASCI Dość rzadko sami wprowadzamy dane do pliku tekstowego. Często jednak, gdy korzystamy z różnych programów komputerowych (zwłaszcza formularzy internetowych), taki typ danych jest dostępny. Stąd też warto przeanalizować, jak dane te mogą być zaimportowane do SPSS. Aby zaimportować dane do SPSS z pliku tekstowego należy najpierw przyjrzeć się jego strukturze i odpowiedzieć sobie na kilka podstawowych pytań: Czy w pierwszym wierszu pliku danych znajdują się nazwy zmiennych? Czy plik ma standardowy separator kolumn (zmiennych)? Takim separatorem jest najczęściej przecinek,, średnik ; lub znak tabulatora. Dość łatwo poznać tego typu dane po tym, że znaki te występują regularnie w jakimś odstępie. Na poniższej rycinie został przedstawiony przykład trzech formatów pierwszy z tabulatorem, jako znakiem rozdzielającym, drugi i trzeci ze średnikiem w tej samej roli. Ryc. 18 Ponadto warto zauważyć, że często w plikach tekstowych poszczególne dane są ujęte w cudzysłowach bądź to pojedynczych, bądź to podwójnych (to sytuacja w trzecim przykładzie na powyższej rycinie). Gdy wiemy już, jakiego rodzaju jest to plik danych i jaką ma strukturę możemy otwierać go w ten sam niemalże sposób, jak plik Excel. Zatem otwieramy plik danych (patrz Ryc. 15 s. 12) i zamiast wybrać typ Excel (jak na Ryc. 16 s. 12) wybieramy odpowiedni typ pliku tekstowego lub Wszystkie pliki (*.*). Po otwarciu tego typu pliku uruchomi się kreator importu danych z pliku tekstowego. W kroku pierwszym zwykle nie robimy nic poza przejściem dalej (należy kliknąć DALEJ >>). Czasem, gdy importujemy już kolejny plik tego samego typu, możemy wskazać, żeby SPSS zaimportował ustawienia kreatora z pliku (który wcześniej przygotowaliśmy i zapisaliśmy później pokażemy, jak to zrobić). 13
Ryc. 19 Następnie definiujemy, czy w pliku danych zapisane są nazwy zmiennych i jaki format ma plik rozdzielany jakimkolwiek separatorem (czy posiada kolumny), czy też jest to ciąg znaków, który trzeba porozdzielać niejako ręcznie. W naszym przykładzie (i taki format polecam), tekst jest rozdzielany i zawiera nazwy zmiennych. Ryc. 20 Zwykle dalsze ustawienia domyślne kreatora wystarczają i są odpowiednie. Kreator jest ustawiony tak, aby zaimportować wszystkie dane z pliku począwszy od wiersza numer 2 (bo w pierwszym znajdują się nazwy zmiennych) i zakładając, że (tak, jak to jest w zwyczaju SPSS) jedna obserwacja (jednostka statystyczna np. badana osoba) to jeden cały wiersz. Faktycznie jednak możliwości zapisu i ustawienia różnych formatów danych wejściowych jest wiele i SPSS potrafi dość dobrze się do nich przystosować. Po przejściu do następnego kroku można wskazać, jakie znaki są separatorem kolumn (zmiennych). Można wskazać więcej niż jeden znak (np. Tabulator i Przecinek). Wówczas wystąpienie któregokolwiek z nich oznaczać będzie dla SPSS początek nowej zmiennej. 14
Ryc. 21 W dole ekranu można obserwować, jakie efekty odnosi wprowadzenie danego separatora na importowane dane podgląd jest dość pożyteczny gdy musimy trochę eksperymentować. Ryc. 22 Po przejściu do przedostatniego kroku importu danych z pliku tekstowego można sprawdzić, czy SPSS prawidłowo odczytał (z automatu) format i nazwy danych zapisanych w zbiorze. Bywa to praca bardzo żmudna (im więcej zmiennych, tym żmudniejsza), ale opłaci się ZAPEWNIAM. 15
Ryc. 23 Wystarczy jedynie klikać kolejne kolumny w dolnej części okna i sprawdzać przypisane im typ i nazwę u góry okna dialogowego. Ryc. 24 Jeśli wiemy, że w przyszłości będziemy importować ten sam typ pliku danych możemy zapisać jego predefiniowany format w ostatnim z kroków kreatora importu tekstu. Później, gdy będziemy taki sam plik (w tym samym formacie i z tymi samymi zmiennymi) importować znacznie skróci się proces jego importu (patrz Ryc. 19 s. 14) wystarczy jedynie wskazać, że plik ma już predefiniowany formatr 16
Jak SYNTAX może ułatwić pracę na tym etapie? 17
Przykład stwórz strukturę bazy danych i zaimportuj dane Zgodnie z wymogami Komisji Etyki badań Naukowych w Psychologii wymagane są zgody respondentów na udział w badaniu. Zgody te kolekcjonujemy Ale czy jesteśmy w stanie sprawdzić, czy wszyscy nasi respondenci zarejestrowani w bazie danych wyrazili zgodę na udział w badaniu? Możemy to zrobić (najprawdopodobniej) najłatwiej za pomocą wpisania tych zgód do bazy danych SPSS. Jak wygląda taka zgoda? Mniej więcej, jak na poniższym przykładzie. Imię i Nazwisko Data urodzenia Miasto Data badania Zgoda na udział w badaniu pt. Równowaga praca-dom Oświadczam, że zapoznałem(am) się z polityką zachowania poufności informacji opisaną w Polityce prywatności zamieszczoną na stronie www.karasiewicz.az.pl/privacy.htm TAK NIE Wyrażam zgodę na udział w badaniu prowadzonym przez dr Karola Karasiewicza Pt. Równowaga Praca-dom i przetwarzanie uzyskanych w nim danych do celów analiz statystycznych i stworzenia raportu o charakterze naukowym (Proszę skreślić niewłaściwe) TAK NIE Jakie baza danych powinna zawierać zmienne? 1. Zmienną z zakodowanym numerem respondenta np. o nazwie ID. Respondenci otrzymają jakiś numer, np. kolejną liczbę od 1 do n. Jest to wyłącznie informacja o charakterze porządkowym a więc i zmienna jest mierzona na skali (co najwyżej) porządkowej, 2. Miejsce złożenia zgody np. MIASTO zmienna zawierająca informację z rubryki Miasto na górze formularza. Zmienna ma charakter tekstowy należy wpisać nazwę miasta, a więc będzie to zmienna nominalna. 3. Data złożenia zgody zmienna w formacie daty, o charakterze co najwyżej porządkowym (a więc i na skali co najwyżej porządkowej) 4. Imię respondenta zmienna tekstowa 5. Nazwisko respondenta zmienna tekstowa warto pamiętać, aby nazwisko było w oddzielnej niż imię zmiennej, co znacznie ułatwia np. wyszukiwanie respondenta wg nazwiska albo wg imienia) 6. Data urodzenia respondenta podobnie, jak data złożenia zgody w formacie daty i jedynie w celach porządkowych, a więc o charakterze co najwyżej porządkowym. 7. Potwierdzenie zapoznania się z polityką prywatności i poufności danych np. POTWIERDZENIE zmienna numeryczna o wartościach 0 lub 1, gdzie 0 oznaczać będzie Nie potwierdzono ; 1 Potwierdzono. Zmienna ta jest mierzona na skali nominalnej. 8. Zgoda na udział w badaniu np. ZGODA analogicznie, jak poprzednia zmienna, ma postać numeryczną, charakter nominalny, o wartościach 0 i 1, gdzie 0 oznaczać będzie brak zgody, a 1 wyrażenie zgody na udział w badaniu. Ryc. 25 18
Aby osiągnąć taki efekt, jak to zostało powyżej wyrysowane należy po otwarciu SPSS uruchomić zakładkę ZMIENNE w oknie głównym bazy danych. Ryc. 26 W kolumnie NAZWA można w kolejnych wierszach wpisać nazwy kolejnych zmiennych niech będą to np.: ID, MIASTO, DATA, IMIĘ, NAZWISKO, URODZINY, POTWIERDZENIE i ZGODA Następnie w kolumnie TYP należy zdefiniować rodzaj zmiennej jakiego typu dane będzie ona zawierała. Niech ID, POTWIERDZENIE i ZGODA będą zmiennymi numerycznymi, DATA i URODZINY to zmienne daty, a MIASTO, IMIĘ i NAZWISKO zmienne tekstowe. Ryc. 27 W kolumnie ETYKIETA warto dodać ładne etykiety zmiennych, np. Numer respondenta dla zmiennej ID, Data badania dla zmiennej DATA itd. Może to wyglądać, jak kwiatek do kożucha jednakże naprawdę bardzo potem ułatwia pracę z danymi i zwiększa wygodę użytkowania bazy danych. W kolumnie WARTOŚCI warto zdefiniować etykiety tekstowe dla przewidywanych wartości w zmiennych POTWIERDZENIE i ZGODA. Ryc. 28 I na koniec wreszcie zdefiniuj poziom pomiaru zmiennych w kolumnie POZIOM POMIARU. Niech zmienna ID, DATA, URODZINY będą zmiennymi porządkowymi,, MIASTO, IMIĘ, NAZWISKO, POTWIERDZENIE i ZGODA nominalnymi. 19
Ryc. 29 Wykonanie tego samego w SYNTAX jest jeszcze prostsze. Należy jedynie wpisać cztery procedury: DATA LIST, VARIABLE LABELS, VALUE LABELS i VARIABLE LEVELS. Polecenie DATA LIST definiuje nazwy i typy zmiennych w bazie danych. A więc potrzebujemy w kolejności zmiennej ID o typie numerycznym bez liczb po przecinku a więc wpisujemy ID (F8.0). Następnie potrzebujemy zmiennej tekstowej MIASTO o długości (powiedzmy) 30 znaków a więc należy wpisać MIASTO (A30). A następnie zmiennej DATA o formacie daty typu 20.01.2011 a więc wpisujemy DATA (EDATE10). I analogicznie ze zmiennymi IMIĘ (A30), NAZWISKO (A30), URODZINY (EDATE10), POTWIERDZENIE (F1.0) i ZGODA (F1.0). Ryc. 30 20