Karol Karasiewicz Uniwersytet Gdański Przygotowanie raportu z wyników badań z użyciem programu MS-Excel Materiały dla studentów nauk społecznych Spis treści 1 Wprowadzanie danych z wyników badań... 2 1.1 W jakim programie wprowadzać dane do analizy?... 2 1.2 Jak wprowadzać dane do komputera?... 2 1.2.1 Podstawowe zasady... 2 1.2.2 Zmienna identyfikatora obserwacji i identyfikatora grupy... 3 1.2.3 Nazwy zmiennych... 4 1.2.4 Format zmiennych... 5 1.2.5 Braki danych... 6 1.2.6 Jak wprowadzać dane do Excela?... 7 1.3 Przykład danych z kwestionariusza wprowadzonych do Excela... 10
1 Wprowadzanie danych z wyników badań 1.1 W jakim programie wprowadzać dane do analizy? Najczęściej dane wprowadzamy w programach, które pozwalają na największą kontrolę nad wprowadzanymi informacjami, a jednocześnie są łatwe w obsłudze. Takimi programami są np. Excel; Access; czy bardzo stary (jeszcze DOS-owy) WD330. Te programy nawet polecam do wprowadzania danych. Szczególnie odradzam SPSS-a, i STATISTICA. Po pierwsze nie są one dostępne na każdym komputerze, a po drugie często przy wprowadzaniu danych wprost do SPSS-a lub STATISTICA pojawiają się błędy. Po prostu wprawny danowklepywacz potrafi szybciej wpisywać dane, niż SPSS, czy STATISTICA są w stanie je przyjąć. Nie wierzysz mi? Można to bardzo łatwo sprawdzić wystarczy w dowolnej bazie spróbować wpisywać liczby rosnąco od 0 do 9 1.2 Jak wprowadzać dane do komputera? Nie jest ważne, jakiego programu użyjesz do wprowadzania danych, są pewne zasady, których koniecznie należy się trzymać, aby potem łatwo było dokonywać szybkich analiz statystycznych. 1.2.1 Podstawowe zasady Przede wszystkim dane powinny mieć formę tabeli. W kolumnach zapisujemy informacje o poszczególnych cechach (właściwościach), które mierzymy lub kontrolujemy. Inaczej mówiąc, choć to pewne uproszczenie KOLUMNY w bazie danych to ZMIENNE w badaniu. Wiersze tabeli reprezentują kolejne przypadki nazywane często obserwacjami lub zdarzeniami. Najczęściej są to po prostu kolejne badane osoby, rzadziej grupy ludzi itd. Inaczej jeszcze mówiąc kolumny reprezentują to, co badamy, a wiersze tego, kogo badamy. Druga fundamentalna zasada mówi, że w jednej zmiennej powinna być wyłącznie jedna informacja. Najczęściej jedną informację zdobywamy uzyskując odpowiedź na jedno pytanie z kwestionariusza lub ankiety. Jednak JEST WYJĄTEK gdy w ankiecie zadajemy pytanie z możliwością WIELOKROTNEGO WYBORU. Wówczas KAŻDA OPCJA WYBORU jest oddzielną informacją, a więc również ODDZIELNĄ KOLUMNĄ W BAZIE. Np. jeśli interesuje Cię liczba rodzeństwa braci i sióstr to liczba braci jest jedną zmienną, a liczba sióstr drugą, Karol Karasiewicz, Uniwersytet Gdański 2
natomiast całkowita liczba rodzeństwa, to zmienna trzecia. Tak więc, żeby dokładnie zapisać informacje o rodzeństwie osoby badanej, trzeba stworzyć trzy kolumny np. BRACIA, SIOSTRY, RODZEŃSTWO, tak, jak na przykładzie poniżej ID BRACIA SIOSTRY RODZEŃSTWO 1 2 1 3 2 1 0 1 3 0 0 0 Schemat 1: Przykład prawidłowej bazy danych Tak zapisane dane pozwalają dokładnie pokazać, ile braci i sióstr posiada każda z badanych osób. Całkowitą liczbę rodzeństwa można samemu obliczyć i wpisywać do bazy danych, jednak osobiście polecam zlecić tę czynność komputerowi jemu liczenie idzie zazwyczaj szybciej niż nam. O tym, jak wyliczyć np. całkowitą liczbę posiadanego rodzeństwa na podstawie liczby posiadanych sióstr i braci można się będzie dowiedzieć z innego rozdziału. 1.2.2 Zmienna identyfikatora obserwacji i identyfikatora grupy Przy okazji powyższego przykładu ujawniła się trzecia, może nie bardzo fundamentalna, ale bardzo pożyteczna zasada poza podstawowymi zmiennymi, które są mierzone w badaniu, w bazie danych dodaj zmienną z liczbą porządkową, albo innym identyfikatorem, który będzie takim dowodem osobistym obserwacji w zbiorze. Tą zmienną w przykładzie jest zmienna ID. Tutaj jest to liczba porządkowa przypisana do kolejnego wiersza (przypadku). Jednak w innych bazach mogą to być całkowicie inne informacje, np. numer PESEL, numer indeksu studenta, numer telefonu komórkowego itd. Gdy zapiszesz tę informacje zarówno w bazie danych, jak i na kwestionariuszu otrzymanym od osoby badanej, łatwo będzie Ci zweryfikować ewentualne niejasności, dopisać dane do bazy itd. W badaniach podłużnych taka informacja jest wręcz niezbędna pozwala jednoznacznie połączyć dane z różnych etapów badań. Warto więc o niej pamiętać. Inną taką dodatkową zmienną jest często zmienna, która nazywa się zazwyczaj GRUPA. Zmienna ta jest takim swoistym dowodem przynależności danej obserwacji do różnych badanych grup. Najczęściej twoje badania będą polegać na porównywaniu ze sobą dwóch lub więcej grup. Czasem studenci kombinują, jak oddzielić jedną grupę od drugiej zostawiają jakieś puste wiersze, tworzą oddzielne tabele z danymi dla każdej grupy itd. Nie jest to potrzebne, a nawet jest niewskazane. Informacja o tym, do której grupy należy dana obserwacja jest równorzędna informacją z tą o płci, wieku itd. I dlatego również dla niej należy Karol Karasiewicz, Uniwersytet Gdański 3
stworzyć oddzielną zmienną. Wówczas wpisanie obserwacji z drugiej grupy w dowolnym miejscu w bazie sprawia, że komputer i tak dobrze rozumie, jak powinien klasyfikować tę osobę. Np. powiedzmy, że badamy dwie grupy osoby chore na nerwice (Grupa kryterialna) i osoby zdrowe (Grupa kontrolna). Arkusz danych z wyników ich badań mógłby wyglądać np. tak: ID GRUPA PŁEĆ WIEK 1 1 0 21 2 1 1 22 3 0 0 32 4 0 1 33 5 1 1 29 Schemat 2: Przykład wprowadzenia zmiennej grupującej GRUPA, identyfikatora grupy Załóżmy, że w zmiennej GRUPA wartość 0 oznacza grupę kontrolną (zero nerwicy), a 1 kryterialną. Załóżmy, że w zmiennej PŁEĆ wartość 0 oznacza mężczyznę, a 1 kobietę. Łatwo jest teraz zrozumieć z tabeli powyżej, że osoba nr 1 to mężczyzna z grupy kryterialnej w wieku 21 lat, natomiast osoba nr 4 to kobieta z grupy kontrolnej w wieku 33 lat. I dla komputera jest to równie (a może nawet bardziej) jasne. Co może jeszcze ważne przy dodaniu tej zmiennej grupującej GRUPA wcale nie musimy najpierw wpisywać danych z grupy kontrolnej, a potem kryterialnej, czy innych. Kolejność wpisywanyh danych jest całkowicie dowolna. 1.2.3 Nazwy zmiennych Zmienne w bazie danych są przez komputer (przez człowieka zresztą też) rozróżniane za pomocą ich nazwy. Nazwa powinna być najprostszą, najkrótszą i najbardziej zwięzłą etykietą tej własności, którą dana zmienna opisuje. Jest to bardzo korzystne dla czytelnośći i przejrzystości bazy danych. Generalnie istnieją proste zasady, których trzeba się trzymać przy nadawaniu zmiennym nazwy: Nazwa nie powinna mieć więcej niż 8 znaków długości, a już w ogóle nie może być dłuższa niż 32 znaki, Nazwa NIE MOŻE rozpoczynać się od cyfry, choć kolejnymi (drugim i następnymi) znakami mogą już być cyfry Nazwa nie może zawierać operatorów matematycznych (np. + ; - ; * ;; ** ; / ;! itd.), Nazwa nie może zawierać znaku spacji, jeśli chcesz oddzielić dwa człony nazwy, użyj raczej _ (Shift+-) lub kropki, np. KOD_UR lub KOD.UR, Karol Karasiewicz, Uniwersytet Gdański 4
Nazwa zmiennej nie może też być taka sama, jak nazwa funkcji (np. SUM, MEAN, SQRT, albo DATE), ale ten błąd bywa trudny do przewidzenia każdy program nieco inaczej nazywa i definiuje funkcje, dlatego nie przejmuj się nadto nim, nazwę zawsze można jakoś zmienić, Nazwa zmiennej nie może wreszcie być użyta w zbiorze dwa razy, tzn. jedna nazwa może być przypisana wyłącznie do jednej zmiennej (kolumny), dzięki temu nazwa ta pozwala programowi jednoznacznie zdefiniować tę zmienną. 1.2.4 Format zmiennych Czwartą fundamentalną zasadą przy wprowadzaniu danych z badań do komputera jest zachowanie jednolitego formatu zmiennych. Tzn. jeśli w kolumnie bazy danych wprowadza się liczby, to jedyni i wyłącznie liczby mogą się tam pojawiać. Natomiast, gdy wprowadzasz dane tekstowe (np. odpowiedzi na pytania otwarte), to nie mieszaj ich z informacjami liczbowymi. Błąd mieszania typów danych zdarza się rzadko, ale jest bardzo złośliwy i uciążliwy. Zdarza się często przy pytaniach z opcją Inne, jakie?. Np. załóżmy, że w pytaniu Jaką emocję teraz odczuwasz? mamy opcje odpowiedzi 1. Szczęście ; 2. Radość, 3. Obojętność, 4. Smutek, 5 Inną, jaką?. Zazwyczaj (i to polecam), zamiast wpisywać nazwę odczuwanej przez osobę emocji, wpisujemy jej kod liczbowy, np. ID EMOCJA 1 1 2 2 3 3 4 4 5 5 Schemat 3: Przykład bazy danych dla pytania z opcją Inne, jakie? Gdzie 1, 2, itd. oznaczają kolejne wymieniane w kafeterii odpowiedzi. OK., ale osoba nr 5 zaznaczyła, że odczuwa inną emocję, ale jaką? NIEWŁAŚCIWYM sposobem zapisania tej informacji w bazie byłoby zapisywanie zamiast cyfry 5 nazwy tej odczuwanej emocji, jak w poniższym przykładzie: ID EMOCJA 1 1 2 2 3 3 4 4 5 Złość, rozdrażnienie Karol Karasiewicz, Uniwersytet Gdański 5
Schemat 4: Przykład niewłaściwego zapisu danych z opcją Inne, jakie? Zauważ, że łączysz tutaj dwie informacje z jednej strony chcesz zapisać, że ktoś wybrał opcję Inne, a z drugiej, jakie to inne. Właściwą metodą zapisywania tej informacji jest zapis w dwóch zmiennych w zmiennej EMOCJA wpisywać należy wartość liczbową kodującą opcję Inne, a w drugiej (zmiennej tekstowej) wpisać informację, jakie to emocje. Na przykład mogłoby to wyglądać tak: ID EMOCJA INNA 1 1 2 2 3 5 Złość, gniew 4 4 5 5 Wstyd Schemat 5: Przykład prawidłowego zapisu danych z pytania z opcją Inne, jakie? Wówczas wiesz, patrząc na zmienną EMOCJE, jakie odpowiedzi zostały wybrane w przygotowanej przez Ciebie podstawowej kafeterii, a patrząc na zmienną INNA jakie inne emocje mogą być odczuwane. I w ten sposób w bazie panuje porządek. 1.2.5 Braki danych Przy okazji powyższego przykładu pojawiła się jeszcze jedna sprawa co zrobić, kiedy w jakiejś obserwacji nie mamy informacji o jednej lub kilku zmiennych? Jeśli posługujesz się jakimś programem przedstawiającym dane w postaci tabelarycznej (np. Excel, czy Access), braki danych możesz po prostu zapisać, jako puste komórki. Z tej metody skorzystano w powyższym przykładzie w zmiennej INNA. Widać tam, że osoba 1 i 2 nie ma żadnej innej emocji (bo nic tam nie zapisała). Możesz też po prostu ustalić sobie jakąś wartość, którą będziesz oznaczać brak danych, np. 9999. Wówczas baza danych wyglądałaby tak: ID EMOCJA INNA 1 1 9999 2 2 9999 3 5 Złość, gniew 4 4 9999 5 5 Wstyd 6 9999 9999 Schemat 6: Przykład zapisu braków danych, jako oddzielnego kodu Karol Karasiewicz, Uniwersytet Gdański 6
Widać w tym przykładzie, że np. osoba nr 6 to osoba, o której emocjach nic nie wiemy, a osoby 1, 2 i 4, to osoby, o których innych emocjach nic nie wiemy, choć wiemy o tym, jakie podstawowe emocje osoby te odczuwają. 1.2.6 Jak wprowadzać dane do Excela? Przyjrzyjmy się najpopularniejszemu programowi do wprowadzania i analizy danych, czyli Excelowi. Gdy uruchomisz program (np. klikając menu START --> Wszystkie programy --> Microsoft Excel) otworzysz domyślny, pusty dokument skoroszytu, który będzie wyglądał mniej więcej tak. Schemat 7: Widok skoroszytu Excela Najważniejsze w całym tym Excelu jest to, że informacje tam wpisywane mają postać tabelaryczną. Tzn. są kolumny oznaczone kolejnymi literami (A, B, C itd.) oraz wiersze oznaczone kolejnymi numerami (1, 2, 3 itd.). Kolumny będą stanowić podstawę dla tworzenia zmiennych, natomiast wiersze będą służyć do dopisywania kolejnych przypadków (obserwacji). W pierwszym wierszu (wiersz nr 1) możesz nawet to polecam wpisać nazwy kolejnych zmiennych, które w badaniu mierzysz. Np., gdy w badaniu interesują cię takie zmienne, jak PŁEĆ, WIEK i ZAWÓD uczestników, arkusz danych może wyglądać właśnie tak: Karol Karasiewicz, Uniwersytet Gdański 7
Schemat 8: Przykład wprowadzania nazw kolumn (zmiennych) Do kolejnych kolumn możesz wpisywać kolejne nazwy dla kolejnych zmiennych, tylu akurat, ile ci potrzeba. Kolejne wiersze (od 2 do 65536) będą przeznaczone na wpisywanie zebranych przez ciebie danych o uczestnikach badania. Istnieje kilka technicznych tricków ułatwiających wprowadzanie danych do Excela. Najłatwiej po arkuszu danych poruszać się klawiszami strzałek ( ). Można też po wpisaniu w komórkę tabeli odpowiedniej wartości przejść do następnej zmiennej używając klawisza TAB (po lewej), a do następnego przypadku (wiersza) poprzez naciśnięcie klawisza Enter. Innym sposobem jest zaznaczenie odpowiedniego wiersza w arkuszu poprzez przeciągnięcie przez niego kursora myszy z przytrzymanym lewym klawiszem. Wówczas przejście do następnej zmiennej można wykonać również używając klawisza Enter, jak na poniższym przykładzie. Na przykładzie tym widać jedną (może ważną?) rzecz. Mianowicie, niektóre dane nie mieszczą się w granicach wyznaczonych dla nich przez szerokość komórki. Nie ma w zasadzie potrzeby rozszerzania dla nich kolumny. Te dane są zapisane w pełnej treści, choć nie musimy ich widzieć. Generalnie najwygodniej jest korzystać z możliwie wąskich kolumn tak, aby móc widzieć ich jednocześnie jak najwięcej na monitorze. To sporo ułatwia. Podobnie dobrze jest korzystać z możliwie wąskich wierszy, bez rozszerzania ich dla pomieszczenia danych. Pamiętaj, że nazwy kolumn widać tylko u góry arkusza, a są ważne dla prawidłowego wprowadzania danych. Karol Karasiewicz, Uniwersytet Gdański 8
Schemat 9: Przykład zaznaczenia wiersza (obserwacji) dla wprowadzania danych z użyciem klawisza Enter Jest jeszcze jeden sposób wprowadzania danych z wykorzystaniem narzędzia Formularza wbudowanego w Excela. Jeśli przygotujesz nazwy zmiennych w arkuszu danych, jak na przykładzie powyżej (patrz Schemat 8, s. 8), to wybierz z menu Dane polecenie Formularz. Schemat 10: Schemat uruchamiania narzędzia Formularz w arkuszu Excela Karol Karasiewicz, Uniwersytet Gdański 9
Wówczas na ekranie pojawi ci się nowe okienko znacznie ułatwiające wprowadzanie danych, zwłaszcza dla dużych zbiorów obserwacji. Schemat 11: Okno Formularza w arkuszu Excela W oknie tym widzisz kolejne pola reprezentujące kolejne zmienne (kolumny) w bazie, twoim zadaniem jest wpisać ich wartości dla pojedynczego przypadku (wiersza). Jeśli w bazie są już zapisane jakieś dane, formularz będzie umożliwiał ci ich przejrzenie, aby dopisać nowe dane, wybierz przycisk Nowy po prawej. Po wpisaniu wartości dla kolejnej zmiennej naciśnij TAB, aby przejść do następnej kolumny lub aby przejść do następnego przypadku (o ile jest już wpisany, strzałki i działają jedynie w trybie edycji, nigdy dodawania danych). I to właściwie cała filozofia, jeśli chodzi o wprowadzanie danych do Excela. Może jeszcze warto dodać, że jest to najczęściej robota niezwykle żmudna i zajmuje wiele czasu. Ale po co straszyć? 1.3 Przykład danych z kwestionariusza wprowadzonych do Excela Skonstruowaliśmy kwestionariusz służący do pomiaru opinii o różnych napojach. Kwestionariusz wygląda mniej więcej tak: Pytanie Odpowiedź 1. Płeć A. Kobieta B. Mężczyzna 2. Rok urodzenia 19 3. Jak często pijesz gazowane napoje chłodzące? 1. W ogóle 2. Czasem 3. Często 4. Regularnie 4. Który z napojów lubisz? A. Coca Cola B. Fanta C. Sprite D. PEPSI E. 7up F. Mirinda G. Żaden H. Inny, jaki? Karol Karasiewicz, Uniwersytet Gdański 10
Zastanówmy się, ile mamy zmiennych? Jakie to zmienne? I jakie informacje musimy w nich zawrzeć? Ogólna reguła jest taka, że KAŻDE PYTANIE, to ODDZIELNA ZMIENNA (KOLUMNA) w bazie danych, poza tym WYJĄTKIEM, gdy w pytaniu istnieje możliwość udzielenia WIELOKROTNEJ ODPOWIEDZI. Wówczas KAŻDA OPCJA ODPOWIEDZI, to KOLEJNA ZMIENNA (KOLUMNA). No więc po kolei pytanie pierwsze o płeć. Zazwyczaj możesz się spodziewać, że znacząca większość badanych przez ciebie osób wybierze jedną z dwóch podanych przez ciebie opcji. Możesz więc założyć, że informacja o płci będzie zapisana w jednej kolumnie nazwijmy ją PŁEĆ. Można oczywiście wpisywać K i M lub Kobieta i Mężczyzna, ale doradzam przyjąć, że opcje te reprezentuje jakaś liczba. Np. 0 będzie oznaczać Mężczyznę, a 1 Kobietę. Programom statystycznym będzie łatwiej z takich danych korzystać. Podobnie będzie z informacją o roku urodzenia. Można się spodziewać, że będzie ona jednoznaczna, tzn. osoba badana uzupełni dwiema cyframi rok swojego urodzenia. Dlatego informacja ta znów będzie zapisana w postaci jednej kolumny (np. URODZENIE), w której będziemy zapisywać liczbę oznaczającą rok urodzenia. Podobnie również w odniesieniu do pytania trzecie o częstość pijania napojów chłodzących. Przyjmij, że kolejne opcje wyboru są reprezentowane przez kolejne wartości liczbowe. I tak 1 będzie oznaczać w ogóle, 2 Czasem itd. Natomiast jeśli chodzi o pytanie czwarte które napoje gazowane lubisz to sytuacja jest całkowicie odmienna. Można się spodziewać, że są osoby, które lubią tylko jeden z napojów np. PEPSI. Te osoby zaznaczą tylko tę jedną opcję. Ale inne osoby lubią więcej niż jedną z marek wówczas obie te odpowiedzi się pojawią. Podobnie mogą być również osoby, które nie lubią napojów żadnej z tych marek, a ponadto lubią napoje inne. Widać więc, że każda z odpowiedzi może być wybrana (zaznaczona) lub nie całkowicie niezależnie od tego, czy inne odpowiedzi były wybrane, czy nie. Innymi słowy jedna odpowiedź nie wyklucza innych. Dlatego każda z nich powinna stanowić oddzielną zmienną (kolumnę w bazie). W każdej takiej kolumnie zapisane będzie, czy dana opcja została wybrana, czy nie. Najczęściej przyjmuje się, że wybranie danej opcji zapisujemy stawiając 1, a nie wybranie jej 0. Dodatkowo warto zwrócić uwagę na opcję Inne, jakie? i zakodować informacje tam zapisane w dwóch oddzielnych kolumnach liczbowej kolumnie INNE (0 nie; 1 tak), oraz tekstowej JAKIE. Jeśli zrobisz, jak polecam, wówczas twoja baza danych powinna wyglądać jak na poniższym obrazku. Karol Karasiewicz, Uniwersytet Gdański 11
ID PŁEĆ URODZ KUPOWANIE COLA FANTA SPRITE PEPSI SEVENUP MIRINDA ŻADEN INNE JAKIE 1 1 93 2 0 1 0 1 1 0 0 0 2 0 89 4 1 0 0 0 0 0 0 1 RedBull Schemat 12: Przykład bazy danych dla zmyślonego kwestionariusza preferencji napojów gazowanych Karol Karasiewicz, Uniwersytet Gdański 12