1 Przygotowanie ankiety Na dzisiejszych zaj ¾eciach skupimy si ¾e na zasadach tworzenia, wprowadzania oraz wst ¾epnej analizie danych zawartych w ankietach. Za ó zmy, ze ankieta sk ada si ¾e nast¾epujacych ¾ cz ¾eści: a) metryczka numer ankietera numer ankiety p eć wiek wykszta cenie miejscowość K/M średnie licencjat/in zynier magister doktor wieś miasto do 20 000 miasto 20000 50000 miasto 50000-500 000 miasto powy zej 500 000 b) pytania z wielokrotnymi odpowiedziami, w naszym przypadku pytanie mog oby brzmieć: Czy wybierajac ¾ kurs kierowa eś/ kierowa aś si ¾e marka¾ uczelni? tak nie rzetelnościa¾ prowadzenia kursów? tak nie lokalizacja¾ uczelni? tak nie dost ¾epnościa¾ parkingów? tak nie jakościa¾ obs ugi? tak nie cena¾ kursu? tak nie terminami zjazdów? tak nie czasem trwania kursu? tak nie liczba¾ laboratoriów? tak nie mo zliwościa¾ rozbicia p atności na raty? tak nie dost ¾epnościa¾ do nansowania? tak nie mo zliwościa¾ uzyskania certy katów? tak nie mo zliwościa¾ zni zki na kart ¾e STAT? tak nie innymi czynnikami, jakimi? c) w nast¾epnej cz¾eści zebrane sa¾ pytania powiazane ¾ ze skala¾ Likerta (ograniczymy si ¾e tutaj do klasycznej 5 stopniowej skali Likerta). Rozwa zane przez nas pyta- 1
nia b ¾eda¾ dotyczy y ró znych aspektów dotyczacych ¾ kursów. W ka zdym pytaniu mamy do dyspozycji nast ¾epujace ¾ odpowiedzi: - zdecydowanie si ¾e zgadzam - raczej si¾e zgadzam - nie mam zdania w tej sprawie - raczej si¾e nie zgadzam - zdecydowanie si ¾e nie zgadzam Ankietowanym postawiono natomiast postawiono pytania dotyczace ¾ nast ¾epujacych ¾ kwestii: Przy wyborze kursu kierowa em si¾e marka¾ uczelni. Przy wyborze kursu cena nie by a najwa zniejsza, wa zniejsze by y inne aspekty. Przy wyborze kierowa em si ¾e jakościa¾ obs ugi. Przy wyborze kursu decydowa y wzgl ¾edy nansowe, cena mia a decydujace ¾ znaczenie. Jestem zadowolony z odbytego kursu, nie mam zadnych zastrze zeń. Kurs spe ni wszystkie moje oczekiwania. Przy wyborze kursu kierowa em si ¾e renoma¾ uczelni. Nie jestem w pe ni zadowolony z kursu. Oczywiście atwo tutaj spostrzec, ze cześć stwierdzeń si ¾e dubluje, natomiast cześć si ¾e wzajemnie uzupe nia. Jest to ca kowicie zamierzone i w dalszej cz ¾eści pomo ze nam sprawdzić wiarygodność odpowiedzi. d) ostatnia cz¾eść sk ada si¾e z zestawu pytań dla których stosujemy skal¾e dyferencja u semantycznego. W naszych rozwa zaniach b ¾edziemy zak adali, ze w ka zdym stwierdzeniu ankietowany móg zaznaczyć jedna¾ z 7 odpowiedzi, z których pierwsza by a skrajnie negatywna, 4 neutralna, zaś 7 skrajnie pozytywna. Rozwa zamy nast ¾epujace ¾ cechy w tej cz¾eści: popularność uczelni obs uga studentów koszty kursu warunki studiowania prowadzacy ¾ pracownie (komputery, oprogramowanie) warunki lokalowe zadowolenie z kursu 2
Dla ujednolicenia nazw zmiennych zastosujmy nazwy jak na poni zszych zrzutach 3
Jeśli mamy ju z ustalone nazwy zmiennych warto zastanowić si ¾e jakie wartości moga¾ przyjmować poszczególne zmienne. Jeśli chodzi o dwie ostatnie cz ¾eści to nie ma tutaj raczej zadnych problemów z określeniem mo zliwych wartości. Zmienne odnoszace ¾ si¾e do ostatniej cz¾eści przyjmuja¾ wartości od 1 do 7. W cz¾eści trzeciej zaś od 1 do 5. Cz¾eść druga musi zapewniać nam mo zliwość stwierdzenia, czy wybrane zosta y konkretne odpowiedzi. Najwygodniejsze wydaje si ¾e zastosowanie 0 dla "nie", zaś 1 dla "tak". Najwi ¾ecej problemów mo ze nieść określenie mo zliwych odpowiedzi dla metryczki. Pole numer ankietera oraz numer ankiety nale zy ograniczyć jedynie poprzez liczb ¾e ankieterów oraz liczb ¾e ankiet, nie jesteśmy jednak w stanie (jak równie z nie ma to wi ¾ekszego sensu) określić mo zliwych odpowiedzi. Podobne przemyślenia odnosza¾ si¾e do zmiennej wiek, nie jesteśmy w stanie określić wieku respondentów, chcemy jedynie aby by y to os- 4
oby doros e. Jeśli chodzi natomiast o kolejna¾ pozycj¾e, czyli p eć to tutaj nie ma problemów z określeniem mo zliwych odpowiedzi i stosownym przygotowaniem formularza. Jeśli chodzi o zmienna¾ wykszta cenie to przyjmijmy konwencj ¾e jak w poni zszej tabeli wartość etykieta 0 średnie 1 licencjat / in zynier 2 magister 3 doktor w podobny sposób określimy wartości dla zmiennej zamieszka y wartość etykieta 0 wieś 1 miasto do 20 000 2 miasto 20000 50000 3 miasto 50000-500 000 4 miasto powy zej 500 000 2 Wst ¾epna analiza danych Podczas wst ¾epnej analizy danych postaramy si ¾e poznać podstawowe charakterystyki naszej próby. Postaramy si ¾e stwierdzić jaki procent stanowia¾ kobiety, jak kszta tuje si ¾e rozk ad próby ze wzgl ¾edy na wiek, wykszta cenia, czy te z miejsce zamieszkania. Na wst ¾epie za pomoca¾ wykresy ko owego przedstawmy podzia naszej próby ze wzgl ¾edu na wiek 5
Jak atwo stwierdzić m ¾e zczyźni sa¾ w wi¾ekszości i stanowia¾ 52% próby. Nast ¾epnie wyznaczmy histogram wieku naszych respondentów W dalszej cz ¾eści gra cznie przedstawiamy rozk ad wykszta cenia 6
i ostatecznie miejsce zamieszkania Jakie wnioski mo zna wysnuć ze wst ¾epnej analizy danych za pomoca¾ gra cznych reprezentacji cz ¾eści sk adowych metryczki? 3 Sprawdzenie poprawności danych W tej cz¾eści skupimy si¾e na dość istotnej cz¾eści analizy badań ankietowych. Jest dość trudna i sporna cz¾eść. Pojawia si¾e bowiem problem czy usuwać z dalszej analizy ewidentnie b ¾ednie wype nione ankiety, czy mo ze wyst ¾epujace ¾ b ¾edy sa¾ jedynie kwestia¾ pośpiechu i niezamierzonej pomy ki. Zauwa zmy, ze w cz ¾eści pytania z wielokrotnymi odpowiedziami pojawia si ¾e odpowiedź dotyczaca ¾ zni zki za posiadanie karty STAT. Karta ta jest moim wymys em i jeśli wiem nie istnieje w rzeczywistości. W zwiazku ¾ z tym wszystkie osoby, które odpowiedzia y 7
"TAK" w tym pytaniu sa¾ powiedzmy niezgodne z prawda ¾;). Jak widać na powy zszym wykresie osób, które mijaja¾ si¾e z prawda¾ jest dość du zo i usuni ¾ecie ich mog oby znacznie zmniejszyć prawdziwość wyników. Ukrywanie w mo zliwych odpowiedziach takich, które sa¾ niemo zliwe albo kcyjne jest wskazane i pozwala nam ocenić szczerość i prawdziwość odpowiedzi respondentów. Podobny trik zosta równie z zastosowany w sekcji pytać ze skala¾ Likerta. Przy dok adniejszej analizie mo zemy atwo zauwa zyć, ze pytania: Przy wyborze kursu cena nie by a najwa zniejsza, wa zniejsze by y inne aspekty. Przy wyborze kursu decydowa y wzgl ¾edy nansowe, cena mia a decydujace ¾ znaczenie. Wzajemnie si ¾e uzupe niaj a, ¾ czyli jeśli w pierwszym pytaniu pojawia si ¾e odpowiedź powiedzmy "zdecydowanie si ¾e zgadzam" to w drugim powinno pojawić si ¾e "zdecydowania si ¾e nie zgadzam". Oczywiście taka korelacja by aby idealna, ale oczywiście mo zemy dopuścić inne powiazania. ¾ Nie powinniśmy jednak akceptować odpowiedzi "zdecydowanie si¾e zgadzam" na dwa tak postawione pytania. Podobnie zachowuja¾ si ¾e stwierdzenia: Jestem zadowolony z odbytego kursu, nie mam zadnych zastrze zeń. Nie jestem w pe ni zadowolony z kursu. Postarajmy si ¾e teraz wy apać odpowiedzi, które sugeruja¾ powiedzmy zbytni pośpiech podczas wype niania ankiet. Zastanówmy si ¾e jakie pary odpowiedzi uznajemy za "podejrzane"? Przyjmijmy konwencj ¾e, ze za podejrzane uznamy 8
nast¾epujace ¾ pary odpowiedzi: zdecydowanie si ¾e zgadzam raczej si ¾e zgadzam zdecydowanie si ¾e zgadzam zdecydowanie si ¾e nie zgadzam zdecydowaniem si ¾e nie zgadzam raczej si ¾e nie zgadzam Stwórzmy zatem dwie nowe zmienne, które przyjma¾ wartość 1 gdy nastapi ¾ któryś z powy zszych przypadków oraz wartość 0 gdy zaden z nich nie wystapi. ¾ Oczywiście najpierw uzupe nimy nowa¾ zmienna¾ zerami, a potem wstawimy jedynki w odpowiednich miejscach. Kluczowe jest tutaj zastosowanie odpowiedniego warunku. Mo zemy oczywiście napisać koniunkcj ¾e odpowiednich przypadków gdzie w warunki selekcji wpisano nast ¾epujacy ¾ warunek: (cenanieistotnal=1 & taniapropozycjal=5) j (cenanieistotnal=2 & taniapropozycjal =5) j (cenanieistotnal = 1 & taniapropozycjal = 4) j (cenanieistotnal 9
=5 & taniapropozycjal =1) j (cenanieistotnal =5 & taniapropozycjal = 2) j (cenanieistotnal = 4 & taniapropozycjal= 1). Oczywiście jeśli troch ¾e pokombinujemy mo zemy wykorzystać szanse jakie daja¾ nam mo zliwe wartości przyjmowane przez poszczególne zmienne. Okazuje si¾e, ze ten sam rezultat otrzymujemy poprzez zastosowanie nast¾epujacej ¾ formu y 10
Analogiczne rozwa zania zastosujemy do drugiej pary zmiennych kolizyjnych A nast ¾epnie w nowej zmiennej oznaczymy sobie te przypadki, w których nastapi y ¾ dwie kolizje. Jeśli chcemy jedynie wy apać dwie kolizje to najprościej zastosować nast ¾epujac ¾ a¾ formu ¾e Jeśli jednak interesuje nas liczba kolizji to iloczyn musimy zastapić ¾ suma. ¾ Zastanówmy si ¾e teraz w jaki sposób mo zna wykrywać potencjalne braki rzetelności w wype nianiu ankiety w sekcji pytań ze skala¾ dyferencja u semantycznego. W tym miejscu nasuwa si¾e nast¾epujace ¾ spostrze zenie: je zeli w pierwszej dla poczatkowych ¾ stwierdzeń opinia jest pozytywna, natomiast w ostatnim (podsumowujacym) ¾ stwierdzeniu jest ona negatywna, to mo zemy sadzić, ¾ ze ankieta nie by a uwa znie wype niana i ktoś z rozmachu zakreśla odpowiedzi (sa¾ to dość cz¾esto spotykane sytuacje, dlatego uk adajac ¾ ankiet¾e dobrze jest czasami odwrócić jakieś stwierdzenie). Wy apmy zatem w kolejnej zmiennej kontrolnej opisana¾ powy zej sytuacj ¾e oraz jej zaprzeczenie, tzn. wi ¾ekszość wskazań jest negatywna a ostateczne podsumowanie jest pozytywne. Przy czym za negatywne b ¾edziemy tutaj przyjmować odpowiedzi od 1 do 3 zaś za pozytywne od 5 do 7. W tym celu stworzymy sobie nowa¾ zmienna, ¾ która przyjmuje wartość 1 jeśli wszystkie poczatkowe ¾ odpowiedzi sa¾ pozytywne, wartość -1 jeśli wszystkie sa¾ negatywne oraz wartość 0 w pozosta ych przypadkach. Standardowo najpierw wyzerujemy wszystkie odpowiedzi, nast ¾epnie wpisujac ¾ odpowiednia¾ 11
formu ¾ a ustalamy w jakich przypadkach jest wartość 1 zast¾epujac ¾ nierówność > przez < ustalamy, gdzie jest wartość -1. Teraz zostaje ju z jedynie wy apanie tych przypadków w których kontrolads ma wartość 1 oraz zmienna kurszadowolenieds ma wartość negatywna¾ i odwrotnie. W taki sposób mo zemy dokonać wst ¾epnej analizy poprawności danych oraz dokonać zarysu analizy danych ankietowych. G ¾ebszej analizy statystycznej tych dokonamy na kolejnym przedmiocie o nazwie "Statystyczna Analiza Danych". 12