Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 1/43 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii Kurs letni dla studentów studiów zamawianych na kierunku Matematyka w ekonomii i finansach wykład 1. dr Joanna Karłowska-Pik
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 2/43 Motto There are three kinds of lies: lies, damned lies, and statistics. Istnieja trzy rodzaje kłamstwa: kłamstwa, wierutne kłamstwa i statystyka. /Benjamin Disraeli/
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 3/43 Statystyka Definicja: Statystyka (ang. statistics) to nauka zajmujaca się zbieraniem, prezentowaniem i analizowaniem danych w celu odkrycia prawidłowości występujacych w zjawiskach masowych oraz wspomagania i podniesienia jakości procesu podejmowania decyzji. Definicja: Dane (ang. data) to informacje, zazwyczaj numeryczne lub w postaci kategorii. G. Upton, I. Cook: Oxford Dictionary of Statistics (2006). J. Górniak, J. Wachnicki: Pierwsze kroki w analizie danych (2004).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 4/43 Populacja Definicja: Zbiór elementów podlegajacych badaniu ze względu na jedna lub wiele cech nazywamy populacja (ang. population). Elementami populacji moga być osoby, przedmioty albo same wartości liczbowe pewnej cechy. Badanie całej populacji nazywamy badaniem kompletnym. Przykład: spis powszechny. Badanie kompletne bywa niewykonalne, kosztowne i czasochłonne.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 5/43 Próba Definicja: Próba (ang. sample) nazywamy skończony podzbiór populacji, który poddajemy badaniu ze względu na interesujac a nas cechę. Przykłady: populacja: przedsiębiorstwa zarejestrowane w Polsce, próba: przedsiębiorstwa województwa kujawsko-pomorskiego, populacja: przedsiębiorstwa województwa kujawsko-pomorskiego, próba: wybrane 20 przedsiębiorstw.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 6/43 Własności próby Próba powinna reprezentować populację w tym sensie, że częstość występowania każdej z badanych cech w próbie nie powinna się różnić od częstości występowania tej cechy w całej populacji. Próby obciażone uzyskiwane np. przez wywiad telefoniczny, czy ankietowe badania internetowe.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 7/43 Etapy wyboru próby Definiowanie szerokiej populacji. Wybór operatu losowania. Określenie metody doboru. Określenie wielkości próby. Implementacja założeń. Zbieranie danych. Sprawdzenie poprawności doboru. Źródło: Wikipedia Dobór próby.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 8/43 Operat losowania Operat losowania (ang. sampling frame) to zbiór, do którego w praktyce ograniczamy się dokonujac losowania, gdyż cała populacja może być na przykład trudna do zdefiniowania, nieskończona lub nie byłoby możliwości właczenia dowolnie wybranego jej elementu do próby. Może być również definiowany jako lista elementów populacji. Operatem może być np. spis wyborców, wykaz elementów towaru wyprodukowanych w tygodniu, w którym wykonujemy badanie itp. Operat musi być precyzyjnie zdefiniowany, aktualny i kompletny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 9/43 Metody wyboru próby Próba losowa prosta każdy element populacji ma jednakowa szansę znalezienia się w próbie (umiemy określić liczbowo jaka to szansa), wybierana najczęściej z użyciem liczb losowych. Próba systematyczna ze spisu elementów populacji wybieramy co n-ty. Próba kwotowa częsta w badaniach rynku, ankieter wybiera dowolne osoby posiadajace określone cechy np. 5 mężczyzn powyżej 60. roku życia (dowolnych), 2 gospodynie domowe (dowolne), 3 studentki (dowolne) itp.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 10/43 Metody wyboru próby c.d. Próba najłatwiej dostępna. Losowanie warstwowe w przypadku, gdy populacja ma naturalnie wyróżnione warstwy (np. mikroprzedsiębiorstwa, przedsiębiorstwa małe, średnie, duże) wybieramy losowa próbę z każdej z warstw o wielkości proporcjonalnej do liczebności warstwy. Losowanie zespołowe w przypadku, gdy próba podzielona jest na zespoły, losujemy zespoły i do próby wchodza wszystkie elementy wylosowanego zespołu, np. wszyscy mieszkańcy wylosowanej ulicy.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 11/43 Od czego zależy wybór metody losowania? Specyfika badań. Wielkość populacji i wielkość badania. Koszt badania. Przy dużych, złożonych badaniach stosuje się również złożone schematy losowania np. warstwowo-zespołowe. J. A. Walker, M. M. McLean: Statystyka dla każdego, WSiP, Warszawa (1994). Uwaga: W programie PASW Statistics zakłada się zawsze, że próba powstała w wyniku losowania prostego. Dla innych schematów losowania trzeba używać modułu PASW Complex Samples.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 12/43 Statystyka opisowa a statystyka matematyczna Statystyka opisowa (ang. descriptive statistics) zajmuje się prezentacja danych w postaci tabel, diagramów i charakterystyk liczbowych. Statystyka matematyczna (ang. mathematical lub inductive statistics) zajmuje się wnioskowaniem o własnościach populacji na podstawie własności próbki przy dopuszczeniu pewnego poziomu błędu, w oparciu o twierdzenia rachunku prawdopodobieństwa. Na tych zajęciach będziemy mieli do czynienia tylko ze statystyka opisowa!
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 13/43 Zmienne, parametry, statystyki Definicja: Zmienna (ang. variable) nazywamy pewna cechę populacji, która obserwujemy np. wzrost, wiek, czy kolor oczy badanych. Definicja: Numeryczne charakterystyki zmiennej takie jak średnia, mediana itp. obliczane w oparciu o próbkę nazywamy parametrami (ang. parameters). Numeryczne charakterystyki całej populacji nazywamy statystykami (ang. statistics). Sir Ronald Fisher (1922)
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 14/43 SPSS 1968 N. H. Nie, C. H. Hull i D. H. Bent tworza SPSS the Statistical Package for the Social Sciences, 1992 pierwsza wersja SPSSa na Windows, 2009 wraz z wersja 17.0 pakiet SPSS zmienia nazwę na PASW (Predictive Analytics Software) Statistics. Dalsze informacje: http://www.spss.pl, http://www.spss.com.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 15/43 Licencja UMK uczestniczy w programie Ariadna, co wiaże się z korzystaniem z otwartej licencji na oprogramowanie PASW Statistics i możliwościa zainstalowania oprogramowania na komputerach osobistych studentów. Wersja demonstracyjna, działajaca przez 21 (Windows) lub 30 (Mac) dni: http://www.spss.com/downloads/papers.cfm? ProductID=00035&Name=SPSS_Base&DLType=Demo
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 16/43 Instalacja Do instalacji podstawowej wersji potrzebne sa 2 płyty. Po uruchomieniu pierwszej z nich pojawia się Menu, z którego wybieramy ZAINSTALUJ SPSS STATISTICS 17.0. Następnie: zaznaczamy LICENCJA LOKALNA i klikamy DALEJ, zaznaczamy AKCEPTUJE WARUNKI I POSTANOWIENIA UMOWY LICENCYJNEJ i klikamy DALEJ, klikamy DALEJ,
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 17/43 Instalacja c.d. Wpisujemy: NAZWA UŻYTKOWNIKA Imię i nazwisko, ORGANIZACJA WMiI, UMK w Toruniu, NR SERYJNY 479. Kilkamy DALEJ. Zaznaczamy: ZAINSTALUJ POMOC W BIEŻACYM JEZYKU i klikamy DALEJ. Wskazujemy folder docelowy, domyślnie: C:\Program Files\SPSSInc\Statistics17\ i klikamy DALEJ. Klikamy INSTALUJ.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 18/43 Instalacja c.d. W czasie instalacji pojawia się komunikat WŁÓŻ DYSK: PLEASE INSERT THE NEXT DISK. Wkładamy płytę nr 2 i klikamy OK. Po zakończeniu otrzymujemy komunikat o pomyślnej autoryzacji. Po naciśnięciu OK przystępujemy do autoryzacji.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 19/43 Autoryzacja Wybieramy UZYSKAJ TERAZ LICENCJE NA PRODUKT. Klikamy DALEJ. Wprowadzamy kod. (Kod uprawnia do pracy z programem do dnia 31 marca 2010 roku). Klikamy DALEJ. Otrzymujemy komunikat, że autoryzacja powiodła się i pomyślnie przetworzono wszystkie kody. Klikamy DALEJ i ZAKOŃCZ. Możliwa jest również rejestracja na stronie www.spss.com.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 20/43 Aktualizacja Sugerowana jest aktualizacja oprogramowania do wersji 17.0.2. Aktualizacji dokonujemy wchodzac na stronę http://www.spss.pl/serwis/pasw1702patch.html i klikajac DOWNLOAD PATCHA (FOR WINDOWS). Należy wypełnić ankietę podajac swoje dane i numer licencji UMK (479), kliknać DALEJ, a następnie POBIERZ TUTAJ. Zapisujemy plik PASWStats17.0.2WindowsPatch.exe (najlepiej w katalogu C:\Program Files\SPSSInc\Statistics17\) a następnie go otwieramy i klikamy URUCHOM. Dalej postępujemy tak samo jak przy instalacji samego programu. Po instalacji restartujemy komputer!
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 21/43 Uruchamianie programu START -> WSZYSTKIE PROGRAMY -> SPSS INC -> PASW STATISTICS 17 -> PASW STATISTICS 17 Po uruchomieniu programu pojawia się okno dialogowe. Można od razu z niego coś wybrać lub kliknać ANULUJ.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 22/43 Przykłady Dane. Wybieramy: PLIK -> OTWÓRZ -> DANE... otwieramy: C:Program Files\SPSSInc\Statistics17\Samples \Polish\1991 U.S. General Social Survey.sav. Raport. Wybieramy: PLIK -> OTWÓRZ -> RAPORT... otwieramy: C:Program Files\SPSSInc\Statistics17\Samples \Polish\msouttut.spv. (We wcześniejszych wersjach SPSSa raporty miały rozszerzenie spo).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 23/43 Przykłady c.d. Polecenia. Wybieramy: PLIK -> OTWÓRZ -> POLECENIA... otwieramy: C:Program Files\SPSSInc\Statistics17\Samples \Polish\CreateData.sps. Zaznaczamy treść polecenia myszka i naciskamy ikonkę z niebieska strzałka (URUCHOM ZAZNACZONY KOD).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 24/43 Opcje użytkownika Na poczatku pracy z programem warto ustawić własne opcje: EDYCJA -> OPCJE... Można tu odgórnie ustalić m.in. wyglad raportów, tabel i wykresów, język jakiego chcemy używać, ścieżki dostępu do plików itp. Szczegółowe omówienie ćwiczenia.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 25/43 Okno danych Okno z danymi ma postać tabeli. W kolumnach znajduja się zmienne, a w wierszach kolejne obserwacje. Bezpośrednio nad wierszem zawierajacym nazwy zmiennych, z lewej strony znajduje się pole, w którym można odczytać pozycję (czyli numer wiersza i nazwę kolumny) aktywnej komórki, a z prawej pole, w którym można edytować zawartość tej komórki. Po najechaniu myszka na nazwę zmiennej pojawia się etykieta z opisem zmiennej.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 26/43 Zmienne U dołu okna znajduja się przyciski DANE i ZMIENNE, które umożliwiaja przechodzenie od okna z danymi do okna z opisem zmiennych. W tym drugim każdy wiersz odpowiada jednej zmiennej. Dla każdej zmiennej określone sa: Nazwa krótka nazwa zmiennej, nie może zawierać spacji. Typ po uaktywnieniu tej komórki pojawiaja się..., wystarczy kliknać na nie myszka i otwiera się okienko, pozwalajace zmienić typ zmiennej na np. numeryczny, tekstowy, dolar, itp.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 27/43 Zmienne c.d. Szerokość liczba znaków, która maksymalnie będa miały wpisywane dane. Dziesiętne liczba miejsc dziesiętnych, wpisuje się tylko dla danych liczbowych. Etykieta pełny opis zmiennej. Wartości jeżeli zmienna przyjmuje tylko kilka powtarzajacych się wartości (najczęściej kategorie, np. kolor oczu: niebieskie, zielone, piwne, brazowe), to możemy je oznaczyć liczbami i w tym polu zdefiniować ich znaczenie. (Na DANYCH kliknij ikonkę z etykietka ETYKIETY WARTOŚCI!)
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 28/43 Zmienne c.d. Braki danych w pewnych sytuacjach jest celowe wyznaczenie osobnych kategorii dla braków danych (kilku jeśli sa spowodowane różnymi zdarzeniami), w tym polu podajemy, które kategorie program ma traktować jako braki danych. Kolumny liczba znaków pokazywanych w kolumnie z danymi, powinna być tak dobrana, żeby mieściły się dane i nazwy zmiennych. Wyrównanie wyrównanie danych w kolumnie: do lewej, do prawej lub centralnie.
Zmienne c.d. Poziom rodzaj skali, w której mierzone sa zmienne: ilościowy, gdy mamy dane liczbowe i ważne jest, żeby móc je porównywać i wykonywać na nich działania, np. A jest dwa razy cięższy niż B; porzadkowy, gdy dane sa liczbowe lub odnosza się do kategorii i ważne będzie porównywanie danych, np. oceny na koniec roku szkolnego, wzrost (niski, średni, wysoki) itp.; nominalny, najczęściej dla danych tekstowych lub kategorii, gdy na danych nie wykonujemy żadnych operacji, np. numer PESEL, nazwisko, kolor oczu. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 29/43
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 30/43 Import danych z Excela Otwieramy plik C:Program Files\SPSSInc\ Statistics17\Samples\Polish\demo.xls w programie Excel, aby poznać jego strukturę. Zamykamy plik. Wybieramy w PASW Statistics: PLIK -> OTWÓRZ -> DANE..., zmieniamy na dole ustawienie na PLIKI TYPU: Excel i otwieramy żadany plik. Pojawia się okno dialogowe, w którym należy zaznaczyć, czy w oryginalnym pliku nazwy zmiennych znajdowały się w pierwszym wierszu danych. Klikamy OK. Specyfikujemy zmienne.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 31/43 Import danych z plików tekstowych Otwieramy plik C:Program Files\SPSSInc\ Statistics17\Samples\Polish\demo.txt np. w Notatniku, aby poznać jego strukturę. Zamykamy plik. Wybieramy w PASW Statistics: PLIK -> CZYTAJ DANE TEKSTOWE..., otwieramy żadany plik. Uruchamia się Kreator importu tekstu, w którym odpowiadamy na kolejne pytania i klikamy DALEJ. U dołu mamy podglad w jaki sposób przy aktualnych ustawieniach wczyta się plik.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 32/43 Uwaga na przecinki! Jeśli w pliku tekstowym pojawiaja się dane z miejscami po przecinku, Kreator importu tekstu traktuje przecinek jako znak oddzielajacy zmienne. Dlatego w kroku 4. należy przecinek odznaczyć.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 33/43 Import danych z baz danych Otwieramy plik C:Program Files\SPSSInc\ Statistics17\Samples\Polish\demo.mdb w programie Microsoft Access, aby obejrzeć jego strukturę. Zamykamy plik. Wybieramy PLIK -> PRZEJMIJ BAZE DANYCH -> NOWA KWERENDA... Otwiera się Kreator przejmowania baz danych. Spośród zdefiniowanych źródeł baz danych wybieramy MS ACCESS DATABASE, klikajac dwukrotnie myszka.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 34/43 Import danych z baz danych c.d. W oknie, które się pojawi, klikamy PRZEGL i wczytujemy żadan a bazę danych. Klikamy OK. ADAJ... Po zaznaczeniu na dole opcji TABELE pokazuja się możliwe do wyboru tabele bazy danych. Klikajac na znak + przy nazwie tabeli, możemy otrzymać listę zmiennych tej tabeli. Zaznaczamy i przerzucamy do okna z prawej strony cała tabelę lub wybrane zmienne. Klikamy DALEJ.
Import danych z baz danych c.d. W następnym kroku możemy zdecydować, które obserwacje wczytujemy. Możemy zadać jakiś warunek z użyciem funkcji i dostępnych zmiennych oraz wczytać losowa próbkę spośród dostępnych obserwacji. Klikamy DALEJ. Specyfikujemy zmienne. Zmienne tekstowe można przekodować na numeryczne. Klikamy DALEJ. Otrzymujemy zapytanie w języku SQL, które możemy wykonać lub zapisać w oknie poleceń. Możemy również zapisać kwerendę w pliku.spq (kwerenda PASW Statistics) lub jako plik danych.sav. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 35/43
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 36/43 Dodatkowe możliwości Pliki zapisane jako pliki baz danych programu PASW Statistics można edytować: PLIK -> PRZEJMIJ BAZE DANYCH -> EDYTUJ KWERENDE..., lub otwierać: PLIK -> PRZEJMIJ BAZE DANYCH -> URUCHOM KWERENDE...
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 37/43 Operacje na plikach danych Dodawanie zmiennej: EDYCJA -> WSTAW ZMIENNA lub zaznaczamy kolumnę, klikajac myszka na jej nazwę, klikamy prawym klawiszem myszki i wybieramy WSTAW ZMIENNA. Dodawanie obserwacji: EDYCJA -> WSTAW OBSERWACJE lub zaznaczamy wiersz, klikajac myszka na jego numer, klikamy prawym klawiszem myszki i wybieramy WSTAW OBSERWACJE. Usuwanie zmiennej lub obserwacji: zaznaczamy wiersz lub obserwację, klikamy prawym klawiszem myszki i wybieramy WYTNIJ lub WYCZYŚĆ.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 38/43 Operacje na plikach danych c.d. Sortowanie obserwacji: DANE -> SORTUJ OBSERWACJE... Przenosimy z listy te zmienne, według których chcemy sortować, w kolejności jaka ma być uwzględniona przy sortowaniu. Sortowanie zmiennych: DANE -> SORTUJ ZMIENNE... Zmienne można posortować względem jednego z atrybutów np. nazwy, poziomu itp. Pozostałe operacje ćwiczenia.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 39/43 Skad się biora dane? zliczanie zdarzeń (problem z dostępnościa danych), wyniki pomiarów (często w badaniach doświadczalnych), ankiety.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 40/43 Dokładność pomiarów Dokładność pomiarów zależy od: możliwości aparatury, celu badań, zasad przestrzeganych w danej dyscyplinie. Gdy nie ma pewności z jaka dokładnościa powinny być nasze pomiary, trzeba tak dobrać jednostki, aby zakres między najmniejszym a największym pomiarem wynosił od 30 do 300 jednostek. A. Łomnicki: Wprowadzenie do statystyki dla przyrodników, PWN, Warszawa (2003).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 41/43 Zasady zaokragleń Ostatnia cyfra nie zmienia się, gdy następuje po niej 0, 1, 2, 3 lub 4, a zwiększa się o 1, gdy następuje po niej 6, 7, 8 lub 9. Ostatnia cyfra zwiększa się o 1, gdy następuje po niej 5 i dalej choć jedna cyfra różna od 0. Ostatnia cyfra nie zmienia się, gdy jest parzysta i następuje po niej 5, a dalej same 0 lub dalsze miejsca sa nieokreślone. Ostatnia cyfra zwiększa się o 1, gdy jest nieparzysta i następuje po niej 5, a dalej same 0 lub dalsze miejsca sa nieokreślone.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 42/43 Problemy badań ankietowych Dotarcie do respondenta. Jak zmusić respondenta do udziału w ankiecie? Sformułowanie pytań jasność, jednoznaczność, precyzja, takt. Rzetelność odpowiedzi (to samo pytanie należy formułować na kilka sposobów, nie informować o celu badania, formułować małe pytania pomocnicze zamiast jednego dużego). J. A. Walker, M. M. McLean: Statystyka dla każdego, WSiP, Warszawa (1994).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii p. 43/43 Literatura Jarosław Górniak, Janusz Wachnicki: Pierwsze kroki w analizie danych, SPSS Polska, Kraków (2004). Adam Łomnicki: Wprowadzenie do statystyki dla przyrodników, PWN, Warszawa (2003). Graham Upton, Ian Cook: A Dictionary of Statistics, Oxford University Press, New York (2006). James A. Walker, Margaret M. McLean: Statystyka dla każdego, WSiP, Warszawa (1994).