Wykład 1: O statystyce i analizie danych. Arkusz danych w programie STATISTICA
Podstawowe informacje wykładowca: dr Marek Sobolewski konsultacje: środa 8.40-10.10, czwartek 8.40-10.10 (p. L-400) strona internetowa: www.msobolew.sd.prz.edu.pl wykład 15 godz. laboratorium 15 godz. ćwiczenia 15 godz. forma zaliczenia: kolokwium z części laboratoryjnej, kolokwium z ćwiczeń 2
Zakres materiału (wykład) podstawowe pojęcia związane ze statystyczną analizą danych konstrukcja arkusza danych statystycznych w programie STATISTICA sposoby zbierania danych statystycznych (internetowe bazy danych) metody opisu danych statystycznych (grupowanie, statystyki opisowe, prezentacje graficzne) indeksy statystyczne analiza dynamiki zjawisk społeczno-gospodarczych elementy wnioskowania statystycznego praktyczne wykorzystanie testów statystycznych analiza zależności pomiędzy dwiema cechami statystycznymi (współczynnik korelacji) 3
Zakres materiału (laboratorium) 1. Arkusz danych w programie STATISTICA konstrukcja, modyfikacja, formuły arkusza danych 2. Tabelaryczny i graficzny sposób prezentacji danych (grupowanie tabele liczności, wykresy kołowe i histogramy, wykresy słupkowe) 3. Statystyki opisowe sposób wyznaczania i interpretacji za pomocą programu STATISTICA (tabele i wykresy ramka-wąsy) 4. Graficzne metody prezentacji danych w programie STATISTICA jako uzupełnienie metod grupowania danych i wyznaczania statystyk opisowych 5. Analiza zależności pomiędzy dwiema cechami elementy wnioskowania statystycznego. 6. Analiza danych czasowych indeksy dynamiki 7. Kolokwium zaliczeniowe Niektóre tematy będą realizowane tylko na wykładzie 4
Zakres materiału (ćwiczenia) 1. Podstawowe pojęcia statystyczne. Rodzaje cech statystycznych. Sposoby grupowania danych statystycznych. 2. Statystyki opisowe (1) miary położenia. 3. Statystyki opisowe (2) miary zmienności i asymetrii. 4. Analiza korelacji. 5. Analiza danych czasowych. 6. Ćwiczenia w rozwiązywaniu problemów statystycznych. 7. Kolokwium zaliczeniowe. Niektóre tematy będą realizowane tylko na wykładzie 5
Program STATISTICA Większość obliczeń i prezentacji graficznych wykonywać będziemy za pomocą programu STATISTICA (wersje 7, 8, 9 lub 10) specjalistycznego narzędzia analizy danych. Program STATISTICA jest zainstalowany w pracowniach, ponadto licencja którą posiada Wydział Zarządzania i Marketingu, uprawnia studentów do posługiwania się programem na komputerach domowych. Informacje o sposobie uzyskania wersji instalacyjnej programu STATISTICA znajdują się na stronie (hasło: kmi): http://kmiwe.portal.prz.edu.pl/do-pobrania/ Część obliczeń i analiz wykonywać będziemy także za pomocą arkusza kalkulacyjnego Excel. 6
Zbiory danych Podczas nauki statystyki będziemy najczęściej korzystać z gotowych zbiorów danych wszystkie pliki będą dostępne w pracowniach. Arkusze danych będą też dostępne na stronie domowej wykładowcy w zakładce materiały do pobrania. Uwaga! Do korzystania z baz danych wymagane jest zainstalowanie programu STATISTICA. 7
Literatura 1. Hydzik P., Sobolewski M., Komputerowa analiza danych społeczno-gospodarczych, Oficyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2007. 2. Aczel A.D., Statystyka w zarządzaniu, PWN, Warszawa 2000 lub 2011. Dodatkowe pozycje podawane będą przez osoby prowadzące laboratoria i ćwiczenia 8
CO TO JEST STATYSTYKA? STATYSTYKA zbiór metod badania zjawisk masowych (zbieranie i przetwarzanie danych): Statystyka opisowa to narzędzia prezentacji i opisu posiadanych danych. Statystyka matematyczna to zbiór narzędzi wnioskowania statystycznego, które pozwalają na podstawie posiadanych danych wyciągać wnioski natury ogólniejszej. STATYSTYKA / ANALIZA DANYCH a Zarządzanie Znaczenie metod analizy danych w skutecznym zarządzaniu jest oczywiste. Nie sposób podejmować decyzje w jakiejkolwiek dziedzinie, bez dokładnej wiedzy o funkcjonowaniu przedsiębiorstwa w chwili obecnej i przeszłości. Nie sposób podejmować właściwych decyzji bez wiedzy o konkurentach, otoczeniu makroekonomicznym oraz o swoich klientach. Statystyka pozwala na uporządkowanie danych o tych aspektach rzeczywistości w taki sposób, by informację zamienić w wiedzę. 9
Jednostka statystyczna, próba i populacja Przedmiotem analiz statystycznych są tzw. JEDNOSTKI STATYSTYCZNE, czyli obiekty podlegające badaniu, których cechy (dane) są analizowane. Zbiór jednostek statystycznych, o których posiadamy dane będące przedmiotem analizy nazywany jest PRÓBĄ (STATYSTYCZNĄ). Szerszy zbiór jednostek, o którym nie posiadamy danych, lecz chcemy go poznać na podstawie próby jest określany jako POPULACJA. Aby móc wnioskować o populacji na podstawie próby należy zastosować metody WNIOSKOWANIA STATYSTYCZNEGO niezbędnym jednak warunkiem jest to, by próba była REPREZENTATYWNA dla całej populacji. 10
Przykłady badań statystycznych Temat badania Jednostka statystyczna Próba Populacja Sondaż wyborczy Dorosły mieszkaniec Polski Losowy podzbiór mieszkańców Polski (zwykle ok. 1000 osób) Wszyscy mieszkańcy Polski (BADANIE CZĘŚCIOWE) Wykorzystanie środków unijnych w gminach woj. podkarpackiego Gmina Gminy woj. podkarpackiego (N = 160) Tak jak próba (BADANIE PEŁNE) Poziom życia w Polsce na tle innych państw Unii Europejskiej Państwo Państwa należące do UE (N = 27) Tak jak próba (BADANIE PEŁNE) Zadowolenie mieszkańców Rzeszowa z rozwoju miasta w ostatnich latach Mieszkaniec Rzeszowa Losowo wybrani mieszkańcy Rzeszowa Wszyscy mieszkańcy Rzeszowa (BADANIE CZĘŚCIOWE) 11
Rodzaje badań statystycznych Badanie statystyczne może mieć charakter PEŁNY lub NIEPEŁNY (badanie częściowe). Wykonanie jedynie badanie częściowego może być spowodowane: kosztami i czasochłonnością wykonania badania pełnego (sondaż wyborczy, badanie opinii publicznej); niemożnością wykonania badania pełnego, z powodu otwartego charakteru populacji (badanie skuteczności leków, jakości nauczania statystyki); niszczeniem elementów podlegających badaniu (kontrola jakości produktów spożywczych). 12
Dobór metody analizy statystycznej zależy od charakteru CECH podlegających badaniu. Z praktycznego punktu widzenia istotna jest umiejętność rozróżnienia trzech typów cech statystycznych: cechy mierzalne (ilościowe, liczbowe) cechy porządkowe cechy nominalne (jakościowe) Cechy statystyczne i ich rodzaje Są to cechy, których wartości są wyrażane za pomocą liczb: wiek, dochody, ocena ze statystyki, stopa bezrobocia, środki unijne pozyskane przez gminę w roku 2009, itd. Są to cechy, których wartości nie są wyrażane za pomocą liczb ale dają się logicznie uszeregować: poziom wykształcenie, stosunek emocjonalny do reklamy, itd. Są to cechy, których warianty określają tylko i wyłącznie przynależność do pewnej grupy: płeć, miejsce zamieszkania, 13 kierunek studiów, posiadanie prawa jazdy, itd.
Typy danych statystycznych Ze względu na charakter jednostek statystycznych podlegających badaniu wyodrębniamy trzy podstawowe typy zbiorów danych: dane ankietowe (kwestionariuszowe) - charakteryzują się losowym doborem próby z większej populacji, jednostki podlegające badaniu są nierozróżnialne; dane przekrojowe - zwykle są efektem przeprowadzenia badania pełnego, jednostki podlegające badaniu są rozróżnialne i mogą to być: państwa, regiony, miasta itp.; dane czasowe - jednostki są tutaj kolejnymi momentami (okresami) czasu, w których dokonywano pomiaru - mogą to być sesje giełdowe, dni, tygodnie, lata. Oczywiście są one rozróżnialne, co więcej istotna jest ich kolejność. 14
Jednostki statystyczne Nazwy przypadków Numer i nazwa zmiennej Elementy arkusza danych Cechy statystyczne Zmienne (kolumny) Przypadki (wiersze) 15
Tworzenie arkusza danych ustalanie rozmiaru arkusza danych (liczba zmiennych i przypadków) zapisanie pliku (rozszerzenie.sta) nazywanie zmiennych (i opcjonalnie przypadków) w przypadku wystąpienia wartości tekstowych ustalenie sposobu kodowania za pomocą ETYKIET TEKSTOWYCH ustalanie formatu zmiennych wprowadzanie danych Oczywiście wszystkie elementy mogą być modyfikowane w trakcie pracy nad arkuszem danym (por. Modyfikacja arkusza danych) 16
Informacje o zmiennych Wszystkie informacje o danej zmiennej dostępne są po dwukrotnym kliknięciu jej nazwy w tzw. oknie specyfikacji zmiennej Nazwa zmiennej Kod braku danych Lista wszystkich zmiennych Format wyświetlania wartości Kodowanie etykiet tekstowych Miejsce na długą nazwę i/lub formułę obliczeniową 17
Kodowanie wartości tekstowych Podczas wprowadzania wartości cech nominalnych warto posłużyć się kodami liczbowymi, co gwarantuje dużo większą efektywność pracy z arkuszem danych. W tym celu należy posłużyć się edytorem etykiet tekstowych. Etapy tworzenia arkusza danych wraz z wprowadzaniem etykiet tekstowych zostaną omówione w oparciu o przykładowy KWESTIONARIUSZ ANKIETY. 18
1 2 3 4 Wartości liczbowe (kody) przypisywane wariantom odpowiedzi 1 2 3 4 5 1 2 3 4 Identyczne etykiety tekstowe dla kolejnych pytań 19
1 2 3 4 1 2 3 1 2 1 2 1 2 20
Uwagi do wpisywania etykiet tekstowych 1. Etykiety tekstowe można także wklejać do okna edytora etykiet z innych programów (WORD, Excel) 2. Etykiety tekstowe wprowadzone dla jednej zmiennej można powielić do kolejnych zmiennych (na przykład za pomocą opcji: ZASTOSUJ DO 3. Brzmienie etykiet tekstowych można modyfikować także po wprowadzeniu (lub w trakcie) danych 21
Wprowadzanie danych Każdy wiersz odpowiada jednostce statystycznej dane wpisujemy wierszami, posługując się liczbowymi kodami wprowadzonymi do etykiet tekstowych 22
Wklejanie danych z innych programów Wiele informacji o charakterze przekrojowym (dane o państwach, miastach, regionach, gminach, etc.) lub czasowym można znaleźć się w ogólnodostępnych, internetowych bazach danych. W takim przypadku dane źródłowe (zwykle w formie arkusza Excela) należy odpowiednio opisać* i przenieść do programu STATISTICA za pomocą poleceń KOPIUJ / WKLEJ. * w programie STATISTICA arkusz danych ma wydzielony jeden wiersz (nagłówki kolumn nazwy zmiennych) oraz jedną kolumnę (nazwy wierszy przypadków). Należy zadbać aby w pliku źródłowych nazwy przypadków i cech były wpisane w taki właśnie sposób i posłużyć się poleceniem KOPIUJ a następnie (w STATISTICE) WKLEJ Z NAGŁÓWKAMI 23
Modyfikacje arkusza danych Wszystkie elementy arkusza danych mogą być modyfikowane w trakcie (lub po) wpisywaniu danych. Do ogólnych operacji na arkuszu (dodawania, usuwanie, przenoszenie, kopiowanie, etc.) kolumn i wierszy najlepiej wykorzystać dwa przyciski znajdujące się na pasku narzędzi ARKUSZ: Podajemy numer kolumny, nazwę zmiennej lub klikamy dwa razy i wybieramy z listy Dodając (lub usuwając, kopiując, wklejając) zmienną musimy się niejednokrotnie odwołać do zmiennych już istniejących w arkuszu. Na przykład dodając zmienne w arkuszu, musimy wypełnić pole WSTAW PO do zmiennej możemy odwołać się w takiej sytuacji poprzez jej numer, nazwę, albo wybrać z listy po dwukrotnym kliknięciu pola. 24
Formuły arkusza danych Bardzo często w arkuszu należy przeprowadzić pewne dodatkowe obliczenia lub inne przekształcenia zawartych w nim informacji zasadniczo służą do tego dwa narzędzia: 1) Formuły arkusza danych 2) Przekodowywanie wartości zmiennych Formuły arkusza danych są obliczane dla całych kolumn (w odróżnieniu od arkusza w Excelu). W formułach można odwoływać się do nazw zmiennych lub (prościej!) korzystać z odwołań typu: v1, v5, v20 (gdzie v jest literą kluczową a liczba numerem kolumny w arkuszu danych). Formuły są zwykle automatycznie przeliczane po ich wprowadzeniu i przy każdej zmianie w arkuszu danych. 25
Wykorzystanie formuły arkusza danych Poniższy przykład obrazuje sposób wprowadzania formuł danych w arkuszu programu STATISTICA i ich praktyczne wykorzystanie (plik danych: Środki z UE). Arkusz zawiera informacje (m.in.) o sumie wykorzystanych środków unijnych oraz liczbie ludności w gminach woj. podkarpackiego w latach 2006-2009. Aby móc porównać efektywność wykorzystania środków unijnych policzony zostanie odpowiedni wskaźnik. 1. W arkuszu danych wprowadzamy nową kolumnę i nadajemy jej nazwę 26
2. Sprawdzamy w arkuszu położenie zmiennych, które wykorzystamy w formule i ustalamy jej wzór: = (v22+v23+v24+v25) / ((v2+v3+v4+v5)/4) Suma środków z UE Średnia liczba mieszk. 3. Wprowadzamy wzór w oknie specyfikacji nowej zmiennej i wyliczamy wartości wskaźnika wykorzystania środków z UE per capita 27
Przekodowywanie danych Opcja przekodowywania pozwala na zmianę wartości zmiennych nie w oparciu o formuły matematyczne, lecz na podstawie pewnych kryteriów logicznych. Okno przekodowywanie zmiennych można wywołać za pomocą przycisku i polecenia PRZEKODUJ. Przykład dotyczy pliku danych Opinie studentów o UE (2010), który zawiera informacje zebrane za pomocą przedstawionego na s. 6 i 7 kwestionariusza ankiety. W pytaniu 2. proszono o podanie liczby państw będących członkami UE. Oczywiście prawidłowa odpowiedź wynosi 27, podczas dalszej analizy istotne jest w zasadzie tylko to, czy ktoś udzielił prawidłowej odpowiedzi czy też nie. Innymi słowy, wartości 27 można zastąpić wariantem poprawna odpowiedź (27) a wszystkie pozostałe odpowiedź błędna. W tym celu trzeba będzie w arkuszu utworzyć nową kolumnę, odpowiednio ją nazwać i nadać jej wartości za pomocą warunków logicznych. 28
W arkuszu danych wstawiamy nową zmienną i nazywamy ją Wiedza o liczbie państw w UE Zaznaczamy nową zmienną i wybieramy za poleceniem przycisku ZMIENNE opcję PRZEKODUJ. Nadajemy wartościom 1 i 2 odpowiednie etykiety tekstowe: 1 poprawna odpowiedź (27) 2 błędna odpowiedź 29
Tworzenie podzbioru arkusza danych Czasem istnieje potrzeba stworzenia podzbioru istniejącego arkusza danych: jeżeli przedmiotem analizy wykorzystania środków unijnych mają być tylko gminy miejskie, to należy z bazy danych dotyczących wszystkich gmin woj. podkarpackiego wybrać stosowny podzbiór. Wybieramy polecenie DANE / PODZBIÓR Za pomocą przycisku PRZYPADKI określamy zakres wybieranych przypadków, z których utworzony zostanie nowy arkusz danych. Ponieważ kod gminy jest to ostatnia cyfra kodu jednostki terytorialnej (1 miejska, 2 wiejska, 3 miejsko-wiejska), więc zadanie polega na wybraniu tych przypadków, dla których w zmiennej 1. (v1) na ostatnim miejscu znajduje się cyfra 1. 30
Wykorzystujemy funkcję mid, która pozwala wybrać z tekstu dowolny ciąg znaków. W naszym przypadku warunek logiczny będzie miał postać: Mid(v1;10;1)="1" Zmienna z tekstem Długość łańcucha znaków Początek wybieranego łańcucha znaków Wprowadzamy tę formułę w oknie SELEKCJI PRZYPADKÓW i otrzymujemy nowy arkusz z odpowiednim zawierający dane tylko o gminach miejskich. 31