Wykład 2: Arkusz danych w programie STATISTICA
Nazwy przypadków Numer i nazwa zmiennej Elementy arkusza danych Cechy statystyczne Zmienne (kolumny) Jednostki statystyczne Przypadki (wiersze)
Tworzenie arkusza danych ustalanie rozmiaru arkusza danych (liczba zmiennych i przypadków) zapisanie pliku (rozszerzenie.sta) nazywanie zmiennych (i opcjonalnie przypadków) w przypadku wystąpienia wartości tekstowych ustalenie sposobu kodowania za pomocą ETYKIET TEKSTOWYCH ustalanie formatu zmiennych wprowadzanie danych Oczywiście wszystkie elementy mogą być modyfikowane w trakcie pracy nad arkuszem danym (por. Modyfikacja arkusza danych)
Informacje o zmiennych Wszystkie informacje o danej zmiennej dostępne są po dwukrotnym kliknięciu jej nazwy w tzw. oknie specyfikacji zmiennej Nazwa zmiennej Kod braku danych Lista wszystkich zmiennych Format wyświetlania wartości Kodowanie etykiet tekstowych Miejsce na długą nazwę i/lub formułę obliczeniową
Kodowanie wartości tekstowych Podczas wprowadzania wartości cech nominalnych warto posłużyć się kodami liczbowymi, co gwarantuje dużo większą efektywność pracy z arkuszem danych. W tym celu należy posłużyć się edytorem etykiet tekstowych. Etapy tworzenia arkusza danych wraz z wprowadzaniem etykiet tekstowych zostaną omówione w oparciu o przykładowy KWESTIONARIUSZ ANKIETY.
1 2 3 4 Wartości liczbowe (kody) przypisywane wariantom odpowiedzi 1 2 3 4 5 1 2 3 4 Identyczne etykiety tekstowe dla kolejnych pytań
1 2 3 4 1 3 1 2 1 2 1 2
Uwagi do wpisywania etykiet tekstowych 1. Etykiety tekstowe można także wklejać do okna edytora etykiet z innych programów (WORD, Excel) 2. Etykiety tekstowe wprowadzone dla jednej zmiennej można powielić do kolejnych zmiennych (na przykład za pomocą opcji: ZASTOSUJ DO 3. Brzmienie etykiet tekstowych można modyfikować także po wprowadzeniu (lub w trakcie) danych
Wprowadzanie danych Każdy wiersz odpowiada jednostce statystycznej dane wpisujemy wierszami, posługując się liczbowymi kodami wprowadzonymi do etykiet tekstowych
Wklejanie danych z innych programów Wiele informacji o charakterze przekrojowym (dane o państwach, miastach, regionach, gminach, etc.) lub czasowym można znaleźć się w ogólnodostępnych, internetowych bazach danych. W takim przypadku dane źródłowe (zwykle w formie arkusza Excela) należy odpowiednio opisać* i przenieść do programu STATISTICA za pomocą poleceń KOPIUJ / WKLEJ. * w programie STATISTICA arkusz danych ma wydzielony jeden wiersze (nagłówki kolumn nazwy zmiennych) oraz jedną kolumnę (nazwy wierszy przypadków). Należy zadbać aby w pliku źródłowych nazwy przypadków i cech były wpisane w taki właśnie sposób i posłużyć się poleceniem KOPIUJ a następnie (w STATISTICE) WKLEJ Z NAGŁÓWKAMI
Modyfikacje arkusza danych Wszystkie elementy arkusza danych mogą być poddawane modyfikacjom w trakcie (lub po) wpisywania danych. Do ogólnych operacji na arkuszu (dodawania, usuwanie, przenoszenie, kopiowanie, etc.) kolumn i wierszy najlepiej wykorzystać dwa przyciski znajdujące się na pasku narzędzi ARKUSZ: Podajemy numer kolumny, nazwę zmiennej lub klikamy dwa razy i wybieramy z listy Dodając (lub usuwając, kopiując, wklejając) zmienną musimy się niejednokrotnie odwołać do zmiennych już istniejących w arkuszu. Na przykład dodając zmienne w arkuszu, musimy wypełnić pole WSTAW PO do zmiennej możemy odwołać się w takiej sytuacji poprzez jej numer, nazwę, albo wybrać z listy po dwukrotnym kliknięciu pola.
Formuły arkusza danych Niejednokrotnie w arkuszu należy przeprowadzić pewne dodatkowe obliczenia zasadniczo służą do tego dwa narzędzia: 1) Formuły arkusza danych 2) Przekodowywanie wartości zmiennych Formuły arkusza danych są obliczane dla całych kolumn (w odróżnieniu od arkusza w Excelu). W formułach można odwoływać się do nazw zmiennych lub (prościej!) korzystać z odwołań typu: v1, v5, v20 (gdzie v jest literą kluczową a liczba numerem kolumny w arkuszu danych). Formuły są zwykle automatycznie przeliczane po ich wprowadzeniu i przy każdej zmianie w arkuszu danych.
Wykorzystanie formuły arkusza danych Poniższy przykład obrazuje sposób wprowadzania formuł danych w arkuszu programu STATISTICA i ich praktyczne wykorzystanie (plik danych: Środki z UE). Arkusz zawiera informacje (m.in.) o sumie wykorzystanych środków unijnych oraz licznie ludności w gminach woj. podkarpackiego w latach 2006-2009. Aby móc porównać efektywność wykorzystania środków unijnych policzony zostanie odpowiedni wskaźnik. 1. W arkuszu danych wprowadzamy nową kolumnę i nadajemy jej nazwę
2. Sprawdzamy w arkuszu położenie zmiennych, które wykorzystamy w formule i ustalamy jej wzór: = (v22+v23+v24+v25) / ((v2+v3+v4+v5)/4) Suma środków z UE Średnia liczba mieszk. 3. Wprowadzamy wzór w oknie specyfikacji nowej zmiennej i wyliczamy wartości wskaźnika wykorzystania środków z UE per capita
Przekodowywanie danych Opcja przekodowywania pozwala na zmianę wartości zmiennych nie w oparciu o formuły matematyczne, lecz na podstawie pewnych kryteriów logicznych. Okno przekodowywanie zmiennych można wywołać za pomocą przycisku i polecenia PRZEKODUJ. Przykład dotyczy pliku danych Opinie studentów o UE (2010), który zawiera informacje zebrane za pomocą przedstawionego na s. 6 i 7 kwestionariusza ankiety. W pytaniu 2. proszono o podanie liczby państw będących członkami UE. Oczywiście prawidłowa odpowiedź wynosi 27, podczas dalszej analizy istotne jest w zasadzie tylko to, czy ktoś udzielił prawidłowej odpowiedzi czy też nie. Innymi słowy, wartości 27 można zastąpić wariantem poprawna odpowiedź (27) a wszystkie pozostałe odpowiedź błędna. W tym celu trzeba będzie w arkuszu utworzyć nową kolumnę, odpowiednio ją nazwać i nadać jej wartości za pomocą warunków logicznych. Tu będzie przykład
W arkuszu danych wstawiamy nową zmienną i nazywamy ją Wiedza o liczbie państw w UE Zaznaczamy nową zmienną i wybieramy za poleceniem przycisku ZMIENNE opcję PRZEKODUJ. Nadajemy wartościom 1 i 2 odpowiednie etykiety tekstowe: 1 poprawna odpowiedź (27) 2 błędna odpowiedź
Tworzenie podzbioru arkusza danych Niejednokrotnie istnieje potrzeba stworzenia podzbioru istniejącego arkusza danych: jeżeli przedmiotem analizy wykorzystania środków unijnych mają być tylko gminy miejskie, to należy z bazy danych dotyczących wszystkich gmin woj. podkarpackiego wybrać stosowny podzbiór. Wybieramy polecenie DANE / PODZBIÓR Za pomocą przycisku PRZYPADKI określamy zakres wybieranych przypadków, z których utworzony zostanie nowy arkusz danych. Ponieważ kod gminy jest to ostatnia cyfra kodu jednostki terytorialnej (1 miejska, 2 wiejska, 3 miejsko-wiejska), więc zadanie polega na wybraniu tych przypadków, dla których w zmiennej 1. (v1) na ostatnim miejscu znajduje się cyfra 1.
Wykorzystujemy funkcję mid, która pozwala wybrać z tekstu dowolny ciąg znaków. W naszym przypadku warunek logiczny będzie miał postać: Mid(v1;10;1)="1" Zmienna z tekstem Długość łańcucha znaków Początek wybieranego łańcucha znaków Wprowadzamy tę formułę w oknie SELEKCJI PRZYPADKÓW i otrzymujemy nowy arkusz z odpowiednim zawierający dane tylko o gminach miejskich.