Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica
1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości pracochłonnego ich wklepywania, Statistica umożliwia również import danych z innych aplikacji - na przykład z arkusza kalkulacyjnego. Załóżmy, że w arkuszu kalkulacyjnym posiadamy dane jak poniżej: Jeśli zadaniem do wykonania jest import do Statistica danych z zakresu liczby porządkowej od 1 do 10, to wygodnym może okazać się przekopiowanie pożądanych danych do nowego skoroszytu (pliku Excel). Sugeruję przy kopiowaniu nie pomijać nazw zmiennych, zakładam również, że kolumna lp. jest zbyteczna, zaś badane przypadki będę identyfikował po imieniu i nazwisku. Po przekopiowaniu dane w nowym skoroszycie wyglądają jak poniżej: zaś plik wynikowy zapisano pod nazwą do_importu.xlsx. 2
Aby zaimportować dane do arkusza Statistica, należy: 1. Otworzyć aplikację Statistica i jeśli będą w niej otwarte jakiekolwiek arkusze lub skoroszyty, dla porządku, proponuję ich zamknięcie, widok jak poniżej: 2. Z menu Plik należy wybrać polecenie Otwórz i wskazać zapisany wcześniej plik do_importu.xlsx. a następne zatwierdzić wybór przyciskiem Otwórz. 3. Następnie winno ukazać się okno jak poniżej w którym należy wybrać przycisk Import wybranego arkusza i wskazać jego nazwę. 3
4. Po czym powinno pojawić się poniższe okno aplikacji: Skoro w arkusz kalkulacyjnym (rysunek 2) w wierszu numer 1 widnieją nazw zmiennych, zaś w kolumnie A widnieją personalia badanych (przypadków), to należy zaznaczyć dwie opcje Weź nazwy zmiennych z 1 wiersza oraz Weź nazwy przypadków z 1 kolumny. 5. Dane przeniesione do arkusza Statistica winny prezentować się jak poniżej: 6. Korzystając z menu Plik -> Zapisz należy zachować nowo utworzony arkusz Statistica pod nazwą wyniki_badan.sta. 7. Po wykonaniu powyższych operacji w katalogu znajduja się już dwa pliki: oryginalny arkusz kalkulacyjny z danymi o nazwie do_importu.xlsx oraz nowo utworzony arkusz Statistica pod nazwą wyniki_badan.sta. 4
2. Podstawowe operacje w pakiecie Statistica Do podstawowych operacji w arkuszu Statistica należy dodawanie: przypadków (czyli wierszy), które przechowują informacje na temat badanych przypadków/osób zmiennych (czyli kolumn), przechowujących informacje o wartości zmiennej, którą osiągnął konkretny badany 2.1. Dodawanie przypadków odbywa się poprzez kliknięcie prawym klawiszem myszy na jednym lub kilku przypadkach, a następnie wybranie z rozwijalnego menu opcji Dodaj przypadki (patrz poniżej zakładamy, że przed Janem Kowalskim chcę wstawić informacje związane z Nieznaną Osobą) Krok 1. Dodawanie przypadków Krok 2. Krok 3. 2.2. Dodawanie zmiennych odbywa się poprzez kliknięcie prawym klawiszem myszy na jednej lub kilku zmiennych, a następnie wybranie z rozwijalnego menu opcji Dodaj zmienne (patrz poniżej zakładamy, że przed zmienną wzrost [w cm] życzymy sobie dodania zmiennej Płeć ) Krok 1. Dodawanie zmiennych Krok 2. (w polu Nazwa wpisz nazwę zmiennej) Krok 3. 5
2.3. Kodowanie zmiennych Po wstawieniu do arkusza zmiennej Płeć należy uzupełnić wartości kobieta/mężczyzna każdemu z badanych przypadków. W sukurs przychodzi użytkownikowi mechanizm kodowania zmiennych. Polega on na zdefiniowaniu kodów dla każdej z płci; np. wpisowi kobieta przyporządkujemy liczbę 1, zaś mężczyźnie 2. W arkuszu Statistica realizowane jest to poprzez opcję Etykiety tekstowe... dostępną w menu Zmienna, którą wywołujemy dwukrotnym kliknięciem na zmiennej, dla której chcemy określić kody. Kodowanie zmiennych Krok 1. dwukrotne kliknięcie na nazwie zmiennej i wybór przycisku Etykiety tekstowe... Krok 2. Odpowiednie uzupełnienie kolumn Etykieta tekstowa i Liczbowe Krok 3. Odpowiednie uzupełnienie kolumny/zmiennej Płeć za pomocą zdefiniowanych kodów 6
2.4. Korzystanie z formuł w aplikacji Statistica Formuły mają szerokie, by nie powiedzieć podstawowe, zastosowane przy takich czynnościach choćby jak: określanie wartości zmiennej w oparciu o inne zmienne (np. wyliczenie wartości BMI w oparciu o dane z kolumn wzrost i masa ciała zdefiniowanie kategorii zmiennej (np. dla wyliczonej wskaźnika BMI, utworzenie nowej zmiennej BMI kategoria) określenie warunków selekcji (czyli ograniczenia danych do określonego podzbioru, na którym zostanie wykonana analiza) Wykorzystanie formuł do wyliczenia wartości zmiennej i utworzenia nowej zmiennej z kategoriami Tworzymy nową zmienną o nazwie BMI, który to wskaźnik wylicza się z zależności masa ciała [w kg] podzielona przez wzrost [w metrach] do kwadratu. Krok 1. Utworzenie nowej zmiennej Krok 2. Określenie formuły wyliczającej wartość zmiennej BMI Formułę wpisuje się w polu znajdującym się na dole okna Zmienna; każda formuła zaczyna się znakiem =, po czym odwołanie do każdej zmiennej odbywa się poprzez symbol złączony symbol v wraz z numerem zmiennej, np. zmienna masa ciała [w kg] ma numer 3 (patrz na powyższym rysunku), zaś zmienna wzrost [w cm] ma numer 2, stąd odwołanie do niej to v2, podnoszenie do potęgi realizuje się poprzez symbol ^, stąd finalnie otrzymujemy formułę =v3/(v2/100)^2 7
Krok 3. Po akceptacji wyskakującego okna z pytaniem Kontynuować? Otrzymujemy finalny efekt. Dodanie kolejnej zmiennej o nazwie BMI kategorie analogicznie poniższy uwzględniając algorytm kategoryzacji: jeżeli zmienna BMI ma wartość poniżej 18 przypisuje się zmiennej BMI kategorie wartość niedobór masy ciała jeżeli zmienna BMI ma wartość od 18 włącznie do 25 włącznie przypisuje się zmiennej BMI kategorie wartość w normie jeżeli zmienna BMI ma wartość powyżej 25 przypisuje się zmiennej BMI kategorie wartość nadmiar masy ciała Krok 1. Dodanie nowej zmiennej o nazwie BMI kategorie i zdefiniowanie jej kategorii 8
Krok 2. Wpisanie formuły definiującej podział na kategorie Formuła zdefiniowana jest jak poniżej: =(v4<18)*1+(v4>=18 and v4<=25)*2+(v4>25)*3 gdzie v4 to odwołanie do wartości BMI danej osoby wyrażenie (v4<18), to wyrażenie logiczne; jeśli v4 jest mniejsze od 18, to przyjmuje ono wartość prawda (czyli liczbowo 1), jeśli zaś v4 jest większe lub równe 18, to przyjmuje wartość fałsz (czyli liczbowo 0) przykładowa wartość (v4<18)*1 wylicza się następująco jeśli v4 jest mniejsze od 18, to prawda * 1 = 1 * 1 = 1 (przypominam, że kategorii niedobór masy ciała przypisano wartość 1) wszystko w temacie reszta przez analogię 9
2.5. Wprowadzanie warunków dla wykonywania analiz Podobnie przy definiowaniu analiz można ustanowić warunek wybierający jedynie określone przypadki do analizy. Wybierając dowolną z analiz: w lewym dolnym rogu okna znajduje się przycisk SELECT CASES, po jego wciśnięciu ukaże się okno: należy tu koniecznie aktywować możliwość wprowadzania warunków poprzez zaznaczenie opcji Włącz warunki selekcji, a następnie w wybranym oknie (tutaj akurat Określone przez) wprowadzenie warunku selekcji v1=1 (zmienna 1 równa 1 przypominam, że kodem 1 oznaczono płeć kobieta ) 10
3. Podstawowe analizy w pakiecie Statistica 3.1. Analiza rozkładu jednej zmiennej Kiedy chcemy przyjrzeć się rozkładowi jednej zmiennej (np. wzrost), wówczas wykorzystujemy menu Statystyka -> Statystyki podstawowe i tabele -> Tabele liczności Po zaakceptowaniu Tabele liczności - > OK, wskazujemy zmienną, która będzie analizowana. Okno analizy w zakładce Podstawowe oferuje: 11
Podsumowanie: tabele liczności Histogramy tabela liczności (czy inaczej szereg rozdzielczy) dla zmiennej ilościowej, która przybiera wiele wartości, zazwyczaj wymaga pogrupowania/utworzenia przedziałów (szczegóły grupowania zdefiniujesz w zakładce Więcej) statystyki opisowe wykres obrazujący liczność występowania: kategorii zmiennej jakościowej lub wartości/przedziałów wartości zmiennej ilościowej Kolumnom wypada/należy przypisać etykiety - prawy myszy na słupku i wybór Etykiety punktów -> Wyświetl etykiety punktów pozwala uzyskać podstawowe charakterystyki liczbowe analizowanej zmiennej jak: średnia i odchylenie standardowe, minimum, maksimum, mediana i kwartyle 12
3.2. Kiedy analizujesz rozkład dwóch zmiennych jakościowych względem siebie. Po wybraniu menu Statystyka -> Statystyki podstawowe i tabele -> Tabele wielodzielcze należy wskazać zmienne do analizy (przycisk Określ tabele (wybierz zmienne)) na zakładce Tabelaryzacja. po wyborze zmiennych (tutaj Płeć i BMI- kategorie) oraz po dwukrotnym zatwierdzeniu wyboru przyciskiem OK, pojawić powinno się okno Wyniki tabelaryzacji, jak poniżej z trzema zakładkami: Podstawowe, Więcej i Opcje Tabela zbiorcza oraz histogramy dostępne na zakładce podstawowe prezentują się jak poniżej Tabela zbiorcza (wielodzielcza) Histogram skategoryzowany (polecam w zakładce Opcje oznaczenie wyboru Procenty w wierszach, co wzbogaci tabelę o wyznaczenie procentowego rozkładu zmiennej) (w zakładce Więcej znajdziesz całą gamę dostępnych wykresów) 13
3.3. Kiedy analizujesz rozkład zmiennej ilościowej względem kategorii zmiennej jakościowej (czyli wykonujesz analizę w grupach, na przykład płci i/lub wykształcenia). Po wybraniu menu Statystyka -> Statystyki podstawowe i tabele -> Przekroje, prosta ANOVA należy określić zmienne (pamiętaj zmienna grupującą jest najczęściej zmienna jakościowa) po dwukrotnym zatwierdzeniu wyboru zmiennych przyciskiem OK., pojawi się okno analizy Statystyki w grupach wyniki (jak poniżej) 14
Zakładka Podstawowe oferuje możliwość wygenerowania tabeli z wartościami charakterystyk liczbowych takich jak średnia, odchylenie standardowe, liczebność w grupach (przycisk Podsum.: tabela statystyk), zaś przyciski Wykresy interakcji lub Skategoryzow. wykresy ramka-wąsy wygenerują wykresy obrazujące rozkład badanej cechy w grupach. Tabela statystyk Wykresy interakcji (w zakładce Statystyki opisowe można dokonać wyboru większej liczby charakterystyk liczbowych badanej grupy, np. mediany, kwartyli) 15