ZARZĄDZANIE DANYMI W STATISTICA

Podobne dokumenty
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Wprowadzenie do analizy dyskryminacyjnej

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Podstawy statystyki medycznej Laboratorium. Zajęcia 5 wprowadzenie do programu Statistica

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

You created this PDF from an application that is not licensed to print to novapdf printer (

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Spis treści. Laboratorium II: Analiza opisowa. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Analizy wariancji ANOVA (analysis of variance)

Wykład 4: Statystyki opisowe (część 1)

Opracowywanie wyników doświadczeń

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Statystyki opisowe i szeregi rozdzielcze

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Testy nieparametryczne

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Sposoby prezentacji problemów w statystyce

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Analiza Statystyczna

author: Andrzej Dudek

NAZWA ZMIENNEJ LOSOWEJ PODAJ WARTOŚĆ PARAMETRÓW ROZKŁADU PRAWDOPODOBIEŃSTWA DLA TEJ ZMIENNEJ

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

1. WPROWADZENIE DO OBSŁUGI PROGRAMU STATISTICA. Nazwy zmiennych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych. Laboratorium VI: Testy nieparametryczne

1. Przekopiuj na dysk F bazę M5BIB.mdb z dysku wskazanego przez prowadzącego 2. Otwórz bazę (F:\M5BIB.mdb)

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

Metodyka wykonania kartogramu z podziałem na klasy wg punktów charakterystycznych wraz z opracowaniem kartogramicznej legendy.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

MS Excel cz.3. >>>Otwórz plik: excel_03.xls<<<

7.4 Automatyczne stawianie prognoz

Wprowadzenie do analizy korelacji i regresji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.

Testowanie hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Rozwiązanie. Uruchom program Access 2007.

5. Bazy danych Base Okno bazy danych

Przypomnienie: Ćwiczenie 1.

Jak utworzyć plik SIO dla aktualnego spisu?

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 2: Arkusz danych w programie STATISTICA

Niestandardowa tabela częstości

WyŜsza Szkoła Zarządzania Ochroną Pracy MS EXCEL CZ.2

Instrukcja obsługi programu Do-Exp

Po naciśnięciu przycisku Dalej pojawi się okienko jak poniżej,

Badanie zależności skala nominalna

Wybierz polecenie z menu: Narzędzia Listy i dokumenty

Wydział Matematyki. Testy zgodności. Wykład 03

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

BAZY DANYCH Formularze i raporty

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Jak przekształcać zmienne jakościowe?

laboratoria 24 zaliczenie z oceną

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

MS Excel. Podstawowe wiadomości

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Korespondencja seryjna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Bazy danych raporty. 1. Przekopiuj na dysk F:\ bazę M5BIB.mdb z dysku wskazanego przez prowadzącego.

Opis programu Konwersja MPF Spis treści

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

EXCEL TABELE PRZESTAWNE

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Wspólne Zaawansowana tabela

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85

PROGRAM DO PLANOWANIA ZAKUPÓW wg CPV/CPC

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Grupowanie materiału statystycznego

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Transkrypt:

Wprowadzenie do STATISTICA Krzysztof Regulski AGH, WIMiIP ZARZĄDZANIE DANYMI W STATISTICA 1) Zastosowanie: STATISTICA umożliwia w zakresie zarządzania danymi m.in.: scalanie plików sprawdzanie danych sortowanie danych tworzenie podzbiorów danych standaryzowanie danych zastępowanie braków danych tworzenie nowych plików danych importowanie danych z innych plików i baz danych 2) Pobierz pliki: http://www.metal.agh.edu.pl/~regulski/ed/04zaoczne/stat_pliki1/ 3) Scalanie plików: Pliki dane_plik1.sta oraz dane_plik2.sta zawierają informacje o różnych pracownikach Sooner Pretzel Company. Pliki te mają tą samą liczbę zmiennych, ale różne przypadki. Scal te pliki z pomocą STATISTICA.

Jeśli wszystko pójdzie dobrze otrzymasz: Zapisz wynik w nowym pliku dane_plika.sta (zapisz jako...) Następnie scal ze sobą pliki dane_plika.sta oraz plik dane_plikb.sta. Pliki te zawierają różne zmienne, dlatego wybierz zakładkę ZMIENNE...

Otrzymasz: Pozamykaj wszystkie arkusze danych poza dane_scalone.sta., zapisz plik jako dane_scalone.sta // Jeśli nie zostanie wyraźnie wydane takie polecenie, nie zamykaj otwartych analiz ani plików. Jest to również warunkiem otrzymania punktów z aktywności. 4) Sprawdzanie danych: Sprawdź poprawność danych:

warunek 1: Niepoprawne jeśli PŁEĆ<>"Kobieta" AND PŁEĆ<> "Mężczyzna"; warunek 2: Poprawne jeśli PENSJA>0 Warunki można zapisywać i korzystać z wcześniej przygotowanych. Otwórz warunki z pliku Warunki.ini Usuń przypadek: Dunn

W celu sprawdzenia, czy w zbiorze danych jest wartość odstająca ze względu na wartość średnią, w pierwszej kolejności musimy znaleźć kandydata na wartość odstającą, czyli wartość która jest najbardziej oddalona od ogólnej średniej. Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby. Wartość bezwzględną różnicy pomiędzy wartością średnią a wartością kandydata należy podzielić przez odchylenie standardowe. Otrzymujemy w ten sposób wartość statystyki zwanej statystyką Grubbsa: Pozostaje nam otrzymaną wartość G porównać z wartością krytyczną, którą może my odczytać z odpowiednich tablic. [WERYFIKACJA HIPOTEZ STATYSTYCZNYCH H 0 : dana obserwacja nie jest odstająca] Jeżeli G będzie zbyt wysokie, wtedy należy uznać kandydata za wartość odstającą. poziom istotności ex post czyli poziom prawdopodobieństwa lub p-wartość oznaczone jest literą p WAŻNE: jeśli p < α oznacza to, że są one istotne statystycznie, czyli, że odrzucamy hipotezę zerową na danym poziomie istotności α w przypadku gdy p > α, wynika, że nie ma podstaw do odrzucenia H 0 czyli żadna obserwacja nie jest odstająca. Wykonaj test Grubbsa na obserwacje odstające.

Po tym jak wskazano obserwacje odstające, do badacza należy określenie czy obserwacje te przedstawiają szczególną własność danej zmiennej czy są wynikiem błędu albo innych anomalii, które nie powinny być modelowane. Przejdź ponownie do arkusza dane_scalone.sta W programie STATISTICA znajdują się opcję czyszczenia danych, które mogą być wykorzystane w celu zamiany obserwacji odstających. Dostęp do tej opcji możliwy jest przez wybór polecenia Zamień odstające z menu Dane - Czyszczenie danych. Zaznacz obserwacje odstające:

Usuń przypadek Williams. Zapisz nowy arkusz danych jako dane_scalone_zad.sta Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego.

5) Sortowanie danych: Posortuj dane względem zmiennej PENSJA (malejąco) i WIEK (rosnąco) 6) Tworzenie podzbiorów. Zrób zestawienie statystyk opisowych:

Utwórz losowy podzbiór. Wykonaj na zbiorze dane_scalone_zad.sta losowanie warstwowe. Weź 100% kobiet i 10% mężczyzn. Ponownie policz statystyki:

7) Standaryzowanie zmiennych Na wykresie ramka-wąsy widać wyraźnie, że zmienna PENSJA znacznie odbiega od pozostałych skalą. Aby móc badać w przyszłości regresje i korelację, trzeba takie zmienne zestandaryzować, tzn. średnia będzie równa 0, a odchylenie standardowe równe będzie 1. W pliku będącym wylosowanym zbiorem zestandaryzuj wszystkie zmienne ilościowe.

8) Zastępowanie braków danych Otwórz plik dane_scalone.sta. Zwróć uwagę, że zmienna CZAS_97 obejmuje jedynie 79 przypadków, podczas gdy pozostałe zmienne mają po 99.

STATISTICA umożliwia wiele wygodnych sposobów czyszczenia danych, wybierzmy tym razem zastępowanie braków danych średnią:

9) Import plików STATISTICA umożliwia wygodny import plików. Wypróbujmy to na pliku Dane_siod.xls Zaimportuj te dane do STATISTICA zachowując nazwy zmiennych i przypadków. Zadbaj o polskie znaki. Zawołaj mnie jak skończysz, aby otrzymać punkty.

Wprowadzenie do STATISTICA Krzysztof Regulski AGH, WIMiIP STATYSTYKA OPISOWA Tworzenie arkusza w pakiecie STATISTICA Plik/Nowy Ustalenia-liczba zmiennych, liczba przypadków Plik/Zapisz: Przyklad.sta

Zmienną Płeć możemy oznaczać albo cyfrą albo zapisem tekstowym (etykieta tekstowa) Jako kolejne wprowadzamy zmienne : zm2 Wzrost i zm3 Waga, a następnie zmienną zm4 jako WBC, jej wartości są obliczane z formuły = Wzrost-Waga -100, którą należy wpisać w polu Długa nazwa.

Zmienna 5, o nazwie Kody jest obliczana wg formuły = 1* (wbc<-10)+ 2* (wbc>=-10and wbc<=10)+3*(wbc>10) Dla tej zmiennej wprowadzamy etykiety tekstowe Włączyć Wartości statystyki dla sprawdzenia poszczególnych zmiennych. Przełączyć dla zmiennych Płeć i Kody etykiety tekstowe i oznaczenia cyfrowe. Statystyki Opisowe w pakiecie STATISTICA. Empiryczne rozkłady zmiennych. Realizacja przykładu: Otwórz /Zarobki.sta Tworzymy rozkład empiryczny zmiennej jakościowej Wykształcenie Statystyka /Statystyki podstawowe i tabele/tabele liczności Uzyskamy tabele liczności dla zmiennej Wykształcenie

Klikając w ikonę, znajdującą się na pasku Analizy w dolnej części okna aplikacji, przywołujemy Tabelę liczności Zarobki i po naciśnięciu Histogramy uzyskamy wykres Wykształcenie podzielone jest według naturalnych kategorii. W przypadku gdy zmienna przyjmuje wartości liczbowe należy te kategorie ( przedziały klasowe) stworzyć. Przywołajmy tabelę liczności, wybieramy zmienną płaca brutto i zakładkę więcej

Tu jest możliwość zdecydowania czy wybieramy liczbę przedziałów, czy też szerokość przedziału klasowego czyli krok, a także od którego punktu chcemy rozpocząć kwalifikację Przykładowy rozkład, gdzie punktem początkowym jest zero, a szerokość przedziału klasowego 500, pokazano na następnym rysunku Można też postąpić inaczej, zadać liczbę klas np. 12, program oblicza granice klas

Następne ćwiczenie polega na kolejnej zmianie obrazu rozkładu empirycznego, tak by szerokość przedziału wynosiła 150, i rozpoczynamy od wartości 100 Statystyki brutto opisowe: na zakładce Więcej wybieramy trzy zmienne Wiek, Staż pracy i Płaca

Klikamy przycisk Wszystkie a następnie Podsumowanie i otrzymamy W oknie Statystyki opisowe jest dostęp do większej liczby opcji związanych z opisową analizą danych. Wybieram Płace brutto i z zakładki Opcje, w polu Opcje wykresu ramka wąsy usuwamy pole Średnia/odch...a zaznaczymy Mediana/kwaryle /rozstęp, przechodzimy na zakładkę Podstawowe i wybieramy Wykres ramka wąsy Przeanalizujemy jak kształtują się zarobki w poszczególnych kategoriach wykształcenia.

Wybieramy Statystyki opisowe/ W.skategoryzowane/skategoryzowan, e wykr. Ramkawąsy, wybieramy zmienną grupującą Wykształcenie, Otrzymujemy następujący wykres:

ANALIZA PRZEKROJOWA Wybierzmy Statystyka / Staystyki podstawowe i tabele/przekroje, prosta ANOVA

Graficznie przedstawimy średnie: Ctrl+R:

Otrzymany wykres można przekształcać według potrzeb zmieniając napisy, prawym przyciskiem myszki klikamy w obrębie wykresu, otwieramy okno właściwości wykresu i wybieramy przycisk np. tytuły wykresu.. Analiza podzbiorów danych skategoryzowanych według wykształcenia i płci CTRL+R Statystyka/Statystyki podstawowe, tabele// przekroje proste ANOVA /Statystyki w grupach - OK./ Podsum: tabela statystyk otrzymujemy

Przywołujemy z paska analizy Statystyki w grupach i na zakładce podstawowe wybieram przycisk wykresy interakcji, zaznacza m w pierwszym okienku wykształcenie, w drugim płeć i otrzymuję wykres