b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.

Podobne dokumenty
Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Testy nieparametryczne

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Rozdział 8. Regresja. Definiowanie modelu

Jednoczynnikowa analiza wariancji

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

MODELE LINIOWE. Dr Wioleta Drobik

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zmienne zależne i niezależne

Analizy wariancji ANOVA (analysis of variance)

Wprowadzenie do analizy korelacji i regresji

author: Andrzej Dudek

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Estymacja parametrów w modelu normalnym

Ćwiczenia IV

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Zajęcia nr VII poznajemy Rattle i pakiet R.

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

1. Przygotowanie danych do analizy. Transformacja danych

Wykład 7 Testowanie zgodności z rozkładem normalnym

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Badanie normalności rozkładu

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 9 Wnioskowanie o średnich

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza autokorelacji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Żródło:

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

S t a t y s t y k a, część 3. Michał Żmihorski

Analiza wariancji - ANOVA

Zadania ze statystyki cz.8. Zadanie 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Elementy statystyki STA - Wykład 5

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA MATEMATYCZNA

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

JEDNOCZYNNIKOWA ANOVA

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 3 Hipotezy statystyczne

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Ekonometria Ćwiczenia 19/01/05

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

author: Andrzej Dudek

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Przykład 1. (A. Łomnicki)

Opracowywanie wyników doświadczeń

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

KORELACJE I REGRESJA LINIOWA

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Podstawy statystyki matematycznej w programie R

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

1. Grupowanie Algorytmy grupowania:

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

STATYSTYKA MATEMATYCZNA

Na podstawie danych dotyczacych rocznych wydatków na pizze oszacowano parametry poniższego modelu:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Porównanie wyników grupy w odniesieniu do norm Test t dla jednej próby

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Temat: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Transkrypt:

Cele: a) Umiejętność przeprowadzenia analizy struktury wybranego zbioru obserwacji Obliczanie miar tendencji centralnych, miar rozproszenia, współczynnika skośności i miary spłaszczenia z wykorzystaniem ODM, Rapid Miner Wizualizacja danych Testowanie hipotez -badanie zgodności rozkładu Umiejętność interpretacji uzyskanych wyników b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników. testowanie równości wariancji (test F) i średnich (test t dla dwóch prón niezależnych) korelacja zmiennych analiza wariancji ANOVA c) Umiejętność wykonania analizy PCA (metoda głównych składowych) i interpretacji uzyskanych wyników. Zadanie 1. Badanie zgodności rozkładu zmiennej losowej z założonym rozkładem teoretycznym. Dana jest tabela (plik disttab.csv) z wartościami zmiennych num1, num2, num3, num4 a) Przeprowadź testowanie hipotez o zgodności rozkładu zmiennej losowej num1 z rozkładem normalnym, przy poziomie istotności α=0.05. Wykorzystaj test Shapiro-Wilka. H 0 : Xi, i = 1,..., n mają rozkład N(μ,σ) ; H1 : rozkład zmiennych Xi, i = 1,..., n nie jest rozkładem normalnym DECLARE mean number:=1; stdev number:=1; p number; ttype VARCHAR2(20) := 'SHAPIRO_WILKS'; begin dbms_output.put_line('normal - Shapiro-Wilka'); dbms_stat_funcs.normal_dist_fit('dmuser', 'disttab', 'num1', ttype, mean, stdev, p); dbms_output.put_line('mean : ' round(mean, 4)); dbms_output.put_line('stdev : ' round(stdev, 4)); dbms_output.put_line('p : ' to_char(p,'9.9999')); end; / b) Przeprowadź testowanie hipotez o zgodności rozkładu zmiennej losowej num2 z rozkładem wykładniczym. - 1 - AJK 2016

Zadanie 2. Waga zawodników drużyny koszykarskiej jest następująca: 158,127, 132, 169, 106, 188, 111, 143, 170, 125 Natomiast waga graczy drużyny futbolowej : 249, 236, 198, 221, 204, 216, 218, 225 Dane: zawodnicy.csv Czy różnica wag zawodników obu drużyn jest na tyle znacząca, że należy opracować odrębne plany treningów? Przyjmij poziom istotności α=0.05. Sprawdź normalność rozkładu zmiennej waga w grupach koszykarzy i piłkarzy (test Shapiro-Wilka) Przeprowadź test F na równość wariancji dwóch grup ( H0: s1=s2; H1: s1<>s2) Przeprowadź test t na równość średnich dla dwóch prób niezależnych ( H0: x1=x2; H1: x1<>x2) Przeprowadź dyskusję uzyskanych wyników Zadanie 3. Czy występuje istotna różnica pomiędzy średnimi z 5 prób, będąca wynikiem zmiany w ładunkach, czy też różnice są wyłącznie sprawą przypadku? Pliki: milaz.csv, milaza.txt. Milaż (mile na galon) Ładunek (w funtach) 0 500 1000 1500 2000 19.6 18.8 18.5 17.6 16.9 19.1 18.9 18.5 17.9 16.6 19.3 19.0 18.6 17.4 16.7 19.1 18.7 18.4 17.7 16.8 19.0 19.2 18.3 17.5 17.0 19.5 19.3 18.7 17.7 17.2 19.2 18.8 18.9 17.8 16.9 19.4 18.9 18.2 17.4 16.7 19.0 19.4 18.5 17.6 17.0 19.1 19.0 18.6 17.8 16.8 Stosując procedurę analizy wariancji oraz zakładając poziom istotności 0.05 należy dokonać oceny czy został spełniony warunek jednorodności wariancji oraz czy wpływ czynnika klasyfikującego jest przyczyną zmienności poziomu milażu. Przygotuj plik tekstowy z danymi Wykonaj import danych do tabeli MILAZ Sprawdź normalność rozkładu zmiennej zależnej Przy użyciu testów: Levene'a, lub Bartletta, (zależnie od normalności rozkładu) sprawdź, czy spełniony jest warunek jednorodności wariancji. Przeprowadź analizę wariancji (metoda ANOVA) H0: x1=x2=x3=x4=x5 H1:xi<>xj Przeprowadź dyskusję uzyskanych wyników - 2 - AJK 2016

Zadanie 4. Dla próby liczącej 30 studentów podano oceny zaliczeń X oraz egzaminów Y ze statystyki Określ korelację (siłę i kierunek) ocen z zaliczeń i egzaminu ze statystyki wykorzystując znane współczynniki korelacji.. Przeprowadź dyskusję wyników. Dane plikkorelacja.txt Zadanie 5. Wykorzystaj Rapid Miner do przeprowadzenia analizy zależności zmiennych w zbiorze danych dmbase. Oceń jakie czynniki mają decydujący wpływ na wartość zmiennej salary. Zaimportuj dane z pliku dmbase.xls (zastosuj operator Retrive lub Read Excel) Przyjmij dla atrybutu id rolę id. Eksploracyjna analiza danych Wyświetl tabelę z danymi. Wyświetl tabelę ze statystykami. (Meta Data View), sprawdź czy nie ma brakujących lub odstających danych, Sprawdź rozkłady dla poszczególnych zmiennych - wygeneruj histogramy i wykresy pudełkowe (Quartile). Która zmienna charakteryzuje się największą zmiennością, a która najmniejszą? Sprawdź czy są zależności między zmiennymi - Wygeneruj wykresy rozproszenia (Scatter) np. dla pary zmiennych no_atbat no_hits. Oblicz współczynniki korelacji (operator Correlation Matrix) Przeprowadź analizę uzyskanych wyników. Czy obserwujesz korelacje w grupie zmiennych objaśniających? Wymogiem formalnym do stosowania metody głównych składowych jest dysponowanie pełnym zbiorem danych. W naszym przypadku brak jest danych dla atrybutów salary i logsalary. Wymusza to konieczność usunięcia rekordów z brakującymi danymi - 3 - AJK 2016

bądź uzupełnienie brakujących danych. Można w tym celu zastosować operator Replice Missing Values. Wybierz uzupełnianie brakujących danych dla salary przez wypełnienie średnią Z analizy danych wynika, że zmienne mają różny zakres zmienności. W celu uniknięcia nadmiarowości zmiennych należy zastosować normalizacje danych numerycznych (operator Normalize ) Metoda analizy głównych składowych może być zastosowana tylko dla zmiennych objaśniających typu numerycznego, dlatego należy zmienić rolę zmiennych name, team, position, league i division a także logsalar(operator Set Role id).w celu pominięcia ich w modelu zaś dla zmiennej salary zmień rolę na label - 4 - AJK 2016

Metoda PCA (analizy głównych składowych) Zamieść operator PCA Uruchom przepływ danych Przeprowadź analizę uzyskanych wyników Ile głównych składowych należy uwzględnić? (uwzględnij kryteria wartości własnej, części wariancji wyjaśnianej przez składowe główne, kryterium minimalnego zasobu zmienności wspólnej, kryterium wykresu osypiskowego) Sprawdź, czy główne składowe są ze sobą skorelowane, wygeneruj wykresy rozproszenia dla głównych składowych - 5 - AJK 2016

Zadania do samodzielnego wykonania: Zadanie A Przeprowadź analizę następujących danych Przeciętny czas życia[lata] kobiety mężczyźni Argentyn 78 71 a Australia 83 78 Brazylia 74 66 Chiny 73 70 Egipt 72 67 Indie 65 62 Indonezja 69 65 Iran 72 69 Izrael 82 78 Japonia 85 78 Kanada 82 77 Kazachsta 69 58 n Korea Pd. 80 73 Meksyk 77 72 Nigeria 44 43 Pakistan 63 63 Polska 80 71 RPA 51 47 Turcja 71 66 USA 80 75 Na podstawie danych z tabeli oceń czy średnia długość życia kobiet i mężczyzn w wybranych krajach świata różni się w sposób statystycznie istotny. Odpowiedź uzasadnij. Zadanie B Na stronie http://www.e-petrol.pl/index.php/notowania/rynki-zagraniczne/stacje-paliweuropa podano aktualne średnie ceny paliw w wybranych krajach europejskich. Przygotuj na tej podstawie plik tekstowy. Zaimportuj dane do tabeli CENA_PALIWA. Wprowadź atrybut, który będzie określał przynależność do jednej z 4 grup krajów. Pierwsza grupa kraje bałkańskie,druga kraje skandynawskie, trzecia kraje basenu Morza Śródziemnego, czwarta - pozostałe. Czy można uznać, że przy poziomie istotności α = 0.05 przynależność geograficzna jest czynnikiem różnicującym średnie ceny paliw w Europie? Odpowiedź uzasadnij Zadanie C. Dane: mieszkania.txt - zbiór zawierający dane dotyczące mieszkań: 35 obserwacji, 3 zmienne POWIERZCHNIA, PIETRO i CENA a) Utwórz perspektywę zawierajacą dodatkowo kolumnę CENA_ZA_METR b) Oblicz współczynniki korelacji dla wszystkich par zmiennych z powyższego zbioru danych.korzystając z funkcji CORR(x,y) ODM c) Przeprowadź analizę korelacji korzystając z aplikacji Rapid Miner Importuj dane Przygotuj diagram przepływu informacji. Stosując operator SetRole ustal dla ceny role label (zmienna objaśniana) a dla zmiennych Pietro i id role id (zmienne z rola id są pomijane w modelu) Uruchom przepływ. Porównaj wyniki z uzyskanymi przy zastosowaniu ODM. Zadanie D Czy istnieje zależność pomiędzy wartościa PKB i długością życia mieszkańców wybranych krajów. Określ siłę i kierunek korelacji. - 6 - AJK 2016

Zadanie E Przeprowadź analizę zależności zmiennych w zbiorze danych house. Oceń jakie czynniki mają decydujący wpływ na średnią wartość mieszkania. Wykonaj import danych z pliku house.xls. Przyjmij dla atrybutu id rolę id, a dla medianhousevalue (zmienna docelowa) rolę label??? Sprawdź czy nie ma brakujących lub odstających danych, jeśli tak usuń outliers, uzupełnij braki Sprawdź rozkłady dla poszczególnych zmiennych Sprawdź czy są zależności między zmiennymi Wygeneruj wykresy rozproszenia (Scatter) np. dla pary zmiennych totalrooms - population Oblicz współczynniki korelacji Przeprowadź analizę uzyskanych wyników. Przeprowadź analizę stosując metodę głównych składowych (PCA) Ile głównych składowych należy uwzględnić? (uwzględnij kryteria wartości własnej, części wariancji wyjaśnianej przez składowe główne, kryterium minimalnego zasobu zmienności wspólnej, kryterium wykresu osypiskowego) Żródła: http://rapid-i.com/ http://www.slideshare.net/rapidminercontent/rapidminer-rapidminerproducts http://www.statsoft.pl/textbook/stathome_stat.html?http://www.statsoft.pl/textbook/stanman.html http://www.oracle.com/technology/products/bi/stats_fns/pdf/or_statistical_functions_overview.pdf http://download-east.oracle.com/docs/cd/b19306_01/server.102/b14200/functions132.htm - 7 - AJK 2016