Cele: a) Umiejętność przeprowadzenia analizy struktury wybranego zbioru obserwacji Obliczanie miar tendencji centralnych, miar rozproszenia, współczynnika skośności i miary spłaszczenia z wykorzystaniem ODM, Rapid Miner Wizualizacja danych Testowanie hipotez -badanie zgodności rozkładu Umiejętność interpretacji uzyskanych wyników b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników. testowanie równości wariancji (test F) i średnich (test t dla dwóch prón niezależnych) korelacja zmiennych analiza wariancji ANOVA c) Umiejętność wykonania analizy PCA (metoda głównych składowych) i interpretacji uzyskanych wyników. Zadanie 1. Badanie zgodności rozkładu zmiennej losowej z założonym rozkładem teoretycznym. Dana jest tabela (plik disttab.csv) z wartościami zmiennych num1, num2, num3, num4 a) Przeprowadź testowanie hipotez o zgodności rozkładu zmiennej losowej num1 z rozkładem normalnym, przy poziomie istotności α=0.05. Wykorzystaj test Shapiro-Wilka. H 0 : Xi, i = 1,..., n mają rozkład N(μ,σ) ; H1 : rozkład zmiennych Xi, i = 1,..., n nie jest rozkładem normalnym DECLARE mean number:=1; stdev number:=1; p number; ttype VARCHAR2(20) := 'SHAPIRO_WILKS'; begin dbms_output.put_line('normal - Shapiro-Wilka'); dbms_stat_funcs.normal_dist_fit('dmuser', 'disttab', 'num1', ttype, mean, stdev, p); dbms_output.put_line('mean : ' round(mean, 4)); dbms_output.put_line('stdev : ' round(stdev, 4)); dbms_output.put_line('p : ' to_char(p,'9.9999')); end; / b) Przeprowadź testowanie hipotez o zgodności rozkładu zmiennej losowej num2 z rozkładem wykładniczym. - 1 - AJK 2016
Zadanie 2. Waga zawodników drużyny koszykarskiej jest następująca: 158,127, 132, 169, 106, 188, 111, 143, 170, 125 Natomiast waga graczy drużyny futbolowej : 249, 236, 198, 221, 204, 216, 218, 225 Dane: zawodnicy.csv Czy różnica wag zawodników obu drużyn jest na tyle znacząca, że należy opracować odrębne plany treningów? Przyjmij poziom istotności α=0.05. Sprawdź normalność rozkładu zmiennej waga w grupach koszykarzy i piłkarzy (test Shapiro-Wilka) Przeprowadź test F na równość wariancji dwóch grup ( H0: s1=s2; H1: s1<>s2) Przeprowadź test t na równość średnich dla dwóch prób niezależnych ( H0: x1=x2; H1: x1<>x2) Przeprowadź dyskusję uzyskanych wyników Zadanie 3. Czy występuje istotna różnica pomiędzy średnimi z 5 prób, będąca wynikiem zmiany w ładunkach, czy też różnice są wyłącznie sprawą przypadku? Pliki: milaz.csv, milaza.txt. Milaż (mile na galon) Ładunek (w funtach) 0 500 1000 1500 2000 19.6 18.8 18.5 17.6 16.9 19.1 18.9 18.5 17.9 16.6 19.3 19.0 18.6 17.4 16.7 19.1 18.7 18.4 17.7 16.8 19.0 19.2 18.3 17.5 17.0 19.5 19.3 18.7 17.7 17.2 19.2 18.8 18.9 17.8 16.9 19.4 18.9 18.2 17.4 16.7 19.0 19.4 18.5 17.6 17.0 19.1 19.0 18.6 17.8 16.8 Stosując procedurę analizy wariancji oraz zakładając poziom istotności 0.05 należy dokonać oceny czy został spełniony warunek jednorodności wariancji oraz czy wpływ czynnika klasyfikującego jest przyczyną zmienności poziomu milażu. Przygotuj plik tekstowy z danymi Wykonaj import danych do tabeli MILAZ Sprawdź normalność rozkładu zmiennej zależnej Przy użyciu testów: Levene'a, lub Bartletta, (zależnie od normalności rozkładu) sprawdź, czy spełniony jest warunek jednorodności wariancji. Przeprowadź analizę wariancji (metoda ANOVA) H0: x1=x2=x3=x4=x5 H1:xi<>xj Przeprowadź dyskusję uzyskanych wyników - 2 - AJK 2016
Zadanie 4. Dla próby liczącej 30 studentów podano oceny zaliczeń X oraz egzaminów Y ze statystyki Określ korelację (siłę i kierunek) ocen z zaliczeń i egzaminu ze statystyki wykorzystując znane współczynniki korelacji.. Przeprowadź dyskusję wyników. Dane plikkorelacja.txt Zadanie 5. Wykorzystaj Rapid Miner do przeprowadzenia analizy zależności zmiennych w zbiorze danych dmbase. Oceń jakie czynniki mają decydujący wpływ na wartość zmiennej salary. Zaimportuj dane z pliku dmbase.xls (zastosuj operator Retrive lub Read Excel) Przyjmij dla atrybutu id rolę id. Eksploracyjna analiza danych Wyświetl tabelę z danymi. Wyświetl tabelę ze statystykami. (Meta Data View), sprawdź czy nie ma brakujących lub odstających danych, Sprawdź rozkłady dla poszczególnych zmiennych - wygeneruj histogramy i wykresy pudełkowe (Quartile). Która zmienna charakteryzuje się największą zmiennością, a która najmniejszą? Sprawdź czy są zależności między zmiennymi - Wygeneruj wykresy rozproszenia (Scatter) np. dla pary zmiennych no_atbat no_hits. Oblicz współczynniki korelacji (operator Correlation Matrix) Przeprowadź analizę uzyskanych wyników. Czy obserwujesz korelacje w grupie zmiennych objaśniających? Wymogiem formalnym do stosowania metody głównych składowych jest dysponowanie pełnym zbiorem danych. W naszym przypadku brak jest danych dla atrybutów salary i logsalary. Wymusza to konieczność usunięcia rekordów z brakującymi danymi - 3 - AJK 2016
bądź uzupełnienie brakujących danych. Można w tym celu zastosować operator Replice Missing Values. Wybierz uzupełnianie brakujących danych dla salary przez wypełnienie średnią Z analizy danych wynika, że zmienne mają różny zakres zmienności. W celu uniknięcia nadmiarowości zmiennych należy zastosować normalizacje danych numerycznych (operator Normalize ) Metoda analizy głównych składowych może być zastosowana tylko dla zmiennych objaśniających typu numerycznego, dlatego należy zmienić rolę zmiennych name, team, position, league i division a także logsalar(operator Set Role id).w celu pominięcia ich w modelu zaś dla zmiennej salary zmień rolę na label - 4 - AJK 2016
Metoda PCA (analizy głównych składowych) Zamieść operator PCA Uruchom przepływ danych Przeprowadź analizę uzyskanych wyników Ile głównych składowych należy uwzględnić? (uwzględnij kryteria wartości własnej, części wariancji wyjaśnianej przez składowe główne, kryterium minimalnego zasobu zmienności wspólnej, kryterium wykresu osypiskowego) Sprawdź, czy główne składowe są ze sobą skorelowane, wygeneruj wykresy rozproszenia dla głównych składowych - 5 - AJK 2016
Zadania do samodzielnego wykonania: Zadanie A Przeprowadź analizę następujących danych Przeciętny czas życia[lata] kobiety mężczyźni Argentyn 78 71 a Australia 83 78 Brazylia 74 66 Chiny 73 70 Egipt 72 67 Indie 65 62 Indonezja 69 65 Iran 72 69 Izrael 82 78 Japonia 85 78 Kanada 82 77 Kazachsta 69 58 n Korea Pd. 80 73 Meksyk 77 72 Nigeria 44 43 Pakistan 63 63 Polska 80 71 RPA 51 47 Turcja 71 66 USA 80 75 Na podstawie danych z tabeli oceń czy średnia długość życia kobiet i mężczyzn w wybranych krajach świata różni się w sposób statystycznie istotny. Odpowiedź uzasadnij. Zadanie B Na stronie http://www.e-petrol.pl/index.php/notowania/rynki-zagraniczne/stacje-paliweuropa podano aktualne średnie ceny paliw w wybranych krajach europejskich. Przygotuj na tej podstawie plik tekstowy. Zaimportuj dane do tabeli CENA_PALIWA. Wprowadź atrybut, który będzie określał przynależność do jednej z 4 grup krajów. Pierwsza grupa kraje bałkańskie,druga kraje skandynawskie, trzecia kraje basenu Morza Śródziemnego, czwarta - pozostałe. Czy można uznać, że przy poziomie istotności α = 0.05 przynależność geograficzna jest czynnikiem różnicującym średnie ceny paliw w Europie? Odpowiedź uzasadnij Zadanie C. Dane: mieszkania.txt - zbiór zawierający dane dotyczące mieszkań: 35 obserwacji, 3 zmienne POWIERZCHNIA, PIETRO i CENA a) Utwórz perspektywę zawierajacą dodatkowo kolumnę CENA_ZA_METR b) Oblicz współczynniki korelacji dla wszystkich par zmiennych z powyższego zbioru danych.korzystając z funkcji CORR(x,y) ODM c) Przeprowadź analizę korelacji korzystając z aplikacji Rapid Miner Importuj dane Przygotuj diagram przepływu informacji. Stosując operator SetRole ustal dla ceny role label (zmienna objaśniana) a dla zmiennych Pietro i id role id (zmienne z rola id są pomijane w modelu) Uruchom przepływ. Porównaj wyniki z uzyskanymi przy zastosowaniu ODM. Zadanie D Czy istnieje zależność pomiędzy wartościa PKB i długością życia mieszkańców wybranych krajów. Określ siłę i kierunek korelacji. - 6 - AJK 2016
Zadanie E Przeprowadź analizę zależności zmiennych w zbiorze danych house. Oceń jakie czynniki mają decydujący wpływ na średnią wartość mieszkania. Wykonaj import danych z pliku house.xls. Przyjmij dla atrybutu id rolę id, a dla medianhousevalue (zmienna docelowa) rolę label??? Sprawdź czy nie ma brakujących lub odstających danych, jeśli tak usuń outliers, uzupełnij braki Sprawdź rozkłady dla poszczególnych zmiennych Sprawdź czy są zależności między zmiennymi Wygeneruj wykresy rozproszenia (Scatter) np. dla pary zmiennych totalrooms - population Oblicz współczynniki korelacji Przeprowadź analizę uzyskanych wyników. Przeprowadź analizę stosując metodę głównych składowych (PCA) Ile głównych składowych należy uwzględnić? (uwzględnij kryteria wartości własnej, części wariancji wyjaśnianej przez składowe główne, kryterium minimalnego zasobu zmienności wspólnej, kryterium wykresu osypiskowego) Żródła: http://rapid-i.com/ http://www.slideshare.net/rapidminercontent/rapidminer-rapidminerproducts http://www.statsoft.pl/textbook/stathome_stat.html?http://www.statsoft.pl/textbook/stanman.html http://www.oracle.com/technology/products/bi/stats_fns/pdf/or_statistical_functions_overview.pdf http://download-east.oracle.com/docs/cd/b19306_01/server.102/b14200/functions132.htm - 7 - AJK 2016