Zajęcia nr VII poznajemy Rattle i pakiet R.

Podobne dokumenty
Metody wypełniania braków w danych ang. Missing values in data

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Wprowadzenie do analizy dyskryminacyjnej

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Sposoby prezentacji problemów w statystyce

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Data Mining z wykorzystaniem programu Rapid Miner

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

Wykład 4: Statystyki opisowe (część 1)

Eksploracja danych w środowisku R

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Analiza Statystyczna

KLASYFIKACJA. Słownik języka polskiego

b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

INFORMATYKA W SELEKCJI

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Badanie zależności skala nominalna

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Przykład Rezygnacja z usług operatora

Raport pochodzi z portalu

MODELE LINIOWE. Dr Wioleta Drobik

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wprowadzenie do analizy korelacji i regresji

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Przewodnik po pakiecie R / Przemysław Biecek. Wyd. 4 rozsz. Wrocław, Spis treści

enova Systemowe Narzędzia Projektowe

Wykład 5: Statystyki opisowe (część 2)

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Programy LeftHand - Obsługa plików JPK. Luty 2017

Qtiplot. dr Magdalena Posiadała-Zezula

Programy LeftHand - Obsługa plików JPK. Wrzesień 2016

Laboratorium 11. Regresja SVM.

author: Andrzej Dudek

Graficzna prezentacja danych statystycznych

Drzewa decyzyjne w SAS Enterprise Miner

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Pozyskiwanie wiedzy z danych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Instrukcja korzystania z portalu. Diagnoza z Nową Erą

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyki opisowe i szeregi rozdzielcze

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Podstawy statystyki matematycznej w programie R

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Mail: Pokój 214, II piętro

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Niestandardowa tabela częstości

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

PORADNIK DLA NAUCZYCIELI AKADEMICKICH SGGW WERYFIKACJA OSIĄGANIA ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA

Analiza korespondencji

Statystyka Matematyczna Anna Janicka

Tomography Tracking Instrukcja użytkownika

Aleksander Galisz. Gf aktura 1.0. Podręcznik użytkownika

Instrukcja obsługi elektronicznego formularza harmonogramu w ZSI SEZAM

Materiał dotyczy generowania różnego typu wykresów w środowisku R.

Statystyczne metody analizy danych przy użyciu środowiska R

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

MAH GPS. Krótki podręcznik użytkownika. Adam Sosnowski Glen sp. Z o.o. wersja 1.1 grudzieo 2010

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Policealna Szkoła Handlowa Rok I Wymiar godzin: 30 jednostek dydaktycznych Nr programu nauczania: 341(06)/SP/MEN/ (technik rachunkowości)

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

TWORZENIE ANKIETY ZA POMOCĄ SERWISU PB ONLINE

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

7.4 Automatyczne stawianie prognoz

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Metodyka wykonania kartogramu z podziałem na klasy wg punktów charakterystycznych wraz z opracowaniem kartogramicznej legendy.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Elementy statystyki wielowymiarowej

Jeśli wcześniej było wybierane połączenie z bazą danych w oknie Połączenia pokaże się jego nazwa, jeśli nie należy dodad Nowe połączenie.

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

W1. Wprowadzenie. Statystyka opisowa

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Transkrypt:

Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak widzimy po wczytaniu zbioru IRIS.TXT użytkownik widzi jakie zmienne są w analizowanym zbiorze, jakiego typu (tutaj numeryczne), która zmienna została wybrana jako zmienna objaśniania (wtedy przy takiej zmiennej mamy

znacznik TARGET), pewne zmienne możemy ignorowad w analizach (kolumna IGNORE). Widzimy także w kolumnie COMMENT ile dany atrybut (cecha) ma unikalnych wartości, ile wartości brakujących. Klikając przycisk VIEW otrzymujemy podgląd zbioru danych: Z kolei klikając przycisk EDIT możemy edytowad analizowany zbiór danych. W ramach statystyk [type = summary] podsumowujących zastosowad możemy: Explore pozwoli przejrzed dane, dokonad podstawowych statystyki: Summary statystyki podsumowujące Describe statystyki opisujące Basics statystyki podstawowe Kurtosis mówi, jaka jest kurioza w analizowanym zbiorze Skewness mówi o skośności danych w zbiorze Show Missing jeśli jest zaznaczone uwzględnia braki w danych podczas analizy

Statystyki podsumowujące zazwyczaj dostarczają ogólnych informacji o danych. Możemy zobaczyd typ każdej danej, wartości minimalne, maksymalne, średnie oraz medianę i pierwszy oraz trzeci kwartyl. Klikając w opcję Describe

Z kolei wybierając opcję basic W ramach metod rozkładów danych [type = distribution] zastosowad możemy: Wybierając np. opcję Box plot wygenerujemy wykresy pudełkowe dla wybranych zmiennych. Np. zaznaczając opcje Box plot dla zmiennej X5.1 i X0.2 otrzymamy następujące wykresy.

Zaznaczając opcję histogram dla tych samych zmiennych otrzymamy następujące wykresy:

Klikacjąc w zakładce Explore opcję Coorelation możemy obliczyd korelację zachodzącą między wszystkimi zmiennymi w analizowanym zbiorze. Oprócz graficznej wizualizacji tej korelacji mamy także informację o konkretnych wartościach korelacji oraz o użytej do jej pomiaru metryce (czy to była miara Spearmana, Kendalla czy Pearsona). Wybierając opcję Principal Components w zakładce Explore docieramy do analizy składowych głównych (Principal Component Analysis):

Zadanie 1. Przejrzed zasoby Internetu i zapoznad się z celem metody analizy składowych głównych. Student powinien wiedzied do czego służy ta metoda, jakie ma wady i zalety, w jakich zastosowaniach najczęściej się ją spotyka, oraz jakie są jej wymagania co do danych podlegających takiej analizie. Omijamy zakładkę TEST służy ona do testowania hipotez statystycznych a tym się zajmowad na tym przedmiocie nie będziemy!!! Przechodzimy do zakładki TRANSFORM. Mamy tu do czynienia z różnymi metodami transformacji danych, ich normalizacji i skalowania. Tutaj student winien przypomnied sobie treśd zajęd http://zsi.tech.us.edu.pl/~nowak/ed/mv.pdf gdzie była mowa o normalizacji danych a także radzenia sobie z niekompletnością danych. W zakładce transform dostępnych jest szereg narzędzi zarówno do zadania normalizacji jak i zadania wypełniania braków w danych. Zakładka CLUSTER pozwoli na zastosowanie analizy skupieo do wydobywania wiedzy z danych. W tym celu student powinien przejrzed zasoby Internetu i zdobyd informacje wstępne o tym co jest celem analizy skupieo, co ona daje w efekcie.

Zakładkę PREDICTIVE będziemy z pewnością analizowad na zajęciach z PED. Bardzo popularną metodą analizy danych jest metoda generowania drzew decyzyjnych. Metoda ta pozwala na szybką klasyfikację danych. W powiększeniu: A klikając teraz opcję (przycisk) [Draw]otrzymujemy drzewo decyzyjne postaci:

Które można już zapisad w wybranym formacie: JPG, png czy PDF. Zadanie do wykonania: 1. Dla swojego zbioru danych proszę wygenerowad skrócone charakterystyki, i dla wybranej cechy opisującej obiekty w tym zbiorze podad wartośd minimalną i maksymalną, a następnie wyrysowad dla niej odpowiednio wykres pudełkowy. Dla innej cechy (nie numerycznej) proszona podstawie charakterystyk opisowych podad wartośd dominującą w zbiorze, jaki ma ona zakres procentowy, i wyrysowad odpowiedni wykres dla niej. 2. Dla tego samego zbioru proszę przeskalowad wartości dla wybranej cechy nie numerycznej w kilku możliwych metodach. 3. Sprawdzid między którymi zmiennymi istnieje największa korelacja dodatnia bądź ujemna, a między którymi jest brak korelacji.