Wprowadzenie do programowania. Dr Wioleta Drobik



Podobne dokumenty
STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

WPROWADZENIE DO PROGRAMOWANIA I ŚRODOWISKA R. Biomatematyka - wykład 2 Dr Wioleta Drobik-Czwarno

Instalacja Pakietu R

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Elementy statystyki STA - Wykład 1

Podstawy statystyki matematycznej w programie R

Statystyka I z R. Bartosz Maćkiewicz. 2 października 2017

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Środowisko R wprowadzenie. Wykład R1; Pakiety statystyczne

Modelowanie rynków finansowych z wykorzystaniem pakietu R

1 Podstawy c++ w pigułce.

Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testy nieparametryczne

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Programowanie w języku Python. Grażyna Koba

1 Podstawy c++ w pigułce.

INFORMATYKA W SZKOLE. Podyplomowe Studia Pedagogiczne. Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna i ekonometria

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

LABORATORIUM 3 ALGORYTMY OBLICZENIOWE W ELEKTRONICE I TELEKOMUNIKACJI. Wprowadzenie do środowiska Matlab

AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT. Instrukcja do zajęc laboratoryjnych nr 1 AUTOMATYZACJA I ROBOTYZACJA PROCESÓW PRODUKCYJNYCH

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA

Po uruchomieniu programu nasza litera zostanie wyświetlona na ekranie

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

You created this PDF from an application that is not licensed to print to novapdf printer (

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

author: Andrzej Dudek

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Programowanie I. O czym będziemy mówili. Plan wykładu nieco dokładniej. Plan wykładu z lotu ptaka. Podstawy programowania w językach. Uwaga!

-Instalacja R: -Instalacja RStudio:

Analiza korespondencji

MODELE LINIOWE. Dr Wioleta Drobik

Wykład z Technologii Informacyjnych. Piotr Mika

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PDF created with FinePrint pdffactory Pro trial version

Analizy wariancji ANOVA (analysis of variance)

Elżbieta Kula - wprowadzenie do Turbo Pascala i algorytmiki

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Próba własności i parametry

Spis treści 3 SPIS TREŚCI

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

TEST KOŃCOWY DLA KLASY III GIMNAZJUM- POGRAMOWANIE. Szkoła Podstawowa Nr 5. im. Księcia Mazowieckiego Siemowita IV w Gostyninie.

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Niezwykłe tablice Poznane typy danych pozwalają przechowywać pojedyncze liczby. Dzięki tablicom zgromadzimy wiele wartości w jednym miejscu.

Wykład 4: Statystyki opisowe (część 1)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Laboratorium 1 Temat: Przygotowanie środowiska programistycznego. Poznanie edytora. Kompilacja i uruchomienie prostych programów przykładowych.

Technologie informacyjne - wykład 12 -

Testowanie hipotez statystycznych.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Definicje. Algorytm to:

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wprowadzenie do programu Mathcad 15 cz. 1

Wprowadzenie do er(k)a

Podstawy programowania skrót z wykładów:

INFORMATYKA W SELEKCJI

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka matematyczna i ekonometria

Matlab, zajęcia 3. Jeszcze jeden przykład metoda eliminacji Gaussa dla macierzy 3 na 3

Metody Statystyczne. Metody Statystyczne.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Programowanie w języku C++ Grażyna Koba

Statystyka matematyczna dla leśników

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka matematyczna i ekonometria

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wprowadzenie do środowiska

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Testowanie hipotez statystycznych

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Testy dla dwóch prób w rodzinie rozkładów normalnych

Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

Zadania ze statystyki cz.8. Zadanie 1.

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Analiza Statystyczna

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Testowanie hipotez statystycznych.

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Transkrypt:

Wprowadzenie do programowania Dr Wioleta Drobik

Czym jest programowanie? Programowanie nie jest zajęciem dla wybrańców posiadających ogromną i niemal tajemną wiedzę

Języki programowania Język programowania to język stworzony do opisu kolejnych kroków, które mają być podjęte przez komputer. ~ instrukcja dawana komputerowi przez człowieka. Język używany przez procesor to kod maszynowy Kod pisany w języku programowania jest przetwarzany na kod maszynowy tak, by mógł zostać przetworzony przez procesor

Klasyfikacja Interpretowane Na bieżąco tłumaczone na język maszynowy komputera przez program zwany interpreterem Kompilowane Kod źródłowy jest tłumaczony na kod maszynowy (wykonywalny program) przez program zwany kompilatorem Jedna instrukcja w kodzie źródłowym to kilka (języki niskiego poziomu), kilkaset instrukcji (języki wysokiego poziomu) w kodzie maszynowym

Klasyfikacja Poziom Języki niskiego poziomu - języki maszynowe (zapisane są w postaci liczb binarnych) oraz asemblery (języki symboliczne) języki wysokiego poziomu w tych językach jedna instrukcja jest tłumaczona na kilka, kilkadziesiąt instrukcji procesora

Algorytm Czym jest algorytm? Algorytm to jednoznaczny przepis wykonania pewnej czynności w skończonym czasie np. zmiana pewnych danych wejściowych do pewnych danych wynikowych

Od pojęć do kodu Typowe formy zapisu algorytmu: Opis słowny Schemat blokowy Pseudokod Lista kroków do wykonania Kod źródłowy programu Program to algorytm zapisany w postaci (zależnie od języka programowania) umożliwiającej jego automatyczną realizację za systemu komputera

Od problemu do programu 1. Sformułowanie problemu (definicja zadania) 2. Analiza problemu 3. Wybór metody (metod) rozwiązania 4. Opracowanie algorytmu 5. Kodowanie (implementacja) programu 6. Testowanie programu 7. Sporządzenie dokumentacji

Główne składowe każdego programu Zmienne Funkcje Sterowanie: przepływem wykonywanie programu instrukcje warunkowe pętle Schemat blokowy algorytmu

Instrukcje warunkowe Najczęściej wykorzystywane elementy w języku programowania Słownie: Jeżeli spełniony został warunek wykonaj operacje X, jeżeli nie, wykonaj operacje Y. np. robienie sałatki warzywnej dla Jasia Zrobimy sos na bazie. Czy Jaś ma nietolerancje laktozy? TAK NIE

Instrukcje warunkowe w R Przykład: Skrypt (widok w edytorze tekstu) Widok w konsoli wynik

Pętle Rodzaj instrukcji pozwalających na wielokrotne powtórzenie wykonania zaprogramowanych operacji Np. doprawiaj sałatkę dopóki nie będzie dobra Przykłady w R:

Biblioteki To zbiór klas, funkcji możliwych do wykorzystania przez programistę / użytkownika W R nazywane są pakietami Biblioteka standardowa: Podstawowy zestaw funkcji pozwalający zrealizować najważniejsze operacje

Jak nauczyć się programować? Kursy online Książki PRAKTYKA!!! Rozwiązywanie problemów biologicznych przez programowanie

Środowisko R

Narzędzia Najpopularniejsze środowiska do obliczeń numerycznych MATLAB OCTAVE R -obliczenie inżynierskie i naukowe - symulacje -obliczenia statystyczne i zaawansowana grafika

Narzędzia Najpopularniejsze programy do statystyki i analizy danych SAS Statistica SPSS S-PLUS R

Czym jest R? GNU R to język programowania i środowisko do m.in..: obliczeń statystycznych wizualizacji danych wszystkiego co można oprogramować Cieszy się rosnącą popularnością i uznaniem zwłaszcza w Europie Zachodniej, gdzie od lat jest standardem w dziedzinie analiz statystycznych

Trochę HistoRii Pierwsza wersja R została napisana przez Roberta Gentlemana i Ross Ihake (znanych jako R&R) pracujących na Wydziale Statystyki Uniwersytetu w Auckland Pakiet początkowo służył jako pomoc dydaktyczna do uczenia statystyki na tym uniwersytecie Od roku 1997 rozwojem R kieruje: zespół ponad dwudziestu osób nazywanych core team fundacja The R Foundation for Statistical Computing z setkami aktywnych uczestników Wkład setek osób z całego świata publikujących własne biblioteki z bardzo różnych dziedzin

Polecana literatura: Biecek P. 2014. Przewodnik po pakiecie R. Oficyna wydawnicza GIS. Rozdział 1 wersji ze starszego wydania dostępny za darmo w Internecie: http://cran.r-project.org/doc/contrib/biecek-r-basics.pdf Komsta Ł. 2004. Wprowadzenie do R. Wersja PDF dostępna za darmo w Internecie: http://cran.r-project.org/doc/contrib/komsta- Wprowadzenie.pdf Rybiński M. 2011. Krótkie wprowadzenie do R dla programistów, z elementami statystyki opisowej. WMIM UW. Dostępny za darmo w Internecie: http://www.mimuw.edu.pl/~trybik/edu/0809/rps/rskrypt.pdf Paradis E. 2005. R for Beginners. Dostępny za darmo w Internecie: http://cran.r-project.org/doc/contrib/paradis-rdebuts_en.pdf

Ważne miejsca w sieci The Comprehensive R Archive Network Instalacja, pakiety, materiały http://cran.r-project.org/ Informacje i tutoriale http://www.r-bloggers.com/ Tutoriale statystyczne i nie tylko http://www.r-tutor.com/

Dlaczego warto? Oprogramowanie na licencji GPL do zastosowań prywatnych oraz komercyjnych Darmowa dystrybucja Dostępność kodu źródłowego Dynamiczny rozwój, tysiące dostępnych pakietów Możliwość tworzenia pakietów zawierających nowe funkcjonalności Wsparcie naukowe Aktywna społeczność użytkowników w Polsce i na świecie Wieloplatformowość (Windows, Linux, Mac OS) Optymalizacja obliczeń Praca z dużymi zbiorami danych Where in the world is R and Rstudio. http://blog.rstudio.org/2012/10/01/where-in-the-world/

Zalety platformy R R pozwala na tworzenie i upowszechnianie pakietów zawierających nowe funkcjonalności Wersja 2.15.2, koniec 2012 r., ponad 4000 pakietów Wykres 1. Liczba pakietów dostępnych w kolejnych wersjach R Źródło: http://r4stats.com/2013/03/19/r-2012- growth-exceeds-sas-all-time-total/ Źródło: http://blog.revolutionanalytics.com/2010/01/r-package-growth.html

Źródło: http://blog.revolutionanalytics.com/2010/01/r-package-growth.html

Popularność Źródło: http://r4stats.com/articles/popularity/ (Google Scholar)

Popularność Źródło: http://r4stats.com/articles/popularity/

Możliwości graficzne

Cechy charakterystyczne: Interpretowalność języka R Odmienność od arkuszy kalkulacyjnych Praca w linii komend lub nakładki graficzne Nakładki i narzędzia R Studio wygodne środowisko obliczeń zintegrowane z R, udogodnienia dla analityków i programistów R Commander interfejs okienkowy

Jak wygląda praca z R Język R jest językiem interpretowanym, a korzystanie sprowadza się do podania ciągu komend, które mają zostać wykonane Znak > jest zachętą do wprowadzania poleceń Znak + jest znakiem kontynuacji Kolejne komendy mogą być wprowadzane linia po linii z klawiatury lub też mogą być wykonywane jako skrypt

Skrypt Jest to program wykonywany wewnątrz pewnej aplikacji, w odróżnieniu od programów normalnych wykonywanych niezależnie, bezpośrednio w systemie operacyjnym Składa się z wykonywalnego kodu oraz komentarzy # jest znakiem komentarza wszystko co znajdzie się za tym znakiem jest pomijane przez program

Pojęcia i komendy Obszar roboczy (ang. workspace) Wszystkie obiekty znajdujące się aktualnie w pamięci operacyjnej ESC q() Przerwanie aktualnie wykonywanej czynności Zamknięcie środowiska

Praca z R studio Dostępne na stronie: http://www.rstudio.com/ Zarządzenie wieloma plikami/projektami Wyświetlanie obiektów obecnych w przestrzeni nazw Wbudowany edytor kolorowanie składni Podpowiadanie składni (skrót klawiaturowy: shift+enter) Łatwa instalacja pakietów

Praca z R studio

R Commander Interfejs okienkowy dla środowiska R Instalacja: install.packages("rcmdr",dependencies=true)

Podstawy składni języka R Wszystko z czym mamy do czynienia z R jest obiektem Obiektem mogą być: Zmienne Macierze Funkcje Itd.. Obiekty posiadają nazwy i inne atrybuty takie jak np. wymiary, nazwy kolumn

Czym jest zmienna w informatyce? Zmienne są sposobem przechowywania informacji w komputerze Miejsce w pamięci trzeba odpowiednio nazwać i zaadresować Np. tworzymy zmienną o nazwie wiek i przechowujemy w niej wiek danej osoby tworzymy zmienną kot. Zawartość Zmienna kot

Zmienne w R Etapy procesu tworzenia zmiennej: 1. Podaj nazwę zmiennej np. lata 2. Dodaj znak przypisania wartości do zmiennej <- lub znak równości = 3. Dodaj zawartość zmiennej np. 5 i naciśnij enter 4. Sprawdź zawartość zmiennej przez wpisanie jej nazwy. W konsoli powinien pojawić się wynik Przykłady:

Zmienne w R Nazwy zmiennych: Istotna jest wielkość liter Powinny zaczynać się od litery Mogą składać się z liter, cyfr, kropek, podkreślników Nie może zawierać m.in. spacji

Typy zmiennych Typ liczbowy Liczby całkowite, rzeczywiste Kropką dziesiętna jest kropka, nie przecinek NaN - wartość specjalna z ang. not a number czyli nie liczba Oznaczenia Inf oraz Inf to plus i minus nieskończoność

Typy zmiennych Typ czynnikowy (kategoryczny, ang. factor) Przechowuje informacje o powtórzeniach takich samych wartości oraz o zbiorze unikalnych wartości tego ciągu Przydatny do przechowywania wartości występujących na kilku poziomach (w kilku kategoriach) np. płeć, rasa, wykształcenie Służą najczęściej do definiowania grup Zmienne takie tworzymy z użyciem funkcji factor() Np.

Typy zmiennych Typ znakowy (character) Wartościami obiektów są napisy (łańcuchy znaków) Rozpoczynają się i kończą znakiem lub Znaki specjalne: \n znak nowej linii \t znak tabulacji Z łańcuchów znaków można wycinać fragmenty, sklejać, wyszukiwać podciągi znaków, itd.

Typy zmiennych Typ logiczny (logical) Obiekty tego typu przechowują jedną z dwóch wartości: logiczną prawdę (TRUE lub jego skrót T, odpowiednik liczbowy 1) logiczny fałsz (FALSE lub jego skrót F, odpowiednik liczbowy 0) Dzięki nim można wykonywać operacje logiczne, np. Wartości logiczne są szczególnie istotne przy instrukcjach warunkowych

Wektor (vector) Jest to ciąg zmiennych tego samego typu, np. liczb, znaków, wartości logicznych Do tworzenia wektorów służy funkcja c() Przykładowe funkcje: length(wektor) długość wektora sort(wektor) sortowanie, rosnąco sample(wektor, length(wektor),false)

Wektor (vector) Wektory są strukturami, na których można wykonywać praktycznie wszystkie działania arytmetyczne. Np.: pierwiastek z wektora jest wektorem, którego elementy są pierwiastkami elementów oryginalnego wektora Suma dwóch wektorów o tej samej długości jest wektorem zawierającym sumy poszczególnych elementów (dwa pierwsze, dwa drugie etc.) Jeśli wektory mają różne długości, to po dojściu do końca pierwszego wektora obliczenia zaczynają się od początku.

Indeksowanie Odnosimy się do konkretnych elementów stanowiących podzbiór całości otrzymujemy wektor ale jest on krótszy i zawiera jedynie elementy z wyjściowego wektora polega na dodaniu wyrażenia w nawiasach kwadratowych

Indeksowanie Jako indeksu możemy użyć: Wektora zawierającego liczby naturalne (od 1 do długości wektora) Wektora zawierającego ujemne liczby całkowite wektor zawiera wszystkie elementy oprócz wskazanych Wektora logicznego o tej samej długości otrzymany wektor zawiera tylko te liczby dla których indeks zawiera wartość TRUE

Macierz (matrix) Jest wektorem, dodatkowo zawierającym informacje o uporządkowaniu elementów Najczęściej stosowana jest macierz dwuwymiarowa Indeksowanie: Macierz[wiersz, kolumna]

Ramka danych (data frame) Macierz (tablica), której poszczególne kolumny sa wektorami lub/i czynnikami o tej samej długości Kolumny mogą różnic się pomiędzy sobą typem elementów, jakie zawierają. Konstruktorem jest funkcja data.frame

Funkcja Wydzielona część programu do wielokrotnego wykorzystania Schemat instrukcji, które mają zostać wykonane na wybranych argumentach Jej konstruktorem jest funkcja function() mojafunkcja <- function(argument1, argument2,... ) { statements return(object) }

Pakiety Na przykładzie pakietu Rcmdr Instalacja: install.packages("rcmdr",dependencies=true) instaluje pakiet Rcmdr oraz wszystkie wspomagające jego działanie Wyświetli sie lista serwerów z repozytoriami - wybieramy najbliższy (szybkość) Funkcja library(rcmdr): Ładowanie biblioteki do aktywnej przestrzeni roboczej (workspace) Aby wyświetlić listę załadowanych bibliotek używamy tej samej funkcji, ale bez argumentu

Analizy statystyczne w R

Przykładowa baza danych Baza survey z pakietu MASS Baza zawiera odpowiedzi 237 studentów uniwersytetu Adelaide na pytania zawarte w ankiecie Przykładowe zmienne: Płeć: Male, Female W.Hnd: praworęczność right lub leworęczność left, Pulse (uderzenia serca na minute) Smoke (jak dużo papierosów pali student): Heavy, Regul, Occas, Never Height (wzrost w cm) Age (wiek)

Przykładowa baza danych

Cechy jakościowe Tabela liczebności (kontyngencji) funkcja table() zestawienie liczebności w grupach Przykład:

Statystyka opisowa cechy ilościowe Cechy ilościowe - najważniejsze funkcje: length długość wektora (liczba elementów) sum suma elementów wektora max, min maksymalna i minimalna wartość z wektora mean średnia arytmetyczna Jeśli podamy dodatkowy parametr trim - to funkcja policzy, średnią po odrzuceniu określonego odsetka wartości skrajnych, np. mean(x,trim=0.1) to średnia z x po odrzuceniu 10% wartości skrajnych quantile dowolny kwantyl, np. quantile(x,.5) - to mediana z x, inaczej median(x) sd odchylenie standardowe var wariancja moda wartość występująca najczęściej

Statystyka opisowa Funkcja summary() wyświetla proste podsumowania wektora obserwacji Dla zmiennej jakościowej: Liczebności obserwacji w każdym z możliwych poziomów Dla zmiennej ilościowej: Wektor z wartościami: Minimum Maksimum Średnia Mediana Kwartyle

Statystyka opisowa Wynik funkcji summary() dla przykładowej ramki danych

Wykresy Możliwość wykorzystania jednego z dwóch systemów graficznych Pakiet graphics Pakiet grid wykorzystany w pakietach np. lattice, ggplot2 Pakiet graphics Pakiet lattice Pakiet ggplot2 plot(pulse,height) xyplot(height~pulse) qplot(pulse,height)

Wykresy Histogram przedstawia liczebności obiektów w poszczególnych przedziałach (klasach) danej zmiennej Funkcja hist() Histogram, ustawienia domyślne Zmiana liczby przedziałów (breaks)

Wykresy Wykres pudełkowy zmienność pojedynczej lub kilku zmiennych Funkcja boxplot() Obserwacje odstające (ang. outliers) - ponad 1,5 przedziału międzykwartylowego (IQR) od kwartyli

Wykresy Wykres rozrzutu zależności między parą zmiennych ilościowych Funkcja plot() plot(pulse,height,col=rainbow(2),pch=19)

Wykresy Najważniejsze argumenty wykresów main tytuł np. main= wykres xlab, ylab - tytuły osi np. xlab= nazwa osi x ylim dolna i górna granica wartości dla osi y np. zakres od 0 do 50 co 5: ylim=c(0,50,5) breaks liczba przedziałów przy tworzeniu histogramu col - kolory

Testowanie hipotez p-value = prawdopodobieństwo testowe, graniczny poziom istotności Prawdopodobieństwo uzyskania analizowanych danych przy założeniu, że hipoteza zerowa jest prawdziwa Miara prawdopodobieństwa popełnienia błędu pierwszego rodzaju czyli nieodrzucenia fałszywej hipotezy zerowej p-value > 0.05 brak podstaw do odrzucenia hipotezy zerowej p-value <= 0.05 istotnie odrzucamy hipotezę zerową p-value <= 0.01 wysokoistotnie odrzucamy hipotezę zerową

Wybrane testy statystyczne Sprawdzanie czy zmienna ma rozkład normalny: Test Shapiro-Wilka shapiro.test(x) H 0 : zmienna ma rozkład normalny Wartość empiryczna testu Czyli: 1 x 10^-16 Prawdopodobieństwo testowe < 0.01 więc odrzucamy hipotezę zerową wysokoistotnie Prawdopodobieństwo testowe > 0.05 więc brak podstaw do odrzucenia hipotezy zerowej

Wybrane testy statystyczne Sprawdzanie zgodności rozkładu z założonym (ang. Chi square goodness of fit test) H 0 : Rozkład jest zgodny z założonym (1:7:1:1) zakładamy, że 70% studentów należy do osób nie palących, a w każdej z pozostałych grup znajduje się po 10% studentów

Wybrane testy statystyczne Test na jednorodność wariancji F-Snedecora var.test(x,y) H 0 : σ 2 1= σ 2 2

Wybrane testy statystyczne Test na proporcje mała próba binom.test(x=9,n=20,p=0.2) Oparty na rozkładzie dwumianowym 9 sukcesów w 20 próbach prawdopodobieństwo sukcesu 20% H 0 : p=0.2

Wybrane testy statystyczne Test na proporcje duża próba (odpowiednik testu U) Oparty na statystyce Chi-kwadrat prop.test(x=2000,n=100000,p=0.2) 2000 sukcesów w 100 000 prób prawdopodobieństwo sukcesu 20% H 0 : p=0.2

Wybrane testy statystyczne Test na średnią w jednej populacji Zakłada rozkład normalny Test t-studenta Przykład: Czy średni wzrost studentów był równy 170 cm? t.test(x,mu=170) H 0 : μ=170

Wybrane testy statystyczne Test na średnią w dwóch populacjach Zakłada rozkład normalny i jednorodność wariancji Test t-studenta Przykład: Czy średnia wzrostu dla studentów obu płci jest taka sama? t.test(wzrost_m,wzrost_f) H 0 : μ 1 = μ 2

Wybrane testy statystyczne Test na niezależność chi-kwadrat Musimy mieć tabelę liczebności np: Kolejne elementy to gatunek filmowy: sensacyjny, komedia, horror kobiety<-c(21,12,32) mezczyzni<-c(33,22,33) chisq.test(bind(kobiety, mezczyzni)) H 0 : Cechy są niezależne

Wybrane testy statystyczne Test na niezależność chi-kwadrat Czy częstotliwość palenia tytoniu u studentów zależy od płci?

Wybrane testy statystyczne Korelacja liniowa Pearsona Wartości od -1 do +1 Liniowa zależność pomiędzy dwoma zmiennymi ilościowymi funkcja: cor() lub z testem istotności cor.test()

Dziękuje za uwagę