ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

MODELE LINIOWE. Dr Wioleta Drobik

Korelacja, autokorelacja, kowariancja, trendy. Korelacja określa stopień asocjacji między zmiennymi

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

PDF created with FinePrint pdffactory Pro trial version

KORELACJE I REGRESJA LINIOWA

Analiza współzależności zjawisk

Wprowadzenie do analizy korelacji i regresji

Rozdział 8. Regresja. Definiowanie modelu

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Zmienne zależne i niezależne

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA MATEMATYCZNA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza regresji - weryfikacja założeń

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 4 Związki i zależności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metodologia badań psychologicznych. Wykład 12. Korelacje

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Korelacja krzywoliniowa i współzależność cech niemierzalnych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

S t a t y s t y k a, część 3. Michał Żmihorski

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

STATYSTYKA MATEMATYCZNA

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

laboratoria 24 zaliczenie z oceną

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Rachunek Prawdopodobieństwa Anna Janicka

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Stosowana Analiza Regresji

JEDNOCZYNNIKOWA ANOVA

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WYKŁAD 8 ANALIZA REGRESJI

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Analiza Współzależności

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

STATYSTYKA MATEMATYCZNA

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Systemy Wspomagania Decyzji

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zadania ze statystyki, cz.6

Statystyczna analiza danych

TEORETYCZNE PODSTAWY INFORMATYKI

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Metody Ilościowe w Socjologii

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Próba własności i parametry

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Stosowana Analiza Regresji

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

POLITECHNIKA OPOLSKA

Dopasowanie prostej do wyników pomiarów.

METODY STATYSTYCZNE W BIOLOGII

Transkrypt:

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów

2 Regresja liniowa Korelacja Modelowanie Analiza modelu Wnioskowanie

Korelacja 3 Korelacja R: charakteryzuje linową zależność pomiędzy dwoma zmiennymi. Skutek: % z dochodem poniżej minimum Przyczyna: % z wyższym wykształceniem Relacja: liniowa, ujemny współczynik, średnio-silna % HS grad: % z wyższym wykształceniem % in poverty: dochód na rodzinę poniżej minimum Dane: 50 stanów USA, Minimum: 23 tys $/rok na rodzine 4 osobową

Korelacja: własności 4 Wielkość (absolutna) współczynnika korelacji mierzy siłę liniowej asocjacji pomiędzy dwoma zmiennymi numerycznymi

Korelacja: własności 5 Znak korelacji wskazuje na kierunek asocjacji

Korelacja: własności 6 Z definicji, wartość R jest pomiędzy -1 (idealna negatywna asocjacja) do 1 (idealna pozytywna asocjacja) R = 0 wskazuje na brak zależności pomiędzy zmiennymi

Korelacja: własności 7 Współczynnik jest bezwymiarowy, nie zależy od skali żadnej ze zmiennych lub przesunięcia

Korelacja: własności 8 Korelacja pomiędzy X i Y jest taka sama jak pomiędzy Y i X

Korelacja: własności 9 Korelacja R jest zależna od występowania tzw. outliers outlier

Korelacja 10 Jaki jest R w naszym przykładzie?

Korelacja 11 Bardzo silna nieliniowa Silna liniowa Bardzo słaba słaba

Residuals 12 Odchylenia od wartości modelowej Dane = fit + residuals Różnica pomiędzy przewidywane i obserwowana wartością y

Residuals 13

Residuals 14 W jaki sposób wyznaczmy model: Minimalizacja sumy wartości odchyleń? Minimalizacja sumy kwadratów odchyleń? Metoda najmniejszych kwadratów

Model liniowy regresji 15 Notacja:

Parametry modelu 16 Punkt przecięcia (intercept): przewidywana wartość y dla x=0 Współczynnik nachylenia (slope): dla zwiększenia x,y o jednostkę przewidywany wzrost/zmniejszenie x,y

Parametry modelu 17 Slope: Dane:

Parametry modelu 18 Punkt przecięcia:

Parametry modelu 19 Punkt przecięcia: Dane: Często nie ma praktycznego znaczenie

Parametry modelu liniowego 20

Extrapolacja 21 Używamy model aby przewidzieć wartość x poza obszarem dla którego mamy punkty obserwacyjne

Warunki dla liniowej regresji 22 Liniowość relacji pomiędzy x i y Istnieją też metody aby fitować nieliniowe modele Sprawdzamy używając scatter-plotu i residual plotu

Przykład: 23

Rozkład punktów residuals 24 Powinien być zbliżony do normalnego Może nie być spełniony jeżeli są obserwacje które maja inny trend niż reszta danych Możemy sprawdzić rysując histogram rozkładu percentili.

Stała zmienność 25 Rozrzut punktów wokół lini modelu powinien być w miarę równomierny Sprawdzamy na plocie residuals

Możemy też użyć apletu 26

Miara zgodności modelu 27 Jako miarę zgodności modelu często używamy R 2 Ilościowa ocena jaki procent rozrzutu danych może być wyjaśnione przez model R 2 = 92.16%

Outliers 28 Outliers: punkty który leżą daleko od skupisk punktów Rozróżniemy dwie kategorie: leverage : leżą wzdłuż osi poziomej na plocie residuals influential : uwzględnienie silnie zmienia krzywą nachylenia lini Leverage outlier

Outliers 29 Outliers: punkty który leżą daleko od skupisk punktów Rozróżniemy dwie kategorie: leverage points : leżą wzdłuż osi poziomej na plocie residuals influential points : uwzględnienie silnie zmienia krzywą nachylenia lini W tym przykładzie bez punktu outliers nie byłoby relacji pomiedzy zmienną x i y. Influential outlier

Influential outliers 30 Relacja pomiędzy intensywnością promieniowania i temperaturą powierzchni dla 47 gwiazd w clustrze CYG OBI

Influential outliers 31 Nie muszą zmniejszać R 2

32 Wnioskowanie na podstawie regresji liniowej Wyniki: Wnioskowanie statystyczne: czy istnieje jakiś związek? Testujemy kierunek nachylenia krzywej

Wnioskowanie statystyczne 33 Używamy t-statystykę dla wnioskowania Odejmujemy 1 stopień swobody dla każdego parametru: b o i b 1

Wnioskowanie statystyczne 34 Używamy t-statystykę dla wnioskowania

Wnioskowanie statystyczne 35 Używamy t-statystykę dla przedziału ufności

Wnioskowanie statystyczne 36 Hipoteza H 0 jest często b 1 = 0 Wynik wnioskowania: b 1, SE b1, oraz dwustronne przedział ufności for t-test. Wnioskowanie dla punktu przecięcia jest rzadko stosowane.

Analiza wariancji 37 T-test pozwalał ocenić jak silna jest hipoteza o liniowej relacji pomiędzy x i y Alternatywy: sprawdzenie jak bardzo zmienność y jest wyjaśniona przez model: analiza wariancji.

Analiza wariancji 38

Analiza wariancji 39

Analiza wariancji 40

Analiza wariancji 41

Jeszcze raz na temat R 2 42 R 2 proporcja zmienności wyjaśniona przez model Duże: istnieje liniowy związek pomiędzy x i y Małe: nie można wyciągnąć takiego wniosku Dwa sposoby aby to policzyć Na podstawie korelacji: policzyć współczynnik korelacji Z definicji: policzyć procent wyjaśnionej zmienności

Analiza wariancji 43