Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Podobne dokumenty

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

PDF created with FinePrint pdffactory Pro trial version

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Regresja i Korelacja

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analiza współzależności dwóch cech I

Analiza Współzależności

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

KORELACJE I REGRESJA LINIOWA

Rozdział 8. Regresja. Definiowanie modelu

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Analiza współzależności zjawisk

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

POLITECHNIKA OPOLSKA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Spis treści 3 SPIS TREŚCI

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

MODELE LINIOWE. Dr Wioleta Drobik

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i Analiza Danych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wykład 12 Testowanie hipotez dla współczynnika korelacji

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Ekonometria. Zajęcia

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka matematyczna dla leśników

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Testowanie hipotez statystycznych

Analiza wariancji. dr Janusz Górczyński

Wnioskowanie statystyczne. Statystyka w 5

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Analiza autokorelacji

Testowanie hipotez statystycznych

Badanie zależności skala nominalna

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 3 Hipotezy statystyczne

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

STATYSTYKA MATEMATYCZNA

Przykład 1. (A. Łomnicki)

Analiza składowych głównych. Wprowadzenie

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA MATEMATYCZNA

W1. Wprowadzenie. Statystyka opisowa

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Testowanie hipotez statystycznych

Metodologia badań psychologicznych. Wykład 12. Korelacje

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

WNIOSKOWANIE STATYSTYCZNE

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Zawartość. Zawartość

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

STATYSTYKA MATEMATYCZNA

Transkrypt:

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący się badaniem zależności między cechami statystycznymi. Dostarcza techniki do dokładnego określania stopnia, w jakim cechy są ze sobą powiązane. Pozwala wykryć lub zweryfikować rozpoznane współzależności. Podstawowym problemem jest stwierdzenie: Czy między cechami (zjawiskami, procesami, zdarzeniami) występuje jakiś związek (zależność). Na ile związek ten jest ścisły.

Statystyczna teoria korelacji i regresji (2) Analiza korelacyjna daje możliwość stwierdzenia, czy istnieje związek miedzy badanymi cechami oraz jaka jest jego siła i kierunek. Uwaga: niekoniecznie jest to związek przyczynowoskutkowy! Współczynnik korelacji jest to liczba określająca w jakim stopniu zmienne są współzależne. Analiza regresyjna daje możliwość oszacowania wartości jednej cechy na podstawie wartości przyjmowanych przez drugą cechę. Funkcja regresji (równanie lub model regresji) opisuje związek statystyczny między zmiennymi.

Rodzaje zależności Zależność funkcyjna zmiana wartości jednej cechy powoduje określoną zmianę wartości drugiej cechy (wiek i wzrost dziecka). Zależność stochastyczna wraz ze zmianą jednej zmiennej zmienia się rozkład drugiej zmiennej (zmiana ciśnienia atmosferycznego i opady). Zależność korelacyjna określonym wartościom jednej zmiennej odpowiadają określone średnie wartości drugiej zmiennej (sezonowe zmiany cen warzyw).

Analiza korelacyjna

Istota analizy korelacyjnej (1) Analiza korelacji ma sens głównie wtedy, gdy przypuszczamy, że między zmiennymi istnieje związek przyczynowo-skutkowy. Wstępna analiza jakościowa umożliwia stwierdzenie takiego związku na podstawie merytorycznej analizy logicznej. Analiza ilościowa określa siłę i kierunek związku. Uwaga: mimo ustalonego wpływu cechy x na cechę y, jednej i tej samej wartości x, może odpowiadać wiele różnych wartości y (chodzi o oddziaływanie innych niekontrolowanych czynników).

Istota analizy korelacyjnej (2) Rodzaje analizowanych cech: ilościowe i jakościowe Rodzaje związku: liniowy i nieliniowy Analizę korelacyjną zwykle rozpoczyna się od opracowania tablicy korelacyjnej oraz sporządzenia korelacyjnego wykresu rozrzutu. Mierniki współzależności dwóch cech ilościowych: współczynnik korelacji liniowej Pearsona, współczynnika korelacji rang Spearmana, współczynnika korelacji nieliniowej.

Współczynnik korelacji Pearsona (1) Jest to najbardziej popularny współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Jest to iloraz kowariancji i iloczynu odchyleń standardowych badanych cech x, y: r xy = x i x y i y x i x 2 y i y 2 Kowariancja jest średnią arytmetyczną iloczynu odchyleń poszczególnych zmiennych od ich średnich arytmetycznych.

Współczynnik korelacji Pearsona (2) Przykładowe wykresy danych (x, y) oraz odpowiadające im wartości współczynnika korelacji liniowej Pearsona.

Współczynnik korelacji Pearsona (3) Współczynnik r xy przyjmuje wartość od 1 do +1, im większa jego wartość bezwzględną tym większa siła korelacji. r xy = 0 nie zawsze oznacza brak zależności, a jedynie brak zależności liniowej. r xy = ±1 oznacza ścisły dodatni/ujemny związek. Współczynnik r xy wskazuje na korelację wzajemną: x względem y i y względem x. Raz jeszcze warto przypomnieć: związek korelacji nie jest jednoznaczny z występowaniem związku przyczynowo-skutkowego, a badanie związku korelacji wymaga rozeznania merytorycznej strony badanych zjawisk. Współzmienność nie jest dowodem współzależności!

Współczynnik determinacji (określoności) Jest to kwadrat współczynnika korelacji r xy 2. Jest opisową miarą siły związku między zmiennymi. Informuje on o tym, jaka część zmienności cechy zależnej y jest wyjaśniona zmiennością cechy niezależnej x. (1-r 2 xy ) nazywają współczynnikiem indeterminacji, bo informuje on o tym, jaka część zmienności nie została wyjaśniona. Przykład: jeśli r xy =0,8 to r xy 2 =0,64, to oznacza, że w 64% zmianę wartości y wyjaśnia zmiana x.

Weryfikacja hipotezy o istotności korelacji Jeśli rozkład zmiennych losowych Y i X jest normalny, to na podstawie próby z n elementów możemy zweryfikować hipotezę, że zmienne te są liniowo niezależne: H 0 : ρ=0 Jeżeli H 0 jest prawdziwa, to statystyka: t= r ma rozkład t Studenta z liczbą stopni swobody v = n 2. 1 r 2 n 2

Analiza regresyjna

Istota analizy regresyjnej (1) Jest to badanie wpływu jednej lub kilku cech objaśniających na cechę, której kształtowanie się najbardziej nas interesuje, a więc na cechę objaśnianą. Metody regresji używane są zazwyczaj do opisu kształtowania się poziomu pewnego zjawiska w czasie, jak i na podstawie pobieranych z populacji generalnej prób losowych.

Istota analizy regresyjnej (2) Analiza regresji polega na estymacji parametrów równania teoretycznego, które odwzorowuje zależność. Ilustracją regresji jest wykres wartości rzeczywistych i teoretycznych zmiennej objaśnianej. Podstawowe modele regresji zakładają występowanie zależności liniowych istniejących pomiędzy zmienną objaśnianą, a zmiennymi ją objaśniającymi.

Analiza regresyjna: proces doboru zmiennych 1.Na podstawie wiedzy merytorycznej ustal listę potencjalnych zmiennych objaśniających. 2.Zbierz dane statystyczne, będące realizacjami zmiennej objaśnianej i zmiennych objaśniających. 3.Eliminuj zmienne objaśniające o zbyt niskim poziomie zmienności. 4.Oblicz współczynniki korelacji między zmiennymi. 5.Przeprowadź redukcję zbioru zmiennych.

Estymacja parametrów modelu Nieznane parametry modelu y = b +ax muszą być estymowane na podstawie próby losowej poprzez takie dobranie parametrów a, b aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza.

Metoda najmniejszych kwadratów Y = a x + b Σ [Y i (a x i + b)] 2 = min Zmienna objaśniana: dane teoretyczne z równania regresji Y, dane rzeczywiste Y i. Zmienna objaśniająca: x i Parametry strukturalne równania regresji: a - współczynnik regresji, b - wyraz wolny (tzw. parametr skali); podaje wartość zmiennej Y, gdy zmienna x przybiera wartość zero.

Równanie regresji Gdy obliczymy parametry równania a i b, otrzymamy empiryczne równanie regresji wyprowadzone z konkretnego szeregu danych statystycznych. Mając to równanie możemy obliczać zmienną zależną (objaśnianą) podstawiając konkretną wartość zmiennej niezależnej (objaśniającej). Wyniki te możemy wykorzystać do prognozowania kształtowania się konkretnego zjawiska w konkretnej przyszłości, badania wariantów rozwojowych.

Istotność równania regresji (1) Istotność równania regresji ustalamy, weryfikując hipotezę zerową H 0 : a = 0 wobec H 1 : a 0. Przy prawdziwości H 0 statystyka: t= a = a s b s 2 y/ x var x ma rozkład t Studenta z liczbą stopni swobody 2 równej n - 2. Wyrażenie s y /x jest oszacowaniem wariancji odchyleń od regresji z próby.

Istotność równania regresji (2) Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności α, wartość krytyczną t kryt =t n-2,α. Jeżeli t > t kryt, to hipotezę H 0 : a = 0 odrzucamy jako statystycznie mało prawdopodobną i mówimy o istotności wyznaczonego równania regresji. Jeżeli t < t kryt, to wyniki próby nie przeczą hipotezie H 0 i funkcja regresji nie zależy od x.