Wprowadzenie do analizy korelacji i regresji

Podobne dokumenty
Statystyka i Analiza Danych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

KORELACJE I REGRESJA LINIOWA

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

3. Modele tendencji czasowej w prognozowaniu

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

POLITECHNIKA OPOLSKA

Statystyka matematyczna dla leśników

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Rozdział 8. Regresja. Definiowanie modelu

MODELE LINIOWE. Dr Wioleta Drobik

Regresja i Korelacja

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Własności statystyczne regresji liniowej. Wykład 4

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

166 Wstęp do statystyki matematycznej

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Analiza współzależności zjawisk

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zadania ze statystyki cz.8. Zadanie 1.

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Ekonometria. Zajęcia

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

ANALIZA REGRESJI SPSS

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Analiza regresji - weryfikacja założeń

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Analiza Współzależności

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Analiza współzależności dwóch cech I

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Przykład 1. (A. Łomnicki)

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Metodologia badań psychologicznych. Wykład 12. Korelacje

Zmienne zależne i niezależne

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wydział Matematyki. Testy zgodności. Wykład 03

Analiza autokorelacji

Statystyka i Analiza Danych

Kilka uwag o testowaniu istotności współczynnika korelacji

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Wykład 3 Hipotezy statystyczne

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Testowanie hipotez statystycznych

Metody Ilościowe w Socjologii

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

STATYSTYKA MATEMATYCZNA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Transkrypt:

Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska

Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących przedmiot badania zazwyczaj charakteryzujemy jednostki badane za pomocą więcej niż jednej cechy. Bardzo często interesują nas powiązania jakie zachodzą pomiędzy analizowanymi cechami i w związku z tym zachodzi potrzeba ich łącznego badania. Celem takiej analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich siła, jaka jest ich postać i kierunek.

Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna lub stochastyczna (probabilistyczna). Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej, określonej wartości jednej zmiennej (X) odpowiada jedna i tylko jedna wartość drugiej zmiennej (Y). Symbolem X oznaczamy zmienną niezależną (objaśniającą), natomiast symbolem Y - zmienną zależną (objaśnianą).

Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się - średnio biorąc - wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X.

Na zamieszczonym poniżej wykresach przedstawiono przykładowe postacie związków funkcyjnych i statystycznych. Związek funkcyjny, liniowy Związek funkcyjny, nieliniowy 46 140 42 120 100 38 80 Y 34 Y 60 40 30 20 26 3 4 5 6 7 8 9 10 11 12 X 0 3 4 5 6 7 8 9 10 11 12 X Związek statystyczny, liniowy Związek statystyczny, nieliniowy Y 44 42 40 38 36 34 32 30 28 26 3 4 5 6 7 8 9 10 11 X Y 140 120 100 80 60 40 20 3 4 5 6 7 8 9 10 11 12 X Związki typu statystycznego są możliwe do wykrycia oraz ilościowego opisu w przypadku, kiedy mamy do czynienia z wieloma obserwacjami, opisującymi badane obiekty, zjawiska czy też procesy.

Opisywane tutaj postacie związków pomiędzy zmiennymi zawęzimy do związków liniowych. Ogólnie związki pomiędzy zmiennymi mogą przyjmować postać krzywej drugiego i wyższych stopni lub też inne postacie. Dlatego też badając dane, ważnym krokiem jest sporządzenie wykresu rozrzutu wartości dwóch badanych zmiennych. Jeśli okaże się, że badany związek nie jest liniowy, wówczas trzeba zastosować odpowiednie rozwiązanie nieliniowe.

Współczynnik korelacji liniowej Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość 1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej.

Wzór do obliczania współczynnik korelacji ma postać: = 2 2 ) ( ) ( ) )( ( y y x x y y x x r i i i i gdzie x i oraz y i oznaczają odpowiednio wartości zmiennych x i y, a oraz oznaczają średnie wartości tych zmiennych. x y

Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa.

Na poniższym rysunku przedstawiono przykładowy wygląd wykresów przy określonych wartościach współczynnika korelacji.

Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H 0 : ρ = 0, wobec alternatywnej: H 1 : ρ 0, a następnie obliczamy wartość statystyki testowej: t = r N 2 1 r 2 i porównujemy jej wartość z odpowiednią wartością krytyczną i podejmujemy odpowiednią decyzję co do prawdziwości H 0. Przykład w STATISTICA

Wybrane zagadnienia analizy regresji prostej Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Elementarna matematyka wymaga bowiem, aby jednej wartości zmiennej niezależnej (objaśniającej, predyktora) była przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej).

Badacz natomiast w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne. Tak więc rozsądek podpowiada, żeby pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Dla tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej.

Model regresji liniowej prostej (tzn. takiej w przypadku której występuje tylko jeden predyktor) przyjmuje postać: Y 0 1 = β + β x + ε gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy a błąd. ε Jak to zostało już wcześniej powiedziane zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe. Zakłada się przy tym, że błędy mająśrednią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane.

W sytuacji jeśli wartość współczynnika determinacji R 2 (wielkość ta oznacza kwadrat współczynnika korelacji) jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). Metoda ta sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu).

Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: yˆ = b0 + b1 x gdzie ŷ oznacza teoretyczną wartość zmiennej zależnej, a b o i b 1 odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby. Przy testowaniu istotności współczynników regresji korzystamy z rozkładu t Studenta a przy przeprowadzaniu analizy wariancji (do celu oceny liniowości modelu regresji) z rozkładu F. W pierwszym przypadku jedna hipoteza zerowa zakłada, że β 0 ma wartość stałą (przeciw alternatywnej, zakładającej, że β 0 nie jest wartością stałą) a druga przyjmuje, że ocena β 1 wynosi zero (przeciw alternatywnej, zakładającej, że ocena różni się od zera). β 1

Analiza reszt Analiza reszt odgrywa ważną rolę przy badaniu adekwatności dopasowanego modelu oraz ocenie prawdziwości przyjmowanych założeń. Zazwyczaj obejmuje ona następujące elementy: sprawdzenie założenia normalności rozkładu reszt, które jest przeprowadzane za pomocą oceny wykresu normalności reszt lub histogramu rozkładu reszt ocenę skorelowania reszt poprzez wykreślenie reszt w funkcji numeru obserwacji ocenę poprawności modelu przez wykreślenie wartości reszt względem wartości dopasowanych. Przykład w STATISTICA