Badanie współzależności zmiennych liczbowych korelacja

Podobne dokumenty
Analiza zależności zmiennych ilościowych regresja

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Wprowadzenie do analizy korelacji i regresji

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

STATYSTYKA MATEMATYCZNA

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza współzależności dwóch cech I

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

R-PEARSONA Zależność liniowa

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Testowanie hipotez statystycznych.

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez statystycznych

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Analiza współzależności zjawisk

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

KORELACJE I REGRESJA LINIOWA

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

POLITECHNIKA OPOLSKA

Weryfikacja hipotez statystycznych

Zmienne zależne i niezależne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

W1. Wprowadzenie. Statystyka opisowa

Wykład 9 Wnioskowanie o średnich

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Analiza korelacji

Testowanie hipotez statystycznych.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Regresja i Korelacja

Analiza autokorelacji

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Weryfikacja hipotez statystycznych - testy dla wartości średniej cz. 2

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Badanie zależności skala nominalna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyczna analiza danych

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Pobieranie prób i rozkład z próby

Statystyka matematyczna dla leśników

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Przykład 1. (A. Łomnicki)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

STATYSTYKA MATEMATYCZNA

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA MATEMATYCZNA

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Analiza Współzależności

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

(x j x)(y j ȳ) r xy =

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Spis treści 3 SPIS TREŚCI

Prawdopodobieństwo i statystyka

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Transkrypt:

Badanie współzależności zmiennych liczbowych korelacja Aktualizacja 2017 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska

Plan wykładu 1. Badanie współzależności między dwoma zmiennymi 2. Od kowariancji do korelacji 3. Współczynnik korelacji liniowej (K. Pearsona) 4. Własności korelacji 5. Związki przyczynowo - skutkowe 6. Korelacje pozorne 7. Liniowa zależność między dwoma zmiennymi: Prosta regresja

Motywacje Dotychczas badanie jednej zmiennej Badania struktury zbiorowości opierały się na obserwacjach tylko jednej cechy (zmiennej), a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie. Testy dla pojedynczych wymiarów (zmiennych) Wiele zjawisk dotyczy jednak danych wielowymiarowych Typowe zainteresowania w spojrzeniu na rzeczywistość oraz w badaniach naukowych Potrzeba badania wielu zmiennych oraz ich wzajemnej interakcji! W tym wykładzie współzależności dwóch zmiennych

Przykład analizy danych o zarobkach W pewnej firmie pracownicy otrzymują 10 złotych za godzinę + premie uznaniowe Zapytano 10 losowo wybranych osób o zarobki oraz ich czas pracy

Przykład współzależności statystycznej (korelacyjnej) Wykonaj wykres rozrzutu XY Czas na interpretacje Zależność ściśle funkcyjna vs. korelacyjna

Funkcyjny związek deterministyczny Nie to samo co zależność korelacyjna Związek funkcyjny odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy ją przez Y). Wiadomo na przykład, że pole kwadratu jest funkcją jego boku (P=a 2 ). Wynik można przewidzieć od razu

Mniej oczywisty przykład Ponownie zrób wykres XY Za Anna Raifuna SGGW

Wykres korelacyjny rozrzutu XY Inny rodzaj związku między wartościami zmiennych X i Y

Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Pozytywna (dodatnia) współzależność

Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Negatywna (ujemna) współzależność

Różne zależności między zmiennymi za Wieczorkowska

Pojęcie korelacji Związek w zakresie współzmienności między dwoma (lub większą) liczbą zmiennych liczbowych Pytanie badawcze czy ze wzrostem wartości jednej zmiennej rosną (lub maleją) wartości drugiej zmiennej np. czy średnio ze zwiększającą się wysokością osoby rośnie (lub maleje) jej waga Intuicyjnie, zależność dwóch zmiennych X i Y oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez posiadania tej informacji Uwaga wyniku badania korelacyjnego nie wolno interpretować w terminach przyczynowo - skutkowych

Wykrywanie korelacji między zmiennymi W analizie korelacji zadaje się pytania: Czy istnieje związek współzależność między dwoma zmiennymi? Jaka jest skala tej zależności. Czy jest ona słaba czy silna? Czy istnieją możliwości wyrażenia tej zależności w postaci liczbowej?

Jaka korelacja Nas dziś interesuje? Jaki typ zależności między wartościami zmiennych? Zmienne liczbowe Statystyczna i monotoniczna Liniowa Czy istnieją inne możliwości wyrażenia zależności między zmiennymi? Związki nieliniowe Inne zmienne (porządkowe, nominalne) Będą (?) korelacja rangowa Spearmana, współczynnik tau-kendalla; statystka gamma, miary siły związku wykorzystujące test χ 2,

Korelacja między dwoma zmiennymi / cechami Korelacja związek dodatni, ujemny, Skala tej zależności - słaba lub silna

Brak korelacji między dwoma zmiennymi / cechami Zinterpretuj drugi wykres

Współczynnik korelacji liniowej Korelacja oznacza związek między zmiennymi a współczynnik korelacji r liczbową miarę tego związku Oczekiwania Dane (X,Y) przedstawione w postaci par liczb Jeśli nie ma związku, to wartość współ. r 0 Wartości odzwierciedlają związki proporcjonalne między wartościami zmiennych (pozytywne, negatywne) Dążenie do unormowanie wartości współczynnika korelacji i interpretacji jako siły związku

Od kowariancji do korelacji liniowej Pomiar jak ZMANY wartość jednej zmiennej wpływa średnio na ZMIANY wartość drugiej zmiennej Inspiracja z analizy jednej zmiennej: Analiza zmienności (wariancji) zmiennej - Kwadraty odchyleń od średniej Prostsza interpretacja odchylanie standardowe

Ilustracyjny przykład rybaka Wyobraźmy sobie mały zestaw danych X,Y tj.: (1,1) (4,3) (7,5) (8,7) X,Y mogą być dowolnymi zmiennymi Tutaj: X czas łowienia, Y liczba złapanych ryb Przykład za COMP6053

Popatrzmy na zmienność pojedynczych zmiennych Policzmy średnie arytmetyczne dla każdej zmiennej Dla X = 5, dla Y =4

Od wariancji do kowariancji Dla jednej zmiennej policzyłbyś wariancje Lecz powiązanie dwóch zmiennej: Rachunek prawd. współzależność zmiennych losowych = kowariancja Cov(X,Y)=E[(X-µ X ) [(Y-µ Y )] Interesują Nas iloczyny odchyleń (xi od średniej X)(yi od średniej Y); sumuj iloczyny oraz podziel przez n liczbę par (ew. n-1)

Policzmy kowariancje -4 x -3 = 12-1 x -1 = 1 2 x 1 = 2 3 x 3 = 9 Razem 24 podzielone przez 4 obserwacje Kowariancja 8 ryb-godzin Interpretacja Może inaczej, jeśli wiemy że SDX=3.16 i SDY=2.58 Pearson linear correlation r=0.98

Korelacja liniowa miara kierunku i siły współzależności między dwiema zmiennymi X i Y. Współczynnik korelacji liniowej Pearsona: r xy = n i= 1( xi x) ( yi y) C( x, y) = n 2 n 2 S i xi x i yi y x S = 1( ) = 1( ) y gdzie x, y- średnie art. zmiennych X i Y, a Sx i S y ich odchylenia standardowe; kowariancja 1 n C( x, y) = i = 1 ( xi x)( yi y) n r xy [ 1, 1] Miarą siły liniowego związku między zmiennymi X i Y. Zakres stosowalności: zależność dwóch zmiennych ilościowych o charakterze liniowym.

Inne sformułowanie wzoru r XY n i = = 1 Z n Xi Z Yi Zi wynik standaryzowanego i-tego pomiaru zmiennej n liczba pomiarów

Własności współczynnika korelacji liniowej Pearsona 1. Miara symetryczna 2. Miara niemianowana i unormowaną Można porównywać korelacje dla różnych zestawów zmiennych 3. Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi 4. Interpretacja wartości współczynnika korelacji: im 1 tym silniejsza korelacja. r xy 5. Ograniczenia Podatny na obserwacje skrajne (ang. outliers)

Współczynniki korelacji dla przykładowych zależności X i Y Wykres za A.Adrian AGH

Przykładowa interpretacja wartości jako siły związku Pamiętając o liczności próby interp. wartości bezwzględnych Lecz sprawdź inne źródła dziedzinowe

Korelacja Pearsona tylko liniowa za: Wiki Czy na pewno zero w ostatnim?

Korelacja a rozkłady prawdopodobieństwa Wykres za R.Gonzales

Korelacja a rozkłady prawdopodobieństwa

Wykresy korelacyjne dla różnych n Wykresy symulacyjne za R.Gonzales

Przykłady obliczania korelacji Zbadaj zależność dwóch zmiennych opisujących odpowiedzi respondentów w pewnej ankiecie X - liczba randek w ostatnim tygodniu Y ocena satysfakcji z życia na skali punktowej 1,2,3,..,5 X 1 2 5 Y 1 2 4 Dla każdego zestawu odpowiedzi narysuj wykres korelacyjny (każda para wartości odpowiedzi dla jednej osoby przedstawiona jest jako punkt na płaszczyźnie x,y)

Przykłady Grupa nastolatków X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Wykres korelacyjny - nastolatki Korelacja = 0.97 6 5 satysfakcja 4 3 2 1 0 0 2 4 6 8 liczba randek

Przykłady 2 Grupa dwudziestoparo-latków X 1 2 2 3 3 4 5 6 7 Y 1 2 1 3 4 4 3 2 1 Korelacja =?? satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Trzydziestolatki 0 1 2 3 4 5 6 7 8 liczba randek

Przykłady 3 Grupa troszkę starszych-latków X 1 2 3 3 3 4 4 4 5 5 7 Y 4 3 2 3 4 1 2 3 2 1 1 Korelacja = -0.77 Satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 troche pozniej 0 1 2 3 4 5 6 7 8 liczba spotkań

Ocena współczynnika korelacji ρ w populacji r współczynnik korelacji w próbie czy może być użyty w odniesieniu do populacji? Estymator punktowy? Może być także użyty do testowania hipotezy o korelacji zmiennych w populacji. Założenia: zmienne (X,Y) populacji mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji ρ. Na podstawie n - elementowej próby wyznaczono r. Testowany układ hipotez: 0 : ρ = Statystyka testowa: test z = H 0 H : ρ 0 r xy 1 r 2 xy n 1 lub test = rxy t n 2 2 1 r xy

Przykład testowania istotności współczynnika korelacji Współczynnik korelacji między liczbą randek w tygodniu a satysfakcją z życia wynosi r=0.493 (N = 16 par pomiarów). Czy możemy podjąć decyzję wobec populacji H0: ρ=0. Schemat postępowania: Testowany układ hipotez: 0 : ρ = 0 H1 : ρ Wybór statystyki testowej = rxy t n 2 2 1 r Ma rozkład t - Studenta z n-2 stopni swobody (14) Poziom α=0.05 tkryt=2.145 t=2.11 H 0 Podjęcie decyzji xy

Test w Statsoft Statistica Przykład biostatystyczny

Ostrożność z testem ρ dla rozmiarów próby Dla dużych rozmiarów próby nawet małe korelacje (brak związku) mogą okazać się istotne wg. testu Lecz nie musi być to rzeczywisty związek

Wykresy kwartetu Anscombe'a

Problemy w interpretacji współczynnika korelacji Uwagi po analizie przykładu: Należy oglądać dane! Współczynnik służy do badania związku liniowego! Jeśli związek nie jest liniowy stosuj regresję krzywoliniową. Współczynnik korelacji jest nieistotny można stwierdzić wyłącznie brak związku liniowego. Ponadto pamiętaj: Wrażliwość na obserwacje skrajne i ograniczenie zakresy zmienności zmiennej niezależnej.

Związki przyczynowo-skutkowe Przyczynowość zainteresowanie od początku ludzkości (poznanie naukowe) Także fabuła opowieści, logika prawa (kary),.. Związek przyczynowo-skutkowy między danymi zjawiskami czy zdarzeniami zostało wykazane powiązanie. Innymi słowy, że A jest przyczyną B Pragnienie wypicie napoju Przyczyna Skutek

Związki przyczynowo-skutkowe ważne są Badanie przyczynowości jest próbą zrozumienia tego, jak działa świat. Co więcej, odkrycia w tej kwestii pozwalają nam na stawianie prognoz. Jeżeli znamy przyczynę - możemy próbować przewidzieć skutek. Bardziej formalnie możemy zdefiniować przyczynowość jako związek, który występuje pomiędzy dwoma zmiennymi losowymi, przy czym jedna ze zmiennych wyznacza wartość drugiej zmiennej.

Korelacja to nie zależność przyczynowo-skutkowa Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa Silna korelację pomiędzy zachorowaniem na raka a paleniem papierosów; palenie powoduje raka (czy tylko) Istnienie związku między zmiennymi NIE OZNACZA PRZYCZYNOWOŚCI!!

Korelacje nie są związkami przyczynowoskutkowymi Klasyczny przykład zegara dworcowego Dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, Nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku Są to zjawiska tylko współ-występujące

Dziwne sytuacje Inny klasyczny przykład (bociany) wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Czy to nie dowodzi, że bociany przynoszą dzieci?

Koincydencja zdarzeń Jako pierwszy zdefiniował Arthur Schopenhauer w Űber den Willen in der Natur w 1836 r. Określił ją jako jednoczesne występowanie zdarzeń, które nie są związane ze sobą przyczynowo. Jednoczesne zdarzenia przebiegają w równoległych liniach. Jedno i to samo zdarzenie będące ogniwem w zupełnie różnych łańcuchach, występuje ponadto w kilku innych, tak że los jednostki spotyka się nieuchronnie z losem innej. Każdy z nas jest głównym aktorem we własnym dramacie, równocześnie zaś gra jakąś rolę w innym, obcym mu dramacie

Pozorne korelacje Zależność pozorna to związek, który istnieje pomiędzy zmiennymi, ale jest w rzeczywistości powodowany przez inną zmienną Lecz mogą być błędnie interpretowane Zwłaszcza w podejściu policzmy korelacje wszystkich zmiennych ze wszystkimi w naszych danych, a później zobaczymy co wyjdzie,.. Przykłady: Zarobki prezbiteriańskich pastorów w stanie Massachusetts a cena rumu w Hawanie są silnie skorelowane Z książki D.Haff: How to lie with statistics.

Strona WWW Spurious Correlations (pozorne korelacje) Korelacja między wydatkami na naukę, badania kosmiczne i technologię a ceną bananów w kolejnych latach (współczynnik korelacji 0,94) Zależność między wydatkami na utrzymanie zwierząt domowych a liczbą prawników w Kalifornii (współczynnik korelacji 0,998)

Inne przykłady silnych lecz złóżonychzwiązków między zmiennymi. Przykład nr. 1: Długość okresu pobierania nauki i wysokość zarobków są wysoce skorelowane Badania ankietowe w Anglii (F.Clegg str. 154). Pytanie czy poziom wykształcenia sam w sobie determinuje stanowisko i wysokość zarobków? Raczej związek nie jest tak prosty, lecz dość złożony! Inteligencja osoby, cechy osobowościowe, różne umiejętności, no i łut szczęścia, J Wysoka korelacja wyłącznie opisuje związek, który istnieje w danych pomiarowych pomiędzy obiema zmiennymi.

Dalej Przykład nr. 2: Oglądalność TV i wskaźnik urodzeń są negatywnie skorelowane Badania demograficzne w USA zaobserwowano wysoki wzrost wskaźnika urodzeń, które nastąpiło 9 miesięcy po awarii TV w pewnych rejonach USA. Podobnie wiele osób interpretując inne badania wierzy istnieje sprecyzowany związek pomiędzy pokazywaniem przemocy w TV a poziomem agresji! Związek przyczynowo-skutkowy nie jest tak prosty i bezpośredni, lecz dość złożony i wymaga uwzględniania innej wiedzy niż wyłącznie korelacja!

A co z naszymi bocianami? Badania Roberta Metthewsa (Stork deliver babys, Teaching Statistics, vol. 22, 2000) Dane także dostępne w książce P.Francuz, R.Mackiewicz: Liczby nie wiedzą skąd pochodzą. Wyd. KUL, 2007 patrz str 506-509 Korelacja między liczbą rodzących się dzieci a liczbą bocianów w danych kraju r=0,62 Lecz badania obejmowały więcej cech krajów: Powierzchnia (tys km kw.) Ludność (mln) Liczba bocianów (l. par) Liczba urodzeń (w tys. na rok)

Macierze korelacji Zmienne Powierzchnia Liczba bocianów Liczba mieszkańców Liczba urodzeń Pow. 1 0,579 0,812 0,923 Bociany 0,579 1 0,354 0,620 Mieszkańcy 0,812 0,354 1 0,851 Urodzenia 0,923 0,620 0,851 1 Możliwe interpretacje złożonych powiązań (może być więcej): Liczba bocianów powiązana w dużą powierzchnią kraju, Powierzchnia kraju skorelowana z liczbą mieszkańców, Liczba mieszkańców silnie skorelowana z liczbą urodzeń, Pełniejsza analiza tzw. korelacje cząstkowe r(xy.z)=0,22

Gdzie jesteśmy w trakcie wykładu? 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania

W stronę regresji Mat. Statistica + wykład A.Adrian AGH

Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. G.Wieczorkowska, Scholar, 2004. Przystępny kurs statystyki, Stanisz A., 1997. Tom 2 poświęcony wyłącznie analizie regresji! I wiele innych

Dziękuję za uwagę Czytaj także podręczniki!