Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji
Słownictwo: Zmienna odpowiedzi jest przedmiotem zainteresowania. Zmienne objaśniające są pomocnicze tłumaczą, a niekiedy powodują zmiany w zmiennej odpowiedzi. Ćwiczenie. W poniższych przykładach określ: Jakie są obserwowane jednostki? Jakie są zmienne?
Przykład 1: Średnia wysokość pewnej grupy dzieci w Kalamie, w Egipcie, badana w wieku od 18 do 29 miesięcy:
Wykres punktowy (scatterplot): punkty (x i, y i ) na płaszczyźnie. Tutaj: x to wiek, a y to wysokość. Omów źródła zmienności w pomiarach wysokości.
Przykład 2: Średnia stanowa SAT i odsetek absolwentów przystępujących do egzaminu
Interakcja i korelacja Zobacz ogólny kształt i odchylenia, np. czy wykres punktowy jest z grubsza liniowy? Zmienne liczbowe są dodatnio skorelowane, jeśli ponadprzeciętne wartości jednej towarzyszą ponadprzeciętnym wartościom drugiego. Skorelowane ujemnie: przeciwna tendencja...
Mamy tutaj... korelację.
Mamy tutaj... korelację.
Przykład 2 cd.: Więcej informacji: e oznacza stany północno-wschodnie, m - stany środkowo-zachodnie.
Współczynnik korelacji Oznaczamy r dla n par obserwacji: r 1 x x y y i i n 1 s s x y Komentarz: -1 r 1. Nie zależy od jednostek miary. Wskazuje liniowe powiązanie, gdy bliski do ± 1. Nieodporny na obserwacje odstające! Nie zależy od tego, która zmienna jest uważana za odpowiedź, a która za objaśnienie.
Linia regresji: pierwsze kroki Prosta, która najlepiej opisuje, w jaki sposób zmienia się zmienna odpowiedzi y, gdy zmienia się zmienna objaśniająca x. Równanie prostej (nachylenie b, przecięcie a): y=a+bx Najlepsze a i b zostaną obliczone z danych. Predykcja liniowa: ŷ i =a+bx i
Przykład 1 cd.: Prosta regresji dla danych z Kalama; predykcja liniowa dla dzieci w wieku 32 miesięcy.
Przykład 3: Regresja dla wskaźnika GA score w funkcji wieku wypowiedzenia pierwszego słowa.
Prosta regresji (najmniejszych kwadratów) X-zmienna objaśniająca, Y-zmienna odpowiedzi Dane: x, y, s, s, r. Calculate: x y s slope b r y and intercept a y bx s x y a bx
Przykład 1 cd. (Kamala) x 23.5 months, y 79.85 cm, s 3.606 months, s 2.302 cm, x r=0.9944 y
Oblicz przewidywaną wysokość dla dzieci w wieku 25 miesięcy. Jaka jest różnica z obserwowaną wysokością? Co powiesz o wieku 250 miesięcy...?
Wartości resztkowe Wartość resztkowa (obserwowane y minus przewidywane y): r i = y i -ŷ i Przykład. Dla danych z Kalama oraz x = 25, wartość resztkowa wynosi:
Wykres resztkowy: Zależność wartości rezydualnych/resztkowych względem zmiennej objaśniającej. Pomaga ocenić dopasowanie linii regresji.
Wykresy resztkowe: 1. Idealna sytuacja: Jednorodne przypadkowe zachowanie reszt. 2. Pozostał trend sezonowy: relacja między X i Y jest w rzeczywistości nieliniowa. 3. Reszty są losowe, ale ich zmienność zależy od X. Problematyczne.
Przykład 1 cd. Jaka część zmienności (średniego) wzrostu tłumaczy się zmiennością wieku? Zinterpretuj nachylenie linii regresji: Czy możemy tu też zinterpretować współczynnik addytywny prostej regresji?
Ta sama linia regresji, ale inne r 2 Z lewej: r = 0,994, r 2 = 98,9% wyjaśnione (1,1% niewyjaśnione) przez regresję Z prawej: r = 0,921, r 2 = 84,9% wyjaśnione (15,1% niewyjaśnione) przez regresję Komentarz: precyzja prognoz opartych na regresji liniowej...
Wskazówki i ostrzeżenia Użyj wykresu resztkowego, by ocenić dopasowanie. Zilustruj zależność od czasu, jeśli to możliwe. Zbadaj skupienia (podpopulacje?). Zbadaj (usuń??) wartości odstające i wpływowe.
Ostrzeżenia cd. Uwaga na ekstrapolację! Korelacja mierzy tylko powiązanie liniowe. W ograniczonym zakresie wartości korelacja będzie mniej widoczna. Interakcja nie oznacza automatycznie związku przyczynowego. Przykład: Czy spożywanie wasabi zwiększa długość życia?
Zmienne ukryte Może być więcej zmiennych X,..., Z wyjaśniających odpowiedź Y. Przykład: waga, dieta i płeć jako predykatory udaru. Zmienna Z, która może wpływać na zmienną odpowiedzi Y, ale nie została uwzględniona jako zmienna objaśniająca, X, nazywana jest zmienną ukrytą.
Poniżej: z jest zmienna ukrytą, y jest zmienną odpowiedzi, x jest zmienną objaśniającą a) Przyczynowość. b) Wspólna odpowiedź może wywoływać fałszywe wrażenie interakcji pomiędzy X i Y. c) Splątanie: wpływy na zmienną odpowiedzi są trudne do ustalenia/rozdzielenia. Przykłady: a) Palenie w ciąży i waga urodzeniowa b) Poziom cywilizacyjny, kultura i zdrowie c) Nawyki a zdrowie
Ukryte zmienne mogą dawać fałszywe wnioski o istnieniu lub nieistnieniu interakcji. Ustalenie związku przyczynowego jest trudne, gdy eksperymenty są niedozwolone, chyba że występują: silne związki w różnych grupach, czasowe związek, dodatkowe dowody (np. eksperymenty na zwierzętach). Przykład: palenie tytoniu w ciąży. Podaj własne przykłady zmiennych ukrytych.