Wykład 2. Transformacje (przekształcenia) danych

Wykład 2 Transformacje (przekształcenia) danych Problem: Co się stanie ze średnią i odchyleniem standardowym, gdy zmienimy jednostki? Przykłady: stopnie Celsiusza stopnie Fahrenheita dolary 1,000 dolarów wartość faktyczna odległość od minimum cm mm, in, nm, m, ft; dolary euro Liniowa transformacja zmiennych Transformacja wynikająca ze zmiany jednostek jest funkcją liniową: y = ay + c a-współczynnik (multiplikatywny/kierunkowy) c-stała (addytywna) niekiedy a = 1 lub c = 0 Przykłady: y = 1.8 y + 32 y = 1/1000 y ( + 0) y = (1)y - y min 1

Przykład: wpływ stałej addytywnej: odejmujemy 20 y Dev. y Dev 25-1 5-1 26 0 6 0 28 2 8 2 25-1 5-1 Średnia 26 6 Liniowa transformacja zmiennych, cd. y Średnia zmienia się tak jak y: y = a y + c Wariancja zmienia się następująco: s 2 = a 2 s 2 Odchylenie standardowe: s = a s 2

Przykład: y Y- temperatura w F: = 98.6, s = 0.9, s 2 = 0.81 Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza. Standaryzacja: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób y y' = (y- )/s =(y-98.6)/0.9? Jest to transformacja liniowa: y' = 1/s y - y/s. y = s = 3

Liniowa transformacja zmiennych: wpływ na inne statystyki i rozkład Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe. Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć ( a >1), ścieśnić ( a <1), przesunąć (c<>0) i obrócić (a<0). Transformacje nieliniowe Funkcji nieliniowych (np. logarytmu) używany niekiedy po to, aby przekształcić dane skośne w dane bardziej symetryczne. Funkcje nieliniowe zmieniają kształt histogramu i na ogół nie ma prostych formuł dla nowej średniej i nowego odchylenia standardowego. Przykład: dla z=log(y) mamy na ogół z log y. Nową średnią i SD liczymy korzystając z nowego zbioru danych. Z medianą i kwartylami jest lepiej... 4

Wnioskowanie statystyczne Próba a populacja Populacja: Zbiór, z którego losujemy próbę i który chcemy opisać. Populacja jest czasem rzeczywista, czasem abstrakcyjna (np. wszystkie muszki owocówki). Próba: Podzbiór populacji. Próba powinna być reprezentatywna dla populacji. Wnioskowanie statystyczne: Wnioskowanie o populacji w oparciu o próbę. 6

Populacja Grupa wykładowa Próba 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie rzuty kostkami 25 rzutów kostką Wszystkie owocówki, albo Wszystkie owocówki o danym genomie Owocówki wyhodowane w laboratorium przez pana Jurka Próbkowanie Parametry :, Populacja Próba y s Statystyki y, s Wnioskowanie Parametry populacji μ = średnia w populacji = wartość oczekiwana zmiennej Y (piszemy μ=ey), wariancja zmiennej Y (piszemy Var Y=E(Y-μ) 2 ) σ = odchylenie standardowe zmiennej Y w populacji, σ =(Var Y) 1/2 i inne. Statystyki z próby są estymatorami, służą do oceny parametrów populacji. Parametry i estymatory odróżniamy w notacji. 7

Przykład: Grupy krwi u 3696 osób żyjących w Anglii. Grupa krwi Liczność A 1,634 B 327 AB 119 O 1616 suma 3696 Około 44% ludzi w próbie ma grupę krwi A. A w Anglii?? Czy nie było systematycznego błędu przy próbkowaniu? Czy rozmiar próby był dość duży? Możliwe błędy przy takim próbkowaniu: Próba złożona z przyjaciół i współpracowników może nie być reprezentatywna pomimo tego... Grupy krwi mogą być reprezentatywne. ale już... Pomiary ciśnienia nie byłyby reprezentatywne. 8

Populacja a próba Średnia z próby y na ogół różni się od wartości oczekiwanej μ=ey (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. Średnia z próby jest estymatorem wartości oczekiwanej (w populacji). Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s 2 są estymatorami odpowiednich parametrów w populacji: σ i σ 2 =Var Y. Przykład (nieco sztuczny) Rozmiar populacji=50, średnia w populacji =26.48 Populacja: 25.5, 17.8, 36.7, 29.8, 40.7, 26.0, 7.7, 27.7, 10.3, 22.3, 45.4, 43.4, 20.2, 42.2, 44.5, 1.6, 5.7, 48.6, 23.9, 27.2, 17.0, 19.5, 47.7, 3.9, 39.3, 9.2, 30.7, 18.9, 25.7, 32.8, 16.8, 11.7, 13.9, 4.9, 49.4, 30.5, 20.7, 38.1, 25.6, 40.7, 45.0, 30.8, 11.3, 34.0, 49.7, 21.3, 3.5, 28.7, 19.7, 35.6. Stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 Otrzymana średnia z próby: 23.5 (dla pierwszych n=10 liczb), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40) Przykład naturalny: rzut monetą 9

Histogram z populacji a histogram próbkowy Oznaczmy: p i = (parametr) frakcja populacji w i-tej klasie. p i można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczmy: pˆ i = (estymator) zaobserwowana częstość w i-tej klasie (obliczona np. w oparciu o histogram dla próby) Przykład: Rozmiar populacji =10000. 5 klas o tej samej częstości=. (w tabeli tylko kategorie 1 i 5) n ˆp 1 ˆp 5 10 0.1 0.3 20 0.1 0.35 40 0.2 0.25 80 0.15 0.225 160 0.1625 0.1875 320 0.1781 0.1938 10

n=10 11

Próbkowanie (cd.) Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. 12

Jak wybrać próbę prostą: Podstawowy mechanizm losujący: Przyznajemy numer każdemu osobnikowi Losujemy numery = osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy użyć urn, komputera lub gotowej tablicy liczb (cyfr) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. 13

Ćwiczenie: Wybór delegatów z sali Błędy w póbkowaniu cd. Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci? Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Próba: część populacji, która zdecydowała się odpisać, n=10,000. Populacja: wszyscy rodzice w USA?? 14

Przykład 1 (Ochotnicy) cd. Czasopismo Newsday przeprowadziło statystycznie zaplanowaną ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Wniosek: ochotnicy = bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 15

Przyczyny błędu Literary Digest: Złe (dyskryminujące) próbkowanie: Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi: Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. Obciążenie w próbkowaniu Obciążenie (tj. systematyczny błąd) w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby (taki jak w naszym ćwiczeniu-wyborze delegatów z sali) zwykle eliminuje takie obciążenie. 16

Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje złożone z podobnych jednostek (to są tzw. warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady warstw: studenci studentki grupy zawodowe regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. Poziom 1: losowa próba z 3,000 counties Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 17