Wykład 2. Transformacje (przekształcenia) danych

Podobne dokumenty
Wykład 2. Standaryzacja: Przykład: wpływ stałej addytywnej: odejmujemy 20. Liniowa transformacja zmiennych. Liniowa transformacja zmiennych, cd.

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Pobieranie prób i rozkład z próby

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Metody Statystyczne. Metody Statystyczne.

Prawdopodobieństwo i statystyka

Wykład 2: Tworzenie danych

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Estymacja parametrów rozkładu cechy

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Oszacowanie i rozkład t

Wykład 3. Rozkład normalny

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Testowanie hipotez statystycznych.

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Centralne twierdzenie graniczne

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA I DOŚWIADCZALNICTWO

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Analiza statystyczna w naukach przyrodniczych

Z poprzedniego wykładu

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

1.1 Wstęp Literatura... 1

Zadania ze statystyki, cz.6

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych.

W1. Wprowadzenie. Statystyka opisowa

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

STATYSTYKA MATEMATYCZNA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

Metody probabilistyczne

Wykład 5: Statystyki opisowe (część 2)

Testowanie hipotez statystycznych

Estymacja punktowa i przedziałowa

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Zaliczenie. Ćwiczenia (zaliczenie = min. 15 punktów)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Rozkłady statystyk z próby. Statystyka

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

Spis treści 3 SPIS TREŚCI

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

INFORMATYKA W CHEMII Dr Piotr Szczepański

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Xi B ni B

Wykład 9 Wnioskowanie o średnich

Statystyka matematyczna i ekonometria

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Rozkłady statystyk z próby

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

4.Zmienne losowe X 1, X 2,..., X 100 są niezależne i mają rozkład wykładniczy z α = 0.25 Jakie jest prawdopodobieństwo, że 1

Analiza wariancji. dr Janusz Górczyński

Rozkłady zmiennych losowych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Weryfikacja hipotez statystycznych

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Wykład z analizy danych: estymacja punktowa

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Statystyka matematyczna i ekonometria

Transkrypt:

Wykład 2 Transformacje (przekształcenia) danych Problem: Co się stanie ze średnią i odchyleniem standardowym, gdy zmienimy jednostki? Przykłady: stopnie Celsiusza stopnie Fahrenheita dolary 1,000 dolarów wartość faktyczna odległość od minimum cm mm, in, nm, m, ft; dolary euro Liniowa transformacja zmiennych Transformacja wynikająca ze zmiany jednostek jest funkcją liniową: y = ay + c a-współczynnik (multiplikatywny/kierunkowy) c-stała (addytywna) niekiedy a = 1 lub c = 0 Przykłady: y = 1.8 y + 32 y = 1/1000 y ( + 0) y = (1)y - y min 1

Przykład: wpływ stałej addytywnej: odejmujemy 20 y Dev. y Dev 25-1 5-1 26 0 6 0 28 2 8 2 25-1 5-1 Średnia 26 6 Liniowa transformacja zmiennych, cd. y Średnia zmienia się tak jak y: y = a y + c Wariancja zmienia się następująco: s 2 = a 2 s 2 Odchylenie standardowe: s = a s 2

Przykład: y Y- temperatura w F: = 98.6, s = 0.9, s 2 = 0.81 Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza. Standaryzacja: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób y y' = (y- )/s =(y-98.6)/0.9? Jest to transformacja liniowa: y' = 1/s y - y/s. y = s = 3

Liniowa transformacja zmiennych: wpływ na inne statystyki i rozkład Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe. Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć ( a >1), ścieśnić ( a <1), przesunąć (c<>0) i obrócić (a<0). Transformacje nieliniowe Funkcji nieliniowych (np. logarytmu) używany niekiedy po to, aby przekształcić dane skośne w dane bardziej symetryczne. Funkcje nieliniowe zmieniają kształt histogramu i na ogół nie ma prostych formuł dla nowej średniej i nowego odchylenia standardowego. Przykład: dla z=log(y) mamy na ogół z log y. Nową średnią i SD liczymy korzystając z nowego zbioru danych. Z medianą i kwartylami jest lepiej... 4

5

Wnioskowanie statystyczne Próba a populacja Populacja: Zbiór, z którego losujemy próbę i który chcemy opisać. Populacja jest czasem rzeczywista, czasem abstrakcyjna (np. wszystkie muszki owocówki). Próba: Podzbiór populacji. Próba powinna być reprezentatywna dla populacji. Wnioskowanie statystyczne: Wnioskowanie o populacji w oparciu o próbę. 6

Populacja Grupa wykładowa Próba 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie rzuty kostkami 25 rzutów kostką Wszystkie owocówki, albo Wszystkie owocówki o danym genomie Owocówki wyhodowane w laboratorium przez pana Jurka Próbkowanie Parametry :, Populacja Próba y s Statystyki y, s Wnioskowanie Parametry populacji μ = średnia w populacji = wartość oczekiwana zmiennej Y (piszemy μ=ey), wariancja zmiennej Y (piszemy Var Y=E(Y-μ) 2 ) σ = odchylenie standardowe zmiennej Y w populacji, σ =(Var Y) 1/2 i inne. Statystyki z próby są estymatorami, służą do oceny parametrów populacji. Parametry i estymatory odróżniamy w notacji. 7

Przykład: Grupy krwi u 3696 osób żyjących w Anglii. Grupa krwi Liczność A 1,634 B 327 AB 119 O 1616 suma 3696 Około 44% ludzi w próbie ma grupę krwi A. A w Anglii?? Czy nie było systematycznego błędu przy próbkowaniu? Czy rozmiar próby był dość duży? Możliwe błędy przy takim próbkowaniu: Próba złożona z przyjaciół i współpracowników może nie być reprezentatywna pomimo tego... Grupy krwi mogą być reprezentatywne. ale już... Pomiary ciśnienia nie byłyby reprezentatywne. 8

Populacja a próba Średnia z próby y na ogół różni się od wartości oczekiwanej μ=ey (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. Średnia z próby jest estymatorem wartości oczekiwanej (w populacji). Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s 2 są estymatorami odpowiednich parametrów w populacji: σ i σ 2 =Var Y. Przykład (nieco sztuczny) Rozmiar populacji=50, średnia w populacji =26.48 Populacja: 25.5, 17.8, 36.7, 29.8, 40.7, 26.0, 7.7, 27.7, 10.3, 22.3, 45.4, 43.4, 20.2, 42.2, 44.5, 1.6, 5.7, 48.6, 23.9, 27.2, 17.0, 19.5, 47.7, 3.9, 39.3, 9.2, 30.7, 18.9, 25.7, 32.8, 16.8, 11.7, 13.9, 4.9, 49.4, 30.5, 20.7, 38.1, 25.6, 40.7, 45.0, 30.8, 11.3, 34.0, 49.7, 21.3, 3.5, 28.7, 19.7, 35.6. Stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 Otrzymana średnia z próby: 23.5 (dla pierwszych n=10 liczb), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40) Przykład naturalny: rzut monetą 9

Histogram z populacji a histogram próbkowy Oznaczmy: p i = (parametr) frakcja populacji w i-tej klasie. p i można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczmy: pˆ i = (estymator) zaobserwowana częstość w i-tej klasie (obliczona np. w oparciu o histogram dla próby) Przykład: Rozmiar populacji =10000. 5 klas o tej samej częstości=. (w tabeli tylko kategorie 1 i 5) n ˆp 1 ˆp 5 10 0.1 0.3 20 0.1 0.35 40 0.2 0.25 80 0.15 0.225 160 0.1625 0.1875 320 0.1781 0.1938 10

n=10 11

Próbkowanie (cd.) Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. 12

Jak wybrać próbę prostą: Podstawowy mechanizm losujący: Przyznajemy numer każdemu osobnikowi Losujemy numery = osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy użyć urn, komputera lub gotowej tablicy liczb (cyfr) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. 13

Ćwiczenie: Wybór delegatów z sali Błędy w póbkowaniu cd. Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci? Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Próba: część populacji, która zdecydowała się odpisać, n=10,000. Populacja: wszyscy rodzice w USA?? 14

Przykład 1 (Ochotnicy) cd. Czasopismo Newsday przeprowadziło statystycznie zaplanowaną ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Wniosek: ochotnicy = bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 15

Przyczyny błędu Literary Digest: Złe (dyskryminujące) próbkowanie: Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi: Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. Obciążenie w próbkowaniu Obciążenie (tj. systematyczny błąd) w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby (taki jak w naszym ćwiczeniu-wyborze delegatów z sali) zwykle eliminuje takie obciążenie. 16

Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje złożone z podobnych jednostek (to są tzw. warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady warstw: studenci studentki grupy zawodowe regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. Poziom 1: losowa próba z 3,000 counties Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 17