Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Podobne dokumenty
Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Wykład 2. Standaryzacja: Przykład: wpływ stałej addytywnej: odejmujemy 20. Liniowa transformacja zmiennych. Liniowa transformacja zmiennych, cd.

Wykład 2. Transformacje (przekształcenia) danych

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Prawdopodobieństwo i statystyka

Pobieranie prób i rozkład z próby

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Estymacja parametrów rozkładu cechy

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Testowanie hipotez statystycznych.

Analiza statystyczna w naukach przyrodniczych

Wykład 2: Tworzenie danych

Metody Statystyczne. Metody Statystyczne.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 3. Rozkład normalny

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Zadania ze statystyki, cz.6

1.1 Wstęp Literatura... 1

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA I DOŚWIADCZALNICTWO

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Centralne twierdzenie graniczne

Oszacowanie i rozkład t

Statystyka i eksploracja danych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Z poprzedniego wykładu

Metody probabilistyczne

Testowanie hipotez statystycznych.

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Estymacja punktowa i przedziałowa

Testowanie hipotez statystycznych.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Rozkłady statystyk z próby

1 Podstawy rachunku prawdopodobieństwa

W1. Wprowadzenie. Statystyka opisowa

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Wykład 5: Statystyki opisowe (część 2)

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Testowanie hipotez statystycznych

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Rozkłady zmiennych losowych

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

WYKŁAD 5 TEORIA ESTYMACJI II

STATYSTYKA MATEMATYCZNA

Analiza wariancji. dr Janusz Górczyński

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 3 Momenty zmiennych losowych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład 3 Momenty zmiennych losowych.

Rozkłady prawdopodobieństwa zmiennych losowych

Spis treści 3 SPIS TREŚCI

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład 9 Wnioskowanie o średnich

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Statystyczne metody analizy danych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Rozkłady statystyk z próby. Statystyka

INFORMATYKA W CHEMII Dr Piotr Szczepański

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wnioskowanie statystyczne. Statystyka w 5

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Transkrypt:

Wykład 10 Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki? stopnie Celsiusza stopnie Fahrenheita dolary 1,000 dolarów wartość faktyczna odległość od minimum cm : mm, in, nm, m, ft; dolary : euro Zmiana wartości wynikająca ze zmiany jednostek zadana jest zwykle funkcją liniową: y = ay + c Przykłady: y = 1.8 y + 32 y = 1/1000 y ( + 0) y = (1)y - y min Liniowa transformacja zmiennych, cd. Wpływ stałej (odejmujemy 20) Uwagi: a-współczynnik kierunkowy c-stała czasami a = 1 lub c = 0 Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć ( a >1), ścieśnić ( a <1), przesunąć (c<>0) i obrócić (a<0). Średnia y 25 26 28 25 26 Dev. 0 2 y 5 6 8 5 6 Dev 0 2 Liniowa transformacja zmiennych, cd. Średnia zmienia się tak jak y. Mamy: y y = a y + c Odchylenie standardowe s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy: s = a s Liniowa transformacja zmiennych, cd. Wariancja Wariancja jest kwadratem SD. Mamy: s 2 = a 2 s 2 Przykład: Y- temperatura w F: y = 98.6, s = 0.9, s 2 = 0.81 Pytanie 1: Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza. 1

Odpowiedź Standardyzacja Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób Y' = (Y- y)/s =(Y-98.6)/0.9? Jest to transformacja liniowa: Y' = 1/s Y - y/s. Odpowiedź: Liniowa transformacja zmiennych: inne statystyki Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe. Transformacje nieliniowe Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego. Parametry te liczymy z definicji korzystając z nowego zbioru danych. Przykład : dla Y =log(y) na ogół y log y Z medianą i kwartylami jest lepiej... Czasami używamy funkcji nieliniowych, aby przekształcić skośne dane w bardziej symetryczne. 2

Wnioskowanie statystyczne Próba a populacja Populacja: Zbiór, z którego losujemy próbę i który chcemy opisać. Czasami rzeczywista, czasami abstrakcyjna (np. nieskończenie duża próba ). Próba: Podzbiór populacji. Próba powinna być reprezentatywna dla populacji. Wnioskowanie statystyczne: Wnioskowanie o populacji w oparciu o próbę. Populacja Grupa wykładowa Wszyscy pacjenci biorący Prozac ``wszystkie rzuty kostkami Wszystkie owocówki ze śmietnika, albo Wszystkie owocówki w okolicy Parametry : µ, σ Populacja µ σ Próbkowanie Próba 10 losowo wybranych studentów 30 pacjentów biorących Prozac 25 rzutów kostką Owocówki złapane na śmietniku Wnioskowanie Próba y s Statystyki y, s Parametry populacji µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y Var Y=średnia z (Y-µ) 2 =E(Y-µ) 2 σ = odchylenie standardowe w populacji, σ =(Var Y) 1/2...i inne. Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji. Przykład Grupy krwi u 3696 osób żyjących w Anglii. Grupa krwi A B AB O suma Liczność 1,634 1616 3696 Około 44% ludzi w próbie ma grupę krwi A. A w Anglii?? Czy nie było systematycznego błędu przy próbkowaniu? Czy rozmiar próby był dość duży? 327 119 Możliwe błędy przy próbkowaniu: Próba złożona z przyjaciół i pracowników może nie być reprezentatywna. Mimo tego... Grupy krwi mogą być reprezentatywne. Ale już... Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem). 3

Populacja a próba Średnia z próby y na ogół różni się od wartości oczekiwanej µ=ey (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. Średnia z próby jest estymatorem wartości oczekiwanej. Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s 2 są estymatorami odpowiednich parametrów w populacji: σ i σ 2 =Var Y. Przykład Rozmiar populacji=50, średnia w populacji =26.48 Populacja: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3 22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6 stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40) Histogram z populacji a histogram próbkowy Dane dyskretne (klasy) Oznaczamy: p i =frakcja osobników w i-tej kategorii. p i można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczamy: pˆ i= estymator obliczony w oparciu o histogram z próby (zaobserwowana częstość w danej kategorii). Przykład Rozmiar populacji =10000. 5 klas o tej samej częstości p i = (?). W tabeli tylko kategorie 1. i 5. n 10 20 40 80 160 320 ˆp 1 0.1 0.1 0.2 0.15 0.1625 0.1781 ˆp 5 0.3 0.35 0.25 0.225 0.1875 0.1938 n=10 4

Histogram a gęstość rozkładu prawdopodobieństwa Liczbowe dane ciągłe więcej klas + jeszcze więcej danych= bardziej regularny histogram Gęstość rozkładu prawdopodobieństwa Gdy rozmiar próby dąży do nieskończoności i szerokość klas dąży do zera histogram zbiega do wykresu gęstości rozkładu badanej zmiennej w populacji. Próbkowanie, cd. Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. 5

Jak wybrać prostą próbę losową: Mechanizm losujący, np.: Przyznajemy numer każdemu osobnikowi Zapisujemy numery na kulach Mieszamy kule w urnie Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci? Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Populacja: wszyscy rodzice w USA Przykład 1 (Ochotnicy) cd. Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. Czasopismo Newsday przeprowadziło statystycznie zaplanowaną ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933945; Wielki Kryzys: 1929933 Przyczyny błędu Literary Digest: Złe (dyskryminujące) próbkowanie Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. 6

Obciążenie w próbkowaniu Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby zwykle eliminuje takie obciążenie. Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady warstw: studenci & studentki grupy zawodowe regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. Poziom 1: losowa próba z 3,000 counties Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 7