Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31
Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie partii politycznej X; jaki procent osób cierpi na chorobę Alzheimera; jaki odsetek populacji stanowią osoby homoseksualne. 2 Problem: dlaczego różne sondaże podają różne wyniki? 3 W populacji istnieje pewna zmienność (zróżnicowanie) wartości mierzonej zmiennej, które wpływa na błąd pomiaru. Marcin Zajenkowski () Oszacowanie i rozkład t 2 / 31
Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie partii politycznej X; jaki procent osób cierpi na chorobę Alzheimera; jaki odsetek populacji stanowią osoby homoseksualne. 2 Problem: dlaczego różne sondaże podają różne wyniki? 3 W populacji istnieje pewna zmienność (zróżnicowanie) wartości mierzonej zmiennej, które wpływa na błąd pomiaru. Marcin Zajenkowski () Oszacowanie i rozkład t 2 / 31
Rodzaje oszacowań Oszacowanie punktowe otrzymane bezpośrednio z obliczeń, np. średni wynik z testu wiedzy w grupie studentów = 26,88. Nie dostarcza ono informacji o błędzie jakim jest obciążony estymator. Oszacowanie przedziałowe uwzględniając błąd, twierdzimy z pewnym stopniem ufności, że wartość populacji znajduje się w obrębie przedziału. Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 przedział ufności. Marcin Zajenkowski () Oszacowanie i rozkład t 3 / 31
Przedział ufności Znając błąd standardowy można zbudować przedział w którym znajduje się średnia. Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 to tzw. przedział ufności. Błąd wyznacza dolną i górną granicę przedziału ufności. Marcin Zajenkowski () Oszacowanie i rozkład t 4 / 31
Właściwości oszacowań Nie obciążone gdy estymator w kolejnych pobieranych próbach nie odbiega systematycznie od parametru. Czyli nie jest obciążony stałym błędem. Inaczej: estymator równy jest wartości oczekiwanej. Wartość oczekiwana uzyskana po uśrednieniu wartości w nieskończenie wielkiej liczbie powtarzanych prób losowych. Marcin Zajenkowski () Oszacowanie i rozkład t 5 / 31
Właściwości oszacowań Spójne jeśli oszacowanie to coraz bardziej zbliża się do parametru populacji w miarę wzrostu liczebności próby. Efektywne jeżeli mamy dwie metody szacowania tego samego parametru populacji, to efektywniejsza jest metoda o mniejszej wariancji (np. średnia i mediana)? Wystarczające gdy jest bardziej efektywne niż inne metody. Marcin Zajenkowski () Oszacowanie i rozkład t 6 / 31
Przedział ufności dla średnich z prób dużych Rozkład zbliża się coraz bardziej do normalnego wraz ze wzrostem liczebności próby. Dlatego też dla dużych prób stosuje się rozkład normalny w celu oszacowania wyniku. Do obliczenia błędu standardowego stosuje się odchylenie rozkładu z próby średnich, czyli: s X = s n Marcin Zajenkowski () Oszacowanie i rozkład t 7 / 31
Przedział ufności dla średnich z prób dużych Chcemy oszacować różnicę między średnią w próbie a średnią w populacji, czyli: X - µ W oszacowanie należy uwzględnić błąd standardowy, zatem: X µ s X Rozkład z próby średniej będzie normalny (zgodnie z centralnym twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie przedstawia wynik standardowy dla średniej z próby w odniesieniu do rozkładu z próby średniej: z = X µ s X Marcin Zajenkowski () Oszacowanie i rozkład t 8 / 31
Przedział ufności dla średnich z prób dużych Rozkład z próby średniej będzie normalny (zgodnie z centralnym twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie przedstawia wynik standardowy dla średniej z próby w odniesieniu do rozkładu z próby średniej: z = X µ s X +-1,96 odchylenia standardowego mieści 95% powierzchni rozkładu normalnego +-2,58 odchylenia standardowego mieści 99% powierzchni Marcin Zajenkowski () Oszacowanie i rozkład t 9 / 31
Przedział ufności Przy założeniu normalności z, istnieje 95% prawdopodobieństwo, że prawdziwe jest następujące twierdzenie: -1,96 z = X µ s X 1,96 Marcin Zajenkowski () Oszacowanie i rozkład t 10 / 31
Przedział ufności Aby przekształcić tę nierówność, tak aby odnosiła się do wyników surowych, mnozymy wszystkie człony przez odchylenie i dodajemy średnią, dostajemy: X - 1,96 s X µ X + 1,96 s X Ogólnie: odjęcie i dodanie do średniej odpowiedniej wartości z pomnożonej przez odchylenie (błąd standardowy). Marcin Zajenkowski () Oszacowanie i rozkład t 11 / 31
Przedział ufności Wartości z dla prawdopodobieństw (z tablic) najczęściej przyjmowanych: 68% = 1 85% = 1,44 90% = 1,64 95% = 1,96 99% = 2,58 Marcin Zajenkowski () Oszacowanie i rozkład t 12 / 31
Przykład Ustal przedział ufności. Średni iloraz inteligencji w grupie 100 uczniów szkoły średniej wynosi 114, a odchylenie standardowe 17. Marcin Zajenkowski () Oszacowanie i rozkład t 13 / 31
Rozwiązanie s X = 1,7 Dolna granica: 110, 67 Górna granica: 117,33 Marcin Zajenkowski () Oszacowanie i rozkład t 14 / 31
Znaczenie Gdyby pobierać dużą liczbę prób i sporządzać przedzaiły ufności dla średniej, to 95% otrzymanych przedziałów zawierałoby średnią a 5% - nie. Marcin Zajenkowski () Oszacowanie i rozkład t 15 / 31
Zadanie 1 Dla tych samych danych ustal przedział z: 68% prawdopodobieństwem 99% prawdopodobieństwem Marcin Zajenkowski () Oszacowanie i rozkład t 16 / 31
Zadanie 2 Aby wypróbować swój nowy samochód, pan Andrzej przejechał nim 36 razy na trasie Warszawa-Kolbuszowa. Obliczył, że jego samochód spalał średnio 8 litrów benzyny, a odchylenie standardowe wynosiło 3. Zbuduj przedział ufności dla tej średniej z 85% prawdopodobieństwem. Marcin Zajenkowski () Oszacowanie i rozkład t 17 / 31
Zadanie 3 Oszacuj 95% i 99% przedziały ufności dla danych: Zadanie Średnia N (X X ) 2 1 80 37 1296 2 58 64 249 3 46 35 350 4 100 32 496 Marcin Zajenkowski () Oszacowanie i rozkład t 18 / 31
Przedziały ufności dla średnich z prób małych Rozkład z próby średniej, zbliża się do rozkładu normalnego wraz ze wzrostem liczebności próby, niezależnie od kształtu rozkładu w populacji. Dla małych prób jednak często odbiega od normalnego. W próbach małych stosuje się rozkład t. Marcin Zajenkowski () Oszacowanie i rozkład t 19 / 31
Rozkład t Analogicznie do stosunku z wprowadza się stosunek t: t = X µ s X Marcin Zajenkowski () Oszacowanie i rozkład t 20 / 31
Rozkład t Rozkład t nie jest normalny, ale zbliża się do rozkładu normalnego wraz ze wzrostem n. Rozkład t odbiega znacznie od normalnego przy małych próbach (np. n=5) Rozkład t nie jest pojedynczy, lecz to rodzina rozkładów. Wygląda inaczej w zależności od wielkości próby (stopni swobody). Marcin Zajenkowski () Oszacowanie i rozkład t 21 / 31
t.jpg Marcin Zajenkowski () Oszacowanie i rozkład t 22 / 31
Stopnie swobody Stopnie swobody df (degrees of freedom) Liczba wartości zmiennej które mogą się swobodnie zmieniać. pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Marcin Zajenkowski () Oszacowanie i rozkład t 23 / 31
Stopnie swobody Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Przykład 2. Średnia = 4, pomiary: 2,4 i? Ostatni musi być 6 Marcin Zajenkowski () Oszacowanie i rozkład t 24 / 31
Stopnie swobody Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Przykład 2. Średnia = 4, pomiary: 2,4 i? Ostatni musi być 6 Marcin Zajenkowski () Oszacowanie i rozkład t 24 / 31
Obszar pod rozkładem t Rozkład t ma średnią = 0. Obszar pod krzywą jest inny niż w rozkładzie normalnym zależy od wielkości próby, czyli od stopni swobody Marcin Zajenkowski () Oszacowanie i rozkład t 25 / 31
Marcin Zajenkowski () Oszacowanie i rozkład t 26 / 31
Rozkład t - Studenta Rozkład t Studenta. Twórca William Gossett, pisał pod pseudonimem Student. Przy dużym N, rozkład t jest taki sam jak rozkład normalny. Niektórzy przyjmują, że duże N powyżej 30. Marcin Zajenkowski () Oszacowanie i rozkład t 27 / 31
Przedziały ufności dla średnich z prób małych Np. średnia = 24,26, odchylenie=8 Błąd standardowy = 2 Wartość t dla 95% powierzchni przy 15 df wynosi 2,13 po obu stronach średniej Granice to 24,26 4,26; 24,26 + 4,26 20; 28,52 Marcin Zajenkowski () Oszacowanie i rozkład t 28 / 31
Zadanie Oszacuj 95% i 99% granice ufności dla średniej=20, N = 9 i s = 6. Marcin Zajenkowski () Oszacowanie i rozkład t 29 / 31
Zadanie Znajdź taką wartość t dla df = 20, aby część powierzchni pod krzywą: na prawo od t wynosiła 0,025 na lewo od t wynosiła 0,0005 między średnią a t wynosiła 0,45 między +-t wynosiła 0,90 Marcin Zajenkowski () Oszacowanie i rozkład t 30 / 31
Zadanie Oszacuj 95% i 99% granice ufności dlaśredniej=40, N=400 i s=15 Marcin Zajenkowski () Oszacowanie i rozkład t 31 / 31
Zadanie Jaka część rozkładu pod krzywą t mieści się: poniżej t= - 2,262, przy df =9 powyżej t = -1,476 przy df=5 między t=+-2,228, przy df=10 między t=-1,533 i t=2,776 przy df=4 Marcin Zajenkowski () Oszacowanie i rozkład t 32 / 31