Zastosowanie metod statystycznych laboratorium 3 Estymacja pierwsze kroki Zaczniemy od czegoś nieskomplikowanego, aby lepiej oswoić się z wprowadzonymi pojęciami i poczuć czym różnią się od siebie wielkości szacowane i ich estymatory. Skoncentrujemy się na najprostszym przypadku estymowaniu wartości oczekiwanej. Dla rzutu kostką możemy otrzymać sześć różnych wyników. Wykonujemy eksperyment myślowy polegający na rzucie kostką bardzo wiele razy (np. bilion razy), otrzymując ogromną liczbę wyników. Przy tak dużej populacji możemy, popełniając astronomicznie mały bład, założyć, że średnia tej olbrzymiej populacji jest taka sama jak średnia zbioru sześciu możliwych do otrzymania wyników. Podobnie odchylenie standardowe populacji będzie takie samo, jak odchylenie standardowe wartości {1, 2, 3, 4, 5, 6}. Przypomnij sobie jak za pomocą Excela wyznaczyć średnią i odchylenie standardowe populacji i wyznacz je. Wartości te to rzeczywista wartość oczekiwana rzutu kostką (μ) i rzeczywiste odchylenie standardowe (σ). Pamiętamy, że z oszczędności na ogół dysponujemy tylko próbą całej populacji, na podstawie próby chcemy wnioskować o pewnych cechach całej populacji (np. o μ i σ). Teraz przyjrzymy się jak do wartości rzeczywistych mają się nasze estymatory. Dziś skupimy się na najprostszym przykładzie i przyjrzymy się estymatorowi wartości oczekiwanej, średniej arytmetycznej z próby. Wygeneruj próbę 100 rzutów kostką w postaci macierzy 10x10. Pojedynczy rzut kostką możesz wygenerować korzystając z funkcji RANDBETWEEN(1,6) 1 (ktoś zapomniał przetłumaczyć jej nazwy) albo pisząc LICZBA.CAŁK(LOS()*6+1). Całą macierz najłatwiej wygenerujesz kopiując pojedynczą komórkę i wklejając ją do zaznaczonego uprzednio przedziału. To jest nasza próba 100 rzutów. Nie zdziw się, że przy wprowadzaniu do arkusza zmian wartości zmieniają się Excel za każdym razem na nowo "rzuca kostką". Oblicz średnią z próby, x, która jest naszym estymatorem wartości oczekiwanej. W kolejnej kolumnie oblicz średni błąd losowy oceny μ za pomocą średniej z próby (wyjątkowo możemy go obliczyć, a nie tylko szacować, ponieważ wyjątkowo znamy rzeczywiste odchylenie standardowe). W kolejnej kolumnie spróbuj oszacować średni błąd losowy, korzystając z odchylenia standardowego z próby (S x ). Na koniec, w kolejnej kolumnie, oblicz błąd rzeczywisty, tj. wartość bezwzględną realnej różnicy między x, a μ. Wciskając F9 możesz sprawdzić, jak zmieniają się odpowiednie wartości. Spróbuj odpowiedzieć na poniższe pytania: Czy błąd rzeczywisty może być większy od oszacowania średniego błędu losowego? Czy błąd rzeczywisty może być większy od prawdziwego średniego błędu losowego? Powtórz ćwiczenie z większą macierzą 100x100 (10000 wartości). Nasza próba jest 100-krotnie większa. Spróbuj odpowiedzieć na poniższe pytania. Ilukrotnie zmniejszył się średni błąd losowy? Ilukrotnie zmniejszyło się oszacowane średniego błędu losowego? Co z błędem rzeczywistym? Czy próba 10000 wartości gwarantuje, że nasze oszacowanie μ przez x jest 100% pewne? 1 Uwaga, funkcja ta wymaga włączenia dodatka Analysis Toolpak w tym celu zajrzyj do Narzędzia/Dodatki/Dostępne dodatki.
Estymacja przedziałowa wartości oczekiwanej, gdy cecha ma rozkład normalny i znane jest odchylenie standardowe populacji Niech x 1, x 2,..., x n będzie próbą losową pobraną z normalnie rozłożonej populacji o wartości oczekiwanej μ i odchyleniu standardowym σ. Zmienna losowa X jest wówczas również rozłożona normalnie, z parametrami μ i n. Przechodzimy do nowej zmiennej Z = x, o której możemy /n powiedzieć, że podlega rozkładowi N(0,1). Ustalając wartość α znajdujemy wartości krytyczne: -z c i z c, takie że: Następnie powracamy do oryginalnej zmiennej: P(-z c Z z c )=1 α. P(-z c Z = x /n z c)=1 α a po przekształceniu: P( x z c n μ x z c n )=1 α co pozwala wyznaczyć nam szukany przedział ufności: x± z c n. Zważono 10 pastylek pewnego lekarstwa, otrzymując średnią wagę x =3.7 g. Z poprzednich badań wiadomo, że rozkład wagi pastylek jest normalny, z odchyleniem standardowym =0.3 g. Wyznacz przedział ufności (ufność 95%) dla wartości oczekiwanej wszystkich wyprodukowanych pastylek. Naszym zadaniem jest rozwiązanie: Zatem α=0.05. P( x z c n μ x z c n )=0.95. Przechodzimy do rozkładu normalnego standardowego N(0,1) (i zmiennej Z). W pierwszym kroku powinniśmy wyznaczyć wartości z c, które odpowiadają prawdopodobieństwu 0.95: A=0.95 z c -z c?
Dotychczas zajmowaliśmy się zagadnieniem odwrotnym znaliśmy wartości zmiennej i chcieliśmy wyznaczyć pole pod krzywą. Korzystaliśmy w tym celu z funkcji ERF() bądź ROZKŁAD.NORMALNY(). Tym razem potrzebna nam funkcja odwrotna, która obliczy z c gdy znamy pole pod krzywą. Funkcja ta nazywa się ROZKŁAD.NORMALNY.ODW() i zwraca prawie dokładnie to, czego potrzebujemy. Rzuć okiem na rysunek poniżej. Wspomniana funkcja zwraca wartość z c odpowiadającą zadanemu "polu zielonemu": z c Samemu znajdź zależność między "polem czerwonym" i "polem zielonym", korzystając z symetrii wykresu oraz z tego, że pole całkowite wynosi 1. Mając tę zależność, wyznacz wartość z c odpowiadającą polu "czerwonemu" wynoszącemu 0.95. Ja otrzymałem z c = 1.96. Mając z c łatwo znajdziesz poszukiwany przedział. Wynik "oficjalny": 3.514 3.886. Co to oznacza? a) że 95% pastylek w próbie mieści się w otrzymanym przedziale? b) że 95% pastylek w populacji mieści się w otrzymanym przedziale? c) że z prawdopodobieństwem 95% średnia waga pastylki rzeczywiście znajduje się w otrzymanym przedziale? d) że na 100 prób losowych z populacji dostajemy 100 różnych przedziałów, dla 95 z nich przedział faktycznie pokrywa szukany parametr. Otrzymaliśmy właśnie jeden z takich 95. To samo zadanie możemy rozwiązać znacznie szybciej korzystając z funkcji UFNOŚĆ(), która bierze trzy argumenty: pierwszy z nich to wartość α, drugi to, a ostatni odpowiada n. Poszukiwany przedział ufności obliczamy jako: ( x UFNOŚĆ(α,,n), x + UFNOŚĆ(α,,n)). Sprawdź dla naszego przypadku, czy tą metodą dostajesz zgodne wyniki. Sprawdź jak zmienia się przedział ufności w poprzednim ćwiczeniu, gdy zażyczymy sobie ufności na poziomie 99%? Przećwicz obydwa sposoby pierwszy z wyznaczaniem z c i drugi, korzystający z UFNOŚĆ(). Ja otrzymałem 3.456 3.944. Jaki z tego wniosek? a) Im większy poziom ufności, tym węższy staje się przedział. b) Wręcz przeciwnie za wyższy poziom ufności musimy zapłacić szerszym przedziałem. c) Przyjęty poziom ufności nie rzutuje na szerokość przedziału.
A teraz zagadnienie odwrotne! Jeśli chcemy powiedzieć, z poziomem ufności 99%, że średnia waga pastylek leży w przedziale 3.6 3.8, jak dużej próby potrzebujemy? Podpowiedź: Teraz wiemy, że x z c n =3.6, x z c n =3.8 i poszukujemy n, znając już z c. Gdy już obliczysz n, sprawdź otrzymaną wartość wyznaczając (dowolnym ze sposobów) przedział ufności. Oficjalny wynik: n=60. Sprawdź swoje siły w obliczaniu przedziałów ufności na ostatnim przykładzie. Sponsor pewnego programu telewizyjnego próbuje oszacować ile czasu młodzież amerykańska poświęca tygodniowo na oglądanie telewizji, ponieważ liczba ta bezpośrednio przekłada się na wpływy z reklam. Przeprowadzono ankietę, w której wzięło udział sto osób. Średnia z tak wybranej próby wynosiła 27.5 godzin tygodniowo. Z wcześniejszych badań wynika, że odchylenie standardowe w populacji wynosi 8 godzin. Wyznacz wybranym sposobem przedział ufności dla średniej liczby godzin w tygodniu którą młodzież amerykańska spędza przed telewizorem. Przyjmuj poziom istotności 5%. Ja otrzymałem 25.932 29.068. Jeśli sponsor chce z ufnością na poziomie 99% wiedzieć, że średni czas zawiera się w przedziale 27 28, ile osób musi przeankietować? Mój wynik: prawie 1700. Jaka jest precyzja naszego oszacowania? Najczęściej stosuje się dwie miary precyzji estymacji miarę precyzji bezwzględnej () i miarę precyzji względnej (). Do obydwu tych symboli dopisujemy indeks, który przypomina nam o którym estymatorze mówimy. W naszym przypadku estymatorem była średnia z próby, więc indeks ten będzie miał postać x. Miary te są zdefiniowane następująco: = 1 górna granica przedziału dolna granica przedziału 2 = 100 estymator wartości Dla poziomów ufności od 0.90 do 0.99 przyjmuje się umownie, że: <5%: wnioskowanie o poszukiwanym parametrze jest uprawnione i całkowicie bezpieczne, 5%<<10% : wnioskowanie o poszukiwanym parametrze jest możliwe, ale z zalecaną ostrożnością, >10%: należy natychmiast przerwać wnioskowanie, ponieważ jest ono nieuprawnione. Sprawdź dla zadań z pastylkami i ze sponsorem TV czy nasze wnioskowanie było rzeczywiście uprawnione, czy też nie. PASTYLKI: SPONSOR:, wniosek:, wniosek:
Estymacja przedziałowa wartości oczekiwanej, gdy cecha ma rozkład normalny i nie jest znane odchylenie standardowe populacji Na ten przypadek napotykamy szczególnie często w zagadnieniach praktycznych. Gdy odchylenie standardowe populacji nie jest znane (a na ogół nie jest), nie możemy wykorzystać zmiennej Z podstawiając po prostu odchylenie standardowe próby S c w miejsce odchylenia standardowego populacji σ, ponieważ zmienna x S c /n 1 nie podlega rozkładowi normalnemu, a innemu rozkładowi, zwanemu rozkładem t-studenta z n-1 stopniami swobody. Ogólna procedura postępowania jest podobna, poza tym, że korzystamy z S c, zmienia się jedynie rozkład. Można pokazać, że poszukiwany przedział jest wówczas dany przez: s P( x t c c n μ xt s c c n )=1 α. W celu wyznaczenia średniego czasu reakcji kierowców na pozorowane niebezpieczeństwo na drodze, przeprowadzono osiem pomiarów czasu reakcji, otrzymując następujące wartości (w sekundach) 0.84 0.75 1.02 0.99 1.05 1.10 0.68 0.82 Wyznacz średni czas reakcji populacji wszystkich kierowców, przy założeniu, że czasy reakcji są w populacji rozłożone normalnie, przyjmując poziom ufności a) 95%, b) 99%. Zaczynamy od obliczenia wartości średniej z próby, x i odchylenia standardowego z próby, s c. Jak wspomniano wcześniej, poszukiwany przedział ufności to ( x t c n μ xt c ), gdzie n oczywiście wpierw musimy wyznaczyć t c. Mamy zatem do rozwiązania podobne zagadnienie jak to z "polem czerwonym", tylko zamiast rozkładu normalnego mamy rozkład Studenta. Odpowiednia funkcja nazywa się ROZKŁAD.T.ODW() i przyjmuje dwa argumenty. Pierwszy z nich to poziom istotności α (uwaga, nie ufności!), a drugi to liczba stopni swobody (parametr rozkładu), równa n-1. Mi udało się otrzymać t c =2.365. Mając t c łatwo znajdziesz przedział ufności. Ja otrzymałem (0.778 1.035). Ten sam przedział możemy wyznaczyć korzystając z menu, w tym celu wybierz Narzędzia/Analiza danych/statystyka opisowa, wybrawszy przedział wejściowy i wpisując poziom ufności. s c Wynikiem jest t c, dzięki któremu łatwo wyznaczyć interesujący nas przedział. Wadą tej metody n jest to, że wynik nie zmienia się w przypadku zmian w danych lub w poziomie ufności. Wykonaj obliczenia dla punktu b) obydwiema metodami. Wynik oficjalny: (0.716 1.097). s c s c Czy otrzymane wyniki są wystarczająco precyzyjne? Sprawdź to.
Potencjalne przyczyny niezadowalającej precyzji estymacji 1) Zbyt wysoki deklarowany poziom ufności, 2) Zbyt mała liczebność próby, 3) Zbyt wysokie zróżnicowanie wyników obserwacji. Z którą/którymi z przyczyn Twoim zdaniem mieliśmy do czynienia w ostatnim przykładzie? Rozkład czasu "życia" pewnego typu baterii do aparatów fotograficznych jest z dobrym przybliżeniem normalny. Wybraną losowo próbę 50 baterii z populacji 2000 poddano próbie rozładowywania. Otrzymane wyniki (w godzinach) znajdziesz w arkuszu na naszej stronie WWW. Korzystając z poznanych dwóch metod oblicz przedział ufności dla poziomu ufności a) 95%; b) 99%. Wyniki oficjalne: średnia z próby: 19.68, odchylenie standardowe z próby: 3.49; przedział a): (18.69 20.67); przedział b) (18.36 21.00). Czy otrzymane wyniki są wystarczająco precyzyjne? Sprawdź to. W fabryce ołówków zainstalowana jest maszyna do produkcji wkładów ("grafitów"). W trakcie kontroli postanowiono zbadać wytwarzane przez nią wkłady. Zbadano niewielką próbę 10 wkładów, otrzymując następujące długości wkładów: 12.21 12.33 12.84 12.97 13.22 12.93 13.07 13.52 13.23 13.01 Zakładając rozkład normalny długości wkładów w populacji, wyznacz przedział ufności dla średniej długości przy poziomie ufności 99% wybraną metodą. Wynik oficjalny: 12.52 13.34. Czy otrzymany wynik jest wystarczająco precyzyjny? Sprawdź to.
Próbujemy estymacji w pakiecie STATISTICA Sprawdzimy w jaki sposób możemy wykonać podobne szacowanie wartości średniej przy użyciu pakietu STATISTICA. Przykład na którym będziemy pracować zaczerpnięty jest z książki "Statystyka z pakietem komputerowym STATISTICA PL". Wylosowano 10 dużych banków na świecie i zbadano rozmiary kapitału własnego (w mln USD) w 2002 r. Otrzymane dane indywidualne są następujące: Bank Kapitał A 41889 B 36877 C 29352 D 25930 E 24121 F 22213 G 22074 H 20525 I 19899 J 19654 Na podstawie badanej próby chcemy, przy 95% poziomie ufności estymować wartość oczekiwaną kapitału własnego w zbiorowości generalnej wszystkich dużych banków na świecie. Zacznij od przepisania tabeli do nowego arkusza w programie STATISTICA. Jeśli ta będzie marudzić, że w pierwszej kolumnie znajdują się nie-liczby, zgódź się na etykiety tekstowe. Następnie z menu wybierz Statystyka/Statystyki podstawowe i tabele/statystyki opisowe. W zakładce Więcej wybierz interesujące nas pola: ustaw odpowiedni przedział ufności i kliknij "Statystyki". W otrzymanym wydruku rozszyfruj znaczenie poszczególnych pól. Jaki jest otrzymany przedział ufności?... Jaki jest średni błąd losowy oszacowania poszukiwanej wartości oczekiwanej?...
STATISTICA sama wiedziała, że należy skorzystać z rozkładu t-studenta. Jeśli chcesz to sprawdzić, możesz szybko przeliczyć ten przykład w Excelu. Otrzymaliśmy odpowiedni przedział, z przyzwoitym (95%) poziomem ufności. Czy jednak nasze oszacowanie jest precyzyjne? Niestety, STATISTICA nie oblicza automatycznie znanych nam miar precyzji (, ). Oblicz je ręcznie (najłatwiej pewnie w Excelu) korzystając z wyników analizy. Co można powiedzieć o naszym oszacowaniu? Co, według Ciebie, jest tego powodem?