Grupowanie materiału statystycznego

Podobne dokumenty
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Pobieranie prób i rozkład z próby

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wnioskowanie statystyczne. Statystyka w 5

Estymacja punktowa i przedziałowa

STATYSTYKA MATEMATYCZNA

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

METODY STATYSTYCZNE W BIOLOGII

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wykład 3: Prezentacja danych statystycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Spis treści 3 SPIS TREŚCI

Metody Statystyczne. Metody Statystyczne.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 4: Statystyki opisowe (część 1)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Zadania ze statystyki, cz.6

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Rozkłady statystyk z próby. Statystyka

Metody probabilistyczne

Statystyka matematyczna i ekonometria

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

WNIOSKOWANIE STATYSTYCZNE

Estymacja parametrów rozkładu cechy

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYKŁAD 5 TEORIA ESTYMACJI II

Oszacowanie i rozkład t

LABORATORIUM 6 ESTYMACJA cz. 2

Statystyka matematyczna dla leśników

Sposoby prezentacji problemów w statystyce

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

166 Wstęp do statystyki matematycznej

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wprowadzenie do analizy dyskryminacyjnej

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wykład 5: Statystyki opisowe (część 2)

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Wnioskowanie bayesowskie

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wydział Matematyki. Testy zgodności. Wykład 03

W1. Wprowadzenie. Statystyka opisowa

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Estymacja parametro w 1

Wykład 3 Hipotezy statystyczne

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Weryfikacja hipotez statystycznych

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka w przykładach

Próba własności i parametry

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Testowanie hipotez statystycznych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Wprowadzenie do analizy korelacji i regresji

Estymacja parametrów w modelu normalnym

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Regresja linearyzowalna

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Rozkład Gaussa i test χ2

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA wykład 5-6

1.1 Wstęp Literatura... 1

Statystyka w pracy badawczej nauczyciela

Testy nieparametryczne

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wykład 2: Tworzenie danych

Transkrypt:

Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do tego szeregi statystyczne i histogramy. Te ostatnie przemawiają do wyobraźni odbiorcy bardziej niż liczby. STATISTICA oferuje doskonałe narzędzia do tego typu opracowań. Moduł Statystyki opisowe daje nam już możliwość tworzenia szeregów statystycznych i histogramów. Jednak pełny zakres możliwości grupowania dostępny jest po wybraniu opcji Tabele Liczności. Obie opcje dostępne są w oknie Statystyki Podstawowe i Tabele wywołanej przy pomocy menu Statystyka. Warto tu zauważyć, że dla większość okien określania analizy dostępnych jest kilka kart zawierających opcje. Zazwyczaj dostępne są przynajmniej dwie grupy analiz. Pierwsza grupa znajdująca się na karcie Podstawowe zawiera najczęściej wykorzystywane opcje, umożliwiające szybkie określenie podstawowych analiz bez konieczności poszukiwania zbyt dużej liczby opcji. Z kolei karta Więcej zawiera wszystkie opcje dostępne na karcie Podstawowe oraz wiele nieco rzadziej wykorzystywanych opcji. W niektórych bardziej złożonych analizach dostępne są również dodatkowe karty. Poniższy rysunek pokazuje opcje dostępne na karcie Więcej dla modułu Tabele Liczności. Rys. 1. Opcje sposobu tabelaryzacji danych. Tabele liczebności stanowią najprostsze i najczęściej używane narzędzie do wstępnej analizy danych ilościowych i jakościowych (danych w skali nominalnej). Umożliwiają one pogrupowanie danych według przyjętych kategorii dla ich uporządkowania i znalezienia interesujących różnic. Można też pogrupowane dane przedstawić graficznie w postaci histogramu. Tabele liczności informują o tym, jak często pojawiają się określone warianty analizowanej cechy w całym zbiorze danych. Kolejny przykład pokazuje jak utworzyć szereg rozdzielczy i powiązany z nim histogram dla wybranej zmiennej opisującej poziom sodu dla psów (Sód). Przykład 1 1. Z menu Statystyka wybieramy opcję Statystyki podstawowe i tabele. Następnie w otwierającym się oknie wybieramy opcję Tabele liczności.. W oknie Tabele liczności klikamy przycisk Zmienne i wybieramy zmienną Sód. Następnie klikamy kartę Więcej, aby zobaczyć różne opcje dotyczące sposobu tabelaryzacji danych. Okno to zawiera wiele opcji służących do modyfikacji sposobu wyświetlania i kategoryzacji tabel częstości. 1

3. Dla potrzeb naszego przykładu wybieramy metodę kategoryzacji Dokładna liczna przedziałów. W takiej sytuacji rozstęp wartości każdej zmiennej zostanie podzielony na żądaną liczbę przedziałów. Przyjmujemy ustawienie 11 przedziałów i klikamy przycisk Podsumowanie: Tabele liczności, aby wyświetlić tabele liczności dla wybranej zmiennej. Otrzymana w ten sposób tabela liczności pokazana jest na poniższym rysunku. 1 Histogram: Sód Oczekiwana normalna 1 10 Liczba obs. 8 6 0 11,5 1, 16,9 19,6 13,3 135,0 137,7 10, 13,1 15,8 18,5 151, X <= Granica klasy Rys.. Tabela liczności i histogram dla zmiennej Sód. Dla otrzymania powiązanego z tabelą histogramu wracamy do okna Tabele liczności i klikamy przycisk Histogramy. Otrzymany histogram pokazany jest na rysunku po prawej stronie. 5. Prezentowana tabela zawiera niepotrzebnie przedziały o zerowej liczebności. Zmniejszamy więc liczbę przedziałów wybierając opcję Przybliżona liczba okrągłych przedziałów. Wówczas kategorie lub granice przedziałów klasowych i ich wielkości w tabelach liczności będą zaokrąglone. Można w ten sposób oczekiwać tablic łatwych do odczytania. Nowa tabela liczności oraz powiązany z nią histogram pokazuje rysunek 3. 16 Histogram: Sód Oczekiwana normalna 1 1 10 Liczba obs. 8 6 0 10 15 130 135 10 15 150 155 X <= Granica klasy Rys. 3. Druga wersja tabeli liczności i histogram dla zmiennej Sód Wydaje się, że prezentowana tabela licznosci i histogram lepiej odzwierciedlają rozkład w badanej próbie. Rozkład liczebności informuje o liczbie jednostek w poszczególnych klasach natomiast procenty mówią o strukturze czyli o tym, jaką część całej zbiorowości stanowią jednostki przydzielone do poszczególnych klas. Prezentowany rozkład liczebności jest rozkładem empirycznym. Odzwierciedla rozkład wartości cechy wiek w badanej próbie. W praktyce intersuje nas rozkład badanej cechy w całej populacji. Stąd wykorzystanie rozkładów teoretycznych i testów zgodności badających dopasowanie rozkładu empirycznego do rozkładu teoretycznego.

POPULACJA ESTYMACJA Grupa próbna Estymacja - przedziały ufności To chcemy poznać To możemy poznać i zmierzyć Po wylosowaniu elementów do próby losowej i po ich obserwacji ze względu na interesujące nas cechy statystyczne, powstaje problem wnioskowania o populacji w oparciu o wyniki uzyskane z próby losowej. Na podstawie danych z próby możemy obliczyć średnią, medianę i odchylenie standardowe, ale tylko dla naszej próby. Otrzymane wnioski z tych wyników chcielibyśmy rozciągnąć na całą populację. Możliwość obliczenia średniej dla całej populacji przy pomocy średniej z próby to jest to, co jest nam potrzebne. Przyjrzyjmy się więc metodom wnioskowania statystycznego, które dotyczą sposobów oszacowań parametrów zmiennych losowych w całej populacji. Matematycy nazywają te metody estymacją. Podstawy teorii estymacji zostały sformułowane na przełomie XIX i XX wieku przez Karla Pearsona. Oczywiście estymacja może dotyczyć wyłącznie takich charakterystyk badanych cech, które przyjmują wartości liczbowe. Oszacowanymi parametrami są najczęściej średnia, frakcja, wariancja, współczynnik korelacji, ale estymować może też obiekty bardziej złożone jak linia regresji. Na początek kilka słownikowych definicji Estymacja, to proces, którego celem jest ocena nieznanej wartości parametru na podstawie obserwacji. Estymator, to funkcja służąca do oceny nieznanej wartości parametru. Wartość estymatora, to ocena wartości parametru wyliczona dla konkretnej próby. Uwaga! Starajmy się dobrze rozróżniać estymator od wartości estymatora. Punktem wyjściowym w estymacji jest wylosowanie z populacji n - elementowej próby i poznanie w niej interesującej nas zmiennej. Estymacja pozwala, w oparciu o wyniki z próby, wyznaczyć konkretną wartość (statystyka) będącą oszacowaniem nieznanego parametru populacji. W zależności od sposobu, w jakim dokonujemy szacunku wartości parametrów estymację dzielimy na: estymację punktową - stosujemy ją, gdy nie znamy jednego lub kilku parametrów określających rozkład analizowanej zmiennej w populacji i chcemy ustalić ich wartości liczbowe na podstawie wyników próby, oczywiście przy zachowaniu odpowiednich reguł. estymację przedziałowa - tu dla oszacowania wyznaczamy pewien przedział liczbowy, który z pewnym prawdopodobieństwem zawiera wartość nieznanego parametru. Podstawowym narzędziem szacowania nieznanego parametru jest estymator wyliczony na podstawie próby. Są to najczęściej statystyki tego samego typu, ale obliczone w próbie losowej. Przykładowo estymatorem wartości oczekiwanej jest średnia z próby losowej, a estymatorem wariancji dla całej populacji jest wariancja wyliczona na podstawie próby. Liczba możliwych estymatorów jest olbrzymia (ograniczona jedynie wyobraźnią statystyków), ale użyteczne są jedynie te, które mają określone właściwości. Zaliczamy do nich przede wszystkim: 3

nieobciążoność Estymator nieobciążony to ten, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru. Innymi słowy przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony jest równa wartości szacowanego parametru. Obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone systematycznym błędem. Przykładowo średnia z próby jest nieobciążonym estymatorem średniej w całej populacji. Efektywność Estymator jest tym efektywniejszy im mniejsza jest jego wariancja. Spośród dwóch estymatorów wybieramy ten, którego wariancja jest mniejsza. Zgodność Zgodność oznacza, że jeśli rośnie liczebność próby, rośnie też prawdopodobieństwo, że oszacowanie przy pomocy estymatora będzie przyjmować wartości coraz bliższe wartości szacowanego parametru. Inaczej: zwiększając liczebność próby, zmniejszamy ryzyko popełnienia błędu większego niż pewna ustalona wielkość. Estymatory o wszystkich tych własnościach są najbardziej użyteczne, zapewniają one otrzymanie wyników z próby zbliżonych do rzeczywistości. Jednak nawet bardzo wyrafinowane estymatory nie zapewniają oszacowania precyzji i wiarygodności uzyskanych wyników. Dlatego bardziej popularne są przedziały ufności pozbawione tych wad. Ich podstawy opracował w 1933 roku polski statystyk J. Spława-Neyman. Przedział ufności wyliczamy dla oszacowania wartości pewnej charakterystyki populacji na podstawie próby. Wartość tej charakterystyki dla próby będzie się nieco różnić od charakterystyki dla całej populacji. Wynika stąd, że dla różnych prób otrzymamy najczęściej różne wartości tej charakterystyki. Gdy próba jest reprezentatywna możemy oczekiwać niezbyt dużej różnicy między rzeczywistą wartością charakterystyki populacji a wyznaczoną przez nas wartością z próby. Przedział ufności określa nam prawdopodobny zasięg odchylenia naszych wyliczeń od wartości rzeczywistej. Wyznaczenie tego przedziału jest skomplikowane i wymaga zastosowania specjalnych wzorów, których postać zależy od liczebności próby oraz od pewnych założeń dotyczących rozkładu (najczęściej normalności) badanej cechy. Znajomość rozkładu to jak znajomość planu miasta, który pozwala zlokalizować każdy adres. Na pomoc przychodzi nam technika komputerowa. Większość bowiem programów statystycznych wylicza je precyzyjnie i bez problemu. Interpretacja przedziału ufności jest oczywista: im mniejszy przedział ufności, tym dokładniej obliczony przez nas estymator przybliża wartość rzeczywistą dla całej populacji. Odwrotnie szeroki przedział ufności oznacza możliwość dużych odchyleń wartości z próby od wartości z populacji - czyli małą wiarygodność naszych wyników. Przykładowe okno z wyliczonym w pakiecie STATISTICA przedziałem ufności przeciętnej masy ciała przedstawione jest poniżej. Jak widać z każdym przedziałem związana jest liczba (oznaczana przez 1 - ) zwana poziomem ufności. Oznacza ona, że w średnio 100% przypadków jest źle tzn. otrzymamy przedziały niepokrywające estymowany parametr. Przykładowo przyjmijmy poziom ufności

0,95. Wówczas pobierając z populacji 100 prób i wyznaczając na ich podstawie przedziały ufności, to co najwyżej 5 przedziałów spośród 100 nie zawiera estymowanego parametru. Oczywiście w zastosowaniach praktycznych pobieramy tylko jedną próbę i wyznaczamy tylko jeden przedział ufności. W naszym konkretnym przypadku nie będziemy pewni, czy przedział zawiera wartość estymowanego parametru. Będziemy jednak ufali, że tak jest o ile prawdopodobieństwo 1 - jest dostatecznie duże. Powszechnie przyjmuje się wartość 1 - = 0,95 jako tą najmniejszą. Musielibyśmy mieć wielkiego pecha (prawdopodobieństwo tego jest równe 0,05 lub mniejsze), aby nasz wyliczony z próby przedział ufności nie zawierał estymowanego parametru. Przyjmując z kolei poziom ufności 99% możemy się mylić raz na 100 razy. Aby mieć pewność możemy podnieść poziom ufności do 99,9%. Przy interpretacji przedziałów ufności nie mówimy o prawdopodobieństwie, że nieznana wartość parametru P będzie zawarta w jakimś stałym przedziale. Przecież P nie jest zmienną losową. Wydawać by się mogło, że przyjęcie wysokiego współczynnika ufności rozwiąże wszystkie nasze problemy. Zapewnimy sobie dowolnie dużą ufność wyliczonego przedziału. Niestety tak nie jest. Zwiększenie współczynnika ufności powoduje zwiększenie szerokości przedziału ufności, czyli zmniejszenie precyzji estymacji. Prowadzi to statystycznego paradoksu, że im chcemy być bardziej ufni, to jesteśmy mniej precyzyjni i odwrotnie. Poprawa precyzji jest możliwa pod warunkiem zwiększenia liczebności próby (istnieją na to specjalne wzory), a to w naukach medycznych nie zawsze jest możliwe. Taka sytuacja powoduje także zwiększenie kosztów eksperymentu. Musimy więc starać się wybrać złoty środek. A z tym wiadomo najtrudniej. Reasumując estymacja pozwala nam przy ustalonym z góry prawdopodobieństwie (zwanym poziomem ufności) utworzyć przedział zawierający nieznaną wartość parametru populacji. Przedział ten nazywamy przedziałem ufności. Starajmy się dla lepszej prezentacji wyników badań klinicznych podawać przedziały ufności. Granice przedziałów ufności prowadzą bowiem do lepszego zrozumienia zjawisk, a ich szerokość jest doskonałą wskazówką dokładności oszacowania badanych parametrów (czasów przeżycia, współczynników umieralności, metody leczenia itd.). 5