Wykład 2: Tworzenie danych Plan: Statystyka opisowa a wnioskowanie statystyczne Badania obserwacyjne a eksperyment Planowanie eksperymentu, randomizacja Próbkowanie z populacji Rozkłady próbkowe
Wstępna/opisowa analiza danych ujawnia interesujące cechy danych, ale może być niewystarczająca dla konkretnych wniosków. Bardziej graficzna. Wnioskowanie statystyczne daje informacje wraz z kontrolą wiarygodności. Bardziej liczbowa. Wnioskowanie statystyczne wymaga prawidłowego zbierania danych.
Przykłady i anegdoty a wnioski statystyczne Dostępne dane: US Census Bureau GUS British Medical Journal
Badania obserwacyjne a eksperyment Które jest które? Wpływ palenia na masę urodzeniową. Wpływ spożycia melatoniny na jakość snu. Wpływ ćwiczeń na utratę wagi.
Słownictwo: Cała grupa, która nas interesuje = populacja. Część populacji, którą badamy bezpośrednio = próbka.
Planowanie eksperymentu: słownictwo Obiekty, na których przeprowadzono eksperyment: jednostki eksperymentalne. Specyficzne warunki eksperymentalne zastosowane do jednostek: zabiegi. Zmienna objaśniająca: czynnik. Wartość współczynnika: poziom. Zidentyfikuj je w następującym eksperymencie.
Studium zdrowia lekarzy (1989): 21,996 osób. (atak serca, aspiryna/placebo: 139/239)
Eksperymenty porównawcze Obciążenie: Badanie ma obciążenie/ukryte preferencje, jeśli sprzyja pewnym wynikom. Źródła błędu: wybór jednostek, efekt placebo, brak realizmu. Eksperymenty porównawcze zmniejszają wpływ zmiennych ukrytych, np. efektu placebo. Jeśli to możliwe, użyj grupy kontrolnej i podwójnie ślepego eksperymentu.
Randomizacja/losowanie Przykład 1: Zmierz przyrost masy ciała szczurów na nowej diecie. Użyto 30 szczurów. Najprostszy zrandomizowany plan porównawczy: losowo przydzielamy szczury do leczenia.
3 zasady planowania eksperymentu Porównaj dwa lub więcej zabiegów. Przypisuj jednostki do zabiegów losowo. Replikuj zabiegi na wielu jednostkach, aby zmniejszyć zmienność wyników.
Jak losować: Aby przypisać jednostki do zabiegów użyj tablic liczb losowych, generatorów liczb pseudolosowych itp.
Randomizacja: Przykład 1 cd.: Przypisać 30 szczurów do 2 zabiegów. (Użyj np. linii 130 z Tabeli B.)
Przykład 2: Całkowicie losowy plan eksperymentu dotyczącego zużycia energii. 60 domów
Blokowe schematy randomizacji: Blok = grupa podobnych obiektów. Idea: porównaj zabiegi wewnątrz każdego bloku. Przykład: porównaj dwa zabiegi na parach bliźniąt. Zalety: możliwe są oddzielne wnioski dla każdego bloku i dokładniejsze ogólne wnioski.
Terapia antyrakowa:
Próbkowanie to... wybór części populacji, aby reprezentowała całość.
Próbkowanie: wstępna dyskusja Jak wybrałbyś ludzi do badania opinii publicznej, powiedzmy o polityce?
Problemy z próbkowaniem: Ochotnicy: osoby, które same zgłaszają się by wziąć udział w ankiecie Słaba reprezentacja: pewne grupy nie są objęte procedurą pobierania próbek. Brak odpowiedzi: wybrane przez nas osoby nie chcą współpracować.
Metoda wyboru próbki z populacji = plan próbkowania. Plany próbkowania: Próba prosta (losowa) (PP) = Każdy wybór n osób równie prawdopodobny. Próbkowanie warstwowe = Podział populacji na jednorodne "warstwy". Wybierz PP dla każdej warstwy.
Wybór PP Przykład 3. Wybierz losowo 4 osoby z klasy, by wstały. Porównaj z randomizacją zabiegów. Czy wybrane osoby wyglądają reprezentatywnie? Czy możemy losować lepiej?
Istotność statystyczna Obserwowany efekt tak wyjątkowy, że rzadko zdarza się przez przypadek nazywany statystycznie istotnym. Statystycznie istotny efekt często jest podstawą do podjęcia przełomowych decyzji / zmiany oceny rzeczywistości.
Wnioskowanie statystyczne Parametr = liczba opisująca populację. Statystyka = liczba opisująca próbkę. Wnioskowanie statystyczne = za pomocą statystyki wnioskować o parametrze
Rozkłady próbkowe:
Meta-eksperyment:
Wiele próbek o wielkości n = 100 z populacji o parametrze p = 0,60. Rozkład statystyki p^ pokazany po prawej stronie.
Rozkład próbkowy Rozkład próbkowy to rozkład wartości badanej statystyki dla wszystkich możliwych próbek (losowych) o danym rozmiarze z populacji.
Obciążenie i rozrzut statystyki Statystyka użyta do oszacowania parametru jest nieobciążona, gdy średnia z jej rozkładu (próbkowego) jest równa parametrowi. Zmienność statystyki opisana jest przez rozrzut jej rozkładu, np. próbkowe odchylenie standardowe. Te własności zależą od populacji, od wielkości próby, a także od schematu próbkowania i postaci statystyki.
Rozkłady próbkowe średniej dla różnych wielkości próbek (n=10, n=50).
Uwagi: Zmienność statystyki zależy od wielkości próby, a nie zależy od wielkości populacji. Randomizacja często daje rozkłady scentrowane w pobliżu parametru populacji, przy czym rozrzut rozkładu maleje, gdy wielkość próbki n rośnie. Rozkłady próbkowe są badane za pomocą teorii prawdopodobieństwa.