Hej! Przesyłam Wam odpowiedzi do zadań ze statystyki :) Do badania homogeniczności pasuje stąd tylko test Levene'a (no i Fishera) jest on najczęstszym testem używanym w tym celu, i właśnie do tego służy. Jeśli test Levene'a wychodzi istotny statystycznie, to oznacza to, że porównywane grupy nie maj ą homogenicznych wariancji (mówimy wtedy, że mają wariancje heterogeniczne, czyli po prostu różne). Test Levene'a używamy w praktyce przed wykonaniem testu t-studenta. Je śli test wariancje są homogeniczne, to możemy zrobić potem test t-studenta, je śli s ą niehomogeniczne, to zamiast t-studenta używamy testu Coxa-Cochrana :). Odpowiedzi (b) (c) i (d) to testy, które służą do porównań grup mi ędzy sob ą, a nie do testowania homogeniczności wariancji. Test t-studenta dla prób (grup) niezależnych używamy do porównania grup, które nie mają części wspólnych (np. kobiety i mężczyźni, dzieci i staruszkowie) pod kątem jakiej ś cechy (np. IQ). Przykład, który używamy do testu t-studenta dla grup niezale żnych: Postanowiono zbadać dwie równoliczne grupy (króliki i świnki morskie) i sprawdzi ć, czy jest istotna statystycznie różnica w ilości wypijanej przez nie wody. Jakiego testu nale ży użyć? (Odp: test t-studenta dla grup niezależnych) Test t-studenta dla prób (grup) zależnych używamy gdy testujemy jedną i tą samą grupę przed czymś i po czymś np. grupę artystów przed występem i po, i sprawdzamy, czy występ wpłynął na nasilenie lęku etc. W tym teście mamy wszystkich przechodniów przed rokiem i dzisiaj, albo badania wagi przed dietą i po diecie itd. Prosto i przyjemnie :) Chi-kwadrat używamy, gdy obie grupy znajdują się w skali nominalnej, albo nominalnej dychotomicznej. Powtórka skal znajduje się tutaj: http://www.ltw.com.pl/stat/egz/stata_lekcja3_part2.pdf (na stronie 1) Przykłady na chi kwadrat: Postanowiono sprawdzić, czy moneta jest rzetelna po 100 rzutach zanotowano 54 or ły i 46 resztek. Jakiego testu należy sprawdzić, czy uzyskane wyniki istotnie odbiegaj ą od wyników oczekiwanych? (Odp: Chi-kwadrat!) Podczas spaceru zaobserwowano 23 osoby noszące czapki, 41 kaptury i 60 jarmu łki. Przechodniami były osoby w sandałach (12), szpilkach (17) i na bosaka (reszta). Jakim testem sprawdzić, czy rodzaj obuwia wpływa na nakrycie głowy? (Odp: Chi-kwadrat!) R-Pearsona czyli korelacja. Używamy jej aby sprawdzić, czy jest istotny na siebie wp ływ dwóch zmiennych ilościowych. Powtórka z korelacji tutaj: http://www.ltw.com.pl/stat/egz/stata_lekcja3_part3.pdf (strona 4-6)
Przykład korelacji: Postanowiono sprawdzić, czy wzrost osoby badanej ma wpływ na jej iloraz inteligencji. Jakiego testu użyjemy? (r-pearsona) Przy okazji nauczcie się sił związku (jest w tym samym pdfie, co powtórka z korelacji, na stronie 6) Powtórka skośności rozkładów (i prosta metoda który jest który) w tym pliku: http://www.ltw.com.pl/stat/egz/stata_lekcja1.pdf (na stronie 2) Zanim rozwiążecie to zadanie ułóżcie jakoś logicznie te liczby :) (od najmniejszych do największych) wtedy zobaczymy, że najmniejszych jest najwięcej, a duża jest tylko jedna, czyli b ędzie to rozkład prawoskośny. Prosta metoda na znalezienie mediany jest taka po ułożeniu cyfr szukamy środkowej, to jest mediana :). Mediana to wartość, która dzieli rozk ład na dwie równoliczne grupy. Ok, pomimo tego, że pytanie na pierwszy rzut oka wygląda troch ę trudno, nie poddajemy się i nie zważamy na pozory ;). Przypominamy sobie dwie informacje: 1. Wraz ze wzrostem alfy zwęża się przedział ufności. 2. Wraz ze wzrostem ilości osób badanych zwiększa się dokładność (bo mamy dokładniejszą średnią z próby i dlatego, bo ilość osób wpływa na b łąd standardowy Dla osób, które nie pamiętają przedziałów ufności, powtórka tutaj: http://www.ltw.com.pl/stat/egz/stata_lekcja3_part3.pdf (na stronie 1-2)
Tutaj trzeba przypomnieć sobie rozkład normalny: Teraz odczytujemy odpowiednio treść zadania :) Pierwsze wartości N(20; 42) oznaczają, że rozkład jest normalny, średnia wynosi 20, a wariancja 42. Wiemy, że odchylenie standardowe to pierwiastek z wariancji, czyli w tym wypadku wynosi 4. Czyli nasz wykres wygląda tak: 12 16 20 24 28 Interesuje nas zatem wartość, jaką ma pole pod wykresem w obszarze mi ędzy 25 a 28. Obszar ten zaznaczyłem na różowo. Widzimy, że w przybliżeniu równa si ę odleg ło ści między pierwszym a drugim odchyleniem. Jak ją jednak obliczyć? :) I teraz z pomocą przychodzi nam (nauczony na pamięć ;) ) rozkład normalny widoczny powyżej (ten niebieski). Widzimy tam, że obszar między pierwszym a drugim odchyleniem ma 13,6%. Obszar nas interesuje trochę mniejszy obszar (bo mamy 25-28 a nie 24-28). Teraz patrzymy na odpowiedzi i: (d) i (e) odrzucamy z marszu bo są strasznie duże (mają 80% i 98% czyli to taki żart ;) ) (a) i (b) są z kolei za małe (mają 2% i 0,2%) a (c) jest w sam raz :D (jest trochę mniejsze niż 13,6%, ale w sam raz)
Funkcja gęstości to po prostu jakiś rozkład prawdopodobieństwa. Zazwyczaj mamy do czynienia z rozkładem normalnym, który wygląda jak dzwon, ale może też by ć inna funkcja gęstości (np. rozkłady skośne, platykurtyczne, dwumodalne itd.). Mo żemy te ż sobie wymyślić jakiś rozkład i go opisać (jeśli np. występuje w naturze). Zatem odpowiedź (a) jest z dupy ;). Funkcja gęstości może by ć i sko śna, i wypuk ła, i wklęsła nie mamy ograniczeń! :D (b) funkcja gęstości może przekraczać tę wartość po lewej stronie (przynajmniej ja to tak rozumiem) jeśli na dole mamy nasilenie cechy, a z boku ilo ść osób posiadaj ących t ę cechę, to może być równa 9 ;) (c) wręcz przeciwnie ;). Nie może być dystrybuantą, bo dystrybuanta przyjmuje wartości w zakresie 0-1 (gdzie jeden oznacza 100% pola pod wykresem). (d) to jest poprawna odpowiedź :) Powtórzenie hipotez zerowych/alternatywnych i kierunkowych/bezkierunkowych znajdziecie tutaj: http://www.ltw.com.pl/stat/egz/stata_lekcja3_part1.pdf (strona 3) Generalnie pamiętamy, że: Hipoteza zerowa zawsze mówi o braku różnic między grupami. Czyli, jeśli udało się ją odrzucić, to bomba :) (a) odpowiedź nieprawdziwa (jw.) (b) jeśli udało się odrzucić hipotezę zerową, to znaczy, że wykazano ró żnice (czyli wsparto hipotezę alternatywną) (c) zdecydowanie nie! (patrz odpowiedź (a) ) (d) zawsze formułuje się H0 ;)
To zadanie jest bardzo proste podstaw za x1, x2 i x3 jakie ś liczby, zgodnie ze wskazówką obok (czyli x1 = x2 a x3 jest większe od x2). Np. x1=3, x2=3, x3=6 Teraz podstaw cyfry do każdego przykładu i tylko drugi oka że si ę matematycznie prawdziwy (niesprzeczny). Jeśli chodzi o (d) to średnia po podstawieniu naszych cyfr równa się 4 i nie jest to mediana ;) Tutaj zrobiłbym to na logikę jeśli funkcja jest rosn ąca, to znaczy, że im dalej w las, tym więcej drzew. A zatem rozkład (czyli ten wykres) musi być lewoskośny (wi ęcej dużych wyników niż małych). Ale to tak na logikę i to jest zadanie, którego odpowiedzi nie umiem umotywować i po prostu tak mi podpowiada serce ;) Tutaj cały myk rozbija się o czytanie tych matematycznych szlaczków ;). Czytamy uwa żnie i widzimy f(x)>0 (czytamy wartości funkcji są dodatnie ) dla x c [a;b] ( dla x zawierającego się pomiędzy a i b ). Do tego mamy informację R R (czyli jest to rozkład jednostajny). Z tego wynika, że µ (średnia populacji) musi przyjmować wartości między a i b :D. Jeśli to jest odpowiedź prawdziwa, a test jest jednokrotnego wyboru, to logicznie nie sprawdzam pozostałych odpowiedzi ;) W tym zadaniu musimy odpowiednio odczytać wykres (jak na fizyce). Na górze mamy wykres jakiejś funkcji (nie ważne co przedstawia). Teraz potrzebujemy dopasowa ć dystrybuantę. Wykres dystrybuanty to graficzne przedstawienie tego, jak wzrasta pole pod wykresem funkcji wraz z przesuwaniem się wartości w prawo. W naszej podanej funkcji od
0 do 1 nie ma żadnej kreski, a więc nie będzie też dystrybuanty. Tym samym odrzucamy odpowiedź (a). Między 1 a 2 funkcja jedzie poziomo. Czyli pole (i dystrybuanta te ż) będzie wzrastać liniowo (tak jak mielibyśmy wykres prędkości ciała w ruchu jednostajnym i mielibyśmy narysować wykres drogi, którą przebyło ciało w każdej sekundzie porusza się o tyle samo do przodu, czyli wykres przyrasta o tyle samo i pod takim samym kątem). Czyli tutaj musi być linia pod kątem 45 stopni (zwykła sko śna w prawo do góry). Taką linię mamy na wykresie (c). Pamiętamy też, że wykres dystrybuanty nie może spadać (bo pole pod wykresem stale wzrasta aż do 100%, nie kurczy si ę nagle nie wiadomo czemu), więc odpowiedź (d) odpada. Odpowiedź (b) może się niektórym z Was z czymś kojarzyć ;). To całkiem dobrze, bo jest to dystrybuanta rozkładu jednostajnego dla zmiennej nieci ąg łej ;). Ale w tym zadaniu nie ma to nic do rzeczy :) Kwartyle tutaj trzeba pamiętać definicję :). Tak jak mediana dzieli rozk ład na pó ł (czyli dwie równoliczne liczebności), tak samo kwartyle dzielą rozkład na 4 równoliczne zbiory. Mają one różną szerokość na wykresie (bo rozkład różnie wzrasta)! Odpowiedź (d) też jest od czapy (nic nie znaczy za bardzo ;) ), zatem po prostu znamy definicję, zaznaczamy i idziemy uśmiechnięci dalej :) To jest pytanie nieco podchwytliwe. Aby na nie odpowiedzie ć trzeba umie ć dwie rzeczy skale pomiarowe (było już wcześniej) i magiczną tabelkę z tym, którego testu kiedy używamy :) Tabelkę wklejam Wam poniżej:
W tej sytuacji najlepszą odpowiedzią byłoby Tau-Kendalla, ale takiej odpowiedzi nie ma ;). Nie potrafię zrozumieć, czemu wartości {brak; mało; dużo} u Arta nie s ą zmienn ą porządkową, ale to zostawmy teraz na bok ;) Skala dychotomiczna to po prostu skala nominalna dwuwarto ściowa tak że nie dajcie si ę zmylić ;) W naszym przykładzie mamy {niskie; wysokie} czyli skala nominalna (jakościowa, nie ilościowa!) A z drugiej strony {brak; mało; duża} czyli też nominalna :) Teraz tropimy paluszkiem i sprawdzamy w tabeli skrzyżowanie zmiennej nominalnej i nominalnej i mamy Chi-kwadrat :). Odpowiedź odnaleziona! Tutaj najłatwiej byłoby to obliczyć tradycyjnie na kalkulatorze (policzy ć średni ą, poodejmować od każdej wartości, podnieść do kwadratu wszystkie, zsumowa ć i podzieli ć przez liczebność pomniejszoną o jeden, a potem ze wszystkiego wyciągn ąć pierwiastek i wyszłoby nam około 41). Niestety z przyczyn obiektywnych (brak czasu i kalkulatora) na egzaminie nie będzie tego można zrobić po bożemu, wi ęc zrobimy to po studencku ;). Liczymy średnią wychodzi nam około 26. Teraz pamiętaj ąc, że odchylenie standardowe mówi nam o tym, jak bardzo wartości rozrzucone są wokół średniej, zaczynamy si ę temu przyglądać wartości są rozrzucone trochę w pobliżu średniej (10 i 20), troch ę kawa łek dalej (1, 2) i jedno gdzieś hen hen (100). Czyli odpowiedzi (a), (b) i (e) odrzucamy wartości są dalej niż 1-5 od 26 i bliżej niż 200 ;) (to tak intuicyjnie trzeba ugry źć). Teraz zastanawiamy się nad (c) i (d). I znów odpowied ź między 50 a 200 ma za du ży rozrzut, a pamiętamy, że odchylenie standardowe jest w miar ę proporcjonalne (na rozkładzie w zakresie -2,58 a 2,58 odchylenia standardowego mamy 99% wyników, czyli potrzeba ze 3 zmieścić na rozkładzie normalnym w każdą stron ę) gdyby śmy mieli odchylenie standardowe równe 150, to w pierwszym odchyleniu by łyby wszystkie wyniki. Zatem bardziej prawdopodobne wydaje mi się (c) bo ma mniejszy rozrzut ni ż (d). Jest to jednak takie intuicyjnie obstawiam, że... niż jakiś konkretny argument ;) Wracamy do magicznej tabelki i na spokojnie, poma łu zastanówcie si ę sami, czemu jest taka odpowiedź :)
Tego zadania nie będę rozwiązywać, bo moim zdaniem nie jest mo żliwe zrobienie go bez kalkulatora i nie znając wzorów. Jeśli można by mieć kalkulator i wzory, to u żywacie tutaj wzoru na estymację przedziałową (pamiętając, że zalfa dla 99% wynosi 2,58), i wtedy wyjdzie Wam odpowiedź (c) ale buntuję się przeciwko takiemu zadaniu, bo jest sprzeczne z warunkami egzaminu ;p Gdyby ktoś chciał zgłębić estymację przedziałową, to jest to to samo, co przedzia ł ufno ści, czyli tak tu: http://www.ltw.com.pl/stat/egz/stata_lekcja3_part3.pdf (strony 1-2) To by było na tyle :) Jeśli egzamin będzie tego typu, to myślę, że możecie być spokojni. Powtórzcie g łównie teorię, nauczcie się koniecznie tabelki i tego kiedy robi się, jaki test. Pamiętajcie jeszcze, że: Test Kołomogorowa-Smirnowa służy do badania normalności rozkładu. Nauczcie się na spokojnie (tak, aby zrozumieć, a nie nauczy ć si ę definicji) co to jest przedział ufności, poziom istotności, wartość krytyczna testu. Zapamiętajcie, że: p>0,05 test nieistotny p<0,05 test istotny Poza tym powtórzcie Centralne Twierdzenie Graniczne i nauczcie si ę korelacji (rpearsona) :). I będzie dobrze! Zostało jeszcze mnóstwo czasu, b ędziecie pisa ć z Waszymi prowadzącymi ćwiczenia, a do tego (w przeciwieństwie do poprzednich lat) nie musicie znać wzorów, ani nie będziecie rysować nikomu miliona wykresów dla ró żnych stopni swobody ;). Jest super :). Dasz radę! Powodzenia! Miki W razie pytań: admin@ltw.com.pl albo mikolaj@viva.org.pl