LEKCJA 3 ostatnia lekcja statystyki :) (część 3/3 ostatnia :) )



Podobne dokumenty
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zadania ze statystyki, cz.6

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

166 Wstęp do statystyki matematycznej

R-PEARSONA Zależność liniowa

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

TABELKA ANOVA (jednoczynnikowa)

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Zastosowanie Excela w matematyce

KORELACJE I REGRESJA LINIOWA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wprowadzenie do analizy korelacji i regresji

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

LEKCJA 1 nauka rysowania :)

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Statystyka matematyczna i ekonometria

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Prawdopodobieństwo i rozkład normalny cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

FUNKCJE. Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 5 Teoria funkcje cz.1. Definicja funkcji i wiadomości podstawowe

Estymacja parametrów w modelu normalnym

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Testowanie hipotez statystycznych

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zmienne zależne i niezależne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wnioskowanie statystyczne. Statystyka w 5

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Zadania ze statystyki cz.8. Zadanie 1.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Szkice rozwiązań z R:

ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Wykład 3 Hipotezy statystyczne

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład 9 Wnioskowanie o średnich

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Zmienna bazowa. 100(1 α)% przedział ufności dla µ: 100(α)% test hipotezy dla µ = µ 0; odrzucić, jeżeli Ȳ nie jest w przedziale

POLITECHNIKA OPOLSKA

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2013

Testowanie hipotez statystycznych. Wprowadzenie

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Testowanie hipotez statystycznych.

Sposoby prezentacji problemów w statystyce

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Czy egzaminy zewnętrzne mogą pomóc szkole w rozwoju? Ewa Stożek Sulejówek, czerwiec 2013

1 Estymacja przedziałowa

Rozkłady zmiennych losowych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Oszacowanie i rozkład t

Test dwustronny: H 0 : p= 1 2

Badanie zależności skala nominalna

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

RAPORT WSKAŹNIK EDUKACYJNEJ WARTOŚCI DODANEJ PO EGZAMINIE GIMNAZJALNYM W ROKU SZKOLNYM 2012/2013

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyka matematyczna

Transkrypt:

LEKCJA 3 ostatnia lekcja statystyki :) (część 3/3 ostatnia :) ) Szybkimi krokami zbliżamy się do końca nauki statystyki :). W międzyczasie kilka osób poruszyło ciekawe wątki i przypomniało mi się jeszcze kilka rzeczy, o które możecie być zapytani na egzaminie. Na początek mała powtórka :) ZMIENNE ZALEŻNE/NIEZALEŻNE W statystyce występują dwa rodzaje zmiennych zależne i niezależne. Fachową definicją zmiennej zależnej jest: Zmienna, którą badacz chce wyjaśnić, nazywamy zmienną zależną. Jest nią bezpośredni lub pośredni skutek oddziaływania zmiennych niezależnych. Jest to zjawisko, które badacz wyjaśnia, lub którego poszukuje. Natomiast zmienna niezależna to: Zmienna, za pomocą której badacz chce wyjaśnić zmiany w wartościach zmiennej zależnej nazywany zmienną niezależną. Zmienną niezależną jest ta, która wyjaśnia badane zjawisko i która powoduje zmiany w wartościach zmiennych zależnych. Jest zakładaną przyczyną zmian wartości zmiennej zależnej. Uchodzi za przyczynę zmiennej zależnej, która jest jej skutkiem. Trudno to wyjaśnić definicyjnie, łatwo zrozumieć w praktyce :) Krótko mówiąc: Jeśli badamy czy poczucie szczęścia zależy od ilości posiadanych pieniędzy, to: - poczucie szczęścia to zmienna zależna - a ilość posiadanych pieniędzy to zmienna niezależna :) Tak to najłatwiej zrozumieć. Jeśli będziecie o to zapytani, odpowiadajcie własnymi słowami tak, jak rozumiecie. EFEKT GŁÓWNY Czasem pada pytanie o to, czym jest efekt główny. Definicja poniżej: w schemacie badawczym 2x2 wpływ, jaki jedna zmienna niezależna ma na zmienną zależną, bez względu na drugą zmienną niezależną lub interakcję obu zmiennych czyli gdybyśmy badali poczucie szczęścia i empatyczność w zależności od ilości pieniędzy i płci, to efekt główny to np. to jak ilość posiadanych pieniędzy wpływa na empatyczność osoby (bez względu na to, jak wpływa na to płeć) :) PRZEDZIAŁ UFNOŚCI Przedział ufności to coś zupełnie innego niż poziom istotności. Te dwa pojęcia najczęściej się ze sobą mylą. Poziom istotności wytłumaczony został w lekcji 3 (część 1, strona 2). Przedział ufności jest natomiast pojęciem związanym z estymacją przedziałową. Krótkie powtórzenie: Jeśli mamy jakąś próbę (np. 100 osób), każdej z tych osób zrobimy np. test na IQ i wyciągniemy średnią ze wszystkich 100 wyników, to otrzymamy średnią całej naszej próby. Ale co z tego? ;) Nadal nie będziemy wiedzieli w jaki sposób nasza próba ma się do populacji (czyli średniego IQ całej planety). I właśnie po to wymyślono przedziały ufności. Dzięki nim można określić, że np. 1 / 6

z 95% dokładnością, średnia populacji znajduje się pomiędzy IQ=98,34 a IQ=101,66. Oczywiście możemy zakładać różne przedziały, pojawia się jednak wówczas zjawisko, które warto zapamiętać: - im przedział ma większą dokładność (im bliżej 100%), tym będzie szerszy Jest to logiczne, bo jeśli chcemy znać średnią z dokładnością 99,99% to będziemy mieli szerszą ramkę w której ta średnia może być (np. gdzieś pomiędzy 85 a 115). Przy założeniu tak wyśrubowanej dokładności mamy 0,01% szansy na to, że średniej tam jednak nie będzie. Gdy zakładamy dokładność równą 90%, to przedział może być węższy np. <98; 102> ale za to już jest 10% szansy na to, że średnia jednak umknie poza przedział ;) I to tak z grubsza tyle :) Przedziały ufności wyznaczamy wzorem: μ < X z * S x ; X + z * S x > lub: X z * S x μ X + z * S x Ten wzór oznacza to samo, tylko jest inaczej zapisany. Można z niego wywnioskować to, że przedział ufności jest symetrycznie ułożony po obu stronach średniej :) z, którego używamy w tym wzorze odpowiada za dokładność, którą chcemy uzyskać: z = 1 dokładność 68% 1,44 dokładność 85% 1,64 dokładność 90% 1,96 dokładność 95% 2,58 dokładność 99% (dobrze jest się tego nauczyć na pamięć procenty biorą się z odchyleń standardowych od średniej uproszczony wykres tego był w lekcji 1 na stronie 7). S x to błąd standardowy (wzór jest w lekcji 2 na stronie 10) X to średnia z naszej próby STANDARYZACJA Na wszelki wypadek dobrze jest wiedzieć, czym jest standaryzacja :). Aby to zrozumieć wyobraźmy sobie taką historyjkę: Jesteśmy znanymi naukowcami i bierzemy udział w międzygalaktycznej konferencji dla psychologów. Właśnie występuje znany prelegent i opowiada historię swojego niezwykłego pacjenta (możesz wymyślić ją jak chcesz ;) ). Na zakończenie mówi o wyniku testu IQ, który osiągnął tenże pacjent 140. Wszyscy biją brawo. Każdy wie, gdzie w populacji go to plasuje. Teraz nadchodzi nasza kolej po super atrakcyjnym zaprezentowaniu historii przypadku przed międzygalaktycznym audytorium, nadchodzi czas na podsumowanie. I mówimy wszystkim, że w naszym własnym teście empatyczności EA-x1 pacjent otrzymał wynik 67,84. Nikt nie wie co to oznacza, ani czy to dobrze, czy źle ;). Mówimy dalej w tym teście średnia wynosi 58,16 a odchylenie standardowe 6,79. Nadal nikt nie wie o co chodzi. Zanim ktoś policzy ile odchyleń standardowych od średniej jest nasz pacjent, miną wieki. Tutaj z ratunkiem przychodzi standaryzacja. Standaryzacja to metoda polegająca na zamianie surowych wyników (IQ= 115, EA-x1=71,74 itp.) na ilość odchyleń standardowych od średniej (z=1, z=2...). Dzięki temu, po przeliczeniu nasz zagmatwany wynik będzie zrozumiały dla każdego 2 / 6

( pacjent ma empatyczność w trzecim odchyleniu standardowym ). Wzór na standaryzację lekcja 2, strona 10 :). Znajdź go i przepisz poniżej: z = Jeśli padnie polecenie narysowania rozkładu normalnego wystandaryzowanego, to po prostu rysujemy rozkład normalny: Zero na środku oznacza, że na środku wypada średnia (brak odchyleń standardowych). Gdyby rozkład miał być niewystandaryzowany, wtedy zamiast zera byłby średni wynik surowy (np. IQ=100). OBSZAR KRYTYCZNY Otwórz notatki na lekcji 3 (część 1, dół pierwszej strony) i przypomnij sobie co to jest wartość krytyczna. Obszar krytyczny to po prostu obszar w którym musi znaleźć się wynik naszego testu, aby móc odrzucić hipotezę zerową. Przykładowo jeśli nasze t jest większe od t krytycznego (odczytanego z tablic), to znaczy, że nasze t znalazło się w obszarze krytycznym. Graficznie ilustruje się to tak: a tutaj X do zamknięcia okienka ;) 3 / 6

KORELACJA (Test r-pearsona) To mój ulubiony temat :D. Wierzę, że Ty też go polubisz :) Korelacja to dość użyteczna metoda służąca do sprawdzenia, czy dwie zmienne mają ze sobą jakiś związek. Możemy sprawdzać dzięki niej wszystko, co nam przyjdzie do głowy, jeśli zmienna jest mierzalna (czyli znajduje się w skali przedziałowej lub stosunkowej, czyli jest ciągłymi cyframi) np. sprawdzamy czy jest wpływ między wzrostem, a ilością godzin spędzonych przed TV, albo między rozmiarem buta, a długością.. nogi. I tak dalej ;). Możesz badać, co tylko chcesz i co Cię interesuje :) Aby to zbadać musimy oczywiście mieć odpowiednio liczną (reprezentatywną) próbę, którą zbadamy :). W naszym przykładzie będziemy badać, czy jest korelacja między ilością zjedzonych batoników i wagą oraz ilością zjedzonych batoników i stanem portfela. Wyobraźmy sobie, że zrobiliśmy badania i nałożyliśmy je na wykres. W idealnej formie powinien nam wyjść nam któryś z takich przypadków: Na osi X (poziomej) piszemy jedną badaną rzecz (np. ilość jedzonych batoników dziennie), na osi Y (pionowej) zapisujemy drugą badaną rzecz np. wagę osoby, lub stan jej portfela. W rzeczywistości wykresy nie są tak czytelne i wyglądają mniej więcej tak: Teraz, mając zbadane osoby wszystkie dane podstawilibyśmy do wzoru na r-pearsona (inaczej mówiąc ro Pearsona). Wzór ten jest podany w lekcji 2 na stronie 2. 4 / 6

Wynik, który uzyskamy może mieć wartości tylko z przedziału <-1; 1>. Czyli może mieć i -1, i 0, i 0,2, i 0,4532. Pamiętaj, że nie może być ani mniejszy, ani większy od wartości granicznych <-1;1>. R mówi nam o trzech bardzo istotnych rzeczach o tym, czy jest jakiś związek między oboma badanymi cechami, o tym czy związek jest dodatni, czy ujemny (o tym za chwilę) i mówi nam też o sile związku. Jeśli r=0 wtedy korelacja nie występuje. Oznaczałoby to, że wykres wyglądałby tak: Czyli wszystkie wartości byłyby rozproszone równomiernie, nie da się przeciągnąć nigdzie prostej korelacji (prostej, która obrazowałaby jakoś tę zależność) nie byłoby między nimi związku. W przypadku batoników oznaczałoby to, że ilość zjadanych codziennie batoników nie ma wpływu na wagę człowieka :) Jeśli r>0 wtedy mówimy o korelacji dodatniej. Oznacza to, że jest zależność między oboma wartościami. Wykres wyglądałby wtedy tak: Waga osoby Ilość zjedzonych batoników Możemy z niego odczytać, że im więcej ktoś je batoników w ciągu dnia, tym więcej waży. Jeśli r<0, wtedy mamy do czynienia z korelacją ujemną. Wykres: Ilość $ Ilość kupowanych batoników Mówi nam to o tym, że im więcej kupujesz batoników, tym mniej masz pieniędzy. 5 / 6

Podchwytliwym pytaniem na egzaminie (które u mnie w grupie się pojawiło), jest pytanie, jaka korelacja wystąpi, jeśli punkty ułożą się tak: Ponieważ z założenia korelacja jest liniowa (czyli kropki mają być zbliżone do jakiejś prostej, aby mogła zaistnieć), w tej sytuacji mówimy śmiało nie występuje korelacja liniowa. (W ramach ciekawostki p.aranowska nazywa tak wyglądający wykres tropangą - to taki robal ;) ) Siła związku Im nasze r jest bliżej 1, tym związek między zmiennymi jest silniejszy, im bliższa zero, tym bardziej go nie ma. Jeśli nasze r równa się 1 oznaczałoby to, że zawsze, w każdej sytuacji, ktoś kto je X batoników dziennie musi ważyć wagę Y (niezależnie od płci, wieku, wzrostu itd.). Gdyby r=0 oznaczałoby to, że u każdego jest inaczej. I analogicznie poniżej zera jeśli r=-1 oznacza to, że zawsze, gdy wartość zakupionych batoników rośnie, ilość pieniędzy w portfelu spada i nie ma innej opcji. Gdyby r było równe -0,5 oznaczałoby to, że czasem jest tak, a czasem nie. Powstała tabelka z miarą sił związku, jest dość prosta, polecam :) r: siła związku: 0 0,2 bardzo słaby 0,2 0,4 słaby 0,4 0,7 przeciętny 0,7 0,9 silny 0,9 01 bardzo silny Warto przy tym pamiętać, że to umowne założenia w psychologii wartość korelacji w badaniach wychodzi na poziomie 0,2-0,3, jeśli wyjdzie na poziomie 0,6 to wszyscy się cieszą, a 0,8 uważają za sfałszowane ;). W fizyce wartość r jest bardzo duża (0,9 1), a aby coś było prawem fizycznym r musi być równie 1. Po pytaniu o siłę związku możesz powiedzieć tą ciekawostkę, ale jeśli nie czujesz się pewnie, lepiej trzymaj się tabelki :) Pamiętaj o rozkładzie r-pearsona (lekcja 1, strona 7). Zapamiętaj też koniecznie założenia (lekcja 3, część 2, strona 5), wyraz homoscedastyczność i pamiętaj, że w wypadku korelacji, dla każdego X, Y ma rozkład normalny i dla każdego Y, X ma rozkład normalny. To trzeba po prostu zapamiętać :) Powodzenia :). Pamiętaj, aby na egzaminie zrobić dobry nastrój uśmiechaj się, nie daj po sobie poznać, że nie umiesz, jeśli nie umiesz (nie mów yyy... jak to było?, mów ojej, jeszcze rano to powtarzałem ;) albo o, to dobre pytanie... ). Masz prawo się zastanawiać, nie masz prawa się poddać :) Pamiętaj aby nie palić tuż przed egzaminem (p.aranowska jest bardzo czuła na tym punkcie, więc nie tylko sobie uprzykrzysz życie, ale i innym ;) ). Pamiętaj też, że są osoby, które nie odpowiedziały na żadne pytanie i zaliczyły. Trzymam za Ciebie kciuki i wierzę, że zdasz :). Wszystkiego dobrego! 6 / 6