Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.



Podobne dokumenty
Estymacja przedziałowa

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

STATYSTYKA MATEMATYCZNA

Zeszyty naukowe nr 9

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

STATYSTYKA OPISOWA WYKŁAD 1 i 2

STATYSTYKA I ANALIZA DANYCH

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Elementy modelowania matematycznego

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Prawdopodobieństwo i statystyka r.

Parametryczne Testy Istotności

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Lista 6. Estymacja punktowa

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Metoda łączona. Wykład 7 Dwie niezależne próby. Standardowy błąd dla różnicy dwóch średnich. Metoda zwykła (niełączona) n2 2

1 Zmienne losowe. Własności dystrybuanty F (x) = P (X < x): F1. 0 F (x) 1 dla każdego x R, F2. lim F (x) = 0 oraz lim F (x) = 1,

0.1 ROZKŁADY WYBRANYCH STATYSTYK

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

16 Przedziały ufności

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Jak obliczać podstawowe wskaźniki statystyczne?

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

ANALIZA DANYCH DYSKRETNYCH

STATYSTYCZNA OCENA WYNIKÓW POMIARÓW.

BADANIA DOCHODU I RYZYKA INWESTYCJI

Porównanie dwu populacji

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Statystyka matematyczna. Wykład II. Estymacja punktowa

Wydział Matematyki. Testy zgodności. Wykład 03

Materiały do wykładu 4 ze Statystyki

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

Prawdopodobieństwo i statystyka r.

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

KADD Metoda najmniejszych kwadratów

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria Mirosław Wójciak

Weryfikacja hipotez statystycznych

166 Wstęp do statystyki matematycznej

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Podstawowe pojęcia statystyczne

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka w pracy badawczej nauczyciela

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyczny opis danych - parametry

Niepewności pomiarowe

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Z poprzedniego wykładu

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Wprowadzenie do analizy korelacji i regresji

Statystyka matematyczna i ekonometria

Wykład 11 ( ). Przedziały ufności dla średniej

POLITECHNIKA OPOLSKA

H brak zgodności rozkładu z zakładanym

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka matematyczna dla leśników

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Matematyka ubezpieczeń majątkowych r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

Transkrypt:

Rachuek prawdopodobieństwa i statystyka W12: Statystycza aaliza daych jakościowych Dr Aa ADRIAN Paw B5, pok 407 ada@agh.edu.pl

Wprowadzeie Rozróżia się dwa typy daych jakościowych: Nomiale jeśli opisują cechy omiale, p. kolor, zawód, województwo, wyzaie Uporządkowae gdy badaa cecha może być opisaa przy użyciu wartości wyrażających poziom (stopień, kategorię) p. stopień opaowaia wiedzy: dst, db, bdb; albo miasto małe, średie, duże itp

Cechy atrybuty zmiee jakościowe i ich związek z ilościowymi Cechy omiale są cechami fudametalie jakościowymi awet gdy zakodujemy je jako liczby (etykiety liczbowe p stolarz: 1, malarz: 2) Cechy uporządkowae mają w pewym stopiu związek z cechami mierzalymi i wyrażaymi ilościowo W przypadku określeia stopia sympatii p. do osoby moża uzać, że zmieia się w sposób ciągły od ieawiści do bezkrytyczej miłości, moża te wartości skategoryzować i adać im wartości: ie lubi, toleruje, lubi.- to jest dyskretyzacja Miasto małe do 50000 mieszkańców, średie 50000-200000, duże powyżej 200 000; ocey dst = 3, db = 4, bdb = 5, miary zastosowae w wyrażaiu kategorii wskazują kolejość i ie uwzględiają odległości

Iterpretacja daych jakościowych uporządkowaych Cechy uporządkowae mają w jakimś stopiu związek z cechami ilościowymi, p. system oce szkolych Polski: 1; 2; 3; 3,5; 4. Agielski F; E, D; C; Który z podaych systemów ocey jest bardziej odpowiedi i dlaczego Jak iterpretować średią oceę - krok arbitraly, dla którego trudo zaleźć ścisłe uzasadieie Jaka jest istota różica pomiędzy wartością ilościową, a kodem liczbowym wartości jakościowej Czy studet czwórkowy jest dwa razy lepszy od studeta dwójkowego

Iterpretacja wyików aalizy oce wyrażaych w różych skalach Ocea z przedmiotu jest wyrażoa w skali porządkowej. Jej iterpretacja w skali przedziałowej, a tym bardziej ilorazowej prowadzi do absurdalych wiosków. Ocea mierzoą w skali ilorazowej może być ocea puktowa, tz. studet za poprawa odpowiedź otrzymuje 1 pukt, a za błędą 0 puktów. Suma uzyskaych puktów jest podstawą ocey wiedzy studeta. Ocea procetowa jest wyrażoa w skali ilorazowej: (suma puktów uzyskaych/ liczba pytań )*100%. Studet, który uzyskał 80% odpowiedział a dwa razy więcej pytań iż te, który uzyskał 40 %

Skale stosowae dla zmieych ilościowych Ilorazowa wyiki pomiarów/obserwacji są wyrażoe w sposób jedozaczy z dokładością do zastosowaej jedostki pomiaru (ilość, długość, pojemość..) Przedziałowa daje możliwość wyboru jedostki pomiaru i położeia zera (puktu odiesieia) p. pomiar temperatury w skali bezwzględej, Celsjusza, Fareheita p. zero w tych dwóch skalach jest przesuięte o 32 o C. Ze względu a względość położeia zera w tych skalach, ie moża uzać, że temperatura 36 o C jest dwa razy wyższa od 18 o C, jest tylko wyższa o 18 o C. Temperatura w skali bezwzględej Kelvia, jest wyrażaa w skali ilorazowej, dlatego temperatura 300 K jest dwa razy większa od temperatury 150 K, a jedocześie jest od iej wyższa o 150K.

Przypisywaie zmieym ilościowym wartości jakościowychzmiee skategoryzowae W wielu badaiach jest uzasadioe zastępowaie wartości liczbowych azwami ligwistyczymi, p. Zmiea ilościowa przyjmuje zaledwie kilka wartości Przedziały wiekowe: Należy pamiętać, że od chwili podjęcia decyzji o zmiaie typu zmieej z ilościowego a jakościowy pozbywamy się możliwości stosowaia metod dla daych liczbowych. Traktowaie zmieych ilościowych jako jakościowe może usprawiedliwiać cel badań badaie iezależości zmieych lub ich zależości, w tym celu ajczęściej posługujemy się tablicami kodygacyjymi

Tablice kodygacyje y 1 y 2. y m x 1 11 12 1m x 2 21 22 2m. x k k1 k2 km Czy musiało dojść do katastrofy Challegera w 1986r. Aaliza daych z wcześiejszych 24 startów brak usterek wystąpiła usterka (i) 65 o F 0 4 > 65 o F 17 3 brak usterek wystąpiła usterka (i) 65 o F 0% 17% > 65 o F 70% 13%

Wioskowaie o zmieych jakościowych. Testowaie zgodości Zmiea X ma m wartości (kategorii), P(X= x i )= p i prawdopodobieństwo wystąpieia x i wyosi p i. Rozkładem empiryczym zmieej X jest {p 1, p 2,.,p m } Day jest pewie teoretyczy (ustaloy ) rozkład prawdopodobieństwa {p 1 0, p 20,.,p m0 }, Sprawdzam, czy empiryczy rozkład jest taki sam jak zakładay teoretyczy H 0 : p j = p j 0 i =1,2,...,m; H 1 : H 0 jest fałszywa Fukcja testowa Q = m j = 1 ( p ) 0 j p ma w przybliżeiu rozkład chi kwadrat z m-1 stopiami swobody j 0 j 2

Przykład Wykoao 100 rzutów kostką do gry i otrzymao x i 1 2 3 4 5 6 i 16 19 9 17 25 14 Czy istieją podstawy do odrzuceia hipotezy, że rzuty wykoao uczciwą kostką? Jeśli jest uczciwa, to mamy rozkład jedostajy, gdzie p i0 =1/6, i=1,..,6 Wtedy p i = 100*1/6 = 16,66 Q=[ (16-16,66) 2 + (19-16,66) 2 +(9-16,66) 2 + (17-16,66) 2 + (25-16,66) 2 (14-16,66) 2 ]/16,66 = 8,48 Odczytae z tablic χ 2 dla α=0,05 i 5 stopi swobody wyosi 11,07 zatem ie ma podstaw do odrzuceia hipotezy zerowej

Uwagi do testu zgodości Nie wolo mylić istotości statystyczej z istotością praktyczą. Im większa liczość próby tym większa jest czułość testu, czyli skłoość do odrzuceia hipotezy zerowej, gdy prawdziwy rozkład jest tylko iezaczie ( ieistotie) róży postulowaego w hipotezie ( teoretyczego). Stosowaie tego testu zgodości z rozkładem ciągłym jest przedsięwzięciem kotrowersyjym, poieważ puktem wyjścia do kostrukcji testu jest utrata iformacji związaa z koieczością dyskretyzacji. Dlatego stosowaie tego testu jest zalecae dopiero wtedy gdy próba jest bardzo licza, a rozkład empiryczy przypomia gładki rozkład ciągły. Są też ie testy zgodości, p w pakiecie Statistica, które moża stosować w miej liczych próbkach.

Testowaie złożoej hipotezy o zgodości Jeśli postuloway (teoretyczy) rozkład prawdopodobieństwa {p 1 0, p 2 0,.,p m 0 } zależy od iezaych parametrów, p parametru Θ, czyli jest {p 1 0 (Θ), p 2 0 (Θ),.,p m 0 (Θ), }, który może być iy dla różych wartości parametru Θ. Wtedy ie iteresując się wartością parametru Θ, weryfikujemy hipotezę o zgodości rozkładu z rodzią rozkładów zdefiiowaych przez Θ, Hipoteza zerowa ma wtedy postać H 0 : p j = p j 0 (Θ), i =1,2,...,m;

Przykład Jeśli teoria Medla losowego tworzeia się geotypów potomstwa jest słusza i w populacji występują geotypy AA, Aa, aa, Ge A staowi ułamek Θ, wszystkich geów Ge a staowi ułamek 1-Θ, wszystkich geów to populacja o proporcji geotypów AA, Aa, aa, Θ 2 ; 2Θ(1- Θ); (1-Θ) 2 pozostaje w staie rówowagi (geeracja potomków staowi populację o tej samej proporcji geotypów). Formalizujemy zapis hipotezy H 0 : p 1 0 (Θ)= Θ 2 ; p 20 (Θ)= 2Θ(1- Θ); p 3 0 (Θ)= (1-Θ) 2 Należy pamiętać, że H 1, H 0 jest fałszywa. Jeśli H 0 jest prawdziwa to zmodyfikowaa statystyka Q ma w przybliżeiu rozkład χ 2 z k-2 stopiami swobody ( w tym przykładzie k=3)

Przykład cd Typ AA Aa aa i 110 235 Fukcja wiarygodości ma postać (Θ 2 ) 1 * [2Θ(1- Θ)] 2 *[(1-Θ) 2 ] 3 Po logarytmowaiu fukcji wiarygodości obliczamy estymator Θ = (2 1 + 2 )/2=0,455, gdzie = 1 + 2 + 3 155 Q= (110-103,51) 2 /103,51+. (235-247,97) 2 /247,97+ (155-148,51) 2 /147,51 = 1,369. Jeśli liczba iezaych parametrów rozkładu hipotetyczego jest 2, wtedy statystyka Q ma rozkład χ2 z k-1-m stopiami swobody

Aaliza studeckiej ocey kadry test jedorodości Pewa uczelia prowadzi oceę programów i kadry. Testujemy hipotezę, o rówości rozkładów A1,A2,A3 bzd zd mr db bdb A1 17 25 21 9 10 82 A2 11 29 18 12 9 79 A3 6 7 11 39 21 84 34 61 50 60 40 245 H 0 : p 1j = p 2j =.=p kj =p j H 1 : H 0 jest fałszywa Fukcja testowa zmierza do rozkładu χ 2 m k ij Q = i. i= 1 j= 1 i.. j. j 2 o (m-1)*(k-1) stopiach swobody

Testowaie iezależości H 0 ; p ij = p i. * p. j H 1 : hipoteza H 0 jest fałszywa Fukcja testowa Q = m k ij i. i= 1 j= 1 i.. j. j 2 zbliża się do rozkładu χ2 o (m-1)*(k-1) stopiach swobody, (które chociaż mają tę samą wartość jedak obliczoo je iaczej )

Aaliza zależości pomiędzy zmieymi jakościowymi

Korelacje ieparametrycze Współczyik Spearmaa r s Zmiee są mierzale w skali porządkowej (uporządkowaie według rag) r s = 6 i = 1 1 2 ( d 2 i 1 ) d i ozaczają różice między ragami odpowiadających sobie wartości cech r s służy do opisu korelacji cech jakościowych, które moża uporządkować r s moża stosować dla zmieych mierzalych ie mających rozkładu ormalego

Korelacje ieparametrycze Współczyik Kedalla τ Współczyik τ opiera się a różicy między prawdopodobieństwem tego, że dwie zmiee układają się w tym samym porządku a prawdopodobieństwem, że ich uporządkowaie się różi. Współczyik τ przyjmuje wartości z przedziału [-1;1], 1 - ozacza pełą zgodość uporządkowaia, 0 - brak zgodości, a -1 - całkowitą ich przeciwstawość. τ jest doskoałym arzędziem do opisu podobieństwa uporządkowaia zbioru daych.

Statystyka gamma Ma podobą kostrukcję i wymaga podobych założeń jak współczyiki r s Spearmaa τ Kedalla Stosuje się go gdy dae zwierają wiele obserwacji powiązaych Liczy się go jako różice prawdopodobieństwa, że uporządkowaie aalizowaych zmieych jest zgode a prawdopobieństwem, że ie jest zgode, dzieloą przez 1 mius prawdopodobieństwo występowaia obserwacji powiązaych

Porówaie wartości współczyików korelacji obliczoych wg Kedalla i Spearmaa