Rachuek prawdopodobieństwa i statystyka W12: Statystycza aaliza daych jakościowych Dr Aa ADRIAN Paw B5, pok 407 ada@agh.edu.pl
Wprowadzeie Rozróżia się dwa typy daych jakościowych: Nomiale jeśli opisują cechy omiale, p. kolor, zawód, województwo, wyzaie Uporządkowae gdy badaa cecha może być opisaa przy użyciu wartości wyrażających poziom (stopień, kategorię) p. stopień opaowaia wiedzy: dst, db, bdb; albo miasto małe, średie, duże itp
Cechy atrybuty zmiee jakościowe i ich związek z ilościowymi Cechy omiale są cechami fudametalie jakościowymi awet gdy zakodujemy je jako liczby (etykiety liczbowe p stolarz: 1, malarz: 2) Cechy uporządkowae mają w pewym stopiu związek z cechami mierzalymi i wyrażaymi ilościowo W przypadku określeia stopia sympatii p. do osoby moża uzać, że zmieia się w sposób ciągły od ieawiści do bezkrytyczej miłości, moża te wartości skategoryzować i adać im wartości: ie lubi, toleruje, lubi.- to jest dyskretyzacja Miasto małe do 50000 mieszkańców, średie 50000-200000, duże powyżej 200 000; ocey dst = 3, db = 4, bdb = 5, miary zastosowae w wyrażaiu kategorii wskazują kolejość i ie uwzględiają odległości
Iterpretacja daych jakościowych uporządkowaych Cechy uporządkowae mają w jakimś stopiu związek z cechami ilościowymi, p. system oce szkolych Polski: 1; 2; 3; 3,5; 4. Agielski F; E, D; C; Który z podaych systemów ocey jest bardziej odpowiedi i dlaczego Jak iterpretować średią oceę - krok arbitraly, dla którego trudo zaleźć ścisłe uzasadieie Jaka jest istota różica pomiędzy wartością ilościową, a kodem liczbowym wartości jakościowej Czy studet czwórkowy jest dwa razy lepszy od studeta dwójkowego
Iterpretacja wyików aalizy oce wyrażaych w różych skalach Ocea z przedmiotu jest wyrażoa w skali porządkowej. Jej iterpretacja w skali przedziałowej, a tym bardziej ilorazowej prowadzi do absurdalych wiosków. Ocea mierzoą w skali ilorazowej może być ocea puktowa, tz. studet za poprawa odpowiedź otrzymuje 1 pukt, a za błędą 0 puktów. Suma uzyskaych puktów jest podstawą ocey wiedzy studeta. Ocea procetowa jest wyrażoa w skali ilorazowej: (suma puktów uzyskaych/ liczba pytań )*100%. Studet, który uzyskał 80% odpowiedział a dwa razy więcej pytań iż te, który uzyskał 40 %
Skale stosowae dla zmieych ilościowych Ilorazowa wyiki pomiarów/obserwacji są wyrażoe w sposób jedozaczy z dokładością do zastosowaej jedostki pomiaru (ilość, długość, pojemość..) Przedziałowa daje możliwość wyboru jedostki pomiaru i położeia zera (puktu odiesieia) p. pomiar temperatury w skali bezwzględej, Celsjusza, Fareheita p. zero w tych dwóch skalach jest przesuięte o 32 o C. Ze względu a względość położeia zera w tych skalach, ie moża uzać, że temperatura 36 o C jest dwa razy wyższa od 18 o C, jest tylko wyższa o 18 o C. Temperatura w skali bezwzględej Kelvia, jest wyrażaa w skali ilorazowej, dlatego temperatura 300 K jest dwa razy większa od temperatury 150 K, a jedocześie jest od iej wyższa o 150K.
Przypisywaie zmieym ilościowym wartości jakościowychzmiee skategoryzowae W wielu badaiach jest uzasadioe zastępowaie wartości liczbowych azwami ligwistyczymi, p. Zmiea ilościowa przyjmuje zaledwie kilka wartości Przedziały wiekowe: Należy pamiętać, że od chwili podjęcia decyzji o zmiaie typu zmieej z ilościowego a jakościowy pozbywamy się możliwości stosowaia metod dla daych liczbowych. Traktowaie zmieych ilościowych jako jakościowe może usprawiedliwiać cel badań badaie iezależości zmieych lub ich zależości, w tym celu ajczęściej posługujemy się tablicami kodygacyjymi
Tablice kodygacyje y 1 y 2. y m x 1 11 12 1m x 2 21 22 2m. x k k1 k2 km Czy musiało dojść do katastrofy Challegera w 1986r. Aaliza daych z wcześiejszych 24 startów brak usterek wystąpiła usterka (i) 65 o F 0 4 > 65 o F 17 3 brak usterek wystąpiła usterka (i) 65 o F 0% 17% > 65 o F 70% 13%
Wioskowaie o zmieych jakościowych. Testowaie zgodości Zmiea X ma m wartości (kategorii), P(X= x i )= p i prawdopodobieństwo wystąpieia x i wyosi p i. Rozkładem empiryczym zmieej X jest {p 1, p 2,.,p m } Day jest pewie teoretyczy (ustaloy ) rozkład prawdopodobieństwa {p 1 0, p 20,.,p m0 }, Sprawdzam, czy empiryczy rozkład jest taki sam jak zakładay teoretyczy H 0 : p j = p j 0 i =1,2,...,m; H 1 : H 0 jest fałszywa Fukcja testowa Q = m j = 1 ( p ) 0 j p ma w przybliżeiu rozkład chi kwadrat z m-1 stopiami swobody j 0 j 2
Przykład Wykoao 100 rzutów kostką do gry i otrzymao x i 1 2 3 4 5 6 i 16 19 9 17 25 14 Czy istieją podstawy do odrzuceia hipotezy, że rzuty wykoao uczciwą kostką? Jeśli jest uczciwa, to mamy rozkład jedostajy, gdzie p i0 =1/6, i=1,..,6 Wtedy p i = 100*1/6 = 16,66 Q=[ (16-16,66) 2 + (19-16,66) 2 +(9-16,66) 2 + (17-16,66) 2 + (25-16,66) 2 (14-16,66) 2 ]/16,66 = 8,48 Odczytae z tablic χ 2 dla α=0,05 i 5 stopi swobody wyosi 11,07 zatem ie ma podstaw do odrzuceia hipotezy zerowej
Uwagi do testu zgodości Nie wolo mylić istotości statystyczej z istotością praktyczą. Im większa liczość próby tym większa jest czułość testu, czyli skłoość do odrzuceia hipotezy zerowej, gdy prawdziwy rozkład jest tylko iezaczie ( ieistotie) róży postulowaego w hipotezie ( teoretyczego). Stosowaie tego testu zgodości z rozkładem ciągłym jest przedsięwzięciem kotrowersyjym, poieważ puktem wyjścia do kostrukcji testu jest utrata iformacji związaa z koieczością dyskretyzacji. Dlatego stosowaie tego testu jest zalecae dopiero wtedy gdy próba jest bardzo licza, a rozkład empiryczy przypomia gładki rozkład ciągły. Są też ie testy zgodości, p w pakiecie Statistica, które moża stosować w miej liczych próbkach.
Testowaie złożoej hipotezy o zgodości Jeśli postuloway (teoretyczy) rozkład prawdopodobieństwa {p 1 0, p 2 0,.,p m 0 } zależy od iezaych parametrów, p parametru Θ, czyli jest {p 1 0 (Θ), p 2 0 (Θ),.,p m 0 (Θ), }, który może być iy dla różych wartości parametru Θ. Wtedy ie iteresując się wartością parametru Θ, weryfikujemy hipotezę o zgodości rozkładu z rodzią rozkładów zdefiiowaych przez Θ, Hipoteza zerowa ma wtedy postać H 0 : p j = p j 0 (Θ), i =1,2,...,m;
Przykład Jeśli teoria Medla losowego tworzeia się geotypów potomstwa jest słusza i w populacji występują geotypy AA, Aa, aa, Ge A staowi ułamek Θ, wszystkich geów Ge a staowi ułamek 1-Θ, wszystkich geów to populacja o proporcji geotypów AA, Aa, aa, Θ 2 ; 2Θ(1- Θ); (1-Θ) 2 pozostaje w staie rówowagi (geeracja potomków staowi populację o tej samej proporcji geotypów). Formalizujemy zapis hipotezy H 0 : p 1 0 (Θ)= Θ 2 ; p 20 (Θ)= 2Θ(1- Θ); p 3 0 (Θ)= (1-Θ) 2 Należy pamiętać, że H 1, H 0 jest fałszywa. Jeśli H 0 jest prawdziwa to zmodyfikowaa statystyka Q ma w przybliżeiu rozkład χ 2 z k-2 stopiami swobody ( w tym przykładzie k=3)
Przykład cd Typ AA Aa aa i 110 235 Fukcja wiarygodości ma postać (Θ 2 ) 1 * [2Θ(1- Θ)] 2 *[(1-Θ) 2 ] 3 Po logarytmowaiu fukcji wiarygodości obliczamy estymator Θ = (2 1 + 2 )/2=0,455, gdzie = 1 + 2 + 3 155 Q= (110-103,51) 2 /103,51+. (235-247,97) 2 /247,97+ (155-148,51) 2 /147,51 = 1,369. Jeśli liczba iezaych parametrów rozkładu hipotetyczego jest 2, wtedy statystyka Q ma rozkład χ2 z k-1-m stopiami swobody
Aaliza studeckiej ocey kadry test jedorodości Pewa uczelia prowadzi oceę programów i kadry. Testujemy hipotezę, o rówości rozkładów A1,A2,A3 bzd zd mr db bdb A1 17 25 21 9 10 82 A2 11 29 18 12 9 79 A3 6 7 11 39 21 84 34 61 50 60 40 245 H 0 : p 1j = p 2j =.=p kj =p j H 1 : H 0 jest fałszywa Fukcja testowa zmierza do rozkładu χ 2 m k ij Q = i. i= 1 j= 1 i.. j. j 2 o (m-1)*(k-1) stopiach swobody
Testowaie iezależości H 0 ; p ij = p i. * p. j H 1 : hipoteza H 0 jest fałszywa Fukcja testowa Q = m k ij i. i= 1 j= 1 i.. j. j 2 zbliża się do rozkładu χ2 o (m-1)*(k-1) stopiach swobody, (które chociaż mają tę samą wartość jedak obliczoo je iaczej )
Aaliza zależości pomiędzy zmieymi jakościowymi
Korelacje ieparametrycze Współczyik Spearmaa r s Zmiee są mierzale w skali porządkowej (uporządkowaie według rag) r s = 6 i = 1 1 2 ( d 2 i 1 ) d i ozaczają różice między ragami odpowiadających sobie wartości cech r s służy do opisu korelacji cech jakościowych, które moża uporządkować r s moża stosować dla zmieych mierzalych ie mających rozkładu ormalego
Korelacje ieparametrycze Współczyik Kedalla τ Współczyik τ opiera się a różicy między prawdopodobieństwem tego, że dwie zmiee układają się w tym samym porządku a prawdopodobieństwem, że ich uporządkowaie się różi. Współczyik τ przyjmuje wartości z przedziału [-1;1], 1 - ozacza pełą zgodość uporządkowaia, 0 - brak zgodości, a -1 - całkowitą ich przeciwstawość. τ jest doskoałym arzędziem do opisu podobieństwa uporządkowaia zbioru daych.
Statystyka gamma Ma podobą kostrukcję i wymaga podobych założeń jak współczyiki r s Spearmaa τ Kedalla Stosuje się go gdy dae zwierają wiele obserwacji powiązaych Liczy się go jako różice prawdopodobieństwa, że uporządkowaie aalizowaych zmieych jest zgode a prawdopobieństwem, że ie jest zgode, dzieloą przez 1 mius prawdopodobieństwo występowaia obserwacji powiązaych
Porówaie wartości współczyików korelacji obliczoych wg Kedalla i Spearmaa