1 Analizy zmiennych jakościowych Przedmiotem analizy są zmienne jakościowe. Dokładniej wyniki pomiarów jakościowych. Pomiary tego typu spotykamy w praktyce badawczej znacznie częściej niż pomiary typu ilościowego, chociaż granica między rozróżnieniem jakie pomiary nazwiemy jakościowymi, a jakie ilościowymi nie jest zbyt precyzyjna. Przykład 1 Dane pochodzą z badania przeprowadzonego przez Panią dr Annę M. Wiśniewską z Oddziału Neurologii, Szpital im. M. Kopernika w Gdańsku. Badaniem objęto 1831 osób z różnych ośrodków. Wszystkie osoby były leczone ze względu na udar. Nie precyzujemy jaki rodzaj udaru miał miejsce. Z obszernego badania wybieramy tylko niektóre zmienne. Pierwszą daną jaką rozpatrzymy będzie dana demograficzna: płeć. Można postawić pytanie Kobiety Mężczyźni 819 1012 Tablica 1: Płeć czy mężczyzn było statystycznie istotnie więcej? Co to znaczy statystycznie istotnie więcej? Spróbujemy na to pytanie sensownie odpowiedzieć. 1
2 Rysunek 1: Huff: How to Lie with Statistics
Przykład 2 Następną zmienną, która odgrywa już poważną rolę jest identyfikacja zgonu. Postawimy kilka naturalnych pytań: Nie było Zgon 1419 412 Tablica 2: Zgon 1. Czy zgonów było dużo czy mało? 2. Jak rozumieć sformułowania dużo i mało? 3. Jak rozumieć proces decyzyjny w tym przypadku? 3
Przykład 3 Pójdziemy dalej i popatrzymy na łączną postać płci i zgonu. Nie było Zgon Kobiety 606 213 Mężczyźni 813 199 Tablica 3: Liczba zgonów Intuicyjnie interesują nas częstości zgonów w grupie kobiet i grupie mężczyzn. Częstości te są łatwe do obliczenia: Płeć = DS[,8] Zgon = DS[,212] round(100*prop.table(table(płeć,zgon),1),1) Nie było Zgon Kobiety 74% 26% Mężczyźni 80.3% 19.7% Tablica 4: Płeć i zgon Jest oczywiste, że zadajemy pytanie: Czy 26% jest statystycznie istotnie większe niż 19.7%? Jednak odpowiedź tak lub na ogół nie jest zadawalająca. Chcemy wiedzieć w jakim stopniu jest ta różnica znacząca? Dobrze by było podać jakieś wskaźniki, które by określały tę siłę związku. Propozycja pada na dwa wskaźniki RR - ryzyko względne (relative risk) i OR - iloraz szans (Odds ratio). Postaramy się je omówić. 4
Zanim odpowiemy na pytanie dotyczące siły związku dwóch wielkości jakościowych postawmy pytanie prostsze: Czy Zgon nie zależy od płci? Sformułowanie nie zależy jest oczywiste w sensie filozoficznym. Oznacza to, że nie ma związku przyczynowo skutkowego między tymi wielkościami, ale my w analizie statystycznej nie odwołujemy się do filozofii, tylko matematyki! Zasadniczy problem polega na tym by powiedzieć, na bazie procedur statystycznych jak sprawdzać ową niezależność, jakkolwiek byśmy ją rozumieli. Dokładniej prześledzimy w tym zakresie dokładny test Fishera (Exact Fisher Test). 5
Idziemy dalej, powiedzmy, że zmienne są zależne, jakkolwiek byśmy to uzyskali, to wpadamy w całe kontinuum różnych form zależności. Może udałoby się przypisać otrzymanym wynikom jakiś model i na jego podstawie coś powiedzieć o tych zależnościach. Wydaje się, że model analizy log-liniowej będzie przydatny. Skupimy się na nim i powiemy co z niego wynika. To podejście jest jednak tylko wstępem do analiz zależności trzech zmiennych. 6
Rozpatrzymy trzecią zmienną: Cukrzyca Nie było Cukrzyca 1476 355 Tablica 5: Cukrzyca Jak już zauważyliśmy, zgonów wśród kobiet jest więcej. Może zgony są w większej częstości spowodowane cukrzycą? Na przykład może być tak, że więcej kobiet ma cukrzycę i to ta cukrzyca podwyższa śmiertelność wśród kobiet? Popatrzmy na związki podwójne: Nie było Cukrzyca Kobiety 648 171 Mężczyźni 828 184 Tablica 6: Płeć vs. cukrzyca Nie było Cukrzyca Kobiety 79.1% 20.9% Mężczyźni 81.8% 18.2% Tablica 7: Płeć vs. cukrzyca[%] 7
Nie było Zgon Nie było 1174 302 Cukrzyca 245 110 Tablica 8: Cukrzyca vs. zgon Nie było Zgon Nie było 79.5% 20.5% Cukrzyca 69% 31% Tablica 9: Cukrzyca vs. zgon[%] Musimy podjąć próbę przyporządkowania otrzymanym wynikom surowym szczególnego modelu opisującego związki między wszystkimi trzema zmiennymi. Niestety nie mamy zbyt szerokiej palety tych modeli, a i interpretacje są dość zawiłe, ale spróbujemy. 8
2. Podejście bayesowskie 2 Podejście bayesowskie Jest to nowoczesne podejście które de facto jest ukierunkowane na oszacowanie, a nie na decyzyjność. Podejście jest dość naturalne i ideologię łatwo sobie przyswoić, ale rachunki są makabryczne. Trzeba zatem wyposażyć się w dosyć skuteczną aparaturę obliczeniową dostępną na przykład w języku R. Tradycyjnie używane pakiety takie jak Statistica nie obsługuje procedur bayesowskich. By przybliżyć tematykę rozpatrzymy przykład: Przykład 4 Badanie przeprowadzone w szpitalu AA wykazało, że wystąpienie powikłania w określonej chorobie wynosi 60%. Okazało się, że w szpitalu BB to powikłanie wynosi 40%. Zespół ze szpitala CC podjął również próbę oszacowania wystąpienia tego powikłania i okazało się, że na 120 pacjentów u 56 pojawiła się to powikłanie. Jak połączyć, te trzy informacje w sensowny sposób? Przyjmujemy, że Θ jest zmienną losową odpowiadającą pojawieniu się powikłania. Informacje ze szpitala AA i BB interpretujemy w postaci określenia rozkładu apriori zmiennej Θ. ( Pr Θ = 3 ) = 1 ( 5 2, Pr Θ = 2 ) = 1 5 2. Wyniki badań własnych są realizacją otrzymaną z rozkładu warunkowego zmiennej K pod warunkiem Θ = θ, który jest rozkładem dwumianowym z parametrami (120, θ), θ (0, 1). Zatem rozkład łączny zmiennych K i Θ ma postać Pr (Θ = 3 ) 5 K = 56 Pr (Θ = 2 ) 5 K = 56 ( = Pr K = 56 Θ = 3 ) ( Pr Θ = 3 ) = 5 5 ( ) ( ) 120 3 56 ( ) 2 64 = 1 56 5 5 2 = a 1 = 0, 00047 ( ) ( ) 120 2 56 ( ) 3 64 = 1 56 5 5 2 = a 2 = 0, 01219 9
2. Podejście bayesowskie Stąd rozkład aposteriori ma postać ( Pr Θ = 3 ) 5 K = 56 ) K = 56 ( Pr Θ = 2 5 = = a 1 = 0, 03755, a 1 + a 2 a 2 = 0, 96246 a 1 + a 2 10
2. Podejście bayesowskie Przykład 5 Przykład dotyczy dziedziny poza medycyną, a mianowicie ubezpieczeń. W pewnej firmie ubezpieczeniowej liczba roszczeń w pewnym sektorze ubezpieczeń ma rozkład Poissona z wartością oczekiwaną λ. Parametr ten zmienia się jednak w poszczególnych miesiącach i można przyjąć, że ma rozkład gamma z wartością oczekiwaną 100 i wariancją 200. W pewnym miesiącu było 90 roszczeń. Przeanalizować rozkład liczby roszczeń opierając się na zaobserwowanych informacjach. W treści zadania rozważamy wielkość nazwaną miesięczna liczba roszczeń. Niech X będzie zmienną losową odpowiadającą tej wielkości, czyli miesięczna liczba roszczeń. W treści zadania występuje jeszcze jedna wielość zmienna, to jest parametr λ. Niech Λ będzie zmienną losową odpowiadającą wartości parametru λ. Czyli λ jest realizacją zmiennej losowej Λ. Korzystając z danych w zadaniu możemy znaleźć rozkłady tych zmiennych losowych. Jeśli zmienna losowa Λ ma rozkład Gamma z parametrami α i p, to korzystając z warunków na wartość oczekiwaną i wariancję mamy E Λ = p α = 100, Var (Λ) = p α 2 = 200. Stąd α = 1 i p = 50. Rozkład warunkowy zmiennej losowej X pod warunkiem 2 Λ = λ jest rozkładem Poissona z parametrem λ. Zatem, korzystając ze wzoru f ( Λ X) (λ x) = f ( X Λ) (x λ)f Λ (x), x N, λ > 0, gdzie f ( X Λ) ( λ) jest częstością rozkładu Poissona z parametrem λ, a f Λ ( ) jest rozkładem gamma z parametrami α = 1 2 i p = 50 f ( X Λ) (x λ) = λx x! e λ, x N, λ > 0, f Λ (λ) = αp Γ(p) λp 1 e αλ, λ > 0, Stąd gęstość rozkładu warunkowego zmiennej losowej X pod warunkiem Λ = λ spełnia warunek f ( Λ X) (λ 90) λ 49+90 e λ e 1 2 λ, czyli jest rozkładem gamma z parametrami α = 3 i p = 136. Jak widać 2 otrzymanie wyniku x = 90 zmieniło wstępne informacje o rozkładzie zmiennej losowej Λ. Zmalała wartość oczekiwana (wynosi ok. 90) i zmalała wariancja (wynosi ok. 60). 11
2. Podejście bayesowskie Następny przykład będzie dotyczył cytospinu. Na rysunku znajdują się ostateczne wyniki, które zostały uzyskane przy pomocy procedury bayesowskiej. 12