1 Analizy zmiennych jakościowych

Podobne dokumenty
Agata Boratyńska Statystyka aktuarialna... 1

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Matematyka ubezpieczeń majątkowych r.

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Matematyka ubezpieczeń majątkowych r.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Matematyka ubezpieczeń majątkowych r.

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Matematyka ubezpieczeń majątkowych r.

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Sposoby prezentacji problemów w statystyce

WNIOSKOWANIE STATYSTYCZNE

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zadanie 1. są niezależne i mają rozkład z atomami: ( ),

Prawdopodobieństwo i statystyka r.

Matematyka ubezpieczeń majątkowych r.

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Rozkłady zmiennych losowych

Matematyka ubezpieczeń majątkowych r.

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wnioskowanie bayesowskie

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Zadanie 1. Ilość szkód N ma rozkład o prawdopodobieństwach spełniających zależność rekurencyjną:

z przedziału 0,1 liczb dodatnich. Rozważmy dwie zmienne losowe:... ma złożony rozkład dwumianowy o parametrach 1,q i, gdzie X, wszystkie składniki X

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Matematyka ubezpieczeń majątkowych r.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Statystyka i Analiza Danych

Badania obserwacyjne 1

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

Uogólniony model liniowy

Wykład 8 Dane kategoryczne

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych

Statystyka Matematyczna Anna Janicka

Własności statystyczne regresji liniowej. Wykład 4

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

1 Warunkowe wartości oczekiwane

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Matematyka ubezpieczeń majątkowych r.

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Analiza danych ilościowych i jakościowych

Prawdopodobieństwo i statystyka

EGZAMIN DYPLOMOWY, część II, Biomatematyka

Analiza korespondencji

Na podstawie dokonanych obserwacji:

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Rozkład zajęć, statystyka matematyczna, Rok akademicki 2015/16, semestr letni, Grupy dla powtarzających (C15; C16)

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Komputerowa analiza danych doświadczalnych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody probabilistyczne

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

WNIOSKOWANIE STATYSTYCZNE

Matematyka ubezpieczeń majątkowych r.

Prawdopodobieństwo i statystyka

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Zadanie 1. O rozkładzie pewnego ryzyka X posiadamy następujące informacje: znamy oczekiwaną wartość nadwyżki ponad 20:

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Uogolnione modele liniowe

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

STATYSTYKA MATEMATYCZNA, LISTA 3

Analiza składowych głównych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

MODELE MATEMATYCZNE W UBEZPIECZENIACH

Analiza regresji - weryfikacja założeń

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Transkrypt:

1 Analizy zmiennych jakościowych Przedmiotem analizy są zmienne jakościowe. Dokładniej wyniki pomiarów jakościowych. Pomiary tego typu spotykamy w praktyce badawczej znacznie częściej niż pomiary typu ilościowego, chociaż granica między rozróżnieniem jakie pomiary nazwiemy jakościowymi, a jakie ilościowymi nie jest zbyt precyzyjna. Przykład 1 Dane pochodzą z badania przeprowadzonego przez Panią dr Annę M. Wiśniewską z Oddziału Neurologii, Szpital im. M. Kopernika w Gdańsku. Badaniem objęto 1831 osób z różnych ośrodków. Wszystkie osoby były leczone ze względu na udar. Nie precyzujemy jaki rodzaj udaru miał miejsce. Z obszernego badania wybieramy tylko niektóre zmienne. Pierwszą daną jaką rozpatrzymy będzie dana demograficzna: płeć. Można postawić pytanie Kobiety Mężczyźni 819 1012 Tablica 1: Płeć czy mężczyzn było statystycznie istotnie więcej? Co to znaczy statystycznie istotnie więcej? Spróbujemy na to pytanie sensownie odpowiedzieć. 1

2 Rysunek 1: Huff: How to Lie with Statistics

Przykład 2 Następną zmienną, która odgrywa już poważną rolę jest identyfikacja zgonu. Postawimy kilka naturalnych pytań: Nie było Zgon 1419 412 Tablica 2: Zgon 1. Czy zgonów było dużo czy mało? 2. Jak rozumieć sformułowania dużo i mało? 3. Jak rozumieć proces decyzyjny w tym przypadku? 3

Przykład 3 Pójdziemy dalej i popatrzymy na łączną postać płci i zgonu. Nie było Zgon Kobiety 606 213 Mężczyźni 813 199 Tablica 3: Liczba zgonów Intuicyjnie interesują nas częstości zgonów w grupie kobiet i grupie mężczyzn. Częstości te są łatwe do obliczenia: Płeć = DS[,8] Zgon = DS[,212] round(100*prop.table(table(płeć,zgon),1),1) Nie było Zgon Kobiety 74% 26% Mężczyźni 80.3% 19.7% Tablica 4: Płeć i zgon Jest oczywiste, że zadajemy pytanie: Czy 26% jest statystycznie istotnie większe niż 19.7%? Jednak odpowiedź tak lub na ogół nie jest zadawalająca. Chcemy wiedzieć w jakim stopniu jest ta różnica znacząca? Dobrze by było podać jakieś wskaźniki, które by określały tę siłę związku. Propozycja pada na dwa wskaźniki RR - ryzyko względne (relative risk) i OR - iloraz szans (Odds ratio). Postaramy się je omówić. 4

Zanim odpowiemy na pytanie dotyczące siły związku dwóch wielkości jakościowych postawmy pytanie prostsze: Czy Zgon nie zależy od płci? Sformułowanie nie zależy jest oczywiste w sensie filozoficznym. Oznacza to, że nie ma związku przyczynowo skutkowego między tymi wielkościami, ale my w analizie statystycznej nie odwołujemy się do filozofii, tylko matematyki! Zasadniczy problem polega na tym by powiedzieć, na bazie procedur statystycznych jak sprawdzać ową niezależność, jakkolwiek byśmy ją rozumieli. Dokładniej prześledzimy w tym zakresie dokładny test Fishera (Exact Fisher Test). 5

Idziemy dalej, powiedzmy, że zmienne są zależne, jakkolwiek byśmy to uzyskali, to wpadamy w całe kontinuum różnych form zależności. Może udałoby się przypisać otrzymanym wynikom jakiś model i na jego podstawie coś powiedzieć o tych zależnościach. Wydaje się, że model analizy log-liniowej będzie przydatny. Skupimy się na nim i powiemy co z niego wynika. To podejście jest jednak tylko wstępem do analiz zależności trzech zmiennych. 6

Rozpatrzymy trzecią zmienną: Cukrzyca Nie było Cukrzyca 1476 355 Tablica 5: Cukrzyca Jak już zauważyliśmy, zgonów wśród kobiet jest więcej. Może zgony są w większej częstości spowodowane cukrzycą? Na przykład może być tak, że więcej kobiet ma cukrzycę i to ta cukrzyca podwyższa śmiertelność wśród kobiet? Popatrzmy na związki podwójne: Nie było Cukrzyca Kobiety 648 171 Mężczyźni 828 184 Tablica 6: Płeć vs. cukrzyca Nie było Cukrzyca Kobiety 79.1% 20.9% Mężczyźni 81.8% 18.2% Tablica 7: Płeć vs. cukrzyca[%] 7

Nie było Zgon Nie było 1174 302 Cukrzyca 245 110 Tablica 8: Cukrzyca vs. zgon Nie było Zgon Nie było 79.5% 20.5% Cukrzyca 69% 31% Tablica 9: Cukrzyca vs. zgon[%] Musimy podjąć próbę przyporządkowania otrzymanym wynikom surowym szczególnego modelu opisującego związki między wszystkimi trzema zmiennymi. Niestety nie mamy zbyt szerokiej palety tych modeli, a i interpretacje są dość zawiłe, ale spróbujemy. 8

2. Podejście bayesowskie 2 Podejście bayesowskie Jest to nowoczesne podejście które de facto jest ukierunkowane na oszacowanie, a nie na decyzyjność. Podejście jest dość naturalne i ideologię łatwo sobie przyswoić, ale rachunki są makabryczne. Trzeba zatem wyposażyć się w dosyć skuteczną aparaturę obliczeniową dostępną na przykład w języku R. Tradycyjnie używane pakiety takie jak Statistica nie obsługuje procedur bayesowskich. By przybliżyć tematykę rozpatrzymy przykład: Przykład 4 Badanie przeprowadzone w szpitalu AA wykazało, że wystąpienie powikłania w określonej chorobie wynosi 60%. Okazało się, że w szpitalu BB to powikłanie wynosi 40%. Zespół ze szpitala CC podjął również próbę oszacowania wystąpienia tego powikłania i okazało się, że na 120 pacjentów u 56 pojawiła się to powikłanie. Jak połączyć, te trzy informacje w sensowny sposób? Przyjmujemy, że Θ jest zmienną losową odpowiadającą pojawieniu się powikłania. Informacje ze szpitala AA i BB interpretujemy w postaci określenia rozkładu apriori zmiennej Θ. ( Pr Θ = 3 ) = 1 ( 5 2, Pr Θ = 2 ) = 1 5 2. Wyniki badań własnych są realizacją otrzymaną z rozkładu warunkowego zmiennej K pod warunkiem Θ = θ, który jest rozkładem dwumianowym z parametrami (120, θ), θ (0, 1). Zatem rozkład łączny zmiennych K i Θ ma postać Pr (Θ = 3 ) 5 K = 56 Pr (Θ = 2 ) 5 K = 56 ( = Pr K = 56 Θ = 3 ) ( Pr Θ = 3 ) = 5 5 ( ) ( ) 120 3 56 ( ) 2 64 = 1 56 5 5 2 = a 1 = 0, 00047 ( ) ( ) 120 2 56 ( ) 3 64 = 1 56 5 5 2 = a 2 = 0, 01219 9

2. Podejście bayesowskie Stąd rozkład aposteriori ma postać ( Pr Θ = 3 ) 5 K = 56 ) K = 56 ( Pr Θ = 2 5 = = a 1 = 0, 03755, a 1 + a 2 a 2 = 0, 96246 a 1 + a 2 10

2. Podejście bayesowskie Przykład 5 Przykład dotyczy dziedziny poza medycyną, a mianowicie ubezpieczeń. W pewnej firmie ubezpieczeniowej liczba roszczeń w pewnym sektorze ubezpieczeń ma rozkład Poissona z wartością oczekiwaną λ. Parametr ten zmienia się jednak w poszczególnych miesiącach i można przyjąć, że ma rozkład gamma z wartością oczekiwaną 100 i wariancją 200. W pewnym miesiącu było 90 roszczeń. Przeanalizować rozkład liczby roszczeń opierając się na zaobserwowanych informacjach. W treści zadania rozważamy wielkość nazwaną miesięczna liczba roszczeń. Niech X będzie zmienną losową odpowiadającą tej wielkości, czyli miesięczna liczba roszczeń. W treści zadania występuje jeszcze jedna wielość zmienna, to jest parametr λ. Niech Λ będzie zmienną losową odpowiadającą wartości parametru λ. Czyli λ jest realizacją zmiennej losowej Λ. Korzystając z danych w zadaniu możemy znaleźć rozkłady tych zmiennych losowych. Jeśli zmienna losowa Λ ma rozkład Gamma z parametrami α i p, to korzystając z warunków na wartość oczekiwaną i wariancję mamy E Λ = p α = 100, Var (Λ) = p α 2 = 200. Stąd α = 1 i p = 50. Rozkład warunkowy zmiennej losowej X pod warunkiem 2 Λ = λ jest rozkładem Poissona z parametrem λ. Zatem, korzystając ze wzoru f ( Λ X) (λ x) = f ( X Λ) (x λ)f Λ (x), x N, λ > 0, gdzie f ( X Λ) ( λ) jest częstością rozkładu Poissona z parametrem λ, a f Λ ( ) jest rozkładem gamma z parametrami α = 1 2 i p = 50 f ( X Λ) (x λ) = λx x! e λ, x N, λ > 0, f Λ (λ) = αp Γ(p) λp 1 e αλ, λ > 0, Stąd gęstość rozkładu warunkowego zmiennej losowej X pod warunkiem Λ = λ spełnia warunek f ( Λ X) (λ 90) λ 49+90 e λ e 1 2 λ, czyli jest rozkładem gamma z parametrami α = 3 i p = 136. Jak widać 2 otrzymanie wyniku x = 90 zmieniło wstępne informacje o rozkładzie zmiennej losowej Λ. Zmalała wartość oczekiwana (wynosi ok. 90) i zmalała wariancja (wynosi ok. 60). 11

2. Podejście bayesowskie Następny przykład będzie dotyczył cytospinu. Na rysunku znajdują się ostateczne wyniki, które zostały uzyskane przy pomocy procedury bayesowskiej. 12