Zależność cech (wersja 1.01)



Podobne dokumenty
Sposoby prezentacji problemów w statystyce

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Pobieranie prób i rozkład z próby

Kontekstowe wskaźniki efektywności nauczania - warsztaty

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

KOMUNIKATzBADAŃ. Preferencje partyjne w czerwcu NR 73/2017 ISSN

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

KOMUNIKATzBADAŃ. Preferencje partyjne w sierpniu NR 106/2017 ISSN

OSZCZĘDNOŚCI I ZAKUPY W LUTYM WARSZAWA, MARZEC 2000

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spacery losowe generowanie realizacji procesu losowego

Wyznaczenie celów. Rozdział I. - Wyznaczanie celów - Cel SMART - Przykłady dobrze i źle wyznaczonych celów

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

RACHUNEK ZBIORÓW 5 RELACJE

Preferencje partyjne w maju

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA OPISOWA. Znaczenie podstawowych miar

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

Zmienne losowe i ich rozkłady

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

STATYSTYKA POWTÓRZENIE WIADOMOŚCI

Badanie na temat mieszkalnictwa w Polsce

Przykładami ciągów, które Czytelnik dobrze zna (a jeśli nie, to niniejszym poznaje), jest ciąg arytmetyczny:

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

KOMUNIKATzBADAŃ. Preferencje partyjne w kwietniu NR 40/2017 ISSN

Warszawa, czerwiec 2010 BS/80/2010 OPINIE O POCZUCIU BEZPIECZEŃSTWA I ZAGROŻENIU PRZESTĘPCZOŚCIĄ

Preferencje partyjne w czerwcu

Wynagrodzenia w sektorze publicznym w 2011 roku

Testowanie hipotez statystycznych

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Preferencje partyjne we wrześniu

KOMUNIKATzBADAŃ. Preferencje partyjne w marcu NR 28/2017 ISSN

Warszawa, marzec 2013 BS/34/2013 KOBIETY W ŻYCIU PUBLICZNYM

6.4 Podstawowe metody statystyczne

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

FUNKCJA LINIOWA - WYKRES

STATYSTYKA MATEMATYCZNA

Warszawa, wrzesień 2013 BS/127/2013 POLACY O ZAROBKACH RÓŻNYCH GRUP ZAWODOWYCH

KOMUNIKATzBADAŃ. Zadowolenie z życia NR 3/2017 ISSN

Rozkłady zmiennych losowych

Rozkłady statystyk z próby

Kurs ZDAJ MATURĘ Z MATEMATYKI - MODUŁ 11 Teoria planimetria

Arytmetyka. Działania na liczbach, potęga, pierwiastek, logarytm

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

P (A B) P (B) = 1/4 1/2 = 1 2. Zakładamy, że wszystkie układy dwójki dzieci: cc, cd, dc, dd są jednakowo prawdopodobne.

Preferencje partyjne w marcu

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Zadowolenie z życia KOMUNIKAT Z BADAŃ. ISSN Nr 6/2019. Styczeń 2019

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Dydaktyka matematyki (III etap edukacyjny) IV rok matematyki Semestr letni 2017/2018 Ćwiczenia nr 12

STATYSTYKA wykład 5-6

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

CENTRUM BADANIA OPINII SPOŁECZNEJ

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

(x j x)(y j ȳ) r xy =

Ile waży arbuz? Copyright Łukasz Sławiński

Metody probabilistyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Joanna Konieczna Repetytorium ze statystyki opisowej (materiał roboczy)

CBOS CENTRUM BADANIA OPINII SPOŁECZNEJ STOSUNEK DO PROCESU OSÓB ODPOWIEDZIALNYCH ZA GRUDZIEŃ 70 BS/102/102/98 KOMUNIKAT Z BADAŃ WARSZAWA, SIERPIEŃ 98

VII Olimpiada Matematyczna Gimnazjalistów

Wyniki PIAAC w Polsce

Warszawa, październik 2011 BS/124/2011 PREFERENCJE PARTYJNE PRZED WYBORAMI

Dokładne i graniczne rozkłady statystyk z próby

Nawroty w uzależnieniach - zmiany w kontaktach z alkoholem po zakończeniu terapii

Wnioskowanie statystyczne. Statystyka w 5

Warszawa, kwiecień 2013 BS/45/2013 CZY POLACY SKORZYSTAJĄ Z ODPISU PODATKOWEGO NA KOŚCIÓŁ?

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Algorytmy genetyczne

Statystyka w pracy badawczej nauczyciela

Wartość danej Liczebność

1.1 Wstęp Literatura... 1

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Pomyłka Lincolna Lekcje z wykopem

Warszawa, wrzesień 2011 BS/104/2011 PREFERENCJE PARTYJNE WE WRZEŚNIU

Zadania ze statystyki, cz.6

CBOS CENTRUM BADANIA OPINII SPOŁECZNEJ WIEDZA O PRAWACH PACJENTA BS/70/2001 KOMUNIKAT Z BADAŃ WARSZAWA, CZERWIEC 2001

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Ciąg monotoniczny. Autorzy: Katarzyna Korbel

, , INTERNET: STOSUNEK DO RZĄDU PAŹDZIERNIK 94

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

VIII Olimpiada Matematyczna Gimnazjalistów

SUBIEKTYWNEJ JAKOŚCI ŻYCIA TOM II SZCZEGÓŁOWE WYNIKI BADAŃ WEDŁUG DZIEDZIN

2a a a + 5 = 27 6a + 9 = % 18 = = 54

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Okręgi na skończonej płaszczyźnie Mateusz Janus

Transkrypt:

KRZYSZTOF SZYMANEK Zależność cech (wersja 1.01) 1. Wprowadzenie Często na podstawie wiedzy, że jakiś przedmiot posiada określoną cechę A możemy wnioskować, że z całą pewnością posiada on też pewną inną cechę B - albo że cechy tej nie posiada. Na przykład z faktu, że X posiada cechę bycia inżynierem możemy wnioskować, że X ma wyższe wykształcenie; z tego zaś, że X jest kawalerem wnioskujemy, że X nie jest żonaty. Wnioskowania powyższe zawdzięczają swoją pewność temu, że zbiór inżynierów zawiera się w zbiorze osób wykształconych, zaś zbiór kawalerów jest rozłączny ze zbiorem żonatych. Zapytajmy teraz, czy stwierdzony fakt, że X jest dorosłym Polakiem pozwala na wyciągnięcie wniosku, że X zna język polski? Wnioskowanie takie robi wrażenie rozsądnego, jednakże musimy zauważyć, że nie jest ono całkowicie pewne. Zbiór dorosłych Polaków nie zawiera się bowiem w zbiorze osób znających język polski. Pewna niewielka część osób dorosłych narodowości polskiej nie zna języka polskiego. Jest to część tak drobna, że wnioskowanie, o którym mowa, jest w zwykłych warunkach rozsądne, choć nieco ryzykowne. Jeszcze bardziej ryzykowne jest na podstawie tego, że X jest kawalerem wnioskowanie, że X ma mniej niż 30 lat. Bardzo często związek między cechami nie pozwala wprawdzie na rozsądne wnioskowanie o jednej na podstawie drugiej, lecz mimo to posiadanie jednej z nich zwiększa lub zmniejsza prawdopodobieństwo posiadania drugiej. Mówimy wtedy o statystycznej zależności cech. Zależność zachodzi np. między byciem głodnym i byciem biednym, byciem ptakiem i byciem zwierzęciem fruwającym. Mówimy o zależności pozytywnej (zbieżność) albo negatywnej (rozbieżność). Negatywna zależność zachodzi np. między byciem miłośnikiem piłki nożnej i byciem kobietą, albo między byciem substancją smaczną i byciem lekarstwem.

2 w w w. s z y m a n e k. o r g A B A B rys. 1 rys. 2 Zależność może być słabsza, lub silniejsza. Najsilniejsza jest wtedy, gdy jedna z cech wynika z drugiej (por. rys. 1) lub cechy się wykluczają (por. rys. 2). Na ogół cechy wchodzą w związek ilustrowany rysunkiem 3. A B rys. 3 w tym wypadku pewne przedmioty mają cechy A i B, niektóre inne mają cechę A a nie mają cechy B, niektóre przedmioty mające cechę B nie mają cechy A. 2. Definicje Populacją nazywamy rozważany przez nas zbiór elementów mogących mieć cechy A oraz B. Populacją może być np. zbiór wszystkich Polaków, zbiór drzew na jakimś terenie, zbiór możliwych wyników jakiegoś doświadczenia. Jeśli element nie posiada cechy A, to posiada cechę nie-a, którą notujemy A. Podobnie B oznacza nieposiadanie cechy B. Cechy identyfikować będziemy ze zbiorami elementów. Np. cecha bycia Polakiem to dla nas zbiór Polaków. Cecha bycia nie-polakiem to zbiór wszystkich elementów populacji nie będących Polakami. Przypuśćmy, że populacja liczy N elementów, z których każdy może posiadać cechę A lub cechę B. Dane o liczbie elementów posiadających te cechy przedstawia tabelka:

3 w w w. s z y m a n e k. o r g A A B a b B c d TABELKA 1 Z tabelki tej odczytujemy, że: (i) a elementów posiada obie cechy A i B (ii) b elementów posiada cechę B, ale nie A (iii) c elementów posiada cechę A, ale nie B (iv) d elementów nie posiada ani cechy A, ani B Oczywiście a+b+c+d = N Odnotujmy też, że: (*) b = 0 wtedy i tylko wtedy, gdy B A (**) c =0 wtedy i tylko wtedy, gdy A B (***) a =0 wtedy i tylko wtedy, gdy A)(B (****) d = 0 wtedy i tylko wtedy, gdy A B (B A) Wygodne jest stosowanie tabelki, w której w dodatkowej kolumnie i dodatkowym wierszu (oznaczone przez RAZEM) wpisane są wartości łączne: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 2 Wszystkich elementów posiadających cechę B jest a + b, wszystkich elementów nie posiadających cechy B jest c + d. Wszystkich elementów posiadających cechę A jest a + c, wszystkich elementów nie posiadających cechy A jest b + d.

4 w w w. s z y m a n e k. o r g Przykład Zbadano zarobki oraz wykształcenie 150 pracowników pewnej firmy (ta grupa stanowi więc populację). Wszystkich podzielono według kryterium osiągania zarobków wyższych niż średnia krajowa (S) i posiadania wyższego wykształcenia (W). Wyniki zestawiono w następującej tabelce: S S RAZEM W 10 30 40 W 20 100 120 RAZEM 30 60 160 TABELKA 3 Z powyższych danych wynika, że osób zarabiających powyżej średniej krajowej jest w całej populacji 30/160 czyli ok. 19%. Jednak w grupie osób posiadających wyższe wykształcenie (40 osób) zarabia powyżej średniej krajowej 10 osób, czyli 25%. Jeśli o jakiejś osobie wiemy tylko tyle, że pracuje w badanej firmie, to szansę, że zarabia ona powyżej średniej krajowej ocenimy na ok. 19%. Jeśli jednak wiemy dodatkowo, że osoba ta posiada ona wyższe wykształcenie, to szansa ta rośnie do 25%. Dlatego właśnie uznajemy cechy W i S za cechy statystycznie zależne. Ogólnie, mając tabelkę: powiemy, że: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 4 (i) cechy A i B są zbieżne, gdy zachodzi: (*) (ii) cechy A i B są rozbieżne, gdy zachodzi:

5 w w w. s z y m a n e k. o r g (**) (iii) cechy A i B są niezależne, gdy: (***) Mniej formalnie, cechy A i B są zbieżne (rozbieżne) gdy pośród elementów posiadających cechę A jest większy (mniejszy) procent elementów posiadających cechę B niż w całości populacji. Cechy A i B są niezależne, jeśli odpowiednie odsetki są równe. Zależność statystyczną można też wyrazić w następujący sposób. Cecha A jest zbieżna z B, gdy pośród elementów mających cechę A jest większy procent elementów mających cechę B niż pośród elementów nie mających cechy B. W istocie warunek (*) można zastąpić przez warunek równoważny: Warunek (**) można zastąpić przez: a warunek (***) przez: Przykłady Można się spodziewać, że w populacji obywateli Polski następujące cechy są zbieżne: (a) posiadania wyższego wykształcenia i znajomości języka angielskiego (b) bycia sławnym aktorem i bycia osobą wielokrotnie rozwiedzioną (c) bycia bogatym i bycia po czterdziestce Można się spodziewać, że w populacji obywateli Polski następujące cechy są rozbieżne: (a) głosowanie na partię rolników i bycie mieszkańcem dużego miasta (b) bycie chorym i bycie szczęśliwym (c) bycie księdzem i popieranie prawa do eutanazji

6 w w w. s z y m a n e k. o r g Przykładowe cechy niezależne (bliskie niezależności - por. następny rozdział) to: (a) bycie mężczyzną i bycie urodzonym w środę (b) posiadanie rodzeństwa i bycie kobietą (c) bycie inteligentnym i mieszkanie w pobliżu jeziora 3. Siła związku między cechami Jest intuicyjnie jasne, że cechy mogą związane silniej albo słabiej. Cechy bycia kierowcą zawodowym i bycia mężczyzną na pewno są niewątpliwie silniej zbieżne niż cechy bycia palaczem tytoniu i bycia mężczyzną. Odsetek mężczyzn pośród kierowców zawodowych jest bliski 100% podczas gdy wśród palaczy jest to ok. 70%. Zwróćmy też uwagę na to, że gdyby wykonać odpowiednie obliczenia, to cechy bycia mężczyzną i bycia urodzonym w środę okazałyby się nie tyle niezależne, co prawie niezależne. Trudno bowiem oczekiwać, by obliczone wielkości oraz były równe co do piątego miejsca po przecinku. Poniżej wprowadzimy miarę siły związku pomiędzy cechami. Rozpatrzmy znowu tabelkę: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 5 O związku między cechami A i B decydują wielkości oraz. Im bardziej jedna przewyższa drugą, tym silniejszy związek między cechami. Wygodnie jest zastosowanie ilorazu tych liczb jako miary, o którą chodzi. = Wprowadzamy współczynnik szans (odds ratio) OR(A, B) za pomocą wzoru:

7 w w w. s z y m a n e k. o r g OR(A, B) = rozpatrujemy wyłącznie przypadki, gdy ad 0 lub bc 0. Jeśli bc = 0, to przyjmujemy OR(A, B) =. Współczynnik szans ma następujące własności: (OR1) 0 OR(A, B) (OR2) jeśli OR(A, B) < 1 to cechy A i B są rozbieżne (OR3) jeśli OR(A, B) > 1 to cechy A i B są zbieżne (OR4) jeśli OR(A, B) = 1 to cechy A i B są niezależne (OR5) jeśli OR(A, B) = 0 to B A lub ( B) A (OR6) jeśli OR(A, B) = to A B lub B A (OR7) OR(A, B) = OR(A, B ) = Ćwiczenie 1 Podać wzór na OR(B, A), OR(A, B), OR(A, B ), OR(A, B ) Ćwiczenie 2 Zaobserwować, że OR(A, B) = OR(B, A). Ćwiczenie 3 Na podstawie uzyskanych w poprzednich ćwiczeniach wzorów zauważyć, że: (i) jeśli A jest zbieżne z B, to B jest zbieżne z A (ii) jeśli A jest rozbieżne z B, to B jest rozbieżne z A (iii) jeśli A jest niezależne od B, to B jest niezależne od A (iv) jeśli A jest zbieżne z B, to A jest rozbieżne z B (v) związek między A i B jest zawsze ten sam, co między A oraz B