KRZYSZTOF SZYMANEK Zależność cech (wersja 1.01) 1. Wprowadzenie Często na podstawie wiedzy, że jakiś przedmiot posiada określoną cechę A możemy wnioskować, że z całą pewnością posiada on też pewną inną cechę B - albo że cechy tej nie posiada. Na przykład z faktu, że X posiada cechę bycia inżynierem możemy wnioskować, że X ma wyższe wykształcenie; z tego zaś, że X jest kawalerem wnioskujemy, że X nie jest żonaty. Wnioskowania powyższe zawdzięczają swoją pewność temu, że zbiór inżynierów zawiera się w zbiorze osób wykształconych, zaś zbiór kawalerów jest rozłączny ze zbiorem żonatych. Zapytajmy teraz, czy stwierdzony fakt, że X jest dorosłym Polakiem pozwala na wyciągnięcie wniosku, że X zna język polski? Wnioskowanie takie robi wrażenie rozsądnego, jednakże musimy zauważyć, że nie jest ono całkowicie pewne. Zbiór dorosłych Polaków nie zawiera się bowiem w zbiorze osób znających język polski. Pewna niewielka część osób dorosłych narodowości polskiej nie zna języka polskiego. Jest to część tak drobna, że wnioskowanie, o którym mowa, jest w zwykłych warunkach rozsądne, choć nieco ryzykowne. Jeszcze bardziej ryzykowne jest na podstawie tego, że X jest kawalerem wnioskowanie, że X ma mniej niż 30 lat. Bardzo często związek między cechami nie pozwala wprawdzie na rozsądne wnioskowanie o jednej na podstawie drugiej, lecz mimo to posiadanie jednej z nich zwiększa lub zmniejsza prawdopodobieństwo posiadania drugiej. Mówimy wtedy o statystycznej zależności cech. Zależność zachodzi np. między byciem głodnym i byciem biednym, byciem ptakiem i byciem zwierzęciem fruwającym. Mówimy o zależności pozytywnej (zbieżność) albo negatywnej (rozbieżność). Negatywna zależność zachodzi np. między byciem miłośnikiem piłki nożnej i byciem kobietą, albo między byciem substancją smaczną i byciem lekarstwem.
2 w w w. s z y m a n e k. o r g A B A B rys. 1 rys. 2 Zależność może być słabsza, lub silniejsza. Najsilniejsza jest wtedy, gdy jedna z cech wynika z drugiej (por. rys. 1) lub cechy się wykluczają (por. rys. 2). Na ogół cechy wchodzą w związek ilustrowany rysunkiem 3. A B rys. 3 w tym wypadku pewne przedmioty mają cechy A i B, niektóre inne mają cechę A a nie mają cechy B, niektóre przedmioty mające cechę B nie mają cechy A. 2. Definicje Populacją nazywamy rozważany przez nas zbiór elementów mogących mieć cechy A oraz B. Populacją może być np. zbiór wszystkich Polaków, zbiór drzew na jakimś terenie, zbiór możliwych wyników jakiegoś doświadczenia. Jeśli element nie posiada cechy A, to posiada cechę nie-a, którą notujemy A. Podobnie B oznacza nieposiadanie cechy B. Cechy identyfikować będziemy ze zbiorami elementów. Np. cecha bycia Polakiem to dla nas zbiór Polaków. Cecha bycia nie-polakiem to zbiór wszystkich elementów populacji nie będących Polakami. Przypuśćmy, że populacja liczy N elementów, z których każdy może posiadać cechę A lub cechę B. Dane o liczbie elementów posiadających te cechy przedstawia tabelka:
3 w w w. s z y m a n e k. o r g A A B a b B c d TABELKA 1 Z tabelki tej odczytujemy, że: (i) a elementów posiada obie cechy A i B (ii) b elementów posiada cechę B, ale nie A (iii) c elementów posiada cechę A, ale nie B (iv) d elementów nie posiada ani cechy A, ani B Oczywiście a+b+c+d = N Odnotujmy też, że: (*) b = 0 wtedy i tylko wtedy, gdy B A (**) c =0 wtedy i tylko wtedy, gdy A B (***) a =0 wtedy i tylko wtedy, gdy A)(B (****) d = 0 wtedy i tylko wtedy, gdy A B (B A) Wygodne jest stosowanie tabelki, w której w dodatkowej kolumnie i dodatkowym wierszu (oznaczone przez RAZEM) wpisane są wartości łączne: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 2 Wszystkich elementów posiadających cechę B jest a + b, wszystkich elementów nie posiadających cechy B jest c + d. Wszystkich elementów posiadających cechę A jest a + c, wszystkich elementów nie posiadających cechy A jest b + d.
4 w w w. s z y m a n e k. o r g Przykład Zbadano zarobki oraz wykształcenie 150 pracowników pewnej firmy (ta grupa stanowi więc populację). Wszystkich podzielono według kryterium osiągania zarobków wyższych niż średnia krajowa (S) i posiadania wyższego wykształcenia (W). Wyniki zestawiono w następującej tabelce: S S RAZEM W 10 30 40 W 20 100 120 RAZEM 30 60 160 TABELKA 3 Z powyższych danych wynika, że osób zarabiających powyżej średniej krajowej jest w całej populacji 30/160 czyli ok. 19%. Jednak w grupie osób posiadających wyższe wykształcenie (40 osób) zarabia powyżej średniej krajowej 10 osób, czyli 25%. Jeśli o jakiejś osobie wiemy tylko tyle, że pracuje w badanej firmie, to szansę, że zarabia ona powyżej średniej krajowej ocenimy na ok. 19%. Jeśli jednak wiemy dodatkowo, że osoba ta posiada ona wyższe wykształcenie, to szansa ta rośnie do 25%. Dlatego właśnie uznajemy cechy W i S za cechy statystycznie zależne. Ogólnie, mając tabelkę: powiemy, że: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 4 (i) cechy A i B są zbieżne, gdy zachodzi: (*) (ii) cechy A i B są rozbieżne, gdy zachodzi:
5 w w w. s z y m a n e k. o r g (**) (iii) cechy A i B są niezależne, gdy: (***) Mniej formalnie, cechy A i B są zbieżne (rozbieżne) gdy pośród elementów posiadających cechę A jest większy (mniejszy) procent elementów posiadających cechę B niż w całości populacji. Cechy A i B są niezależne, jeśli odpowiednie odsetki są równe. Zależność statystyczną można też wyrazić w następujący sposób. Cecha A jest zbieżna z B, gdy pośród elementów mających cechę A jest większy procent elementów mających cechę B niż pośród elementów nie mających cechy B. W istocie warunek (*) można zastąpić przez warunek równoważny: Warunek (**) można zastąpić przez: a warunek (***) przez: Przykłady Można się spodziewać, że w populacji obywateli Polski następujące cechy są zbieżne: (a) posiadania wyższego wykształcenia i znajomości języka angielskiego (b) bycia sławnym aktorem i bycia osobą wielokrotnie rozwiedzioną (c) bycia bogatym i bycia po czterdziestce Można się spodziewać, że w populacji obywateli Polski następujące cechy są rozbieżne: (a) głosowanie na partię rolników i bycie mieszkańcem dużego miasta (b) bycie chorym i bycie szczęśliwym (c) bycie księdzem i popieranie prawa do eutanazji
6 w w w. s z y m a n e k. o r g Przykładowe cechy niezależne (bliskie niezależności - por. następny rozdział) to: (a) bycie mężczyzną i bycie urodzonym w środę (b) posiadanie rodzeństwa i bycie kobietą (c) bycie inteligentnym i mieszkanie w pobliżu jeziora 3. Siła związku między cechami Jest intuicyjnie jasne, że cechy mogą związane silniej albo słabiej. Cechy bycia kierowcą zawodowym i bycia mężczyzną na pewno są niewątpliwie silniej zbieżne niż cechy bycia palaczem tytoniu i bycia mężczyzną. Odsetek mężczyzn pośród kierowców zawodowych jest bliski 100% podczas gdy wśród palaczy jest to ok. 70%. Zwróćmy też uwagę na to, że gdyby wykonać odpowiednie obliczenia, to cechy bycia mężczyzną i bycia urodzonym w środę okazałyby się nie tyle niezależne, co prawie niezależne. Trudno bowiem oczekiwać, by obliczone wielkości oraz były równe co do piątego miejsca po przecinku. Poniżej wprowadzimy miarę siły związku pomiędzy cechami. Rozpatrzmy znowu tabelkę: A A RAZEM B a b a+b B c d c+d RAZEM a+c b+d N TABELKA 5 O związku między cechami A i B decydują wielkości oraz. Im bardziej jedna przewyższa drugą, tym silniejszy związek między cechami. Wygodnie jest zastosowanie ilorazu tych liczb jako miary, o którą chodzi. = Wprowadzamy współczynnik szans (odds ratio) OR(A, B) za pomocą wzoru:
7 w w w. s z y m a n e k. o r g OR(A, B) = rozpatrujemy wyłącznie przypadki, gdy ad 0 lub bc 0. Jeśli bc = 0, to przyjmujemy OR(A, B) =. Współczynnik szans ma następujące własności: (OR1) 0 OR(A, B) (OR2) jeśli OR(A, B) < 1 to cechy A i B są rozbieżne (OR3) jeśli OR(A, B) > 1 to cechy A i B są zbieżne (OR4) jeśli OR(A, B) = 1 to cechy A i B są niezależne (OR5) jeśli OR(A, B) = 0 to B A lub ( B) A (OR6) jeśli OR(A, B) = to A B lub B A (OR7) OR(A, B) = OR(A, B ) = Ćwiczenie 1 Podać wzór na OR(B, A), OR(A, B), OR(A, B ), OR(A, B ) Ćwiczenie 2 Zaobserwować, że OR(A, B) = OR(B, A). Ćwiczenie 3 Na podstawie uzyskanych w poprzednich ćwiczeniach wzorów zauważyć, że: (i) jeśli A jest zbieżne z B, to B jest zbieżne z A (ii) jeśli A jest rozbieżne z B, to B jest rozbieżne z A (iii) jeśli A jest niezależne od B, to B jest niezależne od A (iv) jeśli A jest zbieżne z B, to A jest rozbieżne z B (v) związek między A i B jest zawsze ten sam, co między A oraz B