Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl

Spis treści Rangowanie 1 Rangowanie 3

Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp. Powstaje problem opisania niemierzalnych atrybutów. W tym celu posłużymy się metodą rangową. Definition Ranga numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1. Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem.

Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej niemierzalnej, co pozwala na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej. Rangi regularne. Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Rangi wiązane. W przypadku występowania obserwacji o równej wartości rangowanej zmiennej tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dla populacji n elementowej tablicę rozdzielczą rang, n i oznacza liczebność i-tej rangi, n i 1 oraz n 1 + n +... + n k = n, natomiast k oznacza liczbę różnych rang.

Przykład 1. Pięciu uczniów w klasie uzyskało następujące wyniki: X 1 =dst, X =ndst, X 3 =ndst, X 4 =dst, X 5 =db. Po uporządkowaniu mamy: ndst, ndst, dst, dst, db Przypisujemy rangi: X i ndst dst db RX i 1.5 3.5 5 n i 1 lub X i ndst ndst dst dst db RX i 1 3 4 5 n i 1 1 1 1 1

Rangi ułamkowe i procentowe Rangi ułamkowe powstają przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach. Zastosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Dla rang regularnych wartość średnia wynosi R X = 1 n RX i = 1 n i = 1 n 1 + +... + n) = 1 n n + 1 n = n + 1

Wariancja rang regularnych wynosi = 1 n V ar RX) = 1 n i i n + 1 RX i n + 1 ) = 1 n ) ) n + 1 + = 1 n = 1 n 1 n + 1 n n + 1) n + 1) 6 n = 1 6 n + 1) n + 1) n + 1 Wsk. 1 + +... + n = 1 6n n + 1) n + 1) i n + 1 ) n + 1 i + n ) n + 1 n + i n + 1 n + 1 ) = n 1 1 )

Dla rang ważonych natomiast V ar RX) = 1 n gdzie R X = 1 n k = n 1 1 k RX i n i = n + 1, RX i n + 1 ) n i = 1 n T X n, T X = 1 1 k ) n 3 i n i. k n + 1 RXi n i )

W praktyce współczynnik korelacji rang dla cech X i Y oblicza się na podstawie próby statystycznej. Używane do wyznaczenia współczynnika powyżej wzory uważamy za estymatory korelacji rang korelacji istniejącej w populacji statystycznej). Wartość współczynnika obliczamy w następujący sposób: Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jest niezależnie rangowanie czyli: zaobserwowane wartości danej zmiennej porządkowane są rosnąco; każdej wartości X i przypisywana jest ranga RX i równa pozycji danej wartości w rosnącym porządku najmniejsza uzyskuje rangę 1, kolejna itd.), a każdej wartości Y i przypisywana jest ranga RY i równa pozycji danej wartości w rosnącym porządku; w przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku tzw. ranga wiązana lub powiązana, ang. tied rank). tym samym mogą występować rangi ułamkowe, np. ranga 1,5)

Po powrocie do pierwotnego porządku wartości zmiennych obliczana jest korelacja rangowa ze wzoru r S = cov RX, RY ) V ar RX) V ar RY ) Dla rang regularnych mamy r S = 1 n 1 n RXi n+1 ) RXi n+1 ) ) RYi n+1 1 n ) RYi n+1

Wyznaczmy najpierw = RX i RY i ) = RX i n + 1 ) + = n3 n 1 + n3 n 1 RX i n + 1 RY i n + 1 RX i n + 1 zatem RX i n + 1 ) RY i n + 1 ) = n3 n 1 1 RY i n + 1 ) )) RX i n + 1 ) RY i n + 1 ) RX i RY i ) ) RY i

Zatem mamy r S = n 1 1 1 n RX i RY i ) n 1 1 n 1 1 = n 1 1 1 n RX i RY i ) n 1 1. Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnych jest równa 6 n RX i RY i ) r S = 1 n 3 n

Wartość współczynnika korelacji Spearmana dla rang wiązanych wyznaczamy za pomocą wzoru r S = 1 6 n 3 n ) n 1 RX i RY i ) T X T Y 6 n3 1 n) T X 6 n3 n) T Y

Przykład. Oszacować wartość średnia i wariancję rang z przykładu 1. Przykład 3. Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnie prognoz dotyczących przyszłych wynikȯw finansowych. RX = {1,, 3, 9, 4, 7, 8, 6, 5, 10} RY = {4, 3,, 5, 1, 9, 8, 7, 10, 6} Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóch ekspertów. Przykład 4. Dokonano opisu 10 osób ze względu na znajomość języka angielskiego i matematyki. osoby 1 3 4 5 6 7 8 9 10 j. obcy bdb dst bdb dst bdb db dst bdb bdb dst matematyka dst bdb bdb db bdb dst dst db dst db Dokonać rangowania w/w cech oraz oszacować współczynnik korelacji Spearmana.