Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Podobne dokumenty
Testy nieparametryczne

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka w pracy badawczej nauczyciela

Wykład 9 Testy rangowe w problemie dwóch prób

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

STATYSTYKA MATEMATYCZNA

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

R-PEARSONA Zależność liniowa

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Badania eksperymentalne

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Wykład ze statystyki. Maciej Wolny

Wykład 3 Hipotezy statystyczne

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka matematyczna i ekonometria

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka matematyczna dla leśników

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Próba własności i parametry

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Z poprzedniego wykładu

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Przygotowanie danych

4.2. Statystyczne opracowanie zebranego materiału

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Analiza struktury i przeciętnego poziomu cechy

STATYSTYKA MATEMATYCZNA

Miary statystyczne w badaniach pedagogicznych

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

KORELACJE I REGRESJA LINIOWA

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Podstawowe pojęcia statystyczne

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Grupowanie materiału statystycznego

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Estymacja parametrów rozkładu cechy

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Wykład z dnia 8 lub 15 października 2014 roku

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

STATYSTYKA MATEMATYCZNA

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka matematyczna

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MATEMATYCZNA

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Badania Statystyczne

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

1 Podstawy rachunku prawdopodobieństwa

Statystyka Matematyczna Anna Janicka

Elementarne metody statystyczne 9

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyczne metody analizy danych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Transkrypt:

Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl

Spis treści Rangowanie 1 Rangowanie 3

Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp. Powstaje problem opisania niemierzalnych atrybutów. W tym celu posłużymy się metodą rangową. Definition Ranga numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1. Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem.

Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej niemierzalnej, co pozwala na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej. Rangi regularne. Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Rangi wiązane. W przypadku występowania obserwacji o równej wartości rangowanej zmiennej tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dla populacji n elementowej tablicę rozdzielczą rang, n i oznacza liczebność i-tej rangi, n i 1 oraz n 1 + n +... + n k = n, natomiast k oznacza liczbę różnych rang.

Przykład 1. Pięciu uczniów w klasie uzyskało następujące wyniki: X 1 =dst, X =ndst, X 3 =ndst, X 4 =dst, X 5 =db. Po uporządkowaniu mamy: ndst, ndst, dst, dst, db Przypisujemy rangi: X i ndst dst db RX i 1.5 3.5 5 n i 1 lub X i ndst ndst dst dst db RX i 1 3 4 5 n i 1 1 1 1 1

Rangi ułamkowe i procentowe Rangi ułamkowe powstają przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach. Zastosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Dla rang regularnych wartość średnia wynosi R X = 1 n RX i = 1 n i = 1 n 1 + +... + n) = 1 n n + 1 n = n + 1

Wariancja rang regularnych wynosi = 1 n V ar RX) = 1 n i i n + 1 RX i n + 1 ) = 1 n ) ) n + 1 + = 1 n = 1 n 1 n + 1 n n + 1) n + 1) 6 n = 1 6 n + 1) n + 1) n + 1 Wsk. 1 + +... + n = 1 6n n + 1) n + 1) i n + 1 ) n + 1 i + n ) n + 1 n + i n + 1 n + 1 ) = n 1 1 )

Dla rang ważonych natomiast V ar RX) = 1 n gdzie R X = 1 n k = n 1 1 k RX i n i = n + 1, RX i n + 1 ) n i = 1 n T X n, T X = 1 1 k ) n 3 i n i. k n + 1 RXi n i )

W praktyce współczynnik korelacji rang dla cech X i Y oblicza się na podstawie próby statystycznej. Używane do wyznaczenia współczynnika powyżej wzory uważamy za estymatory korelacji rang korelacji istniejącej w populacji statystycznej). Wartość współczynnika obliczamy w następujący sposób: Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jest niezależnie rangowanie czyli: zaobserwowane wartości danej zmiennej porządkowane są rosnąco; każdej wartości X i przypisywana jest ranga RX i równa pozycji danej wartości w rosnącym porządku najmniejsza uzyskuje rangę 1, kolejna itd.), a każdej wartości Y i przypisywana jest ranga RY i równa pozycji danej wartości w rosnącym porządku; w przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku tzw. ranga wiązana lub powiązana, ang. tied rank). tym samym mogą występować rangi ułamkowe, np. ranga 1,5)

Po powrocie do pierwotnego porządku wartości zmiennych obliczana jest korelacja rangowa ze wzoru r S = cov RX, RY ) V ar RX) V ar RY ) Dla rang regularnych mamy r S = 1 n 1 n RXi n+1 ) RXi n+1 ) ) RYi n+1 1 n ) RYi n+1

Wyznaczmy najpierw = RX i RY i ) = RX i n + 1 ) + = n3 n 1 + n3 n 1 RX i n + 1 RY i n + 1 RX i n + 1 zatem RX i n + 1 ) RY i n + 1 ) = n3 n 1 1 RY i n + 1 ) )) RX i n + 1 ) RY i n + 1 ) RX i RY i ) ) RY i

Zatem mamy r S = n 1 1 1 n RX i RY i ) n 1 1 n 1 1 = n 1 1 1 n RX i RY i ) n 1 1. Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnych jest równa 6 n RX i RY i ) r S = 1 n 3 n

Wartość współczynnika korelacji Spearmana dla rang wiązanych wyznaczamy za pomocą wzoru r S = 1 6 n 3 n ) n 1 RX i RY i ) T X T Y 6 n3 1 n) T X 6 n3 n) T Y

Przykład. Oszacować wartość średnia i wariancję rang z przykładu 1. Przykład 3. Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnie prognoz dotyczących przyszłych wynikȯw finansowych. RX = {1,, 3, 9, 4, 7, 8, 6, 5, 10} RY = {4, 3,, 5, 1, 9, 8, 7, 10, 6} Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóch ekspertów. Przykład 4. Dokonano opisu 10 osób ze względu na znajomość języka angielskiego i matematyki. osoby 1 3 4 5 6 7 8 9 10 j. obcy bdb dst bdb dst bdb db dst bdb bdb dst matematyka dst bdb bdb db bdb dst dst db dst db Dokonać rangowania w/w cech oraz oszacować współczynnik korelacji Spearmana.