STATYSTYKA I DOŚWIADCZALNICTWO

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

PDF created with FinePrint pdffactory Pro trial version

Hierarchiczna analiza skupień

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Statystyka matematyczna Test χ 2. Wrocław, r

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

1 Estymacja przedziałowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH. Dr Dariusz Kayzer

Porównanie wielu rozkładów normalnych

Analiza wariancji. dr Janusz Górczyński

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Skalowanie wielowymiarowe idea

Testowanie hipotez statystycznych

Elementy statystyki wielowymiarowej

Matematyka i statystyka matematyczna dla rolników w SGGW

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wykład 11 Testowanie jednorodności

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

W1. Wprowadzenie. Statystyka opisowa

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Metodologia badań psychologicznych. Wykład 12. Korelacje

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wykład 10: Elementy statystyki

Badanie zależności pomiędzy zmiennymi

Z poprzedniego wykładu

Zawartość. Zawartość

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Testy post-hoc. Wrocław, 6 czerwca 2016

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Wykład 8 Dane kategoryczne

Badania Statystyczne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka w analizie i planowaniu eksperymentu

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA. dr Agnieszka Figaj

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Drzewa Decyzyjne, cz.2

Czym jest analiza skupień?

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Statystyka w pracy badawczej nauczyciela

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Badanie zależności skala nominalna

Wykład 3 Hipotezy statystyczne

Elementy statystyki STA - Wykład 5

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Analiza współzależności zjawisk

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

46 Olimpiada Biologiczna

Statystyka matematyczna i ekonometria

Rozkład Gaussa i test χ2

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady cech jakościowych/skategoryzowanych: - kolor (czerwony, różowy, biały) - grupa krwi (A, B, AB, 0) - cechy ilościowe wyrażone w postaci klas np. zawartość białka: niska, średnia, wysoka itp Rozważając liczbę obserwacji sklasyfikowanych wg dwóch kryteriów, np. ludzi wg koloru oczu i koloru włosów (kolory oczu: brązowy, niebieski; kolory włosów: blondyni, szatyni, bruneci) lub np. rośliny pewnego gatunku wg odmiany i stopnia porażenia chorobą (odmiany: A, B, C itd..; stopień porażenia: brak, słaby, średni, duży, bardzo duży) w każdej z klas liczymy liczbę osobników i liczebności te możemy przedstawić w postaci tablicy dwudzielnej zwanej tablicą kontyngencji

m liczba klas cechy X; k liczba klas cechy Y n ij - obserwowana liczebność w danej podklasie cechy X i Y N- całkowita liczebność obserwacji Całkowita liczebność powinna być duża (N>30), natomiast liczebności w podklasach (n ij ) nie powinny być zerowe (wskazane by n ij >5)

H 0 : Cechy X i Y są niezależne Statystyka testowa: n t ij - liczebność teoretyczna (oczekiwana, w przypadku gdy cechy X i Y są niezależne) n i ; n j sumy liczebności dla poszczególnych klas cechy X i dla klas cechy Y Jeżeli χ 2 emp > χ2 kryt to H 0 odrzucamy, a więc stwierdzamy, że cechy X i Y nie są niezależne, a więc występuje miedzy nimi związek Χ 2 kryt = Χ2 α;(m-1)(k-1) W programach statystycznych otrzymujemy w wyniku wartość p, powyższą hipotezę odrzucamy jeśli p<α

Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie. W przypadku dwóch lub trzech cech możliwe jest wskazanie obiektów podobnych do siebie na podstawie wartości tych cech (X, Y ewentualnie Z) na wykresie punktowym W przypadku grupowania cech pod względem więcej niż 3 cech (zmiennych) nie mam możliwości graficznego przedstawienia na wykresie wartości wszystkich cech. Możliwe jest natomiast określenie odległości między obiektami w przestrzeni wielowymiarowej

Odległość Euklidesowa w przestrzeni o p wymiarach między dwoma obiektami: d p ( xi, xk ) = dik = ( xij xkj j= 1 ) 2 X ij; X kj wartości j-tej cechy dla obiektów i oraz k p liczba cech/zmiennych Istnieją również inne miary określania odległości, np. odległość miejska (tzw. city block lub typu Manhattan) Ze względu na stosowanie różnych jednostek poszczególnych cech oraz różnych skal wartości, zwykle odległość między obiektami jest określana na podstawie zmiennych standaryzowanych

Metody grupowania Hierarchiczne pozwalają na łączenie obiektów w grupy z zachowaniem hierarchii, tzn. możemy określić na podstawie dendrogramu które obiekty w obrębie wydzielonych grup są podobne, a które bardziej odległe Wybrane metody aglomeracji (łączenia obiektów) w grupowaniu hierarchicznym: -Metoda najbliższego sąsiada - metoda najdalszego sąsiada - metoda Warda - metoda centroidów Niehierarchiczne po zaliczeniu obiektu do danej grupy nie możemy powiedzieć, które z obiektów, które z obiektów w obrębie jednej grupy są bardziej podobne. Metodą niehierarchiczną jest metoda k-średnich

Przykładowy dendrogram, powstały jako wynik analizy skupień. Kreskowana linia czerwona przedstawia podział obiektów na 4 grupy. Istnieje dowolność w ustalaniu liczby grup, tak więc można obiekty podzielić na większą lub tez mniejszą liczbę grup w zależności, od stawianych celów analizy

Przykłady zastosowań: 1) Wydzielenie grup odmian jabłoni podobnych pod względem wielu cech np.: - koloru owoców (kolor musi być wyrażony ilościowo tzn. w postaci liczby np. w skali 5 stopniowej 1- zielony. 5- czerwony) - wielkości owoców - szybkości wzrostu - wrażliwości na choroby itp. 2) Wydzielenie grup gmin podobnych pod względem wielu cech np.: - liczba mieszkańców - dochody w przeliczeniu na mieszkańca - stopa bezrobocia - udział powierzchni użytków rolnych, lasów, sadów -itp.