STATYSTYKA I DOŚWIADCZALNICTWO

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

WZROST, PLONOWANIE I WIELKOŚCI OWOCÓW TRZYNASTU ODMIAN JABŁONI OKULIZOWANYCH NA PODKŁADCE M.9. Wstęp

Elementy statystyki wielowymiarowej

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

PDF created with FinePrint pdffactory Pro trial version

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

Hierarchiczna analiza skupień

KLASYFIKACJA. Słownik języka polskiego

PROTOKÓŁ Z BADAŃ OCENIAJĄCYCH STAN DOJRZAŁOŚCI ZBIORCZEJ JABŁEK (centrum)

Wielowymiarowe metody statystyczne w badaniach cech morfologicznych żyta ozimego

Prawdopodobieństwo i statystyka

Eksportowe odmiany jabłoni

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka i eksploracja danych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Przykładowa analiza danych

W1. Wprowadzenie. Statystyka opisowa

Skalowanie wielowymiarowe idea

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

PROTOKÓŁ Z BADAŃ OCENIAJĄCYCH STAN DOJRZAŁOŚCI ZBIORCZEJ JABŁEK (centrum)

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Analiza składowych głównych. Wprowadzenie

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Analiza wielowymiarowa sytuacji ekonomicznej Polski oraz krajów Azji i Europy Wschodniej

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Czym jest analiza skupień?

Kurs Chemometrii Poznań 28 listopad 2006

MODELE LINIOWE. Dr Wioleta Drobik

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Graficzna prezentacja danych statystycznych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Zagadnienie klasyfikacji (dyskryminacji)

Techniki grupowania danych w środowisku Matlab

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28

Wykład 4: Statystyki opisowe (część 1)

Statystyka w pracy badawczej nauczyciela

Co to jest grupowanie

Sieci Kohonena Grupowanie

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

XIII PODLASKIE FORUM GIS Rok mapy zderzenie tradycji z przyszłością Supraśl 2016

Wykład ze statystyki. Maciej Wolny

Wykład 10 Skalowanie wielowymiarowe

Inteligentna analiza danych

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Wykorzystanie wielowymiarowych metod statystycznych do badania bioróżnorodności jodły pospolitej Abies alba Mill

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Zmienne zależne i niezależne

Analiza skupień. Idea

Analiza kanoniczna w pigułce

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Analiza korespondencji

You created this PDF from an application that is not licensed to print to novapdf printer (

Analiza Współzależności

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

Proces badania statystycznego z wykorzystaniem miernika syntetycznego (wg procedury Z. Zioło)

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Kapitał ludzki władz samorządowych jako czynnik różnicujący sytuację społeczno-gospodarczą gmin (na przykładzie województwa świętokrzyskiego)

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Analiza współzależności zjawisk

10. Redukcja wymiaru - metoda PCA

Wykład 5: Statystyki opisowe (część 2)

CELE ANALIZY CZYNNIKOWEJ

Cel segmentacji. Metody segmentacji.

2. Cel, metoda, zakres badań Grażyna Korzeniak, Tadeusz Grabiński

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9

Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie. W przypadku dwóch lub trzech cech możliwe jest wskazanie obiektów podobnych do siebie na podstawie wartości tych cech (X, Y ewentualnie Z) na wykresie punktowym W przypadku grupowania cech pod względem więcej niż 3 cech (zmiennych) nie mam możliwości graficznego przedstawienia na wykresie wartości wszystkich cech. Możliwe jest natomiast określenie odległości między obiektami w przestrzeni wielowymiarowej

Odległość Euklidesowa w przestrzeni o p wymiarach między dwoma obiektami: d p ( xi, xk ) = dik = ( xij xkj j= 1 ) 2 X ij; X kj wartości j-tej cechy dla obiektów i oraz k p liczba cech/zmiennych Istnieją również inne miary określania odległości, np. odległość miejska (tzw. city block lub typu Manhattan)

Ze względu na stosowanie różnych jednostek poszczególnych cech oraz różnych skal wartości, zwykle odległość między obiektami jest określana na podstawie zmiennych standaryzowanych z ij = x ij S j x j Z ij wartość po standaryzacji X ij wartość przed standaryzacją X j wartość średnia cechy S j odchylenie standardowe Standaryzacja zmiennych pozwala w analizie skupień na zachowanie podobnej wagi każdej zmiennej w klasyfikacji obiektów

Metody grupowania Hierarchiczne pozwalają na łączenie obiektów w grupy z zachowaniem hierarchii, tzn. możemy określić na podstawie dendrogramu które obiekty w obrębie wydzielonych grup są podobne, a które bardziej odległe Wybrane metody aglomeracji (łączenia obiektów) w grupowaniu hierarchicznym: -Metoda najbliższego sąsiada - metoda najdalszego sąsiada - metoda Warda - metoda centroidów Niehierarchiczne po zaliczeniu obiektu do danej grupy nie możemy powiedzieć, które z obiektów, które z obiektów w obrębie jednej grupy są bardziej podobne. Metodą niehierarchiczną jest metoda k-średnich

Przykładowy dendrogram, powstały jako wynik analizy skupień. Kreskowana linia czerwona przedstawia podział obiektów na 4 grupy. Istnieje dowolność w ustalaniu liczby grup, tak więc można obiekty podzielić na większą lub tez mniejszą liczbę grup w zależności, od stawianych celów analizy

Przykłady zastosowań: 1) Wydzielenie grup odmian jabłoni podobnych pod względem wielu cech np.: - koloru owoców (kolor musi być wyrażony ilościowo tzn. w postaci liczby np. w skali 5 stopniowej 1- zielony. 5- czerwony) - wielkości owoców - szybkości wzrostu - wrażliwości na choroby itp. 2) Wydzielenie grup gmin podobnych pod względem wielu cech np.: - liczba mieszkańców - dochody w przeliczeniu na mieszkańca - stopa bezrobocia - udział powierzchni użytków rolnych, lasów, sadów -itp.

Dla scharakteryzowania poszczególnych wydzielonych grup obiektów można wykorzystać wartości średnich poszczególnych cech (zmiennych) na podstawie których była wykonana klasyfikacja. Średnie wartości cech dla obiektów z poszczególnych grup nazywamy centroidami. Nie ma jednej obiektywnej metody ustalania liczba wydzielonych grup obiektów. Liczba ta może być ustalana bądź przed wykonaniem analiz, lub też po wykonaniu analiz, np. na podstawie dendrogramu.

Przykład analiza skupień Podział odmian jabłoni podstawie kilku cech Wartości średnie wybranych cech kilkunastu odmian jabłoni odmiana powierzchnia przekroju pnia (cm 2 ) średnia produktywnośc drzew (kg/cm 2 ) średni plon (t/ha) średnia masa owocu (g) Arlet 35,2 0,48 29,3 144 Red Boskoop 34 0,44 24,3 179 Fiesta 36,3 0,51 33,2 148 Gala Must 24,5 0,52 23,6 141 Golden Delicious Reinders 33,5 0,52 29 147 Jonagored 31,2 0,32 20,2 164 Jonica 28,6 0,34 18,2 167 Wilmuta 34,5 0,5 25,8 187 Jonagold 33,1 0,45 26,8 186 Elstar 62 0,3 33 135 Red Elstar 66,2 0,27 27 138 Elshof 60,2 0,3 32 139 Gloster 35,2 0,45 34,2 177 Dane na podstawie: http://www.up.poznan.pl/ogrodnictwo/ogrodnictwo%2041/67%20wocir.pdf

50 Ward's Method,Squared Euclidean 40 Odleglosc 30 20 10 0 Arlet Golden Delicious Fiesta Gala Must Red Boskoop Wilmuta Jonagold Gloster Jonagored Jonica Elstar Elshof Red Elstar Wartości średnie (centroidy) ocenianych cech dla wydzielonych grup w analizie skupień Grupa 1 2 3 powierzchnia przekroju pnia (cm 2 ) 32,4 32,8 62,8 średnia produktywnośc drzew (kg/cm 2 ) 0,51 0,42 0,29 średni plon (t/ha) 28,8 24,9 30,7 średnia masa owocu (g) 145,0 176,7 137,3

Analiza składowych głównych (ang. PCA principal component analysis) PCA jest często używana do redukcji liczby zmiennych zbioru danych statystycznych, poprzez wyznaczenie nowych zmiennych (składowych głównych) skorelowanych z zmiennymi źródłowymi. Dzięki temu możemy zredukować liczbę np. do dwóch lub trzech zmiennych, co umożliwia uproszczone wielowymiarowe porządkowanie obiektów i ocenę wizualną zróżnicowania obiektów w układzie współrzędnych o dwóch lub trzech wymiarach. Każda ze składowych głównych (czyli nowych zmiennych) wyjaśnia określony % zmienności całkowitej wszystkich zmiennych. Jeśli % wyjaśnianej zmienności przez pierwszą i drugą składową główną jest duży (bliski 100%), to możemy z wykorzystaniem dwuwymiarowego układu współrzędnych właściwie ocenić zróżnicowanie wielowymiarowe badanych obiektów. Taka redukcja liczby wymiarów jest możliwa tylko w przypadku występowania dość silnych korelacji między poszczególnymi cechami

Przykład: PCA Analiza składowych głównych Na podstawie tych samych danych, które były wykorzystane w analizie skupień Wartości pierwszych dwóch składowych (PC1 i PC2) dla poszczególnych odmian odmiana Arlet Red Boskoop Fiesta Gala Must Golden Delicious Reinders Jonagored Jonica Wilmuta Jonagold Elstar Red Elstar Elshof Gloster PC1 (54,5%) -0,04-1,14 0,02-1,06-0,42-0,57-1,01-1,52-1,24 2,59 2,45 2,34-0,40 PC2 (28,4%) 0,85-0,45 1,60 0,34 1,06-1,74-1,92 0,10-0,07 0,15-0,99-0,03 1,10 Wartości współczynników korelacji badanych cech z poszczególnymi składowymi głównymi PC1 PC2 powierzch nia przekroju pnia (cm 2 ) 0,95-0,06 średnia produktyw ność drzew (kg/cm2) -0,69 0,68 średni plon (t/ha) 0,51 0,80 średnia masa owocu (g) -0,73-0,17

Wartości dwóch pierwszych składowych głównych dla poszczególnych odmian (numery oznaczają grupy odmian wydzielone w analizie skupień) 2,0 1,5 1,0 0,5 PC2 0,0-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0-0,5 1 2 3-1,0-1,5-2,0-2,5 PC1 Analiza składowych głównych ułatwia scharakteryzowanie grup obiektów wydzielonych w analizie skupień, pozwala na graficzne przedstawienie zróżnicowania tych obiektów w układzie dwuwymiarowym