WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R

Wielkość: px
Rozpocząć pokaz od strony:

Download "WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R"

Transkrypt

1 PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr TAKSONOMIA 14 Klasyfikacja i analiza d anych teoria i zasto so wania Marek Walesiak Akademia Ekonomiczna we Wrocławi WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R 1. Wstęp Pakiet clstersim, napisany w programie R dostępnym na stronie składa się z fnkcji podstawowej clster.sim oraz z szesnast fnkcji pomocniczych. Fnkcja podstawowa słży poszkiwani optymalnej procedry klasyfikacyjnej (spośród różnych kombinacji formł normalizacyjnych, miar odległości i metod klasyfikacji) dla danego typ danych z pnkt widzenia wybranego indeks jakości klasyfikacji. W artykle zaprezentowana zostanie szczegółowa charakterystyka wybranych fnkcji pomocniczych pakiet clstersim. Szczegółowy opis pakiet clstersim znajdje się w pracach: [Walesiak, Ddek 2006a; 2006b; 2007]. Program dostępny jest na stronie Fnkcjonjące na rynk pakiety statystyczne (np. SPSS, Statistica, S-Pls, SAS) nie dostępniają takich możliwości, jakie niesie z sobą pakiet clstersim oraz środowisko programistyczne R. W pakiecie clstersim dostępnych jest m.in. jedenaście formł normalizacyjnych, cztery miary odległości oraz siedem indeksów jakości klasyfikacji. Inne miary odległości oraz metody klasyfikacji (m.in. hierarchiczne metody aglomeracyjne, metoda k-średnich i metoda k-medoids) dostępne są w pakietach stats i clster. W zasadniczej części artykł zaproponowane zostaną przykładowe składnie poleceń (procedry) z wykorzystaniem wybranych fnkcji z pakiet clstersim, w tym w szczególności dist.gdm. Procedry te, mające zastosowanie nie tylko w odniesieni do miary GDM, łatwią potencjal- 46

2 nem żytkownikowi realizację wiel zagadnień klasyfikacyjnych niedostępnych w podstawowych pakietach statystycznych. 2. Charakterystyka fnkcji pakiet clstersim Pakiet clstersim w wersji składa się z fnkcji podstawowej clster.sim oraz z szesnast fnkcji pomocniczych: data.normalization, dist.bc, dist.gdm, dist.sm, index.g1, index.g2, index.g3, index.s, index.kl, index.h, index.gap, clster.description, initial.centers, HINoV.Mod, HINoV.Symbolic, replication.mod. Szczegółowo scharakteryzowane zostaną fnkcje niezbędne z pnkt widzenia dalszych rozważań: data.normalization (x, type="n0") fnkcja dokonjąca normalizacji danych wedłg jednej z formł n0-n11 (x macierz danych, type typ formły z tab. 1). dist.gdm (x,method="gdm1") fnkcja obliczająca macierz odległości wedłg miary GDM (GDM1 dla danych metrycznych, a GDM2 dla danych porządkowych) zob. [Walesiak 2006]. index.g1 (x,cl) fnkcja obliczająca wartości indeks Calińskiego- -Harabasza dla macierzy danych x i stalonego podział zbior obiektów na klasy cl. index.g2(d,cl) fnkcja obliczająca wartości indeks Bakera-Hberta dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.g3(d,cl) fnkcja obliczająca wartości indeks Hberta-Levine a dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.s(d,cl) fnkcja obliczająca wartości indeks Silhoette Rosseewa dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.kl (x,clall) fnkcja obliczająca wartości indeks Krzanowskiego-Lai dla macierzy danych x oraz trzech wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na - 1, i + 1 klas (clall). index.h (x,clall) fnkcja obliczająca wartości indeks Hartigana dla macierzy danych x oraz dwóch wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na i 1 klas (clall). index.gap (x, clall, reference.distribtion="nif", B=10, method="pam") fnkcja obliczająca wartości indeks Gap dla 47

3 macierzy danych x, dwóch wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na i + 1 klas (clall), sposob generowania obserwacji na zmiennych z rozkład jednostajnego (nif, pc), liczby generowanych zbiorów obserwacji (B=10) oraz przyjętej metody klasyfikacji (ward, single, complete, average, mcqitty, median, centroid, pam, k-means). Tabela 1. Formły normalizacyjne dla danych metrycznych Skala pomiar zmiennych Nr Nazwa formły Formła przed normalizacją po normalizacji n0 bez normalizacji ilorazowa / przedziałowa n1 standaryzacja z ( x x ) s ilorazowa / przedziałowa przedziałowa ij ij j j z = x Me MAD ij ij j j ilorazowa / przedziałowa przedziałowa n2 ( - ) 1, 4826 standaryzacja Webera n3 nitaryzacja z ( x x ) r ilorazowa / przedziałowa przedziałowa n4 n5 n6 nitaryzacja zerowana normalizacja w przedziale [ 1; 1] ij ij j j zij xij min { xij} rj i ilorazowa / przedziałowa przedziałowa zij xij x j max xij x j ilorazowa / przedziałowa przedziałowa i zij xij s j n7 zij xij rj n8 zij xij max{ xij} i przekształcenia ilorazowe zij xij x n9 j n10 ij ij i1 ij n z x x 2 n11 z x x ij ij i1 ij x ( z ) wartość (znormalizowana wartość) j-tej zmiennej dla i-tego obiekt, ij ij x j ( s j, r j) średnia (odchylenie standardowe, rozstęp) dla j-tej zmiennej, n Me ( MAD ) mediana Webera (medianowe odchylenie bezwzględne dla j-tej zmiennej). j j Źródło: opracowanie własne. Charakterystykę siedmi indeksów jakości klasyfikacji znajdjących zastosowanie do stalenia liczby klas zarówno w przypadk metod optymalizacyjnych (kśrednich, k-medoids), jak i hierarchicznych zawiera tab. 2. clster.description(x, cl, sdtype="sample") fnkcja obliczająca osobno dla każdej klasy i zmiennej z stalonego podział zbior obiektów na klasy cl następjące statystyki opisowe: średnią arytmetyczną, odchylenie standardowe, medianę, medianowe odchylenie bezwzględne, dominantę (dla zmiennych nominalnych i porządkowych, jeśli występje więcej wartości o maksymalnej częstości występowania, to zwracana jest wartość N.A. ). 48

4 Tabela 2. Indeksy oceny jakości klasyfikacji Lp. Nazwa indeks Formła Kryterim wybor liczby klas Calińskiego i Harabasza Bakera i Hberta Hberta i Levine B /( 1) G1( ) W /( n ), G1( ) ˆ argmax{ G1( )} R s( ) s( ) G2( ), G2( ) [ 1, 1] ˆ argmax{ G2( )} s( ) s( ) G3( ) D( ) r D r D r D min, 3( ) (0, 1) max min G ˆ argmin{ G3( )} 4 Silhoette n 1 b( i) a( i) S ( ), S ( ) [ 1, 1] ˆ argmax{ S( )} n max a( i); b( i) i1 5 Krzanowskiego i Lai DIFF KL( ), KL( ) DIFF 1 R DIFF ( 1) m W m W 2 / 2 / 1 ˆ argmax{ KL( )} 6 Hartigana 7 Gap W H( ) 1 ( n 1), H( ) W 1 B b 1 R B 1 Gap( ) logwb logw, Gap( ) R najmniejsze, dla którego H ( ) 10 najmniejsze, dla którego diff 0 B macierz kowariancji międzyklasowej, macierzy, B ( W ) tr( ) tr W macierz kowariancji wewnątrzklasowej, tr ślad B W, r, s 1,..., nmer klasy, liczba klas, i, k 1,, n nmer obiekt, n liczba obiektów, m liczba zmiennych, s( ) liczba par odległości zgodnych, s( ) liczba par odległości niezgodnych, D ( ) sma wszystkich odległości wewnątrzklasowych, r liczba odległości wewnątrzklasowych, D min ( D max ) najmniejsza (największa) odległość wewnątrzklasowa, a( i) dik ( nr 1) średnia odległość obiekt i od pozostałych obiektów należących do klasy k{ Pr \ i} P r ; bi () min{ d } sr ip s, ips ik s kps d d n średnia odległość obiekt i od obiektów należących do klasy P s, B liczba generowanych zbiorów obserwacji, s sd 1 1/ B, sd odchylenie standardowe z wartości { logw b }; diff Gap( ) Gap( 1) s 1. Źródło: opracowanie własne na podstawie prac: [Caliński, Harabasz 1974; Hbert 1974; Milligan, Cooper 1985; Kaffman, Rosseew 1990; Hartigan 1975; Tibshirani, Walther, Hastie 2001]. W odchyleni standardowym w mianownik występować będzie 1 n- dla próby (sdtype="sample") i n dla poplacji (sdtype="poplation"). Każda z fnkcji może być wykorzystana w innych procedrach program R, po rchomieni pakiet clstersim. 49

5 3. Charakterystyka przykładowych składni poleceń z wykorzystaniem fnkcji pakiet clstersim Zwykle macierz danych, stanowiąca pnkt wyjścia zastosowania metod klasyfikacji, przygotowywana jest w arksz kalklacyjnym MS Excel. W związk z tym, że nie ma bezpośrednich procedr wczytywania zawartości skoroszytów MS Excel do program R, najwygodniejsze jest zapisanie danych z arksza w formacie csv. Zapisanie danych w Excel wymagania wybrania polecenia Plik Zapisz jako... i wybrania odpowiedniego format. Do wczytania danych w programie R słży instrkcja read.csv2 (w język polskim symbolem łamka dziesiętnego jest przecinek). Podane parametry instrkcji read.csv2 oznaczają, że dane w plik csv zawierają nagłówek (header=true) oraz w pierwszej kolmnie znajdją się nazwy obiektów (row.names=1). Zawsze należy podać pełną ścieżkę dostęp do plik z danymi z separatorem nazwy oznaczonym /. Macierz danych w przykładowym plik csv jest następjąca (macierz danych zawiera 7 obiektów i 2 zmienne): ;x1;x2 1;3;4 2;2,5;5 3;2,5;3,5 4;10;2 5;9;1,5 6;4;11 7;4,5;10. Składnia poleceń pozwalająca na wczytanie danych oraz obliczenie odległości między obiektami (fnkcja dist.gdm) i zestawienie ich w macierz jest następjąca 1 : > library(clster) > library(clstersim) > x <- read.csv2("c:/dane_7x2.csv", header=true, strip.white = TRUE, row.names=1) > x <- as.matrix(x) > z <- data.normalization (x, type="n1") > z <- as.data.frame(z) > d <- dist.gdm (z, method="gdm1"). W przedstawionej składni poleceń przyjęto następjące założenia: do normalizacji wartości zmiennych zastosowano formłę klasycznej standaryzacji n1 (inne formły znajdją się w tab. 1), do pomiar odległości zastosowano miarę GDM1 zob. m.in. [Walesiak 2006]. 1 Miary odległości dla zmiennych ilorazowych lb przedziałowych dostępne są w procedrze dist, a dla zmiennych binarnych w procedrze dist.binary. 50

6 Po zastosowani tej procedry (dodając na końc polecenie print(d)) otrzymje się w rezltacie macierz odległości: Jeśli do klasyfikacji zbior obiektów zastosowana zostanie metoda k-medoids (pam) [Kaffman, Rosseew 1990, s ; Gatnar, Walesiak i in. 2004, s ], to składnię należy zpełnić o następjące polecenia: > cl <- pam(d, 3, diss = TRUE) > print(cl$clstering). W wynik zastosowania tej procedry otrzymje się podział zbior obiektów na 3 klasy: > [1] Zastosowanie innych metod klasyfikacji wymaga modyfikacji składni. Dla hierarchicznej metody aglomeracyjnej najdalszego sąsiada składnia poleceń jest następjąca: > hc <- hclst(d, method = "complete") > cl <- ctree(hc, 3) > print(cl). Inne hierarchiczne metody aglomeracyjne dostępne są w programie hclst (pakiet stats) i mają następjącą składnię: metoda najbliższego sąsiada (method = "single"), metoda średniej grpowej (method = "average"), metoda ważonej średniej grpowej (method = "mcqitty"), metoda Warda (method = "Ward"), metoda medianowa (method = "median"), metoda centroidalna (method = "centroid"). Dla hierarchicznych metod aglomeracyjnych sporządza się dendrogram (zob. rys. 1), dodając polecenia: > options(otdec = ",") > plot(hc, hang = -1, labels = NULL, main = NULL, sb = NULL, ann = FALSE) > title(xlab = "Nmer klasy", ylab = "Poziom połączenia klas"). 51

7 0,7 0,6 0,5 Poziom połączenia klas 0,4 0,3 0,2 0,1 0, Nmer klasy Rys. 1. Dendrogram Źródło: opracowanie własne. Jeśli dodatkowo wprowadzimy polecenia: > options(otdec = ",") > desc <-clster.description(x, cl$clster, "poplation") > print(desc), to osobno dla każdej klasy i zmiennej z stalonego podział zbior obiektów na trzy klasy obliczone zostaną następjące statystyki opisowe: średnia arytmetyczna (1), odchylenie standardowe (2), mediana (3), medianowe odchylenie bezwzględne (4), dominanta (5). Dla danego podział zbior obiektów na klasy możliwe jest obliczenie wybranych statystyk opisowych. Zmienić należy polecenie z ostatniej linii: > print(desc[,,3]). Pierwszy wymiar w poleceni desc[,,3] oznacza nmer klasy, drgi wymiar nmer zmiennej, a trzeci wymiar nmer statystyki opisowej. Znak, niepoprzedzony liczbą oznacza, że dotyczy wszystkich rozpatrywanych wariantów. Zatem polecenie desc[,,3] oznacza, że dla wszystkich klas i zmiennych obliczone zostaną mediany. Po zastosowani tej procedry otrzymje się: > [,1] [,2] > [1,] 2,50 4,00 > [2,] 9,50 1,75 > [3,] 4,25 10,50. Zdecydowana większość fnkcji program R zwraca złożone obiekty lb listy zawierające wiele informacji wygenerowanych przez wykonywany algorytm. Na 52

8 przykład obiekt hc opisjący wyniki działania dowolnej hierarchicznej metody aglomeracyjnej wywołany poleceniem names(hc) zawiera: merge nmery łączonych klas w klasyfikacji hierarchicznej (wartości jemne oznaczają dołączenie klasy jednoelementowej, a dodatnie dołączenie klasy co najmniej dwelementowej), height wartości malejące poziomów połączenia klas, order wektor zawierający nmery obiektów w kolejności występjącej w dendrogramie, labels etykiety nadane klasyfikowanym obiektom, method nazwa zastosowanej hierarchicznej metody aglomeracyjnej, call składnia zastosowanego polecenia hclst, dist.method nazwa miary odległości (występje, jeśli wykorzystano w składni polecenie dist z atrybtem method ). Wydanie polecenia np. print(hc$height) spowodje wypisanie poziomów połączenia klas w klasyfikacji hierarchicznej. Zapisanie poziomów połączenia klas w osobnym plik na dysk, zgodnie z formatem csv, wymaga dodania do składni polecenia: > write.table((hc$height), file="c:/hc_height.csv", sep=";", dec=",", col.names=false). Gdy jesteśmy zainteresowani przeprowadzeniem podział metodą k-medoids zbior siedmi obiektów na dwie do sześci klas, a następnie wybrani tego podział, dla którego indeks Calińskiego i Harabasza (zob. [Gatnar, Walesiak i in. 2004, s. 338]) G1 przyjmje wartość maksymalną, to pierwotną składnię należy zpełnić o polecenia: > min_liczba_klas=2 > max_liczba_klas=6 > max<- -1 > wyniki<-array(0,c(max_liczba_klas-min_liczba_klas+1, 2)) > wyniki[,1]<- min_liczba_klas:max_liczba_klas for (liczba_klas in min_liczba_klas:max_liczba_klas) > { > cl2 <- pam(d, liczba_klas, diss = TRUE) > wyniki[liczba_klas - min_liczba_klas+1,2]<- G1 <- index.g1 (z, cl2$clster) > if (max<g1){ > max<- G1 > clmax<- cl2$clster > lk<- liczba_klas > } 53

9 > } > print(paste("max G1 dla", lk, "klas =",max)) > print("klasyfikacja dla max G1") > print(clmax) > write.table(wyniki, file="g1_reslts.csv", sep=";", dec=",", row.names=true, col.names=false) > plot(wyniki, type="p", xlab="liczba klas", ylab="g1", xaxt="n") > axis(1,c(min_liczba_klas:max_liczba_klas)). W wynik zastosowania tej procedry otrzymje się: [1] "max G1 dla 3 klas = 113, " [1] "klasyfikacja dla max G1" [1] G Liczba klas Rys. 2. Graficzna prezentacja wartości indeks G1 Źródło: opracowanie własne. Dodanie do składni polecenia: > opis < clster.description(x, clmax, "poplation") > print(opis) pozwoli zpełnić wyniki klasyfikacji o statystyki opisowe obliczone osobno dla każdej klasy i zmiennej podział zbior obiektów, dla którego indeks G1 przyjmje wartość maksymalną. 54

10 4. Podsmowanie Fnkcjonjące na rynk pakiety statystyczne nie dostępniają takich możliwości, jakie niesie z sobą pakiet clstersim oraz środowisko programistyczne R. W artykle scharakteryzowano wybrane fnkcje pomocnicze pakiet clster- Sim. Następnie zaprezentowano przykładowe składnie poleceń (procedry) z wykorzystaniem m.in. wybranych fnkcji z pakiet clstersim, w tym w szczególności dist.gdm. Procedry te pozwalają na realizację wiel zagadnień klasyfikacyjnych niedostępnych w podstawowych pakietach statystycznych. Literatra Caliński R.B., Harabasz J. (1974), A Dendrite Method for Clster Analysis,,,Commnications in Statistics vol. 3, s Gatnar E., Walesiak M. (red.) (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, AE, Wrocław. Hartigan J. (1975), Clstering Algorithms, Wiley, New York. Hbert L. (1974), Approximate Evalation Techniqe for the Single-Link and Complete-Link Hierarchical Clstering Procedres,,,Jornal of the American Statistical Association vol. 69, no. 347, s Kafman L., Rosseew P.J. (1990), Finding Grops in Data: an Introdction to Clster Analysis, Wiley, New York. Milligan G.W., Cooper M.C. (1985), An Examination of Procedres of Determining the Nmber of Clster in a Data Set,,,Psychometrika vol. 50, no. 2, s R Development Core Team (2006), R: A Langage and Environment for Statistical Compting, R Fondation for Statistical Compting, Vienna, URL Tibshirani R., Walther G., Hastie T. (2001), Estimating the Nmber of Clsters in a Data Set via the Gap Statistic,,,Jornal of the Royal Statistical Society ser. B, vol. 63, part 2, s Walesiak M. (2006), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, wydanie drgie rozszerzone, AE, Wrocław. Walesiak M., Ddek A. (2006a), Symlacyjna optymalizacja wybor procedry klasyfikacyjnej dla danego typ danych oprogramowanie kompterowe i wyniki badań, [w:] K. Jajga, M. Walesiak (red.), Klasyfikacja i analiza danych teoria i zastosowania, Taksonomia 13, Prace Nakowe AE we Wrocławi nr 1126, AE, Wrocław, s

11 Walesiak M., Ddek A. (2006b), Determination of Optimal Clstering Procedre for a Data Set, 30 th Annal Conference of the German Classification Society (GfKl),,Advances in Data Analysis, Berlin, March Walesiak M., Ddek A. (2007), Symlacyjna optymalizacja wybor procedry klasyfikacyjnej dla danego typ danych charakterystyka problem, Zeszyty Nakowe Uniwersytet Szczecińskiego (w drk). THE SELECTED PROBLEMS IN CLUSTER ANALYSIS WITH APPLICATION OF CLUSTERSIM COMPUTER PROGRAM AND R ENVIRONMENT Smmary Package clstersim has been written in R langage. It contains one main fnction clster.sim and sixteen axiliary fnctions. The article presents selected axiliary fnctions of clstersim program and examples of the syntax (procedres) for solving different clstering problems sing among others clstersim package inclding especially dist.gdm fnction. These procedres help to resolve a broad range of classification problems that are not available in statistical packages (e.g. SPSS, Statistica, S-Pls, SAS). 56

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 47 009 TAKSONOMIA 16 Klasyfikacja i analiza danych teoria i zastosowania Uniwersytet Ekonomiczny we Wrocławiu OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ

Bardziej szczegółowo

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WR OCŁAWIU Nr 1126 2006 TAKSONOMIA 13 Klasyfikacja i analiza d anych teoria i zasto so wania Marek Walesiak, Andrzej Dudek Akademia Ekonomiczna we Wrocławiu SYMULACYJNA

Bardziej szczegółowo

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania.

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania. PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) 2008 TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania Marek Walesiak Uniwersytet Ekonomiczny we Wrocławi PROCEURA ANALIZY

Bardziej szczegółowo

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 450 PRACE KATEDRY EKONOMETRII I STATYSTYKI NR 17 2006 MAREK WALESIAK ANDRZEJ DUDEK Akademia Ekonomiczna Wrocław SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY

Bardziej szczegółowo

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii

Bardziej szczegółowo

strona 1 / 12 Autor: Walesiak Marek Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje: Autor: Walesiak Marek Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii i zastosowań metod taksonomicznych, s.

Bardziej szczegółowo

Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH. 1. Wstęp

Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH. 1. Wstęp Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH 1. Wstęp W statystycznej analizie danych istnieje możliwość stosowania znacznie większej liczby metod,

Bardziej szczegółowo

Spis treści. Summaries

Spis treści. Summaries Spis treści Wstęp... 7 Danuta Strahl: Dwustopniowa klasyfikacja pozycyjna obiektów hierarchicznych ze względu na strukturę obiektów niższego rzędu... 9 Andrzej Dudek: Klasyfikacja spektralna a tradycyjne

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI Marek Walesiak Akademia Ekonomiczna im Oskara Langego we Wrocławiu OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI l Wprowadzenie W typowym studium klasyfikacyjnym wyodrębnia

Bardziej szczegółowo

Instalacja Pakietu R

Instalacja Pakietu R Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego: Download R for Windows opcja: install R for the first time opcja: Download R 3.3.3 for Windows uruchomienie R-3.3.3-win MAGDA

Bardziej szczegółowo

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM PRZEGLĄD STATYSTYCZNY R. LXIII ZESZYT 1 2016 MAREK WALESIAK 1 WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM 1. WPROWADZENIE Normalizację przeprowadza się dla macierzy danych

Bardziej szczegółowo

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych. Laboratorium z ekonometrii (GRETL) 1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych. Okno startowe: Póki nie wczytamy jakiejś bazy danych (lub nie stworzymy własnej), mamy dostęp tylko do dwóch

Bardziej szczegółowo

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Wprowadzenie do Pakietu R dla kierunku Zootechnika Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego:

Bardziej szczegółowo

Graficzna prezentacja danych statystycznych

Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA PRZEGLĄD STATYSTYCZNY R. LIX ZESZYT 1 2012 MAREK WALESIAK KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE Analiza skupień bazująca na dekompozycji spektralnej (spectral clustering)

Bardziej szczegółowo

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych 1. Wprowadzenie Metody skalowania wielowymiarowego obiektów

Bardziej szczegółowo

Czym jest analiza skupień?

Czym jest analiza skupień? Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia: Ćwiczenie Analiza błędów i niepewności pomiarowych Proam ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ w pośrednim pomiarze rezystancji

Bardziej szczegółowo

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia: Ćwiczenie Analiza błędów i niepewności pomiarowych Proam ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ A i w bezpośrednim pomiarze napięcia.

Bardziej szczegółowo

Badania eksperymentalne

Badania eksperymentalne Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

Regionalizacja biomasy ubocznej i odpadowej w Polsce i Europie

Regionalizacja biomasy ubocznej i odpadowej w Polsce i Europie Regionalizacja biomasy ubocznej i odpadowej w Polsce i Europie Przemysław Czaban Warsztaty Ocena potencjału biomasy odpadowej i ubocznej oraz skutki środowiskowe produkcji i wykorzystania biomasy IUNG-PIB,

Bardziej szczegółowo

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 1006 2003 Zastosowania statystyki i matematyki w ekonomii Marek Walesiak Akademia Ekonomiczna we Wrocławiu MIARA ODLEGŁOŚCI OBIEKTÓW OPISANYCH ZMIENNYMI

Bardziej szczegółowo

Elementy statystyki STA - Wykład 1

Elementy statystyki STA - Wykład 1 STA - Wykład 1 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 Programy do statystycznej analizy danych Komercyjne: Niekomercyjne: a) Statistica URL http://www.statsoft.com URL http://www.statsoft.pl

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości

Bardziej szczegółowo

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:

Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia: Ćwiczenie Analiza błędów i niepewności pomiarowych Program ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ w pośrednim pomiarze rezystancji

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis Komitet Redakcyjny Andrzej Matysiak (przewodniczący), Tadeusz Borys, Andrzej Gospodarowicz, Jan Lichtarski, Adam Nowicki, Walenty Ostasiewicz, Zdzisław Pisz, Teresa Znamierowska Recenzenci Stefan Mynarski,

Bardziej szczegółowo

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr / Rafał Czyżycki Uniwersytet Szczeciński Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki Streszczenie,

Bardziej szczegółowo

Analiza skupień. Idea

Analiza skupień. Idea Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.

Bardziej szczegółowo

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG KNIME podstawy obsługi programu Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG KNIME KNIME jest programem działającym na licencji GNU można go pobrać za darmo

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Pozyskiwanie wiedzy z danych

Pozyskiwanie wiedzy z danych Pozyskiwanie wiedzy z danych dr Agnieszka Goroncy Wydział Matematyki i Informatyki UMK PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO Pozyskiwanie wiedzy

Bardziej szczegółowo

MATLAB Z3. Rafał Woźniak. Warsaw, Faculty of Economic Sciences, University of Warsaw

MATLAB Z3. Rafał Woźniak. Warsaw, Faculty of Economic Sciences, University of Warsaw Faculty of Economic Sciences, University of Warsaw Warsaw, 09-03-2017 Generowanie liczb losowych rand(1) rand(1) generuje liczbę losową z przedziału (0,1) Jak można uzyskać liczby losowe z przedziału 1

Bardziej szczegółowo

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH Marcin Pełka Akademia Ekonomiczna we Wrocławiu METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH 1. Wprowadzenie Metody skalowania wielowymiarowego obiektów symbolicznych, podobnie jak w przypadku

Bardziej szczegółowo

BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI

BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 265 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Finansów i Ubezpieczeń Katedra Analiz Gospodarczych i

Bardziej szczegółowo

Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013

Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013 Analiza skupień Waldemar Wołyński, Tomasz Górecki Wydział Matematyki i Informatyki UAM Poznań 6 marca 2013 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca 2013 1 / 46 Idea: Analiza skupień jest narzędziem

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012

Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012 Małgorzata Kobylińska Wydział Nauk Ekonomicznych Uniwersytet Warmińsko-Mazurski w Olsztynie Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012 1. Wstęp Jednym

Bardziej szczegółowo

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0 Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych PRACE NAUKOWE AKADEMll EKONOMCZNEJ WE WROCŁAWU Nr 718 1996 nł"or:rnatyka i Ekono:rnet:ria 1 Marek Walesiak DOPUSZCZALNE DZAŁANA NA LCZBACH W BADANACH MARKETNGOWYCH Z PUNKTU WDZENA SKAL POMAROWYCH * 1.

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady

Bardziej szczegółowo

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy

Bardziej szczegółowo

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu,

Bardziej szczegółowo

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy

Bardziej szczegółowo

WYKAZ PRAC PUBLIKOWANYCH

WYKAZ PRAC PUBLIKOWANYCH Dr hab. Andrzej Bąk Prof. nadzw. AE WYKAZ PRAC PUBLIKOWANYCH I. Publikacje zwarte I.1. KsiąŜki 1. Walesiak M., Bąk A. [1997], Realizacja badań marketingowych metodą conjoint analysis z wykorzystaniem pakietu

Bardziej szczegółowo

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 746 EKONOMICZNE PROBLEMY USŁUG NR 101 2012 RAFAŁ KLÓSKA Uniwersytet Szczeciński REGIONALNE ZRÓŻNICOWANIE POZIOMU ROZWOJU SPOŁECZNO-GOSPODARCZEGO W POLSCE

Bardziej szczegółowo

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego Metody Analiz Przestrzennych Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego mgr Marcin Semczuk Zakład Przedsiębiorczości i Gospodarki Przestrzennej Instytut

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony zbiór jednostek, które

Bardziej szczegółowo

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik

Bardziej szczegółowo

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1 Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1 Streszczenie. Punktem wyjścia artykułu jest spostrzeżenie,

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych

Bardziej szczegółowo

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4 KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)

Bardziej szczegółowo

Szczegółowy rozkład materiału dla klasy 3b poziom rozszerzny cz. 1 - liceum

Szczegółowy rozkład materiału dla klasy 3b poziom rozszerzny cz. 1 - liceum Szczegółowy rozkład materiału dla klasy b poziom rozszerzny cz. - liceum WYDAWNICTWO PAZDRO GODZINY Lp. Tematyka zajęć Liczba godzin I. Funkcja wykładnicza i funkcja logarytmiczna. Potęga o wykładniku

Bardziej szczegółowo

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych

Bardziej szczegółowo

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr 42/2012 Rafał Klóska Uniwersytet Szczeciński Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Streszczenie.

Bardziej szczegółowo

Warsztaty dla nauczycieli

Warsztaty dla nauczycieli WPROWADZENIE Wyprowadzanie danych: Wyprowadzanie na ekran komunikatów i wyników umożliwia instrukcja wyjścia funkcja print(). Argumentami funkcji (podanymi w nawiasach) mogą być teksty, wyrażenia arytmetyczne

Bardziej szczegółowo

Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych

Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych ZESPÓŁ SZKÓŁ HANDLOWO-EKONOMICZNYCH IM. MIKOŁAJA KOPERNIKA W BIAŁYMSTOKU Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych Mój przedmiot matematyka spis scenariuszy

Bardziej szczegółowo

Matlab, zajęcia 3. Jeszcze jeden przykład metoda eliminacji Gaussa dla macierzy 3 na 3

Matlab, zajęcia 3. Jeszcze jeden przykład metoda eliminacji Gaussa dla macierzy 3 na 3 Matlab, zajęcia 3. Pętle c.d. Przypomnijmy sobie jak działa pętla for Możemy podać normalnie w Matlabie t=cputime; for i=1:20 v(i)=i; e=cputime-t UWAGA: Taka operacja jest bardzo czasochłonna i nieoptymalna

Bardziej szczegółowo

Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony

Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 9 tygodni 6 godzin = 7 godziny Lp. Tematyka zajęć Liczba godzin I. Funkcja wykładnicza i funkcja logarytmiczna.

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość

Bardziej szczegółowo

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28 Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 289 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Ekonomii Katedra Analiz i Prognozowania Rynku Pracy jaroslaw.wasowicz@ue.katowice.pl

Bardziej szczegółowo

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 563/3/2014

Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 563/3/2014 Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 56//0 5 tygodni godzin = 75 godzin Lp. Tematyka zajęć I. Kombinatoryka i rachunek prawdopodobieństwa. Reguła

Bardziej szczegółowo

08. Normalizacja wyników testu

08. Normalizacja wyników testu 08. Normalizacja wyników testu q Pojęcie normy q Rodzaje norm q Znormalizowana skala ciągła ( z ) q Znormalizowane skale skokowe q Kryteria wyboru właściwej skali standardowej vpojęcie normy Norma -wzór,

Bardziej szczegółowo

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik babulice100.xls

Bardziej szczegółowo

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne

Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne Pakiety statystyczne stosowane do analizy danych: SAS SPSS Statistica R S-PLUS 1 Środowisko R Język S- J. Chambers i in. (1984,1988)

Bardziej szczegółowo

SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a Szczecin

SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a Szczecin SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a 70-453 Szczecin 2 Lp. Temat Numer części materiałów 1 Język R oraz środowisko RStudio 1 2 Składnia języka 3 3 Podstawowe

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info

Bardziej szczegółowo