WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R
|
|
- Mikołaj Nowak
- 8 lat temu
- Przeglądów:
Transkrypt
1 PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr TAKSONOMIA 14 Klasyfikacja i analiza d anych teoria i zasto so wania Marek Walesiak Akademia Ekonomiczna we Wrocławi WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R 1. Wstęp Pakiet clstersim, napisany w programie R dostępnym na stronie składa się z fnkcji podstawowej clster.sim oraz z szesnast fnkcji pomocniczych. Fnkcja podstawowa słży poszkiwani optymalnej procedry klasyfikacyjnej (spośród różnych kombinacji formł normalizacyjnych, miar odległości i metod klasyfikacji) dla danego typ danych z pnkt widzenia wybranego indeks jakości klasyfikacji. W artykle zaprezentowana zostanie szczegółowa charakterystyka wybranych fnkcji pomocniczych pakiet clstersim. Szczegółowy opis pakiet clstersim znajdje się w pracach: [Walesiak, Ddek 2006a; 2006b; 2007]. Program dostępny jest na stronie Fnkcjonjące na rynk pakiety statystyczne (np. SPSS, Statistica, S-Pls, SAS) nie dostępniają takich możliwości, jakie niesie z sobą pakiet clstersim oraz środowisko programistyczne R. W pakiecie clstersim dostępnych jest m.in. jedenaście formł normalizacyjnych, cztery miary odległości oraz siedem indeksów jakości klasyfikacji. Inne miary odległości oraz metody klasyfikacji (m.in. hierarchiczne metody aglomeracyjne, metoda k-średnich i metoda k-medoids) dostępne są w pakietach stats i clster. W zasadniczej części artykł zaproponowane zostaną przykładowe składnie poleceń (procedry) z wykorzystaniem wybranych fnkcji z pakiet clstersim, w tym w szczególności dist.gdm. Procedry te, mające zastosowanie nie tylko w odniesieni do miary GDM, łatwią potencjal- 46
2 nem żytkownikowi realizację wiel zagadnień klasyfikacyjnych niedostępnych w podstawowych pakietach statystycznych. 2. Charakterystyka fnkcji pakiet clstersim Pakiet clstersim w wersji składa się z fnkcji podstawowej clster.sim oraz z szesnast fnkcji pomocniczych: data.normalization, dist.bc, dist.gdm, dist.sm, index.g1, index.g2, index.g3, index.s, index.kl, index.h, index.gap, clster.description, initial.centers, HINoV.Mod, HINoV.Symbolic, replication.mod. Szczegółowo scharakteryzowane zostaną fnkcje niezbędne z pnkt widzenia dalszych rozważań: data.normalization (x, type="n0") fnkcja dokonjąca normalizacji danych wedłg jednej z formł n0-n11 (x macierz danych, type typ formły z tab. 1). dist.gdm (x,method="gdm1") fnkcja obliczająca macierz odległości wedłg miary GDM (GDM1 dla danych metrycznych, a GDM2 dla danych porządkowych) zob. [Walesiak 2006]. index.g1 (x,cl) fnkcja obliczająca wartości indeks Calińskiego- -Harabasza dla macierzy danych x i stalonego podział zbior obiektów na klasy cl. index.g2(d,cl) fnkcja obliczająca wartości indeks Bakera-Hberta dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.g3(d,cl) fnkcja obliczająca wartości indeks Hberta-Levine a dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.s(d,cl) fnkcja obliczająca wartości indeks Silhoette Rosseewa dla macierzy odległości d i stalonego podział zbior obiektów na klasy cl. index.kl (x,clall) fnkcja obliczająca wartości indeks Krzanowskiego-Lai dla macierzy danych x oraz trzech wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na - 1, i + 1 klas (clall). index.h (x,clall) fnkcja obliczająca wartości indeks Hartigana dla macierzy danych x oraz dwóch wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na i 1 klas (clall). index.gap (x, clall, reference.distribtion="nif", B=10, method="pam") fnkcja obliczająca wartości indeks Gap dla 47
3 macierzy danych x, dwóch wektorów liczb całkowitych informjących o przynależności poszczególnych obiektów do klas w podziale na i + 1 klas (clall), sposob generowania obserwacji na zmiennych z rozkład jednostajnego (nif, pc), liczby generowanych zbiorów obserwacji (B=10) oraz przyjętej metody klasyfikacji (ward, single, complete, average, mcqitty, median, centroid, pam, k-means). Tabela 1. Formły normalizacyjne dla danych metrycznych Skala pomiar zmiennych Nr Nazwa formły Formła przed normalizacją po normalizacji n0 bez normalizacji ilorazowa / przedziałowa n1 standaryzacja z ( x x ) s ilorazowa / przedziałowa przedziałowa ij ij j j z = x Me MAD ij ij j j ilorazowa / przedziałowa przedziałowa n2 ( - ) 1, 4826 standaryzacja Webera n3 nitaryzacja z ( x x ) r ilorazowa / przedziałowa przedziałowa n4 n5 n6 nitaryzacja zerowana normalizacja w przedziale [ 1; 1] ij ij j j zij xij min { xij} rj i ilorazowa / przedziałowa przedziałowa zij xij x j max xij x j ilorazowa / przedziałowa przedziałowa i zij xij s j n7 zij xij rj n8 zij xij max{ xij} i przekształcenia ilorazowe zij xij x n9 j n10 ij ij i1 ij n z x x 2 n11 z x x ij ij i1 ij x ( z ) wartość (znormalizowana wartość) j-tej zmiennej dla i-tego obiekt, ij ij x j ( s j, r j) średnia (odchylenie standardowe, rozstęp) dla j-tej zmiennej, n Me ( MAD ) mediana Webera (medianowe odchylenie bezwzględne dla j-tej zmiennej). j j Źródło: opracowanie własne. Charakterystykę siedmi indeksów jakości klasyfikacji znajdjących zastosowanie do stalenia liczby klas zarówno w przypadk metod optymalizacyjnych (kśrednich, k-medoids), jak i hierarchicznych zawiera tab. 2. clster.description(x, cl, sdtype="sample") fnkcja obliczająca osobno dla każdej klasy i zmiennej z stalonego podział zbior obiektów na klasy cl następjące statystyki opisowe: średnią arytmetyczną, odchylenie standardowe, medianę, medianowe odchylenie bezwzględne, dominantę (dla zmiennych nominalnych i porządkowych, jeśli występje więcej wartości o maksymalnej częstości występowania, to zwracana jest wartość N.A. ). 48
4 Tabela 2. Indeksy oceny jakości klasyfikacji Lp. Nazwa indeks Formła Kryterim wybor liczby klas Calińskiego i Harabasza Bakera i Hberta Hberta i Levine B /( 1) G1( ) W /( n ), G1( ) ˆ argmax{ G1( )} R s( ) s( ) G2( ), G2( ) [ 1, 1] ˆ argmax{ G2( )} s( ) s( ) G3( ) D( ) r D r D r D min, 3( ) (0, 1) max min G ˆ argmin{ G3( )} 4 Silhoette n 1 b( i) a( i) S ( ), S ( ) [ 1, 1] ˆ argmax{ S( )} n max a( i); b( i) i1 5 Krzanowskiego i Lai DIFF KL( ), KL( ) DIFF 1 R DIFF ( 1) m W m W 2 / 2 / 1 ˆ argmax{ KL( )} 6 Hartigana 7 Gap W H( ) 1 ( n 1), H( ) W 1 B b 1 R B 1 Gap( ) logwb logw, Gap( ) R najmniejsze, dla którego H ( ) 10 najmniejsze, dla którego diff 0 B macierz kowariancji międzyklasowej, macierzy, B ( W ) tr( ) tr W macierz kowariancji wewnątrzklasowej, tr ślad B W, r, s 1,..., nmer klasy, liczba klas, i, k 1,, n nmer obiekt, n liczba obiektów, m liczba zmiennych, s( ) liczba par odległości zgodnych, s( ) liczba par odległości niezgodnych, D ( ) sma wszystkich odległości wewnątrzklasowych, r liczba odległości wewnątrzklasowych, D min ( D max ) najmniejsza (największa) odległość wewnątrzklasowa, a( i) dik ( nr 1) średnia odległość obiekt i od pozostałych obiektów należących do klasy k{ Pr \ i} P r ; bi () min{ d } sr ip s, ips ik s kps d d n średnia odległość obiekt i od obiektów należących do klasy P s, B liczba generowanych zbiorów obserwacji, s sd 1 1/ B, sd odchylenie standardowe z wartości { logw b }; diff Gap( ) Gap( 1) s 1. Źródło: opracowanie własne na podstawie prac: [Caliński, Harabasz 1974; Hbert 1974; Milligan, Cooper 1985; Kaffman, Rosseew 1990; Hartigan 1975; Tibshirani, Walther, Hastie 2001]. W odchyleni standardowym w mianownik występować będzie 1 n- dla próby (sdtype="sample") i n dla poplacji (sdtype="poplation"). Każda z fnkcji może być wykorzystana w innych procedrach program R, po rchomieni pakiet clstersim. 49
5 3. Charakterystyka przykładowych składni poleceń z wykorzystaniem fnkcji pakiet clstersim Zwykle macierz danych, stanowiąca pnkt wyjścia zastosowania metod klasyfikacji, przygotowywana jest w arksz kalklacyjnym MS Excel. W związk z tym, że nie ma bezpośrednich procedr wczytywania zawartości skoroszytów MS Excel do program R, najwygodniejsze jest zapisanie danych z arksza w formacie csv. Zapisanie danych w Excel wymagania wybrania polecenia Plik Zapisz jako... i wybrania odpowiedniego format. Do wczytania danych w programie R słży instrkcja read.csv2 (w język polskim symbolem łamka dziesiętnego jest przecinek). Podane parametry instrkcji read.csv2 oznaczają, że dane w plik csv zawierają nagłówek (header=true) oraz w pierwszej kolmnie znajdją się nazwy obiektów (row.names=1). Zawsze należy podać pełną ścieżkę dostęp do plik z danymi z separatorem nazwy oznaczonym /. Macierz danych w przykładowym plik csv jest następjąca (macierz danych zawiera 7 obiektów i 2 zmienne): ;x1;x2 1;3;4 2;2,5;5 3;2,5;3,5 4;10;2 5;9;1,5 6;4;11 7;4,5;10. Składnia poleceń pozwalająca na wczytanie danych oraz obliczenie odległości między obiektami (fnkcja dist.gdm) i zestawienie ich w macierz jest następjąca 1 : > library(clster) > library(clstersim) > x <- read.csv2("c:/dane_7x2.csv", header=true, strip.white = TRUE, row.names=1) > x <- as.matrix(x) > z <- data.normalization (x, type="n1") > z <- as.data.frame(z) > d <- dist.gdm (z, method="gdm1"). W przedstawionej składni poleceń przyjęto następjące założenia: do normalizacji wartości zmiennych zastosowano formłę klasycznej standaryzacji n1 (inne formły znajdją się w tab. 1), do pomiar odległości zastosowano miarę GDM1 zob. m.in. [Walesiak 2006]. 1 Miary odległości dla zmiennych ilorazowych lb przedziałowych dostępne są w procedrze dist, a dla zmiennych binarnych w procedrze dist.binary. 50
6 Po zastosowani tej procedry (dodając na końc polecenie print(d)) otrzymje się w rezltacie macierz odległości: Jeśli do klasyfikacji zbior obiektów zastosowana zostanie metoda k-medoids (pam) [Kaffman, Rosseew 1990, s ; Gatnar, Walesiak i in. 2004, s ], to składnię należy zpełnić o następjące polecenia: > cl <- pam(d, 3, diss = TRUE) > print(cl$clstering). W wynik zastosowania tej procedry otrzymje się podział zbior obiektów na 3 klasy: > [1] Zastosowanie innych metod klasyfikacji wymaga modyfikacji składni. Dla hierarchicznej metody aglomeracyjnej najdalszego sąsiada składnia poleceń jest następjąca: > hc <- hclst(d, method = "complete") > cl <- ctree(hc, 3) > print(cl). Inne hierarchiczne metody aglomeracyjne dostępne są w programie hclst (pakiet stats) i mają następjącą składnię: metoda najbliższego sąsiada (method = "single"), metoda średniej grpowej (method = "average"), metoda ważonej średniej grpowej (method = "mcqitty"), metoda Warda (method = "Ward"), metoda medianowa (method = "median"), metoda centroidalna (method = "centroid"). Dla hierarchicznych metod aglomeracyjnych sporządza się dendrogram (zob. rys. 1), dodając polecenia: > options(otdec = ",") > plot(hc, hang = -1, labels = NULL, main = NULL, sb = NULL, ann = FALSE) > title(xlab = "Nmer klasy", ylab = "Poziom połączenia klas"). 51
7 0,7 0,6 0,5 Poziom połączenia klas 0,4 0,3 0,2 0,1 0, Nmer klasy Rys. 1. Dendrogram Źródło: opracowanie własne. Jeśli dodatkowo wprowadzimy polecenia: > options(otdec = ",") > desc <-clster.description(x, cl$clster, "poplation") > print(desc), to osobno dla każdej klasy i zmiennej z stalonego podział zbior obiektów na trzy klasy obliczone zostaną następjące statystyki opisowe: średnia arytmetyczna (1), odchylenie standardowe (2), mediana (3), medianowe odchylenie bezwzględne (4), dominanta (5). Dla danego podział zbior obiektów na klasy możliwe jest obliczenie wybranych statystyk opisowych. Zmienić należy polecenie z ostatniej linii: > print(desc[,,3]). Pierwszy wymiar w poleceni desc[,,3] oznacza nmer klasy, drgi wymiar nmer zmiennej, a trzeci wymiar nmer statystyki opisowej. Znak, niepoprzedzony liczbą oznacza, że dotyczy wszystkich rozpatrywanych wariantów. Zatem polecenie desc[,,3] oznacza, że dla wszystkich klas i zmiennych obliczone zostaną mediany. Po zastosowani tej procedry otrzymje się: > [,1] [,2] > [1,] 2,50 4,00 > [2,] 9,50 1,75 > [3,] 4,25 10,50. Zdecydowana większość fnkcji program R zwraca złożone obiekty lb listy zawierające wiele informacji wygenerowanych przez wykonywany algorytm. Na 52
8 przykład obiekt hc opisjący wyniki działania dowolnej hierarchicznej metody aglomeracyjnej wywołany poleceniem names(hc) zawiera: merge nmery łączonych klas w klasyfikacji hierarchicznej (wartości jemne oznaczają dołączenie klasy jednoelementowej, a dodatnie dołączenie klasy co najmniej dwelementowej), height wartości malejące poziomów połączenia klas, order wektor zawierający nmery obiektów w kolejności występjącej w dendrogramie, labels etykiety nadane klasyfikowanym obiektom, method nazwa zastosowanej hierarchicznej metody aglomeracyjnej, call składnia zastosowanego polecenia hclst, dist.method nazwa miary odległości (występje, jeśli wykorzystano w składni polecenie dist z atrybtem method ). Wydanie polecenia np. print(hc$height) spowodje wypisanie poziomów połączenia klas w klasyfikacji hierarchicznej. Zapisanie poziomów połączenia klas w osobnym plik na dysk, zgodnie z formatem csv, wymaga dodania do składni polecenia: > write.table((hc$height), file="c:/hc_height.csv", sep=";", dec=",", col.names=false). Gdy jesteśmy zainteresowani przeprowadzeniem podział metodą k-medoids zbior siedmi obiektów na dwie do sześci klas, a następnie wybrani tego podział, dla którego indeks Calińskiego i Harabasza (zob. [Gatnar, Walesiak i in. 2004, s. 338]) G1 przyjmje wartość maksymalną, to pierwotną składnię należy zpełnić o polecenia: > min_liczba_klas=2 > max_liczba_klas=6 > max<- -1 > wyniki<-array(0,c(max_liczba_klas-min_liczba_klas+1, 2)) > wyniki[,1]<- min_liczba_klas:max_liczba_klas for (liczba_klas in min_liczba_klas:max_liczba_klas) > { > cl2 <- pam(d, liczba_klas, diss = TRUE) > wyniki[liczba_klas - min_liczba_klas+1,2]<- G1 <- index.g1 (z, cl2$clster) > if (max<g1){ > max<- G1 > clmax<- cl2$clster > lk<- liczba_klas > } 53
9 > } > print(paste("max G1 dla", lk, "klas =",max)) > print("klasyfikacja dla max G1") > print(clmax) > write.table(wyniki, file="g1_reslts.csv", sep=";", dec=",", row.names=true, col.names=false) > plot(wyniki, type="p", xlab="liczba klas", ylab="g1", xaxt="n") > axis(1,c(min_liczba_klas:max_liczba_klas)). W wynik zastosowania tej procedry otrzymje się: [1] "max G1 dla 3 klas = 113, " [1] "klasyfikacja dla max G1" [1] G Liczba klas Rys. 2. Graficzna prezentacja wartości indeks G1 Źródło: opracowanie własne. Dodanie do składni polecenia: > opis < clster.description(x, clmax, "poplation") > print(opis) pozwoli zpełnić wyniki klasyfikacji o statystyki opisowe obliczone osobno dla każdej klasy i zmiennej podział zbior obiektów, dla którego indeks G1 przyjmje wartość maksymalną. 54
10 4. Podsmowanie Fnkcjonjące na rynk pakiety statystyczne nie dostępniają takich możliwości, jakie niesie z sobą pakiet clstersim oraz środowisko programistyczne R. W artykle scharakteryzowano wybrane fnkcje pomocnicze pakiet clster- Sim. Następnie zaprezentowano przykładowe składnie poleceń (procedry) z wykorzystaniem m.in. wybranych fnkcji z pakiet clstersim, w tym w szczególności dist.gdm. Procedry te pozwalają na realizację wiel zagadnień klasyfikacyjnych niedostępnych w podstawowych pakietach statystycznych. Literatra Caliński R.B., Harabasz J. (1974), A Dendrite Method for Clster Analysis,,,Commnications in Statistics vol. 3, s Gatnar E., Walesiak M. (red.) (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, AE, Wrocław. Hartigan J. (1975), Clstering Algorithms, Wiley, New York. Hbert L. (1974), Approximate Evalation Techniqe for the Single-Link and Complete-Link Hierarchical Clstering Procedres,,,Jornal of the American Statistical Association vol. 69, no. 347, s Kafman L., Rosseew P.J. (1990), Finding Grops in Data: an Introdction to Clster Analysis, Wiley, New York. Milligan G.W., Cooper M.C. (1985), An Examination of Procedres of Determining the Nmber of Clster in a Data Set,,,Psychometrika vol. 50, no. 2, s R Development Core Team (2006), R: A Langage and Environment for Statistical Compting, R Fondation for Statistical Compting, Vienna, URL Tibshirani R., Walther G., Hastie T. (2001), Estimating the Nmber of Clsters in a Data Set via the Gap Statistic,,,Jornal of the Royal Statistical Society ser. B, vol. 63, part 2, s Walesiak M. (2006), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, wydanie drgie rozszerzone, AE, Wrocław. Walesiak M., Ddek A. (2006a), Symlacyjna optymalizacja wybor procedry klasyfikacyjnej dla danego typ danych oprogramowanie kompterowe i wyniki badań, [w:] K. Jajga, M. Walesiak (red.), Klasyfikacja i analiza danych teoria i zastosowania, Taksonomia 13, Prace Nakowe AE we Wrocławi nr 1126, AE, Wrocław, s
11 Walesiak M., Ddek A. (2006b), Determination of Optimal Clstering Procedre for a Data Set, 30 th Annal Conference of the German Classification Society (GfKl),,Advances in Data Analysis, Berlin, March Walesiak M., Ddek A. (2007), Symlacyjna optymalizacja wybor procedry klasyfikacyjnej dla danego typ danych charakterystyka problem, Zeszyty Nakowe Uniwersytet Szczecińskiego (w drk). THE SELECTED PROBLEMS IN CLUSTER ANALYSIS WITH APPLICATION OF CLUSTERSIM COMPUTER PROGRAM AND R ENVIRONMENT Smmary Package clstersim has been written in R langage. It contains one main fnction clster.sim and sixteen axiliary fnctions. The article presents selected axiliary fnctions of clstersim program and examples of the syntax (procedres) for solving different clstering problems sing among others clstersim package inclding especially dist.gdm fnction. These procedres help to resolve a broad range of classification problems that are not available in statistical packages (e.g. SPSS, Statistica, S-Pls, SAS). 56
OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp
PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 47 009 TAKSONOMIA 16 Klasyfikacja i analiza danych teoria i zastosowania Uniwersytet Ekonomiczny we Wrocławiu OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ
SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ
PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WR OCŁAWIU Nr 1126 2006 TAKSONOMIA 13 Klasyfikacja i analiza d anych teoria i zasto so wania Marek Walesiak, Andrzej Dudek Akademia Ekonomiczna we Wrocławiu SYMULACYJNA
PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania.
PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) 2008 TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania Marek Walesiak Uniwersytet Ekonomiczny we Wrocławi PROCEURA ANALIZY
SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 450 PRACE KATEDRY EKONOMETRII I STATYSTYKI NR 17 2006 MAREK WALESIAK ANDRZEJ DUDEK Akademia Ekonomiczna Wrocław SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:
Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii
strona 1 / 12 Autor: Walesiak Marek Publikacje:
Autor: Walesiak Marek Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii i zastosowań metod taksonomicznych, s.
Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH. 1. Wstęp
Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH 1. Wstęp W statystycznej analizie danych istnieje możliwość stosowania znacznie większej liczby metod,
Spis treści. Summaries
Spis treści Wstęp... 7 Danuta Strahl: Dwustopniowa klasyfikacja pozycyjna obiektów hierarchicznych ze względu na strukturę obiektów niższego rzędu... 9 Andrzej Dudek: Klasyfikacja spektralna a tradycyjne
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI
Marek Walesiak Akademia Ekonomiczna im Oskara Langego we Wrocławiu OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI l Wprowadzenie W typowym studium klasyfikacyjnym wyodrębnia
Instalacja Pakietu R
Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego: Download R for Windows opcja: install R for the first time opcja: Download R 3.3.3 for Windows uruchomienie R-3.3.3-win MAGDA
WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM
PRZEGLĄD STATYSTYCZNY R. LXIII ZESZYT 1 2016 MAREK WALESIAK 1 WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM 1. WPROWADZENIE Normalizację przeprowadza się dla macierzy danych
1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.
Laboratorium z ekonometrii (GRETL) 1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych. Okno startowe: Póki nie wczytamy jakiejś bazy danych (lub nie stworzymy własnej), mamy dostęp tylko do dwóch
Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Wprowadzenie do Pakietu R dla kierunku Zootechnika Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego:
Graficzna prezentacja danych statystycznych
Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
W1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
PRZEGLĄD STATYSTYCZNY R. LIX ZESZYT 1 2012 MAREK WALESIAK KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE Analiza skupień bazująca na dekompozycji spektralnej (spectral clustering)
Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych
Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych 1. Wprowadzenie Metody skalowania wielowymiarowego obiektów
Czym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:
Ćwiczenie Analiza błędów i niepewności pomiarowych Proam ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ w pośrednim pomiarze rezystancji
Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:
Ćwiczenie Analiza błędów i niepewności pomiarowych Proam ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ A i w bezpośrednim pomiarze napięcia.
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Regionalizacja biomasy ubocznej i odpadowej w Polsce i Europie
Regionalizacja biomasy ubocznej i odpadowej w Polsce i Europie Przemysław Czaban Warsztaty Ocena potencjału biomasy odpadowej i ubocznej oraz skutki środowiskowe produkcji i wykorzystania biomasy IUNG-PIB,
Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp
PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 1006 2003 Zastosowania statystyki i matematyki w ekonomii Marek Walesiak Akademia Ekonomiczna we Wrocławiu MIARA ODLEGŁOŚCI OBIEKTÓW OPISANYCH ZMIENNYMI
Elementy statystyki STA - Wykład 1
STA - Wykład 1 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 Programy do statystycznej analizy danych Komercyjne: Niekomercyjne: a) Statistica URL http://www.statsoft.com URL http://www.statsoft.pl
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości
Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA
Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:
Podstawowe pojęcia statystyczne
Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Ćwiczenie 2. Analiza błędów i niepewności pomiarowych. Program ćwiczenia:
Ćwiczenie Analiza błędów i niepewności pomiarowych Program ćwiczenia: 1. Wyznaczenie niepewności typ w bezpośrednim pomiarze napięcia stałego. Wyznaczenie niepewności typ w pośrednim pomiarze rezystancji
Techniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis
Komitet Redakcyjny Andrzej Matysiak (przewodniczący), Tadeusz Borys, Andrzej Gospodarowicz, Jan Lichtarski, Adam Nowicki, Walenty Ostasiewicz, Zdzisław Pisz, Teresa Znamierowska Recenzenci Stefan Mynarski,
Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki
Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr / Rafał Czyżycki Uniwersytet Szczeciński Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki Streszczenie,
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34
Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,
KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG
KNIME podstawy obsługi programu Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG KNIME KNIME jest programem działającym na licencji GNU można go pobrać za darmo
Statystyka w pracy badawczej nauczyciela
Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Pozyskiwanie wiedzy z danych
Pozyskiwanie wiedzy z danych dr Agnieszka Goroncy Wydział Matematyki i Informatyki UMK PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO Pozyskiwanie wiedzy
MATLAB Z3. Rafał Woźniak. Warsaw, Faculty of Economic Sciences, University of Warsaw
Faculty of Economic Sciences, University of Warsaw Warsaw, 09-03-2017 Generowanie liczb losowych rand(1) rand(1) generuje liczbę losową z przedziału (0,1) Jak można uzyskać liczby losowe z przedziału 1
METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH
Marcin Pełka Akademia Ekonomiczna we Wrocławiu METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH 1. Wprowadzenie Metody skalowania wielowymiarowego obiektów symbolicznych, podobnie jak w przypadku
BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 265 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Finansów i Ubezpieczeń Katedra Analiz Gospodarczych i
Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013
Analiza skupień Waldemar Wołyński, Tomasz Górecki Wydział Matematyki i Informatyki UAM Poznań 6 marca 2013 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca 2013 1 / 46 Idea: Analiza skupień jest narzędziem
Miary statystyczne w badaniach pedagogicznych
Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane
Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012
Małgorzata Kobylińska Wydział Nauk Ekonomicznych Uniwersytet Warmińsko-Mazurski w Olsztynie Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012 1. Wstęp Jednym
Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0
Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia
ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia
ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych
4.2. Statystyczne opracowanie zebranego materiału
4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza
DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych
PRACE NAUKOWE AKADEMll EKONOMCZNEJ WE WROCŁAWU Nr 718 1996 nł"or:rnatyka i Ekono:rnet:ria 1 Marek Walesiak DOPUSZCZALNE DZAŁANA NA LCZBACH W BADANACH MARKETNGOWYCH Z PUNKTU WDZENA SKAL POMAROWYCH * 1.
Wykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy
Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy
STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE
STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu,
BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI
14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy
WYKAZ PRAC PUBLIKOWANYCH
Dr hab. Andrzej Bąk Prof. nadzw. AE WYKAZ PRAC PUBLIKOWANYCH I. Publikacje zwarte I.1. KsiąŜki 1. Walesiak M., Bąk A. [1997], Realizacja badań marketingowych metodą conjoint analysis z wykorzystaniem pakietu
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 746 EKONOMICZNE PROBLEMY USŁUG NR 101 2012 RAFAŁ KLÓSKA Uniwersytet Szczeciński REGIONALNE ZRÓŻNICOWANIE POZIOMU ROZWOJU SPOŁECZNO-GOSPODARCZEGO W POLSCE
Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego
Metody Analiz Przestrzennych Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego mgr Marcin Semczuk Zakład Przedsiębiorczości i Gospodarki Przestrzennej Instytut
Eksploracja danych - wykład II
- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja
Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na
Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony zbiór jednostek, które
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik
FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1
Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1 Streszczenie. Punktem wyjścia artykułu jest spostrzeżenie,
Statystyka opisowa. Wykład I. Elementy statystyki opisowej
Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA
Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych
KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4
KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)
Szczegółowy rozkład materiału dla klasy 3b poziom rozszerzny cz. 1 - liceum
Szczegółowy rozkład materiału dla klasy b poziom rozszerzny cz. - liceum WYDAWNICTWO PAZDRO GODZINY Lp. Tematyka zajęć Liczba godzin I. Funkcja wykładnicza i funkcja logarytmiczna. Potęga o wykładniku
Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl
Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych
Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym
Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr 42/2012 Rafał Klóska Uniwersytet Szczeciński Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Streszczenie.
Warsztaty dla nauczycieli
WPROWADZENIE Wyprowadzanie danych: Wyprowadzanie na ekran komunikatów i wyników umożliwia instrukcja wyjścia funkcja print(). Argumentami funkcji (podanymi w nawiasach) mogą być teksty, wyrażenia arytmetyczne
Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych
ZESPÓŁ SZKÓŁ HANDLOWO-EKONOMICZNYCH IM. MIKOŁAJA KOPERNIKA W BIAŁYMSTOKU Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych Mój przedmiot matematyka spis scenariuszy
Matlab, zajęcia 3. Jeszcze jeden przykład metoda eliminacji Gaussa dla macierzy 3 na 3
Matlab, zajęcia 3. Pętle c.d. Przypomnijmy sobie jak działa pętla for Możemy podać normalnie w Matlabie t=cputime; for i=1:20 v(i)=i; e=cputime-t UWAGA: Taka operacja jest bardzo czasochłonna i nieoptymalna
Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony
Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 9 tygodni 6 godzin = 7 godziny Lp. Tematyka zajęć Liczba godzin I. Funkcja wykładnicza i funkcja logarytmiczna.
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),
Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość
PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 289 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Ekonomii Katedra Analiz i Prognozowania Rynku Pracy jaroslaw.wasowicz@ue.katowice.pl
PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM
Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 563/3/2014
Matematyka do liceów i techników Szczegółowy rozkład materiału Klasa III zakres rozszerzony 56//0 5 tygodni godzin = 75 godzin Lp. Tematyka zajęć I. Kombinatoryka i rachunek prawdopodobieństwa. Reguła
08. Normalizacja wyników testu
08. Normalizacja wyników testu q Pojęcie normy q Rodzaje norm q Znormalizowana skala ciągła ( z ) q Znormalizowane skale skokowe q Kryteria wyboru właściwej skali standardowej vpojęcie normy Norma -wzór,
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik babulice100.xls
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne
Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne Pakiety statystyczne stosowane do analizy danych: SAS SPSS Statistica R S-PLUS 1 Środowisko R Język S- J. Chambers i in. (1984,1988)
SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a Szczecin
SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a 70-453 Szczecin 2 Lp. Temat Numer części materiałów 1 Język R oraz środowisko RStudio 1 2 Składnia języka 3 3 Podstawowe
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info