INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH
|
|
- Marcin Kowal
- 9 lat temu
- Przeglądów:
Transkrypt
1 PRZEGLD STATYSTYCZNY R. LXI ZESZYT JERZY KORZENIEWSKI INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH 1. WSTP Wyznaczenie liczby skupie (klas), na które naley podzieli zbiór obiektów jest jednym z etapów analizy skupie warunkujcym jako podziau. Wikszo indeksów wyznaczajcych liczb skupie ma charakter optymalizacyjny, tj. dla ustalonej metody grupowania obiektów zbioru wyznaczana jest najlepsza (sporód liczb od 1 do np. 15) liczba skupie. Wród najczciej stosowanych wymieni naley indeksy: Bakera-Huberta, Caliskiego Harabasza, Dunna, Daviesa-Bouldina, Hartigana, Huberta-Levine a, Krzanowskiego-Lai, indeks sylwetkowy, indeks Gap. Odrbn grup tworz indeksy opracowane tylko pod ktem metod aglomeracyjnych np. Mojeny (1977). Dla metod aglomeracyjnych, Sokoowski (1992) wyrónia a pi rónych grup indeksów liczby skupie. Efektywno wymienionych i innych indeksów badana bya przez wielu autorów m.in. Milligan, Cooper (1985), Migda-Najman, Najman (2005, 2006), Korzeniewski (2005). Wybór waciwych indeksów sucych do oceny liczby skupie oraz samej liczby skupie nie jest atwy. W badaniu Milligana, Cooper (1985) najlepszym indeksem okazaa si miara Caliskiego-Harabasza (1974). Badanie Milligana miao jednak miejsce prawie 30 lat temu. Od tego czasu zaproponowano kilka nowych miar, które, zdaniem ich twórców, nie ustpuj temu indeksowi. Przykadem póniej skonstruowanego indeksu, który w badaniu autorów okaza si lepszym od m.in. indeksu Caliskiego-Harabasza i Krzanowskiego-Lai, moe by indeks Gap (Tibshirani i inni, 2001). Te dwa indeksy tj. Gap oraz Calinski-Harabasz, bd punktem odniesienia, z którym zostanie porównana efektywno nowego indeksu zaproponowanego w dalszej czci artykuu. Warto indeksu Caliskiego-Harabasza dla liczby skupie równej k dana jest wzorem: CH k tr B k k 1 (1) Wk n k tr gdzie B k macierz kowariancji midzygrupowych, W k macierz kowariancji wewntrzgrupowych, n liczba obiektów w zbiorze. Za wybran liczb skupie naley uzna liczb k, która daje maksymaln warto wyraenia (1). Jak wida ze
2 170 Jerzy Korzeniewski wzoru (1), nie mona przy pomocy tego indeksu rozstrzygn czy zbiór danych naley w ogóle dzieli na jakie skupienia, gdy k musi by wiksze od 1. Warto indeksu Gap dla liczby skupie równej k jest wyznaczana przy pomocy wyraenia: Gap k 1 trw trw (2) B b gdzie W kb macierz kowariancji wewntrzgrupowych wtedy, gdy kada zmienna oryginalna zastpiona zostaa zmienn wygenerowan (w b-tym powtórzeniu) z rozkadu jednostajnego nad odcinkiem, który jest rozstpem próby zmiennej oryginalnej; B liczba powtórze generowania zmiennych jednostajnych. Za wybran liczb skupie naley uzna najmniejsz liczb k która spenia warunek: kb k k Gapk 1 sk 1 Gap (3) gdzie sk sdk 11/ B, gdzie sd k oznacza odchylenie standardowe B wartoci trw kb. Zamiast rozkadu jednostajnego mona zastosowa inn technik szacowania zlogarytmowanego ladu macierzy kowariancji zmiennych nietworzcych struktury skupie wykorzystujc ksztat rozkadu brzegowego poszczególnych zmiennych oryginalnych. Jak wida z konstrukcji indeksu moe on by uywany równie do zbadania czy zbiór danych naley dzieli na jakiekolwiek skupienia, gdy k moe by równe 1. W eksperymencie symulacyjnym przyjto B = 100 powtórze. 2. FORMUA NOWEGO INDEKSU Nowy indeks oparty jest na wielostopniowym dzieleniu zbioru danych (bd cz- ci zbioru) na dwa skupienia i zachowywaniu tego podziau, gdy jest on wystarczajco dobry tzn. oba skupienia s wyranie rozdzielone. Jako metoda podziau na kadym etapie algorytmu stosowana bdzie metoda k-rednich (k=2 lub k=3), ze stukrotnym losowym wyborem punktów startowych, ale moliwe jest uycie dowolnej innej metody grupowania danych. Idea nowego indeksu jest prosta. Wyobramy sobie, e dzielimy zbiór danych na dwa skupienia, w nastpnym kroku kade z nich na dalsze dwa itd. Postpujc w ten sposób powinnimy otrzyma poprawn liczb skupie wyranie separowanych miedzy sob jeli tylko bdziemy dysponowali dobr miar jakoci podziau na dwa skupienia. Miara taka okreli kiedy proces podziau bdzie naleao przerwa. Konieczne wydaje si równie przyjcie zaoenia o minimalnej liczebnoci jednego skupienia.
3 Indeks wyboru liczby skupie w zbiorze danych 171 W celu rozstrzygnicia czy dwa skupienia s wystarczajco dobrze separowane zdeniujmy nastpujc miar jakoci podziau. Zaómy, e ustalony podzbiór zbioru danych podzielony zosta w podziale pierwotnym na dwa skupienia S 1 oraz S 2. Rozwa- amy teraz nowy podzbiór skadajcy si z mniejszego liczebnociowo z tych dwóch skupie oraz z 1/3 wikszego skupienia. Nowy podzbiór dzielimy ponownie na dwa skupienia i miar jakoci podziau (pierwotnego) jest skorygowany indeks Randa (por. np. Gatnar, Walesiak, 2004) zgodnoci podziau pierwotnego z podziaem ponownym. Miar t oznaczymy symbolem R(S 1, S 2 ). Interpretacja graczna przedstawiona jest na rys. 1. Dla zbioru obiektów po prawej stronie (dwa skupienia) warto miary powinna by wysoka (bliska 1), za dla zbioru niemajcego wyranej struktury skupie warto miary powinna by niska (bliska 0), jeli bowiem nie ma adnej struktury skupie, to nie ma powodu po temu by podzbiór zosta podzielony w tym samym miejscu. Oczywicie, indeks Randa ocenia zgodno podziau pierwotnego z ponownym tylko na podzbiorze skadajcym si z obiektów mniejszego skupienia i 1/3 wikszego skupienia. Jeeli ustalonym podzbiorem, na którym dokonywano podzia pierwotny by cay zbiór obiektów, to warto R(S 1, S 2 ) jest ostateczn miar jakoci podziau. Rysunek 1. Ilustracja graczna miary R(S 1, S 2 ) ródo: opracowanie wasne. Dla zbioru obiektów po prawej stronie zgodno podziau podzbioru zoonego z kóek i czarnych kwadratów z podziaem caego zbioru powinna by wysoka. Jeeli jednak oprócz skupie S 1 oraz S 2 byy jeszcze jakie inne skupienia (podzbiory) caego zbioru danych, to warto R(S 1, S 2 ) nie moe by miar ostateczn, bo moe zdarzy si, e jedno ze skupie S 1 lub S 2 (lub oba) jest blisko pozostaej czci zbioru danych (lub którego z pozostaych skupie). Liczb R(S 1, S 2 ) mona przyj jako miar jakoci podziau dopiero gdy przynajmniej jedno ze skupie S 1 lub S 2 ma tak sam lub wysz miar jakoci podziau na dwa skupienia ze wszystkimi pozostaymi skupieniami. Wobec tego ostateczn miar jakoci podziau ustalonego podzbioru zbioru obiektów na 2 skupienia, przy zaoeniu, e oprócz ustalonego podzbioru istnieje jeszcze k-2 innych skupie (o numerach 3, 4,, k), niech bdzie warto:
4 172 Jerzy Korzeniewski R S S k RS S ; RS S RS S j j. (4) i 1 j k j k 1 1 j1 j Przykadowo, pierwsze minimum w wewntrznym nawiasie klamrowym ma wyoni najsilniejszy zwizek skupienia S 1 z jakim sporód skupie S 3 S 4,,S k. Analogiczne jest znaczenie drugiego minimum w wewntrznym nawiasie klamrowym. Po wybraniu z tych dwóch wartoci miar zwizków z pozostaymi skupieniami wartoci wikszej (i co za tym idzie skupienia S 1 lub S 2 ), porównujemy t warto z wartoci miary R(S 1, S 2 ) wybierajc mniejsz z tych dwóch wartoci. W uzupenieniu wzoru (4) naley doda, e jeeli k=2 czyli, gdy w pierwszym kroku dzielimy cay zbiór obiektów, to R(S 1, S 2,k) = R(S 1, S 2 ). Miar podobn do miary (4) zastosowano w pracy Korzeniewski (2012) do identykacji zmiennych tworzcych struktur skupie. Miara ta spisuje si najsabiej gdy w zbiorze danych istniej tylko dwa skupienia. W takich przypadkach efektywno miary (4) nieco poprawia wielokrotne jej obliczenie dla zbiorów danych podobnych do oryginalnego zbioru, na przykad, zbiorów, które powstaj poprzez zastpienie kadego oryginalnego obiektu obiektem lecym blisko oryginalnego. Takie zbiory mona generowa, na przykad, wedug wzoru: x ' v x v r (5) gdzie v numer zmiennej, x' v nowa warto (na zmiennej v) zastpujca oryginaln warto x v, r liczba wylosowana z odcinka [0;1] (niezalenie dla kadej zmiennej v i kadego obiektu). Po unitaryzacji zerowanej (por. opis eksperymentu) wszystkie wartoci kadej zmiennej v le na odcinku [0;1] wic formu (5) mona uzna za generowanie losowe obserwacji lecej blisko obserwacji oryginalnej. Z bada symulacyjnych opisanych w pracy Korzeniewski (2012) wynika, e wielokrotne generowanie zbiorów podobnych do oryginalnego niekiedy poprawia efektywno miary (4) dziki temu, e niweluje niekorzystny rozkad wartoci cech w obszarach granicznych pomidzy dwoma skupieniami. Dziaanie algorytmu nie bdzie silnie uzalenione od tego jak zmieni si zbiór danych pod wpywem transformacji (5), poniewa transformacja ta zostanie powtórzona wielokrotnie i z wielu powtórze bdzie wybierany wynik dominujcy. Dokadniej rzecz ujmujc, algorytm zostanie zastosowany do kadego z 20 zbiorów danych po transformacji (5) i za ostateczn liczb skupie uznamy liczb wystpujc najczciej w cigu otrzymanych 20 kandydatek. Ten sposób postpowania wprowadza pewn losowo do algorytmu, ale zauwamy, e losowo istnieje w samej metodzie k-rednich, gdy obiekty startowe wybierane s losowo. W celu wykorzystania miary (4) do ustalania liczby skupie naley zaproponowa algorytm wielostopniowego dzielenia zbioru danych na dwa skupienia, gdy
5 Indeks wyboru liczby skupie w zbiorze danych 173 kolejno dzielenia poszczególnych skupie na ewentualne dwa lub trzy mniejsze (sposób przeszukiwania zbioru) ma znaczenie dla ostatecznego wyniku. Progiem dla miary (4), od którego akceptujemy podzia jednego skupienia na dwa skupienia bdzie warto 0,4. Ta liczba zostaa ustalona metod poszukiwa empirycznych w pracy Korzeniewski (2012) w celu identykacji zmiennych tworzcych struktur skupie. Warto progowa 0,4 daa dobre wyniki dla struktur skupie generowanych z mieszanin rozkadów normalnych. Zaproponujmy nastpujcy algorytm wielostopniowego dzielenia zbioru danych na dwa skupienia. Krok 1. Poó K=1 tj. cay zbiór obiektów potraktuj jako jedno skupienie. Krok 2. Kade skupienie o numerze k, k=1,2,,k podziel na dwa skupienia i oznacz symbolem m k warto miary (4) dla tego podziau jeeli liczebnoci obu mniejszych skupie s równe co najmniej 5% liczebnoci zbioru obiektów. Jeeli cho jedno ze skupie ma mniejsz liczebno, to przyjmij m k = 0. Krok 3. Sporód liczb m k wybierz najwiksz odpowiadajc skupieniu k 0 i jeli jest ona wiksza od 0,4 to zwiksz liczb K skupie o 1 zastpujc skupienie k 0 dwoma mniejszymi, na które zostao ono podzielone. Id do kroku 2. Jeli najwiksza sporód liczb m k jest mniejsza od 0,4 to id do kroku 4. Krok 4. Pojedynczo, dla kadego ze skupie o numerze k, k=1,2,,k przeprowad nastpujc procedur. Podziel skupienie na dwa skupienia A k oraz B k (podzia wstpny, po którym bdzie K+1 skupie), a nastpnie, kade z tych dwóch skupie na kolejne dwa skupienia (podzia drugi, po którym bdzie K+3 skupie). Jeeli liczebnoci obu skupie z podziau drugiego s równe co najmniej 5% liczebnoci zbioru obiektów, to znajd warto miary (4) dla podziaów drugich obu skupie A k oraz B k. Jeeli liczebno choby jednego z dwóch skupie drugiego podziau jest nisza od 5% liczebnoci zbioru obiektów, to poó warto miary (4) równ 0. Sporód dwóch wartoci miary (4) (jednej dla skupienia A k drugiej dla B k ) wybierz wiksz wyodrbniajc skupienie k ' (k) (z drugiego podziau) i oznacz j symbolem m k. Sporód liczb m k dla k=1,2,,k, wybierz najwiksz odpowiadajc skupieniu k 0. Jeli warto ta jest wiksza od 0,4 to zmie podzia obu skupie A k0 oraz B k0 dzielc je na skupienie k ' (k 0 ) oraz skupienie skadajce si z drugiego skupienia z podziau pierwszego (tego sporód A k0, B k0 które miao mniejsz warto miary (4)) i drugiego, rónego od k ' (k 0 ), skupienia z podziau drugiego odnonego skupienia. Poó K+2 jako liczb skupie. Id do kroku 2. Jeli najwiksza sporód liczb m k jest mniejsza od 0,4 to id do kroku 5 zachowujc taki podzia caego zbioru obiektów na K skupie jaki by na pocztku kroku 4. Krok 5. Pojedynczo, dla kadego ze skupie o numerze k, k=1,2,,k przeprowad analogiczn procedur do tej z kroku 4 dzielc kade skupienie w podziale wstpnym na trzy skupienia. Jeli które z tych trzech skupie da si podzieli na dwa skupienia speniajc te same kryteria co w kroku 4, to id do kroku 2. Jeli nie, to id do kroku 6 zachowujc taki podzia caego zbioru obiektów na K skupie jaki by na pocztku kroku 5.
6 174 Jerzy Korzeniewski Krok 6. Aktualn biec liczb K skupie uznaj za ostateczn. Wygeneruj nowy zbiór danych zgodnie z formu (5) i id do kroku 1. Krok 7. Powtórz 20 razy kroki 1 6. Sporód 20 liczb kandydatek na liczb skupie wybierz liczb dominujc. Jeli nie ma liczby dominujcej, to jeszcze raz wygeneruj zbiór danych zgodnie z formu (5), powtórz kroki 1 6 otrzymujc kandydatk numer 21 i wybierz t sporód kilku najczciej powtarzajcych si wartoci w cigu 20 liczb, która jest najblisza kandydatce numer 21. Naley zwróci uwag na to, e wystpujce w kroku 4 i kroku 5 podziay pierwsze na dwa lub trzy skupienia s podziaami tymczasowymi i nie oceniamy ich przy pomocy miary (4). Natomiast kade ze skupie powstaych w wyniku podziau tymczasowego próbujemy dzieli dalej na dwa skupienia i dopiero te podziay s oceniane i z nich wybierany jest najlepszy. Podziay tymczasowe s z powrotem scalane, za wyjtkiem skupienia k ' (k 0 ) (jeeli takie zostao wyodrbnione). Wprowadzenie podziaów tymczasowych na dwa lub trzy skupienia jest konieczne, gdy wielostopniowe dzielenie na tylko dwa skupienia nie da dobrych efektów w przypadku struktury skadajcej si z kilku skupie (por. rys. 2). Podzia na dwa skupienia, z których kade bdzie skadao si z kilku mniejszych, moe nie da wartoci miary (4) przekraczajcej próg 0,4. Jeeli za wprowadzimy wstpny, tymczasowy podzia na dwa lub trzy skupienia i kade z nich bdziemy próbowali dzieli na dwa, to jest wiksza szansa na to, e przy pomocy miary (4) wyodrbnimy jakie skupienie wystarczajco dobrze separowane od wszystkich pozostaych. Rysunek 2. Przykad zbioru obiektów skadajcego si z siedmiu skupie, który przy podziale na dwa skupienia moe da nisk warto miary R(S 1, S 2 ) ródo: opracowanie wasne.
7 Indeks wyboru liczby skupie w zbiorze danych EKSPERYMENT BADAWCZY Wszystkie zbiory danych skaday si z obiektów opisanych przez zmienne cige, generowanych przy pomocy algorytmu OCLUS (Steinley i Henson, 2005) jednego z najnowszych ze znanych z literatury sposobów. W algorytmie tym separowalno skupie jest typu acuchowego tzn. na kadym wymiarze jest k-1 par skupie zachodzcych na siebie w takim samym stopniu równym (overlap) 1/T (k liczba skupie, T liczba wymiarów). Ogólny stopie pokrywania si skupie jest iloczynem stopni pokrywania si skupie na poszczególnych wymiarach, czyli overlap T v1 overlap v. (6) Poszczególne skupienia s generowane na kadej wspórzdnej z rozkadów normalnych o jednostkowej wariancji i wartociach rednich zdeterminowanych przez stopie zachodzenia na siebie rozkadów generujcych skupienia oraz przez warto redni rozkadu generujcego pierwsze skupienie. Rozkad normalny generowany by wedug algorytmu Marsaglia-Bray (por. Wieczorkowski, Zieliski, 1997) z generatorem liczb pseudolosowych z jzyka Delphi4. Nastpnie, po wygenerowaniu wszystkich skupie (na kadej wspórzdnej oddzielnie), zostay one w sposób losowy ponumerowane w sposób niezaleny na kadej wspórzdnej. W tabeli 1 podane s odlegoci pomidzy wartociami rednimi kolejnych skupie w zalenoci od stopnia zachodzenia na siebie rozkadów generujcych skupienia oraz liczby zmiennych. Dla overlap=0 przyjto, e wartoci rednie dwóch ssiednich skupie s odlege o 6 odchyle standardowych. Taki sposób generowania struktury skupie powoduje to, e otrzymujemy zbiory, których struktura jest efektem równego udziau wszystkich zmiennych. T cech mona uwaa za wad, wród zbiorów danych empirycznych takiego równouprawnienia cech, na ogó, nie ma. Program do generowania zbiorów danych oraz program realizujcy zaproponowany algorytm napisane zostay samodzielnie w rodowisku jzyka Delphi4. Wszystkie zbiory skaday si z 200 elementów podzielonych na kilka skupie. Poszczególne parametry wygenerowanych zbiorów danych przedstawione s poniej. Parametr pierwszy, liczba skupie moga by równa 2, 3, 4, 6 lub 8. Parametr drugi, liczebnoci skupie, mia trzy warianty: (a) równe liczebnoci wszystkich skupie; (b) 10% obserwacji i (c) 60% obserwacji w jednym skupieniu, a pozostae skupienia w przyblieniu równoliczne. Parametr trzeci, liczba zmiennych, mia trzy warianty: 2, 4 lub 6. Parametr czwarty, stopie pokrywania si skupie, mia pi wariantów 0; 0,1; 0,2; 0,3; 0,4. Parametr pity, sia korelacji wewntrz skupie miaa dwa warianty: (a) macierz kowariancji w kadym skupieniu bya macierz jednostkow; (b) w kadym skupieniu
8 176 Jerzy Korzeniewski bya taka sama macierz kowariancji z jedynkami na przektnej za poza przektn, liczb wylosowan z przedziau [0,3; 0,8]. Razem wszystkie kombinacje wariantów parametrów day liczb 450 zbiorów. Ten zestaw powtórzono 10 razy co dao ostateczn liczb 4500 zbiorów. Tabela 1. Odlegoci pomidzy wartociami rednimi rozkadów normalnych dwóch ssiednich skupie, w zalenoci od stopnia pokrywania si skupie (overlap) oraz liczby T zmiennych opisujcych obiekty Overlap T=2 T=4 T= ,1 2 1,16 0,82 0,2 1,52 0,86 0,60 0,3 1,2 0,66 0,46 0,4 0,96 0,51 0,35 ródo: opracowanie wasne. W eksperymencie symulacyjnym stosowanie jakiejkolwiek normalizacji zmiennych nie jest konieczne, ale normalizacja zazwyczaj wystpuje w analizie skupie zbiorów empirycznych. Wybrana zostaa formua w postaci unitaryzacji zerowanej z dzieleniem przez rozstp cechy, czyli, dla zmiennej o numerze v: x ' v xv x v. (7) x x v v Ta formua ma dobr opini, ponadto po jej zastosowaniu mona atwo wprowadzi niewielkie, lokalne transformacje zbioru danych, takie jak, na przykad, transformacja dana wzorem (5). Indeksy Caliskiego-Harabasza i Gap oceniane byy dla dopuszczalnego zakresu liczby skupie od 1 (lub 2) do OCENA PORÓWNAWCZA EFEKTYWNOCI INDEKSU Wyniki eksperymentu symulacyjnego s przedstawione w tabelach 2 i 3. Nowy indeks spisa si lepiej w przypadku struktur skupie bez korelacji wewntrzklasowej. Taki wynik jest poprawny, gdy zastosowana metoda grupowania k-rednich zwraca gorsze wyniki w przypadku skupie wyduonych. W porównaniu z kon-
9 Indeks wyboru liczby skupie w zbiorze danych 177 kurencj nowy indeks spisa si bardzo dobrze. Z dwóch konkurencyjnych metod znacznie lepiej wypad indeks Caliskiego-Harabasza, indeks Gap okaza si wiele sabszy w kadym przypadku. Nowy indeks traci znacznie wolniej efektywno wraz ze wzrostem stopnia rozmycia skupie czyli spadkiem separowalnoci skupie. W przypadku indeksu Caliskiego-Harabasza jest widoczny ostry wzrost redniego bdu przy wprowadzeniu niewielkiego rozmycia struktury skupie (overlap=0,1), w konsekwencji, redni bd popeniany przez ten indeks jest wysoki. Nowy indeks osign duo lepszy wynik redni od indeksu Caliskiego-Harabasza. Indeks konkurencyjny jest nieznacznie lepszy tylko w przypadku struktur skupie bardzo wyranie separowalnych (overlap=0) przy towarzyszcym temu skorelowaniu wewntrznym skupie. Takie wnioski mona sformuowa analizujc odsetek poprawnie wybranych liczb skupie oraz warto redni popenionego bdu. Przeanalizowane zostao równie rozproszenia tych dwóch miar. Rozproszenie mierzone odchyleniem standardowym miary (odsetka poprawnie wybranych liczb skupie i wartoci bdu) byo dla wszystkich trzech indeksów podobne (w grupach zbiorów z jednakowymi parametrami). Efektywno porównywanych metod w zalenoci od typu struktury skupie Tabela 2. Typ zbioru danych Metoda Odsetek poprawnie znalezionych liczb skupie Odsetek bdów równych 1 Odsetek bdów równych 2 rednia arytmetyczna warto bdu Brak korelacji wewntrz klas Korelacja wewntrz klas Nowy indeks 0,511 0,366 0,086 0,656 Indeks Gap 0,334 0,191 0,130 2,119 Indeks CH 0,477 0,194 0,154 1,299 Nowy indeks 0,413 0,398 0,136 0,845 Indeks Gap 0,330 0,196 0,131 2,120 Indeks CH 0,467 0,213 0,155 1,272 Nowy indeks 0,462 0,382 0,111 0,751 rednio Indeks Gap 0,332 0,193 0,130 2,120 ródo: obliczenia wasne. Indeks CH 0,472 0,203 0,154 1,285
10 178 Jerzy Korzeniewski Tabela 3. rednia arytmetyczna bdu porównywanych metod w zalenoci od stopnia separowalnoci struktury skupie Typ zbioru danych Metoda Overlap równy 0 Overlap równy 0,1 Overlap równy 0,2 Overlap równy 0,3 Overlap równy 0,4 Brak korelacji wewntrz klas Korelacja wewntrz klas Nowy indeks 0,132 0,579 0,746 0,849 0,972 Indeks Gap 1,279 2,157 2,269 2,406 2,485 Indeks CH 0,211 1,143 1,387 1,771 1,983 Nowy indeks 0,373 0,777 0,948 0,999 1,131 Indeks Gap 1,360 2,134 2,303 2,378 2,429 Indeks CH 0,453 1,025 1,372 1,632 1,878 Nowy indeks 0,253 0,678 0,847 0,924 1,052 rednio Indeks Gap 1,319 2,145 2,286 2,392 2,457 ródo: obliczenia wasne. Indeks CH 0,332 1,084 1,379 1,702 1,930 Przedmiotem dalszych bada bdzie efektywno nowego indeksu przy zastosowaniu innej metody grupowania obiektów, mniej wraliwej na nieregularny ksztat skupie. Uniwersytet ódzki LITERATURA Caliski R. B., Harabasz J., (1974), A Dendrite Method for Cluster Analysis, Communications in Statistics, 3, Gatnar E., Walesiak M., (red.), (2004), Metody Statystycznej Analizy Wielowymiarowej w Badaniach Marketingowych, Wydawnictwo AE we Wrocawiu. Korzeniewski J., (2005), Propozycja nowego algorytmu wyznaczajcego liczb skupie, Prace Naukowe AE we Wrocawiu nr 1076, Taksonomia 12, Korzeniewski J., (2012), Metody selekcji zmiennych w analizie skupie. Nowe procedury, Wydawnictwo Uniwersytetu ódzkiego. Migda-Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupie, Prace Naukowe AE we Wrocawiu nr 1076, Taksonomia 12,
11 Indeks wyboru liczby skupie w zbiorze danych 179 Milligan G. W., Cooper M., (1985), An Examination of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, 2, Mojena R. (1977), Hierarchical Grouping Methods and Stopping Rules: an Evaluation, Computer Journal, 20 (4), Najman K., Migda-Najman K., (2006), Wykorzystanie indeksu Silhouette do ustalania optymalnej liczby skupie, Wiadomoci Statystyczne, 6, Sokoowski A., (1992), Empiryczne testy istotnoci w taksonomii, Zeszyty Naukowe AE w Krakowie, Seria specjalna: Monograe nr 108. Steinley D., Henson R., (2005), OCLUS: An Analytic Method for Generating Clusters with Known Overlap, Journal of Classi cation, 22, Tibshrani R., Walther G., Hastie T., (2001), Estimating the Number of Clusters in a Dataset via the Gap Statistic, Journal of the Royal Statistical Society, 32, Wieczorkowski R., Zieliski R., (1997), Komputerowe generatory liczb losowych, Wydawnictwa Naukowo Techniczne, Warszawa. INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH Streszczenie W artykule zaproponowany jest nowy indeks wyznaczajcy liczb skupie w zbiorze danych opisanych przez zmienne cige. Indeks oparty jest na wielostopniowym dzieleniu zbioru danych (lub jego czci) na dwa skupienia i sprawdzaniu czy podzia taki naley zachowa czy pomin. Kryterium sprawdzajcym jest indeks Randa przy pomocy którego oceniana jest zgodno podziau pierwotnego na dwa skupienia z podziaem na dwa skupienia zbioru wszego, skadajcego si ze skupienia mniejszego z podziau pierwotnego i 1/3 skupienia wikszego z podziau pierwotnego. Podziay dokonywane s przy pomocy metody k-rednich (dla k=2) z wielokrotnym losowym wyborem punktów startowych. Efektywno nowego indeksu zostaa zbadana w obszernym eksperymencie na kilku tysicach zbiorów danych wygenerowanych w postaci struktur skupie o rónej liczbie zmiennych, skupie, wzgldnej liczebnoci skupie i rónych wariantach skorelowania zmiennych wewntrz skupie. Ponadto, zmienny by równie stopie separowalnoci skupie kontrolowany wedug algorytmu OCLUS. Podstaw oceny efektywnoci byo porównanie z dwoma innymi indeksami liczby skupie, majcymi w literaturze przedmiotu opini jednych z najlepszych sporód dotychczas opracowanych tj. indeksem Caliskiego-Harabasza oraz indeksem Gap. Efektywno zaproponowanego indeksu jest znacznie wysza od obu konkurencyjnych indeksów w przypadkach niezbyt wyranej struktury skupie. Sowa kluczowe: analiza skupie, liczba skupie w zbiorze danych, indeks Caliskiego-Harabasza, indeks Gap INDEX OF THE CHOICE OF THE NUMBER OF CLUSTERS Abstract In the article a new index for determining the number of clusters in a data set is proposed. The index is based on multiple division of the data set (or a part of it) into two clusters and checking if this division should be retained or neglected. The checking criterion is the Rand index by means of which
12 180 Jerzy Korzeniewski the extent to which the primary division and the second division of the narrower subset consisting of the smaller cluster from the primary division and 1/3 of the bigger cluster coincide. The divisions are made by means of the classical k-means (for k=2) with multiple random choice of starting points. The efciency of the new index was examined in a broad experiment on a couple of thousands of data sets generated to possess cluster structures with different number of variables, clusters, cluster densities and different variants of within cluster correlation. Moreover, the cluster overlap controlled according to the OCLUS algorithm was also varied. A basis for efciency assessment was the comparison with two other leading indices i.e. Caliski-Harabasz index and the Gap index. The efciency of the new index proposed is higher than that of the competition when the cluster structure is not very distinct. Keywords: cluster analysis, number of clusters in a data set, Caliski-Harabasz index, Gap index
Bazy danych. Plan wykładu. Podzapytania - wskazówki. Podzapytania po FROM. Wykład 5: Zalenoci wielowartociowe. Sprowadzanie do postaci normalnych.
Plan wykładu azy danych Wykład 5: Zalenoci wielowartociowe. Sprowadzanie do postaci normalnych. Dokoczenie SQL Zalenoci wielowartociowe zwarta posta normalna Dekompozycja do 4NF Przykład sprowadzanie do
Bazy danych. Plan wykładu. Zalenoci funkcyjne. Wykład 4: Relacyjny model danych - zalenoci funkcyjne. SQL - podzapytania A B
Plan wykładu Bazy danych Wykład 4: Relacyjny model danych - zalenoci funkcyjne. SQL - podzapytania Definicja zalenoci funkcyjnych Klucze relacji Reguły dotyczce zalenoci funkcyjnych Domknicie zbioru atrybutów
Planowanie adresacji IP dla przedsibiorstwa.
Planowanie adresacji IP dla przedsibiorstwa. Wstp Przy podejciu do planowania adresacji IP moemy spotka si z 2 głównymi przypadkami: planowanie za pomoc adresów sieci prywatnej przypadek, w którym jeeli
Temat: Technika zachłanna. Przykłady zastosowania. Własno wyboru zachłannego i optymalnej podstruktury.
Temat: Technika zachłanna. Przykłady zastosowania. Własno wyboru zachłannego i optymalnej podstruktury. Algorytm zachłanny ( ang. greedy algorithm) wykonuje zawsze działanie, które wydaje si w danej chwili
stopie szaro ci piksela ( x, y)
I. Wstp. Jednym z podstawowych zada analizy obrazu jest segmentacja. Jest to podział obrazu na obszary spełniajce pewne kryterium jednorodnoci. Jedn z najprostszych metod segmentacji obrazu jest progowanie.
ZASTOSOWANIE ODCINKOWO-LINIOWEGO MINIMODELU DO MODELOWANIA PRODUKCJI SPRZEDANEJ PRZEMYSŁU
ZASTOSOWANIE ODCINKOWO-LINIOWEGO MINIMODELU DO MODELOWANIA PRODUKCJI SPRZEDANEJ PRZEMYSŁU W artykule przedstawiono now metod modelowania zjawisk ekonomicznych. Metoda odcinkowo-liniowego minimodelu szczególnie
Ekonometria - wykªad 8
Ekonometria - wykªad 8 3.1 Specykacja i werykacja modelu liniowego dobór zmiennych obja±niaj cych - cz ± 1 Barbara Jasiulis-Goªdyn 11.04.2014, 25.04.2014 2013/2014 Wprowadzenie Ideologia Y zmienna obja±niana
Rynek motoryzacyjny 2011 Europa vs Polska
Rynek motoryzacyjny 2011 Europa vs Polska Rynek cz!"ci motoryzacyjnych nierozerwalnie #$czy si! z parkiem samochodowym, dlatego te% podczas oceny wyników sprzeda%y samochodowych cz!"ci zamiennych nie mo%na
OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp
PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 47 009 TAKSONOMIA 16 Klasyfikacja i analiza danych teoria i zastosowania Uniwersytet Ekonomiczny we Wrocławiu OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ
Projektowanie algorytmów rekurencyjnych
C9 Projektowanie algorytmów rekurencyjnych wiczenie 1. Przeanalizowa działanie poniszego algorytmu dla parametru wejciowego n = 4 (rysunek 9.1): n i i
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Podstawowe obiekty AutoCAD-a
LINIA Podstawowe obiekty AutoCAD-a Zad1: Narysowa lini o pocztku w punkcie o współrzdnych (100, 50) i kocu w punkcie (200, 150) 1. Wybierz polecenie rysowania linii, np. poprzez kilknicie ikony. W wierszu
IV Powiatowy Konkurs Matematyka, Fizyka i Informatyka w Technice Etap finałowy 1 kwietnia 2016
IV Powiatowy Konkurs Matematyka, Fizyka i Informatyka w Technice Etap finałowy 1 kwietnia 2016 (imi i nazwisko uczestnika) (nazwa szkoły) Arkusz zawiera 8 zada. Zadania 1 i 2 bd oceniane dla kadego uczestnika,
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia
wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. wiczenia 1 2 do wiczenia 3 4 Badanie do±wiadczalne 5 pomiarów 6 7 Cel Celem wiczenia jest zapoznanie studentów z etapami przygotowania i
Temat: Geometria obliczeniowa cz II. Para najmniej odległych punktów. Sprawdzenie, czy istnieje para przecinajcych si odcinków.
Temat: Geometria obliczeniowa cz II. Para najmniej odległych punktów. Sprawdzenie, czy istnieje para przecinajcych si odcinków. 1. Para najmniej odległych punktów WP: Dany jest n - elementowy zbiór punktów
Bazy danych. Plan wykładu. Dekompozycja relacji. Anomalie. Wykład 5: Projektowanie relacyjnych schematów baz danych. SQL - funkcje grupujce
Plan wykładu Bazy danych Wykład 5: Projektowanie relacyjnych schematów baz danych. SQL - funkcje grupujce Małgorzata Krtowska Katedra Oprogramowania e-mail: mmac@ii.pb.bialystok.pl Proces dobrego projektowania
Temat: Problem minimalnego drzewa Steinera. Definicja problemu. Zastosowania. Algorytm dokładny Hakimi. Algorytmy aproksymacyjne.
Temat: Problem minimalnego drzewa Steinera. Definicja problemu. Zastosowania. Algorytm dokładny Hakimi. Algorytmy aproksymacyjne. 1. Definicja problemu Wejcie: Graf spójny niezorientowany G =
KLUCZ PUNKTOWANIA ODPOWIEDZI
Egzamin maturalny maj 009 MATEMATYKA POZIOM PODSTAWOWY KLUCZ PUNKTOWANIA ODPOWIEDZI Zadanie 1. Matematyka poziom podstawowy Wyznaczanie wartoci funkcji dla danych argumentów i jej miejsca zerowego. Zdajcy
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu
➏ Filozoa z elementami logiki Na podstawie wykªadów dra Mariusza Urba«skiego Sylogistyka Przypomnij sobie: stosunki mi dzy zakresami nazw KLASYCZNE ZDANIA KATEGORYCZNE Trzy znaczenia sªowa jest trzy rodzaje
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z grupowania danych - Rough k-medoids Liczba osób realizuj cych projekt: 1 osoba 1. Wczytanie danych w formatach
Zastosowanie programu Microsoft Excel do analizy wyników nauczania
Grayna Napieralska Zastosowanie programu Microsoft Excel do analizy wyników nauczania Koniecznym i bardzo wanym elementem pracy dydaktycznej nauczyciela jest badanie wyników nauczania. Prawidłow analiz
1) Grafy eulerowskie własnoci algorytmy. 2) Problem chiskiego listonosza
165 1) Grafy eulerowskie własnoci algorytmy 2) Problem chiskiego listonosza 166 Grafy eulerowskie Def. Graf (multigraf, niekoniecznie spójny) jest grafem eulerowskim, jeli zawiera cykl zawierajcy wszystkie
Metodydowodzenia twierdzeń
1 Metodydowodzenia twierdzeń Przez zdanie rozumiemy dowolne stwierdzenie, które jest albo prawdziwe, albo faªszywe (nie mo»e by ono jednocze±nie prawdziwe i faªszywe). Tradycyjnie b dziemy u»ywali maªych
ZMIANY W KRZYWIZNACH KRGOSŁUPA MCZYZN I KOBIET W POZYCJI SIEDZCEJ W ZALENOCI OD TYPU POSTAWY CIAŁA WSTP
Elbieta CHLEBICKA Agnieszka GUZIK Wincenty LIWA Politechnika Wrocławska ZMIANY W KRZYWIZNACH KRGOSŁUPA MCZYZN I KOBIET W POZYCJI SIEDZCEJ W ZALENOCI OD TYPU POSTAWY CIAŁA WSTP siedzca, która jest przyjmowana
Poprawa efektywnoci metody wstecznej propagacji bdu. Jacek Bartman
Poprawa efektywnoci metody wstecznej propagac bdu Algorytm wstecznej propagac bdu. Wygeneruj losowo wektory wag. 2. Podaj wybrany wzorzec na wejcie sieci. 3. Wyznacz odpowiedzi wszystkich neuronów wyjciowych
I Powiatowy Konkurs Matematyka, Fizyka i Informatyka w Technice Etap finałowy 10 kwietnia 2013 grupa elektryczno-elektroniczna
I Powiatowy Konkurs Matematyka, Fizyka i Informatyka w Technice Etap finałowy 10 kwietnia 2013 grupa elektryczno-elektroniczna (imi i nazwisko uczestnika) (nazwa szkoły) Arkusz zawiera 6 zada. Zadania
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15
ANALIZA NUMERYCZNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Metoda Eulera 3 1.1 zagadnienia brzegowe....................... 3 1.2 Zastosowanie ró»niczki...................... 4 1.3 Output do pliku
TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ
UNIWERSYTET EKONOMICZNY W KATOWICACH NAZWA WYDZIAŁU NAZWA KIERUNKU IMIĘ I NAZWISKO AUTORA TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU POLSKIM) TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU ANGIELSKIM)
Wstp. Warto przepływu to
177 Maksymalny przepływ Załoenia: sie przepływow (np. przepływ cieczy, prdu, danych w sieci itp.) bdziemy modelowa za pomoc grafów skierowanych łuki grafu odpowiadaj kanałom wierzchołki to miejsca połcze
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Zeszyty Naukowe UNIWERSYTETU PRZYRODNICZO-HUMANISTYCZNEGO w SIEDLCACH Nr 95 Seria: Administracja i Zarz dzanie 2012
Zeszyty Naukowe UNIWERSYTETU PRZYRODNICZO-HUMANISTYCZNEGO w SIEDLCACH Nr 95 Seria: Administracja i Zarzdzanie 01 dr hab. in. Tadeusz Waciski, prof. WAT Wojskowa Akademia Techniczna dr Grzegorz Przekota
ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR 2 POZIOM PODSTAWOWY. 1. x y x y
Nr zadania Nr czynnoci Przykadowy zestaw zada nr z matematyki ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR POZIOM PODSTAWOWY Etapy rozwizania zadania. Podanie dziedziny funkcji f: 6, 8.. Podanie wszystkich
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info
Lista kontrolna umowy z podwykonawc
Dane podstawowe projektu:... Zleceniodawca:...... Nazwa podwykonawcy z którym zawierana jest umowa:... Nazwa detalu:... Numer detalu:... Odbiór Czy definicja tymczasowego odbioru jest jasno ustalona? Czy
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej
Ekonometria wiczenia 2 Werykacja modelu liniowego (2) Ekonometria 1 / 33 Plan wicze«1 Wprowadzenie 2 Ocena dopasowania R-kwadrat Skorygowany R-kwadrat i kryteria informacyjne 3 Ocena istotno±ci zmiennych
Przykłady wyrae uywanych w kwerendach i filtrach
Przykłady wyrae uywanych w kwerendach i filtrach Przykłady kryteriów stosowanych przy pobieraniu rekordów Zakresy wartoci (>, =, 234 Dla pola Ilo; wywietla liczby wiksze
Statystyka w analizie i planowaniu eksperymentu
29 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Numeryczne zadanie wªasne
Rozdziaª 11 Numeryczne zadanie wªasne W tym rozdziale zajmiemy si symetrycznym zadaniem wªasnym, tzn. zadaniem znajdowania warto±ci i/lub wektorów wªasnych dla macierzy symetrycznej A = A T. W zadaniach
Statystyka w analizie i planowaniu eksperymentu
31 marca 2014 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Bazy danych Podstawy teoretyczne
Pojcia podstawowe Baza Danych jest to zbiór danych o okrelonej strukturze zapisany w nieulotnej pamici, mogcy zaspokoi potrzeby wielu u!ytkowników korzystajcych z niego w sposóbs selektywny w dogodnym
Izolacja Anteny szerokopasmowe i wskopasmowe
Izolacja Anteny szerokopasmowe i wskopasmowe W literaturze technicznej mona znale róne opinie, na temat okrelenia, kiedy antena moe zosta nazwana szerokopasmow. Niektórzy producenci nazywaj anten szerokopasmow
Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia 2011. Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej
Matematyka wykªad 1 Macierze (1) Andrzej Torój Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej 17 wrze±nia 2011 Plan wykªadu 1 2 3 4 5 Plan prezentacji 1 2 3 4 5 Kontakt moja strona internetowa:
Program do konwersji obrazu na cig zero-jedynkowy
Łukasz Wany Program do konwersji obrazu na cig zero-jedynkowy Wstp Budujc sie neuronow do kompresji znaków, na samym pocztku zmierzylimy si z problemem przygotowywania danych do nauki sieci. Przyjlimy,
PREZENTACJA DZIAŁANIA KLASYCZNEGO ALGORYTMU GENETYCZNEGO
Piotr Borowiec PREZENTACJA DZIAŁANIA KLASYCZNEGO ALGORYTMU GENETYCZNEGO Sporód wielu metod sztucznej inteligencji obliczeniowej algorytmy genetyczne doczekały si wielu implementacji. Mona je wykorzystywa
Wykªad 6: Model logitowy
Wykªad 6: Model logitowy Ekonometria Stosowana SGH Model logitowy 1 / 18 Plan wicze«1 Modele zmiennej jako±ciowej idea 2 Model logitowy Specykacja i interpretacja parametrów Dopasowanie i restrykcje 3
E2 - PROBABILISTYKA - Zadania do oddania
E - PROBABILISTYKA - Zadania do oddania Parametr k = liczba trzycyfrowa dwie ostatnie cyfry to dwie ostatnie cyfry numeru indeksu pierwsza cyfra to pierwsza cyfra liczby liter pierwszego imienia. Poszczególne
w sprawie wprowadzenia procedury naboru pracowników na kierownicze stanowiska urzdnicze i stanowiska urzdnicze w Starostwie Powiatowym w Krasnymstawie
ZARZDZENIE Nr 13/2005 STAROSTY KRASNOSTAWSKIEGO z dnia 29 sierpnia 2005 roku w sprawie wprowadzenia procedury naboru pracowników na kierownicze stanowiska urzdnicze i stanowiska urzdnicze w Starostwie
Gramatyki regularne i automaty skoczone
Gramatyki regularne i automaty skoczone Alfabet, jzyk, gramatyka - podstawowe pojcia Co to jest gramatyka regularna, co to jest automat skoczony? Gramatyka regularna Gramatyka bezkontekstowa Translacja
Rys1. Schemat blokowy uk adu. Napi cie wyj ciowe czujnika [mv]
Wstp Po zapoznaniu si z wynikami bada czujnika piezoelektrycznego, ramach projektu zaprojektowano i zasymulowano nastpujce ukady: - ródo prdowe stabilizowane o wydajnoci prdowej ma (do zasilania czujnika);
Dynamika Uk adów Nieliniowych 2009 Wykład 11 1 Synchronizacja uk adów chaotycznych O synchronizacji mówiliśmy przy okazji języków Arnolda.
Dynamika Ukadów Nieliniowych 2009 Wykład 11 1 Synchronizacja ukadów chaotycznych O synchronizacji mówiliśmy przy okazji języków Arnolda. Wtedy była to synchronizacja stanów periodycznych. Wiecej na ten
Statyczna próba skrcania
Laboratorium z Wytrzymałoci Materiałów Statyczna próba skrcania Instrukcja uzupełniajca Opracował: Łukasz Blacha Politechnika Opolska Katedra Mechaniki i PKM Opole, 2011 2 Wprowadzenie Do celów wiczenia
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Algorytmy zrandomizowane
Algorytmy zrandomizowane www.qed.pl/ai/nai2003 PLAN WYKŁADU Inne zadania optymalizacyjne grupowanie Generowanie liczb losowych Metody Monte Carlo i Las Vegas przykłady zastosowa Przeszukiwanie losowe metoda
6.2. Baza i wymiar. V nazywamy baz-
62 Baza i wymiar V nazywamy baz- Definicja 66 Niech V bdzie przestrzeni, liniow, nad cia/em F Podzbiór B przestrzeni V, je2eli: () B jest liniowo niezale2ny, (2) B jest generuj,cy, tzn lin(b) =V Przyk/ady:
PROBABILISTYKA I STATYSTYKA - Zadania do oddania
PROBABILISTYKA I STATYSTYKA - Zadania do oddania Parametr k = liczba trzycyfrowa, dwie ostatnie cyfry to dwie ostatnie cyfry numeru indeksu, pierwsza cyfra to pierwsza cyfra liczby liter pierwszego imienia.
Ekonometria Bayesowska
Ekonometria Bayesowska Wykªad 9: Metody numeryczne: MCMC Andrzej Torój 1 / 17 Plan wykªadu Wprowadzenie 1 Wprowadzenie 3 / 17 Plan prezentacji Wprowadzenie 1 Wprowadzenie 3 3 / 17 Zastosowanie metod numerycznych
Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport
Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych.
A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.
Logika i teoria mnogo±ci, konspekt wykªad 12 Teoria mocy, cz ± II Def. 12.1 Ka»demu zbiorowi X przyporz dkowujemy oznaczany symbolem X obiekt zwany liczb kardynaln (lub moc zbioru X) w taki sposób,»e ta
KONKURS PRZEDMIOTOWY MATEMATYCZNY DLA UCZNIÓW GIMNAZJUM
Konkursy w województwie podkarpackim w roku szkolnym 006/007 fdsrterdgdf Kod ucznia Kod szkoły... piecztka WKK Dzie Miesic Rok D A T A U R O D Z E N I A U C Z N I A KONKURS PRZEDMIOTOWY MATEMATYCZNY DLA
Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty
Plan wykładu Reguły asocjacyjne Marcin S. Szczuka Wykład 6 Terminologia dla reguł asocjacyjnych. Ogólny algorytm znajdowania reguł. Wyszukiwanie czstych zbiorów. Konstruowanie reguł - APRIORI. Reguły asocjacyjne
Pozew o odszkodowanie. 1. o zas_dzenie na moj_ rzecz od pozwanego kwoty... z ustawowymi odsetkami od dnia wniesienia pozwu
...dnia... S_d Rejonowy S_d Pracy w... ul... Powód:... Pozwany:... Pozew o odszkodowanie W imieniu w_asnym wnosz_: 1. o zas_dzenie na moj_ rzecz od pozwanego kwoty... z ustawowymi odsetkami od dnia wniesienia
Bazy danych. Plan wykładu. Proces modelowania i implementacji bazy danych. Elementy ERD. Wykład 2: Diagramy zwizków encji (ERD)
Plan wykładu Bazy danych Wykład 2: Diagramy zwizków encji (ERD) Diagramy zwizków encji elementy ERD licznoci zwizków podklasy klucze zbiory słabych encji Małgorzata Krtowska Katedra Oprogramowania e-mail:
Bazy danych. Plan wykładu. Proces modelowania i implementacji bazy danych. Elementy ERD. Wykład 2: Diagramy zwizków encji (ERD)
Plan wykładu Bazy danych Wykład 2: Diagramy zwizków encji (ERD) Diagramy zwizków encji elementy ERD licznoci zwizków podklasy klucze zbiory słabych encji Małgorzata Krtowska Katedra Oprogramowania e-mail:
Bazy danych. Plan wykładu. Pierwsza posta normalna. Druga posta normalna. Wykład 7: Sprowadzanie do postaci normalnych. DDL, DML
Plan wykładu azy danych Wykład 7: Sprowadzanie do postaci normalnych. DDL, DML Przykład sprowadzenia nieznormalizowanej relacji do 3NF SQL instrukcja EXISTS DDL DML (insert) Małgorzata Krtowska Katedra
BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI
14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy
MATERIA&!'WICZENIOWY Z MATEMATYKI
Materia!"wiczeniowy zawiera informacje prawnie chronione do momentu rozpocz#cia diagnozy. Materia! "wiczeniowy chroniony jest prawem autorskim. Materia u nie nale$y powiela" ani udost#pnia" w $adnej innej
Biostatystyka, # 5 /Weterynaria I/
Biostatystyka, # 5 /Weterynaria I/ dr n. mat. Zdzisªaw Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowa«Matematyki i Informatyki ul. Gª boka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Bazy danych. Plan wykáadu. Zale*noci funkcyjne. Wykáad 4: Relacyjny model danych - zale*noci funkcyjne. A B
Plan wykáadu Bazy danych Wykáad 4: Relacyjny model danych - zale*noci funkcyjne. Maágorzata Krtowska Wydziaá Informatyki Politechnika Biaáostocka Deficja zale*noci funkcyjnych Klucze relacji Reguáy dotyczce
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z wyznaczania reduktów zbioru Liczba osób realizuj cych projekt: 1-2 osoby 1. Wczytanie danych w formatach arf,
Tworzenie bazy danych Biblioteka tworzenie tabel i powiza, manipulowanie danymi. Zadania do wykonani przed przystpieniem do pracy:
wiczenie 2 Tworzenie bazy danych Biblioteka tworzenie tabel i powiza, manipulowanie danymi. Cel wiczenia: Zapoznanie si ze sposobami konstruowania tabel, powiza pomidzy tabelami oraz metodami manipulowania
PORÓWNANIE METODY REDNIEJ ORAZ REDNIEJ WA ONEJ KONSTRUOWANIA INDEKSÓW CEN NIERUCHOMO CI MIESZKANIOWYCH
PORÓWNANIE METODY REDNIEJ ORAZ REDNIEJ WAONEJ KONSTRUOWANIA INDEKSÓW CEN NIERUCHOMOCI MIESZKANIOWYCH Radosaw Trojanek Katedra Inwestycji i Nieruchomoci Uniwersytet Ekonomiczny w Poznaniu e-mail: r.trojanek@ue.poznan.pl
Projektowanie i analiza zadaniowa interfejsu na przykładzie okna dialogowego.
Projektowanie i analiza zadaniowa interfejsu na przykładzie okna dialogowego. Jerzy Grobelny Politechnika Wrocławska Projektowanie zadaniowe jest jednym z podstawowych podej do racjonalnego kształtowania
Algorytmy kodowania predykcyjnego
Algorytmy kodowania predykcyjnego 1. Zasada kodowania 2. Algorytm JPEG-LS 3. Algorytmy CALIC, LOCO-I 4. Algorytmy z wielokrotn rozdzielczoci. Progresywna transmisja obrazów Kompresja obrazów - zestawienie
DIAGNOZOWANIE STANÓW ZDOLNO CI JAKO CIOWEJ PROCESU PRODUKCYJNEGO
DIAGNOSTYKA 27 ARTYKUY GÓWNE SZKODA, Diagnozowanie stanów zdolnoci jakociowej 89 DIAGNOZOWANIE STANÓW ZDOLNOCI JAKOCIOWEJ PROCESU PRODUKCYJNEGO Jerzy SZKODA Katedra Eksploatacji Pojazdów i Maszyn Uniwersytetu
SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 450 PRACE KATEDRY EKONOMETRII I STATYSTYKI NR 17 2006 MAREK WALESIAK ANDRZEJ DUDEK Akademia Ekonomiczna Wrocław SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY
Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski
Statystyka Šukasz Dawidowski Instytut Matematyki, Uniwersytet l ski Statystyka Statystyka: nauka zajmuj ca si liczbowym opisem zjawisk masowych oraz ich analizowaniem, zbiory informacji liczbowych. (Sªownik
In»ynierskie zastosowania statystyki wiczenia
Uwagi: 27012014 poprawiono kilka literówek, zwi zanych z przedziaªami ufno±ci dla wariancji i odchylenia standardowego In»ynierskie zastosowania statystyki wiczenia Przedziaªy wiarygodno±ci, testowanie
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI
METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XVI/3, 2015, str. 118 128 PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI Marta Jarocka Katedra Informatyki Gospodarczej
WYKŁAD 2: PSYCHOLOGIA POZNAWCZA JAKO NAUKA EKSPERYMENTALNA
WYKŁAD 2: PSYCHOLOGIA POZNAWCZA JAKO NAUKA EKSPERYMENTALNA Psychologia poznawcza dr Mateusz Hohol METODA NAUKOWA (1) problem badawczy (2) hipoteza (4) analiza danych (3) eksperyment (5) wniosek: potwierzenie
Zadania do wykonaj przed przyst!pieniem do pracy:
wiczenie 3 Tworzenie bazy danych Biblioteka tworzenie kwerend, formularzy Cel wiczenia: Zapoznanie si ze sposobami konstruowania formularzy operujcych na danych z tabel oraz metodami tworzenia kwerend
Metody Informatyczne w Budownictwie Metoda Elementów Skoczonych ZADANIE NR 1
Metody Informatyczne w Budownictwie Metoda Elementów Skoczonych ZADANIE NR 1 Wyznaczy wektor sił i przemieszcze wzłowych dla układu elementów przedstawionego na rysunku poniej (rysunek nie jest w skali!).
OCENIANIE ARKUSZA POZIOM ROZSZERZONY
Numer zadania... Etapy rozwizania zadania Przeksztacenie wzoru funkcji do danej postaci f ( x) lub f ( x) x x. I sposób rozwizania podpunktu b). Zapisanie wzoru funkcji w postaci sumy OCENIANIE ARKUSZA
strona 1 / 12 Autor: Walesiak Marek Publikacje:
Autor: Walesiak Marek Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii i zastosowań metod taksonomicznych, s.
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:
Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Temat: Algorytmy zachłanne
Temat: Algorytmy zachłanne Algorytm zachłanny ( ang. greedy algorithm) wykonuje zawsze działanie, które wydaje si w danej chwili najkorzystniejsze. Wybiera zatem lokalnie optymaln moliwo w nadziei, e doprowadzi
Wybór optymalnej liczby składowych w analizie czynnikowej Test Równolegości Horn a i test MAP Velicera
Wybór optymalnej liczby składowych w analizie czynnikowej Test Równolegości Horn a i test MAP Velicera Wielu badaczy podejmuje decyzje o optymalnej liczbie składowych do wyodrębnienia na podstawie arbitralnych
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Problem decyzyjny naley do klasy NP. (Polynomial), jeeli moe by rozwizany w czasie conajwyej wielomianowym przez algorytm A dla DTM.
WYKŁAD : Teoria NP-zupełnoci. Problem decyzyjny naley do klasy P (Polynomial), jeeli moe by rozwizany w czasie conajwyej wielomianowym przez algorytm A dla DTM. (przynaleno ta jest zachowana równie dla
Metody Rozmyte i Algorytmy Ewolucyjne
mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawowe operatory genetyczne Plan wykładu Przypomnienie 1 Przypomnienie Metody generacji liczb
Amortyzacja rodków trwałych
Amortyzacja rodków trwałych Wydawnictwo Podatkowe GOFIN http://www.gofin.pl/podp.php/190/665/ Dodatek do Zeszytów Metodycznych Rachunkowoci z dnia 2003-07-20 Nr 7 Nr kolejny 110 Warto pocztkow rodków trwałych
Strategia czy intuicja?
Strategia czy intuicja czyli o grach niesko«czonych Instytut Matematyki Uniwersytetu Warszawskiego Grzegorzewice, 29 sierpnia 2009 Denicja gry Najprostszy przypadek: A - zbiór (na ogóª co najwy»ej przeliczalny),