Analiza skupie«konspekt do zaj : Statystyczne metody analizy danych
|
|
- Piotr Kaczmarczyk
- 6 lat temu
- Przeglądów:
Transkrypt
1 Analiza skupie«konspekt do zaj : Statystyczne metody analizy danych 1 Wprowadzenie Agnieszka Nowak-Brzezi«ska 14 stycznia 2010 Celem laboratorium jest analiza skupie«wybranych zbiorów danych w ±rodowisku R. Jest to metoda dokonuj ca grupowania (podziaªu) obiektów danego zbioru na wzgl dnie jednorodne klasy. Podstaw grupowania w wi kszo±ci algorytmów jest podobie«stwo pomi dzy obserwacjami - wyra»one przy pomocy funkcji (metryki) podobie«stwa. Istnieje wiele implementacji algorytmów analizy skupie«w ±rodowisku R, w ramach zaj zostan omówione te realizuj ce algorytmy: ˆ niehierarchiczne: k - ±rednich dost pny z funkcj k-means oraz k-medoidów dost pny z funkcj pam, ˆ hierarchiczne: agnes (ang. AGlomerative NESting) (dost pny z funkcj agnes) oraz hierarchiczny algorytm grupowania dost pny z funkcj hclust i mo»liwy do prezentacji gracznej dzi ki funkcji plot. Ka»dy z pakietów uzupeªniony jest o dokumentacj, której znajomo± pozwala wykona poprawne analizy danych: ˆ ˆ html ˆ 2 Analiza skupie«grupowanie (ang. data clustering), zwane równie» analiz skupie«lub klasykacj nienadzorowan polega na podziale pewnego zbioru danych O O = {x i = (x i1,..., x id ) i=1,...,n } gdzie x i jest d-wymiarowym wektorem cech opisuj cych obiekt nale» cy do zbioru, na pewne podzbiory wektorów (grupy). Podstawowym zaªo»eniem dotycz cym wynikowego podziaªu jest homogeniczno± obiektów wchodz cych w skªad jednej grupy oraz heterogeniczno± samych grup oznacza to,»e wektory stanowi ce jedn grup powinny by bardziej podobne do siebie ni» do wektorów pochodz cych z pozostaªych grup. Wynikiem grupowania N-elementowego 1
2 zbioru O na c grup jest zazwyczaj tzw. macierz podziaªu B o wymiarze c N, w której dany element b ik oznacza stopie«przynale»no±ci wektora x k do grupy G i (warto± 1 ±wiadczy o caªkowitej przynale»no±ci wektora do grupy, natomiast 0 oznacza,»e wektor do danej grupy wogóle nie nale»y). Ze wzgl du na przyj te zaªo»enia dotycz ce przynale»no±ci wektorów do grup mówi si o trzech gªównych typach podziaªów: P odz c (N) = G 1,..., G c Gi O Podziaª twardy (ang. hard) uzyskuje si w efekcie takiego grupowania, w którym ka»dy wektor nale»y tylko do jednej grupy. Macierz podziaªu speªnia wtedy nast puj ce warunki: ˆ 1 i c, 1 k N : b ik {0, 1}, co oznacza,»e ka»dy wektor nale»y albo nie nale»y do danej grupy, ˆ 1 k N: c i=1 b ik = 1, co oznacza,»e wektor nale»y tylko do jednej grupy, ˆ 1 i c : 0 < N k=1 b ik < N, co z kolei oznacza,»e wszystkie grupy s niepuste. Istniej tak»e podziaªy: rozmyty oraz posybilistyczny ale z uwagi na fakt,»e nie s one tematem tego opracowania, nie b dziemy ich opisywa. Bior c pod uwag sposób tworzenia skupie«, techniki analizy skupie«mo»na podzieli na dwie podstawowe kategorie: niehierarchiczne oraz hierarchiczne. Celem algorytmów niehierarchicznych jest znalezienie takiego podziaªu zbioru na zadan liczb podzbiorów, aby uzyska optymaln warto± pewnego kryterium. Optymalizacj kryterium osi ga si np. poprzez iteracyjne przemieszczanie obiektów mi dzy grupami. Metody hierarchiczne konstruuj (jak sama nazwa sugeruje) pewn hierarchi skupie«, która najcz ±ciej reprezentowana jest gracznie w postaci drzewa binarnego nazywanego dendrogramem. W li±ciach takiego drzewa znajduj si elementy analizowanego zbioru, w zªy natomiast stanowi ich grupy. Najbardziej po» dane cechy, jakich oczekuje si od algorytmów grupuj cych, to m.in.: ˆ jak najmniejsza liczba parametrów, które trzeba dostarcza z zewn trz, ˆ jak najmniejsza krotno± analizy elementów zbioru ucz cego, ˆ niewra»liwo± na ró»nice w ksztaªcie, wielko±ci czy g sto±ci grup, ˆ zminimalizowany wpªyw danych odstaj cych na wynik przetwarzania, ˆ mo»liwo± przetwarzania ró»nych typów danych (ci gªych, dyskretnych oraz kombinacji obu jednocze±nie), ˆ niezale»no± wyniku od kolejno±ci, w jakiej podawane s dane, ˆ skalowalno± rozumiana jako zdolno± do przetwarzania bardzo du»ych zbiorów danych, ˆ przystosowanie do analizy danych o ró»nej wymiarowo±ci. 2
3 2.1 Metody niehierarchiczne Algorytmy w ramach tych metod poszukuj najlepszego podziaªu zadanego zbioru danych poprzez stopniow optymalizacj, tzn. popraw pewnych wska¹ników jako±ci grupowania, uzyskiwanego w kolejnych etapach przetwarzania zbioru wej±ciowego. Pocz tkowego podziaªu dokonuje si najcz ±ciej w sposób losowy. Znacz cym z punktu widzenia ko«cowej klasykacji parametrem wej±ciowym jest liczba k, któr przekazuje si jako warto± zadan lub wyznacza w sposób losowy decyduje ona o liczbie skupie«otrzymanych w wyniku dziaªania algorytmu. Z tego samego powodu istotnym jest dobór odpowiedniej funkcji kryterialnej, któr mierzona b dzie jako± gru powania (stopie«rozproszenia wektorów w poszczególnych grupach). Dziedzin funkcji kryterialnej J jest zbiór danych wej±ciowych O oraz wektor parametrów v = (v 1,..., v k ), gdzie k oznacza liczb grup, a v i wektor parametrów okre±laj cych i-t grup. Skªadowe wektora v stanowi reprezentacje poszczególnych skupie«i nazywane s reprezentantami (prototypami) grup. Doboru odpowiedniej funkcji kryterialnej dokonuje si gªównie w zale»no±ci od oczekiwanego ksztaªtu grup Ogólny schemat post powania W przypadku metod iteracyjnych algorytm grupowania skªada si z nast puj - cych kroków: 1. wst pna inicjalizacja : wybierz k obiektów, które b d stanowi prototypy grup, 2. przypisuj pozostaªe obiekty do grup tak, aby osi gn najlepszy podziaª (zgodnie z przyj t funkcj kryterialn ), 3. dla ka»dego otrzymanego skupienia wybierz ponownie prototyp, 4. powtarzaj poprzednie kroki tak dªugo, jak dªugo przyj te kryterium b dzie si poprawia. Wad metody jest jej zachªanno±, przez co w wyniku otrzymuje si jedynie optimum lokalne i nie ma gwarancji osi gni cia optimum globalnego. Najwi ksz jej zalet jest ªatwo± implementacji i stosunkowo maªa zªo»ono± obliczeniowa Algorytm k-±rednich Ten klasyczny algorytm analizy skupie«, na wst pie ustala warto± parametru k decyduj c o liczbie grup, które zostan wyodr bnione ze zbioru danych. W sposób losowy wybiera si k reprezentantów tak, aby byli oni mo»liwie jak najbardziej od siebie oddaleni. Wybrane elementy stanowi zal»ki grup (prototypy). W kolejnym kroku ka»dy element zbioru przypisywany jest do najbli»szej mu grupy. Na tym etapie wyznaczone s grupy pocz tkowe. Dla ka»dej z grup obliczany jest jej ±rodek na podstawie ±redniej arytmetycznej wspóªrz dnych obiektów do niej nale» cych. Nast pnie rozwa»ane i ponownie przydzielane do najbli»szej (ze wzgl du na odlegªo± od poszczególnych centroidów) grupy s wszystkie obiekty. Tak dªugo nowe ±rodki grup s wyznaczane i sprawdzana jest poprawno± przynale»no±ci elementów do grup, jak dªugo wyst puje migracja obiektów pomi dzy skupieniami. Je±li w kolejnych dwóch przebiegach algorytmu nie nast pi»adna zmiana w dokonanym podziale (mówi si wtedy o 3
4 osi gni ciu stabilizacji), przetwarzanie dobiega ko«ca. Jak wida, w metodzie tej liczba grup jest staªa i zgodna z warto±ci parametru k, zmienia si mo»e tylko przynale»no± obiektów do grup. W metodzie k-±rednich (ang. k-means) poszukiwanie optymalnego podziaªu odpowiada wyznaczeniu takich prototypów grup, które minimalizuj nast puj c funkcj kryterialn : J(v, B) = k i=1 k=1 N b ik d 2 (v i, x k ). W funkcji tej d(v, x) oznacza odlegªo± elementu reprezentowanego przez wektor x od grupy wyznaczonej przez prototyp (centroid, ±rodek grupy) v, N to liczebno± zbioru O, B to macierz podziaªu, a pozostaªe parametry maj takie same znaczenie jak podano wcze±niej. Zasad dziaªania metody mo»na opisa nast puj co: 1. podziel wst pnie zbiór na k skupie«, 2. dla ka»dego skupienia policz jego centroid (±rodek ci»ko±ci grupy), 3. przypisz ka»dy z elementów zbioru do najbli»szej mu grupy ( odlegªo± od grupy jest w tym przypadku to»sama z odlegªo±ci od centroidu), 4. powtarzaj dwa poprzednie kroki tak dªugo, jak dªugo zmienia si przyporz dkowanie obiektów do skupie«. Przykªad podziaªu obiektów do k grup przedstawia rysunek 1. Rysunek 1: Przykªad podziaªu obiektów do k skupie«niestety algorytm k-±rednich ma wiele wad. Ju» na wst pie konieczne jest zdeniowanie liczby grup, chocia» zazwyczaj nie wiadomo, jak wiele grup wyst puje w przetwarzanym zbiorze. Pocz tkowe centroidy wybierane s w sposób losowy, podczas gdy ich wybór ma decyduj cy wpªyw na jako± otrzymanego grupowania. Metoda jest zbie»na do lokalnego optimum, a jednokrotne wykonanie algorytmu zazwyczaj nie daje w wyniku optymalnego podziaªu analizowanego zbioru. Ponadto algorytm jest maªo odporny na zaszumione dane. Mimo wszystkich wad jest to wci» jedna z najcz ±ciej wykorzystywanych metod iteracyjnych, poniewa» jest ona prosta w implementacji, a jej niewielka zªo»ono± obliczeniowa wynosi O(tkn), gdzie n jest liczebno±ci zbioru, k jest liczb grup i t jest liczb iteracji, przyczym k, t n. Konieczno± wst pnego okre±lenia liczby 4
5 podgrup mo»na zrekompensowa, wywoªuj c metod z ró»nymi warto±ciami parametru k i oceniaj c otrzymane podziaªy za pomoc jakiego± kryterium oceny jako±ci grupowania Algorytm k-medoidów Wady algorytmu k-±rednich s na tyle istotne,»e cz sto d»y si do zastosowania innych algorytmów w ramach grupy metod niehierarchicznych, ale takich, które wolne s od tych»e wad. Jednym z takim algorymtów jest k-medoid, który to w odró»nieniu od algorytmu k-±rednich w kolejnych etapach algorytmu nowe prototypy grup wyznaczane s spo±ród obiektów nale» cych do rozpatrywanego zbioru. Wystarczaj cym dla zrozumienia idei tego algorytmu jest wgl d w tutorial dost pny na stronie W ±rodowisku R realizuje go funkcja pam() z pakietu cluster. 2.2 Metody hierarchiczne Metody niehierarchiczne maj to do siebie,»e formuj pojedynczy podziaª, który dostarcza pªaskiej charakterystyki zbioru. Tymczasem cz sto spotykan sytuacj s grupy, które zawieraj podgrupy, te z kolei skªadaj si z podgrup itd. T wªa±no± doskonale oddaj algorytmy hierarchiczne. W zale»no±ci od tego jaki zastosujemy algorytm grupowania hierarchicznego: aglomeracyjny czy deglomeracyjny, inny jest przebieg algorytmu, oraz jego ostateczny rezultat. Metody aglomeracyjne rozpoczynaj tworzenie hierarchii od podziaªu zbioru n obserwacji na n jednoelementowych grup, które w kolejnych krokach s ze sob scalane. Metody deglomeracyjne inicjowane s jedn grup n-elementow, a hierarchia tworzona jest poprzez sukcesywny podziaª na coraz mniejsze grupy. W praktyce rzadko d»y si do utworzenia peªnej hierarchii podziaªów, poniewa» ostatni jej etap (tzn. n grup jednoelementowych lub jedna grupa n-elementowa) nie wnosi zbyt wielu nowych informacji na temat charakterystyki analizowanego zbioru danych. Zazwyczaj proces tworzenia hierarchii przerywa si w pewnym, z góry zaªo»onym momencie, kiedy zostanie speªniony tzw. warunek stopu. Warunkiem takim mo»e by np. po» dana liczba skupie«, stopie«(nie) podobie«stwa pomi dzy wydzielonymi grupami itp. Optymalnym wydaje si kryterium maksymalnego podobie«stwa wewn trz grup - minimalnego mi dzy grupami. Inaczej mówi c, proces aglomeracji jest uzasadniony tak dªugo dopóki podobie«stwo wewn trz tworzonych grup jest zawsze wi ksze ni» podobie«stwo mi dzy któr - kolwiek z grup Dendrogram Najbardziej popularnym i naturalnym sposobem reprezentacji wyników grupowania hierarchicznego jest graczny zapis w postaci drzewa binarnego nazywanego dendrogramem. Zapis taki mo»na wzbogaci o informacj dotycz c stopnia niepodobie«stwa (dendrogram niepodobie«stwa) pomi dzy poszczególnymi grupami poprzez dodanie osi skojarzonej zu»yt miar niepodobie«stwa poziom ª czenia grup odpowiada wówczas warto±ci ich niepodobie«stwa. Fakt,»e budujemy drzewo binarne jest bardzo istotny. Okazuje si,»e b d c na k- tym poziomie w drzewie wiemy na pewno,»e utworzonych jest wówczas c grup, gdzie c = n k + 1. Wobec tego poziom pierwszy odpowiada podziaªowi na n 5
6 grup, natomiast poziom n-ty jednej grupie. Przykªad dendrogramu przedstawia rysunek 2. Rysunek 2: Przykªad dendrogramu Algorytmy aglomeracyjne Najprostsza wersja algorytmu aglomeracyjnego skªada si z nast puj cych kroków: 1. niech c b dzie oczekiwan liczb grup, a N liczebno±ci analizowanego zbioru (oczywi±cie c N); wst pna inicjalizacja: podziel zbiór na N jedno elementowych grup, 2. znajd¹ dwie najbli»sze (w sensie przyj tej miary) grupy; nazwijmy je G i oraz G j, 3. scal ze sob G i i G j zmniejszaj c w ten sposób liczb grup o 1, 4. powtarzaj dwa poprzednie kroki tak dªugo, a» liczba otrzymanych grup osi gnie zaªo»on na wst pie warto± c. Niezwykle istotne s kroki: 2 i 3. Otó» znajdowanie dwóch najbli»szych grup, zale»y od wybranej metryki podobie«stwa b d¹ odlegªo±ci. Nie wszystkie bowiem miary nadaj si do okre±lonego typu danych. le dobrana metryka mo»e wskazywa jako najbardziej w danym momencie podobne do siebie grupy, które tak naprawd wcale podobnymi nie s. Jeszcze wa»niejszym i bardziej wpªywowym - jest sposób (okre±lony krokiem 3) scalenia ze sob grup G i oraz G j, gdy» wi»e si on tak»e z budow nowej grupy G k, ale i jej reprezentanta. W pierwszym kroku algorytmu, podziaª ma posta : P odz N 0 (N) = {G i = {x i }, i = 1,..., N} a w kolejnych krokach algorytmu przyjmuje odpowiednio posta : P odzt N t (N) = {P odzt 1 N t+1 (N){G i, G j }} {G k }, gdzie t oznacza kolejny krok algorytmu, a jednocze±nie poziom w hierarchii. W ka»dym kroku spo±ród wszystkich par grup (G r, G s ) wybiera si tak par (G i, G j ),»e D(G i, G j ) = min D(G r, G s ), Gr, Gs P odzt 1 N t+1, G r G s. W macierzy niepodobie«stwa P (t) postaci: P (i, j, t) = D(G i, G j ), i, j = 1,..., N t, 6
7 konieczna jest po ka»dym scaleniu dwóch grup G i i G j aktualizacja, polegaj ca na tym,»e w usuwa si z macierzy kolumn o wi kszym indeksie i lub j, a w kolumnie o mniejszym indeksie wpisujemy warto±ci odlegªo±ci ka»dej grupy do nowo powstaªej grupy G k. Metody ª czenia obiektów zwi zane s wªa±nie z obliczeniem tej odlegªo±ci. Je±li G k = G i G j, G k P odzt N t (N) oraz G i, G j, G s P odzt 1 N t+1 (N) s parami ró»ne, macierz niepodobie«stwa jest aktualizowana w nast puj cy sposób: ˆ dla metody najbli»szego s siada: D(G k, G s ) = min{d(g i, G s ), D(G j, G s )}, ˆ dla metody najdalszego s siada: D(G k, G s ) = max{d(g i, G s ), D(G j, G s )}, ˆ dla metody ±redniej: D(G k, G s ) = 1 2 {D(G i, G s ) + D(G j, G s )} Metoda najbli»szego s siada jest najcz ±ciej wykorzystywana, ze wzgl du na maª zªo»ono±, oraz du» intuicyjno± wybranego podobie«stwa. Jednak jest te» podatna na tzw. zjawisko ªa«cuchowania, polegaj ce na przypisywaniu dªugich ci gów punktów do tego samego skupienia (w odró»nieniu od tworzenia zwartych kulistych skupie«), co w zale»no±ci od oczekiwanego ksztaªtu grup mo»e by traktowane jako wada algorytmu. Na przykªad, je±li pomi dzy dwoma wyra¹nie odr bnymi, kulistymi skupieniami znajdzie si punkt tworz cy pewnego rodzaju most je ª cz cy, metoda dokona niepo» danego scalenia obu skupie«i w rezultacie powstanie du»a, wydªu»ona grupa, niezgodna z wªa±ciw charakterystyk zbioru. Inn wad tej metody ª czenia skupie«jest podatno± na szumy oraz niewielkie zmiany pozycji obiektów. Ilustracj graczn tej metody jest rysunek 3. Rysunek 3: Metoda najbli»szego s siada Metoda najdalszego s siada w przeciwie«stwie do poprzedniej nie ma tendencji do przyrostu wydªu»onych skupie«. Š czone s skupienia zawieraj ce punkty, które w ustalonej przestrzeni metrycznej s poªo»one najdalej od siebie. Metoda wykazuje tendencj do grupowania elementów znajduj cych si na brzegach obszaru okre±lono±ci w jedno skupienie, natomiast bardziej wewn trzne punkty przydzielane s do reszty zadeklarowanych skupie«. Ilustracj graczn tej metody jest rysunek 4. Metody najbli»szego i najdalszego s siada reprezentuj dwa skrajne podej- ±cia do pomiaru odlegªo±ci pomi dzy skupieniami. adne z nich nie jest pozbawione wad, podczas gdy u»ycie metod po±rednich wydaje si by najbardziej oczywistym sposobem na ich unikni cie. Ilustracj graczn tej metody jest rysunek 5. 7
8 Rysunek 4: Metoda najdalszego s siada Rysunek 5: Metoda ±redniej odlegªo±ci Podane miary nie wyczerpuj wszystkich mo»liwo±ci deniowania kryterium kolejnych poª cze«. Metody te mog by zestawiane ze sob tworz c nowe bardziej specjalizowane rozwi zania. 3 Analiza skupie«w ±rodowisku R Zakªadamy,»e przed wykonywaniem analiz w ±rodowisku R student zapoznaª si z podstawowymi algorytmami grupowania. Podstawow kwesti jest podziaª metod analizy skupie«na hierarchiczne i niehierarchiczne (k-optymalizacyjne). Istotnym na tym etapie jest ±wiadomo±,»e efektem metody hierarchicznej jest algomeracja b d¹ deglomeracja obiektów, która przyjmuje najcz ±ciej posta dendrogramu (drzewo z korzeniem i li±cmi). Metody niehierarchiczne - jak sama nazwa wskazuje - nie buduj hierarchii. Tutaj obiekty mog by prezentowane jako punkty na pªaszczy¹nie, i zakªada si,»e te z punktów, które na wykresie rozrzutu s w do± bliskiej odlegªo±ci wobec siebie, tworz skupienie. Problemem jest fakt,»e algorytmy (te bardziej klasyczne) wymagaj podania z góry liczby skupie«, podczas gdy bardzo cz sto nie znamy tej liczby. Stosuje si oczywi- ±cie ró»ne modykacje, które staraj si t optymaln liczb skupie«oszacowa, jednak proces taki wymaga wielokrotnych uruchomie«dla zmienionych parametrów, co znaczenie wydªu»a czas grupowania. Inn zupeªnie kwesti jest spory zbiór wad tych algorytmów, które czasami mog wr cz uniemo»liwi ich zastosowanie. Wykorzystanie metod analizy skupie«w ±rodowisku R jest mo»liwe dzi ki u»yciu nast puj cych pakietów: standardowego pakietu stats, pakietu cluster oraz dodatkowo pakietów flexclust i mclust02. Zakªadamy,»e czytelnikowi znany jest zbiór danych o nazwie IRIS z repozytorium UCI Machine Learning udost pniony równie» w ramach ±rodowiska R. Zbiór przedstawia informacje o 150 kwiatach (irysach) opisanych czterema cechami numerycznymi (Sepal.Length, Sepal.W idth, P etal.length, P etal.w idth) i jednym atrybutem jako±ciowym species (klasykuj cym kwiaty do jednej z trzech grup: setosa, virginica lub versicolor). Wiedz c,»e algorytm k-±rednich (ang. k-means) wymaga, aby wszystkie cechy byªy ilo±ciowymi (podczas gdy ostatnia kolumna w zbiorze IRIS 8
9 zawiera dane jako±ciowe) pominiemy t kolumn w obliczeniach i przedstawimy podstawowe informacje o takim zbiorze danych, czego efektem b dzie nast puj cy ci g informacji pakietu R: > dane = iris[,1:4] > summary(dane) > Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.300 Min. :2.000 Min. :1.000 Min. : st Qu.: st Qu.: st Qu.: st Qu.:0.300 Median :5.800 Median :3.000 Median :4.350 Median :1.300 Mean :5.843 Mean :3.057 Mean :3.758 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 Wywoªanie algorytmu k-±rednich gdy znamy optymaln liczb skupie«(dla zbioru IRIS to 3 grupy) jest do± proste. Realizacja grupowania przy u»yciu metody k-means mo»e by nast puj ca: > klaster = kmeans(dane,3) > plot(dane, pch=klaster$cluster) czego wynikiem b dzie wykres z rozkªadem warto±ci obserwacji w zbiorze iris osobno dla ka»dej z 4 cech opisuj cych te obserwacje: P etal.length, P etal.w idth, Sepal.Length, Sepal.W idth. Efekt b dzie zbli»ony do tego co przedstawia rysunek rerisa Sepal.Length Sepal.Width Petal.Length Petal.Width Rysunek 6: Realizacja funkcji kmeans dla zbioru iris - cztery zmienne Gdyby±my chcieli jednak sprawdzi jak wygl da podziaª obiektów na równie» 3 skupienia, ale bior c pod uwag jedynie dwie pierwsze zmienne je opisuj ce: Sepal.Length oraz Sepal.W idth, wówczas koniecznym jest wywoªanie nast puj cych komend ±rodowiska R: dane = iris[,1:2] > klaster = kmeans(dane,3) > plot(dane, pch=klaster$cluster), czego efekt b dzie zbli»ony do tego, co przedstawia rysunek 7. 9
10 Sepal.Width Sepal.Length Rysunek 7: Realizacja funkcji kmeans dla zbioru iris - dwie zmienne Wykres b dzie czarnobiaªy i bez dodatkowych opcji odno±nie kolorów czy symboli nie b dzie zbyt atrakcyjny wizualnie. Dlatego warto wspomóc si chocia»by ingerencj w kolorystyk (parametr col) oraz symbol obserwacji (parametr pch, np pch = 3 to symbol '+'). Wynikiem wywoªania nast puj cych komend: > cl<-kmeans(dist(dane),3,20) > plot(dane,pch=19,col=cl$cluster,main="k-means") b dzie wykres taki jak na rysunku 8. Problem z umiej tno±ci oszacowania prawidªowej liczby skupie«obrazuje nast puj cy fragment kodu dla ±rodowiska R: > cl<-kmeans(dist(dane),8,20) > plot(dane,pch=18,col=cl$cluster,main="k-means") którego efektem b dzie nast puj cy wykres (rysunek 9): Wykresy tak generowane s odpowiednio jasne do interpretacji gdy znamy prawidªow liczb grup. Jednak gdy dla zbioru IRIS próbowaliby±my zbudowa nie 3 (jak by powinno) lecz 8 grup, otrzymany podziaª nie jest ju» wogóle czytelny. Podobnie wida to, gdy zmieniejszymy liczb zmiennych analizowanych w procesie grupowanie obiektów zbioru IRIS. Mianowicie, gdy we¹miemy pod uwag tylko dwie pierwsze zmienne: Sepal.Lenght oraz Sepal.W idth, i spróbujemy podzieli te 150 obserwacji na 8 grup, wykonamy nast puj cy kod ±rodowiska R: > dane = iris[,1:2] > cl<-kmeans(dist(dane),8,20) > plot(dane,pch=18,col=cl$cluster,main="k-means") a efekt takiego wykonania b dzie taki jak to przedstawia rysunek
11 k means Sepal.Length Sepal.Width Petal.Length Petal.Width Rysunek 8: Realizacja funkcji kmeans dla zbioru iris Po±wi caj c wi cej uwagi funkcji kmeans, zauwa»ymy,»e ogólna formuªa tej funkcji ma posta : kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("hartigan-wong", "Lloyd", "Forgy", "MacQueen")), gdzie: x - to macierz z danymi podlegaj cymi grupowaniu, centers - to albo liczba skupie«, które chcemy utworzy, albo podane pocz tkowe centra skupie«. Je±li jest to liczba skupie«, wówczas procedura wyboru potencjalnych centrów skupie«odbywa si w sposób losowy, iter.max - to maksymalna liczba iteracji, nstart - je±li w center podano liczb grup, to parametr nstart okre±la liczb losowych zbiorów branych pod uwag w grupowaniu, algorithm - okre±la, który algorytm b dzie wykonany spo±ród dost pnych: Hartigan and Wong (1979) (domy±lny), MacQueen (1967), Lloyd (1957) czy Forgy (1965). 11
12 k means Sepal.Length Sepal.Width Petal.Length Petal.Width Rysunek 9: Realizacja funkcji kmeans dla zbioru iris - 8 grup Odpowiednio manipuluj c tymi parametrami mo»na optymalizowa budowane skupienia obiektów w danym zbiorze. Grupowanie realizowane jest tak»e poprzez metod mclust z pakietu o tej samej nazwie. W podstawowej wersji wywoªania metody nie podaje si liczby skupie«, a jedynie zbiór danych, które chcemy pogrupowa (patrz poni»ej na komendy R). > dane.mcl<-mclust(dane) > skupienia<-dane.mcl$classification > plot(dane,pch=19,col=skupienia,main="mclust") Utworzony w wyniku wykres b dzie bardzo podobny do tego utworzonego przez metod kmeans. W pakiecie stats dost pna jest funkcja, pozwalaj ca klasykowa obiekty do jednej z utworzonych grup, pozwalaj c jednocze±nie na sterowanie nie tylko liczb tworzonych skupie«, ale i poziomem odci cia w tworzonym drzewie. Mowa tutaj o funkcji cutree. Ogólna formuªa ma posta : cutree(tree, k = NULL, h = NULL) gdzie odpowiednio: tree - jest rezultatem wywoªania funkcji hclust, k - liczba skupie«, h - poziom odci cia drzewa (tree). 12
13 k means Sepal.Width Sepal.Length Rysunek 10: Realizacja funkcji kmeans dla zbioru iris - 8 grup - 2 zmienne Przykªad komendy zawieraj cej wywoªanie tej funkcji wygl da nast puj co dla znanego ju» zbioru iris: > hc <- hclust(dist(dane)) > cutree(hc, k=3) Rezultatem takiego wywoªania jest wektor prezentuj cy przydziaª poszczególnych obserwacji zbioru wej±ciowego do utworzonej liczby grup: [1] [43] [85] [127] Fakt,»e algorytm k - ±rednich cechuje si licznymi wadami, sprawia,»e ch tniej u»ywanym jest algorytm np. k-medoidów. W ±rodowisku R, w ramach pakietu cluster, dost pna jest funkcja pam() realizuj ca algorytm o nazwie PAM (ang. Partitioning Around Medoid). Przykªadem jej wywoªania dla zbioru iris jest nast puj ca komenda: > kluster <- pam(dane,3) > sil <- silhouette(kluster) > summary(sil) czego efektem b d nast puj ce wyniki: Silhouette of 150 units in 3 clusters from pam(x = dane, k = 3) : Cluster sizes and average silhouette widths: 13
14 Individual silhouette widths: Min. 1st Qu. Median Mean 3rd Qu. Max Mo»emy odczyta podziaª algorytmem pam tych 150 obiektów (kwiatów ze zbioru IRIS) do 3 skupie«. Widzimy rozkªad obiektów do 3 klas oraz podstawowe statystyki tj. mediana, moda, pierwszy i trzeci kwartyl oraz elementy minimalny i maksymalny. Dodaj c polecenie: > plot(sil, col = c("red", "green", "blue")) zobrazujemy ów podziaª (rysunek 11). Silhouette plot of pam(x = dane, k = 3) n = clusters C j j : n j ave i Cj s i 1 : : : Average silhouette width : 0.55 Silhouette width s i Rysunek 11: Wykres metody k-medoidów Je»eli dla tego samego zbioru danych chcemy zastosowa algorytm grupowania hierarchicznego, mo»emy u»y funkcji hclust a do jej gracznej reprezentacji funkcji plot, tak jak to pokazuje kod: > d <- dist(dane, method = "euclidean") > fit <- hclust(d, method="ward") > plot(fit) Efektem b dzie wykres zwany dendrogramem, z tym,»e b dzie on maªo czytelny dla du»ych zbiorów obserwacji, z tego wzgl du,»e wszystkie li±cie drzewa s wyrysowane na jednym poziomie na wykresie, i zwyczajnie nachodz na siebie. Klasycznym algorytmem hierarchicznym jest wªa±nie algorytm aglomeracyjny, którego jednym z wersji jest algorytm o nazwie agnes (ang. AGlomerative NESting). Zostaª on równie» zaimplementowany w ±rodowisku R i realizowany jest przez wywoªanie komendy o tej samej nazwie co nazwa algorytmu a wi c agnes: klaster = agnes(dane, method="average") > plot(klaster) 14
15 Oczywi±cie drugi argument wywoªania fuknkcji: method mo»e przyjmowa ró»ne warto±ci w zale»no±ci od tego jak metod ª czenia skupie«wybierzemy maj c do dyspozycji metody: najbli»szego s siada, najdalszego s siada, ±rednich wi za«itp. Efektem wywoªania funkcji plot z argumentem w postaci rezultatu funkcji agnes b dzie dendrogram, który ju» jest bardziej czytelny, gdy» poszczególne poziomy drzewa s prezentowane na ró»nej wysoko±ci na wykresie (jak to przedstawia rysunek 12). Dendrogram of agnes(x = dane, method = "average") Height dane Agglomerative Coefficient = 0.93 Rysunek 12: Dendrogram Je±li chcieliby±my sprawdzi ró»nice w postaci dendrgramu w zale»no±ci od tego jak metod ª czenia skupie«zastosowano: najbli»szego s siada, najdalszego s siada czy metoda ±redniej odlegªo±ci mo»emy wywoªa nast puj ce komendy w ±rodowisku R: > par(mfrow=c(3,2)) > klaster = agnes(dane, method="average") > plot(klaster) 15
16 > klaster = agnes(dane, method="single") > plot(klaster) > klaster = agnes(dane, method="complete") > plot(klaster) Wówczas efektem b dzie jeden wykres z trzema dendrogramami dla zbioru iris (rysunek 13). Banner of agnes(x = dane, method = "average") Dendrogram of agnes(x = dane, method = "average") Height Height Agglomerative Coefficient = 0.93 Banner of agnes(x = dane, method = "single") dane Agglomerative Coefficient = 0.93 Dendrogram of agnes(x = dane, method = "single") Height Height Agglomerative Coefficient = 0.85 Banner of agnes(x = dane, method = "complete") dane Agglomerative Coefficient = 0.85 Dendrogram of agnes(x = dane, method = "complete") Height Height Agglomerative Coefficient = 0.96 dane Agglomerative Coefficient = 0.96 Rysunek 13: Dendrogramy dla ró»nych metod ª czenia skupie«podobna w dziaªaniu do agnes() jest omówiona ju» po krótce wcze±niej metoda grupowania hierarchicznego dost pna w funkcji hclust(stats). 4 Bibliograa Opracowanie przygotowano w oparciu o prace: 1. J. Koronacki, J. wik: Statystyczne systemy ucz ce si, wydanie drugie, Exit, Warsaw, 2008, rozdziaª J. wik, J. Mielniczuk: Statystyczne systemy ucz ce si - wiczenia w oparciu o pakiet R, Ocyna Wydawnicza PW, Warszawa,
17 3. Biecek P.: Na przeªaj przez Data Mining, naprzelajprzezdm.pdf 17
Analiza skupień. Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 28 maja 2012
Analiza skupień Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 28 maja 2012 1 Wprowadzenie Celem laboratorium jest analiza skupień wybranych zbiorów danych w środowisku
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z grupowania danych - Rough k-medoids Liczba osób realizuj cych projekt: 1 osoba 1. Wczytanie danych w formatach
ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15
ANALIZA NUMERYCZNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Metoda Eulera 3 1.1 zagadnienia brzegowe....................... 3 1.2 Zastosowanie ró»niczki...................... 4 1.3 Output do pliku
1 Metody iteracyjne rozwi zywania równania f(x)=0
1 Metody iteracyjne rozwi zywania równania f()=0 1.1 Metoda bisekcji Zaªó»my,»e funkcja f jest ci gªa w [a 0, b 0 ]. Pierwiastek jest w przedziale [a 0, b 0 ] gdy f(a 0 )f(b 0 ) < 0. (1) Ustalmy f(a 0
Lab. 02: Algorytm Schrage
Lab. 02: Algorytm Schrage Andrzej Gnatowski 5 kwietnia 2015 1 Opis zadania Celem zadania laboratoryjnego jest zapoznanie si z jednym z przybli»onych algorytmów sªu» cych do szukania rozwi za«znanego z
Metodydowodzenia twierdzeń
1 Metodydowodzenia twierdzeń Przez zdanie rozumiemy dowolne stwierdzenie, które jest albo prawdziwe, albo faªszywe (nie mo»e by ono jednocze±nie prawdziwe i faªszywe). Tradycyjnie b dziemy u»ywali maªych
Listy i operacje pytania
Listy i operacje pytania Iwona Polak iwona.polak@us.edu.pl Uniwersytet l ski Instytut Informatyki pa¹dziernika 07 Który atrybut NIE wyst puje jako atrybut elementów listy? klucz elementu (key) wska¹nik
1 Bª dy i arytmetyka zmiennopozycyjna
1 Bª dy i arytmetyka zmiennopozycyjna Liczby w pami ci komputera przedstawiamy w ukªadzie dwójkowym w postaci zmiennopozycyjnej Oznacza to,»e s one postaci ±m c, 01 m < 1, c min c c max, (1) gdzie m nazywamy
KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu
➏ Filozoa z elementami logiki Na podstawie wykªadów dra Mariusza Urba«skiego Sylogistyka Przypomnij sobie: stosunki mi dzy zakresami nazw KLASYCZNE ZDANIA KATEGORYCZNE Trzy znaczenia sªowa jest trzy rodzaje
Eksploracja danych w środowisku R
Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te
Wykªad 4. Funkcje wielu zmiennych.
Wykªad jest prowadzony w oparciu o podr cznik Analiza matematyczna 2. Denicje, twierdzenia, wzory M. Gewerta i Z. Skoczylasa. Wykªad 4. Funkcje wielu zmiennych. Zbiory na pªaszczy¹nie i w przestrzeni.
wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia
wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. wiczenia 1 2 do wiczenia 3 4 Badanie do±wiadczalne 5 pomiarów 6 7 Cel Celem wiczenia jest zapoznanie studentów z etapami przygotowania i
Ekonometria Bayesowska
Ekonometria Bayesowska Wykªad 9: Metody numeryczne: MCMC Andrzej Torój 1 / 17 Plan wykªadu Wprowadzenie 1 Wprowadzenie 3 / 17 Plan prezentacji Wprowadzenie 1 Wprowadzenie 3 3 / 17 Zastosowanie metod numerycznych
Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.
Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toru«, Poland 2010-11-23
Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski
Statystyka Šukasz Dawidowski Instytut Matematyki, Uniwersytet l ski Statystyka Statystyka: nauka zajmuj ca si liczbowym opisem zjawisk masowych oraz ich analizowaniem, zbiory informacji liczbowych. (Sªownik
Podstawy modelowania w j zyku UML
Podstawy modelowania w j zyku UML dr hab. Bo»ena Wo¹na-Szcze±niak Akademia im. Jan Dªugosza bwozna@gmail.com Wykªad 8 Diagram pakietów I Diagram pakietów (ang. package diagram) jest diagramem strukturalnym,
MEODY GRUPOWANIA DANYCH
Sztuczna inteligencja 9999 pages 17 MEODY GRUPOWANIA DANYCH PB 1 CWICZENIE I 1. Ze zbioru danych iris.tab wybra nastepuj ce obiekty: ID SL SW PL PW C 1 5.1 3.5 1.4 0.2 Iris-setosa 2 4.9 3.0 1.4 0.2 Iris-setosa
Ekonometria - wykªad 8
Ekonometria - wykªad 8 3.1 Specykacja i werykacja modelu liniowego dobór zmiennych obja±niaj cych - cz ± 1 Barbara Jasiulis-Goªdyn 11.04.2014, 25.04.2014 2013/2014 Wprowadzenie Ideologia Y zmienna obja±niana
Metody numeryczne i statystyka dla in»ynierów
Kierunek: Automatyka i Robotyka, II rok Interpolacja PWSZ Gªogów, 2009 Interpolacja Okre±lenie zale»no±ci pomi dzy interesuj cymi nas wielko±ciami, Umo»liwia uproszczenie skomplikowanych funkcji (np. wykorzystywana
A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.
Logika i teoria mnogo±ci, konspekt wykªad 12 Teoria mocy, cz ± II Def. 12.1 Ka»demu zbiorowi X przyporz dkowujemy oznaczany symbolem X obiekt zwany liczb kardynaln (lub moc zbioru X) w taki sposób,»e ta
Wzorce projektowe kreacyjne
Wzorce projektowe kreacyjne Krzysztof Ciebiera 14 pa¹dziernika 2005 1 1 Wst p 1.1 Podstawy Opis Ogólny Podstawowe informacje Wzorce kreacyjne sªu» do uabstrakcyjniania procesu tworzenia obiektów. Znaczenie
MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska
MiASI Modelowanie systemów informatycznych Piotr Fulma«ski Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska 18 stycznia 2010 Spis tre±ci 1 Analiza systemu informatycznego Poziomy analizy 2
Metody dowodzenia twierdze«
Metody dowodzenia twierdze«1 Metoda indukcji matematycznej Je±li T (n) jest form zdaniow okre±lon w zbiorze liczb naturalnych, to prawdziwe jest zdanie (T (0) n N (T (n) T (n + 1))) n N T (n). 2 W przypadku
Lekcja 9 - LICZBY LOSOWE, ZMIENNE
Lekcja 9 - LICZBY LOSOWE, ZMIENNE I STAŠE 1 Liczby losowe Czasami spotkamy si z tak sytuacj,»e b dziemy potrzebowa by program za nas wylosowaª jak ± liczb. U»yjemy do tego polecenia: - liczba losowa Sprawd¹my
Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.
Wydziaª Matematyki, Fizyki i Informatyki 10 marca 2008 Spis tre±ci Listy 1 Listy 2 3 Co to jest lista? Listy List w Mathematice jest wyra»enie oddzielone przecinkami i zamkni te w { klamrach }. Elementy
Metody numeryczne i statystyka dla in»ynierów
Kierunek: Automatyka i Robotyka, II rok Wprowadzenie PWSZ Gªogów, 2009 Plan wykªadów Wprowadzenie, podanie zagadnie«, poj cie metody numerycznej i algorytmu numerycznego, obszar zainteresowa«i stosowalno±ci
Arytmetyka zmiennopozycyjna
Rozdziaª 4 Arytmetyka zmiennopozycyjna Wszystkie obliczenia w octavie s wykonywane w arytmetyce zmiennopozycyjnej (inaczej - arytmetyce ) podwójnej precyzji (double) - cho w najnowszych wersjach octave'a
ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15
ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych
EDUKARIS - O±rodek Ksztaªcenia
- O±rodek Ksztaªcenia Zabrania si kopiowania i rozpowszechniania niniejszego regulaminu przez inne podmioty oraz wykorzystywania go w dziaªalno±ci innych podmiotów. Autor regulaminu zastrzega do niego
Ekonometria Bayesowska
Ekonometria Bayesowska Wykªad 6: Bayesowskie ª czenie wiedzy (6) Ekonometria Bayesowska 1 / 21 Plan wykªadu 1 Wprowadzenie 2 Oczekiwana wielko± modelu 3 Losowanie próby modeli 4 wiczenia w R (6) Ekonometria
Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej
Ekonometria wiczenia 1 Regresja liniowa i MNK (1) Ekonometria 1 / 25 Plan wicze«1 Ekonometria czyli...? 2 Obja±niamy ceny wina 3 Zadania z podr cznika (1) Ekonometria 2 / 25 Plan prezentacji 1 Ekonometria
Maszyny Turinga i problemy nierozstrzygalne. Maszyny Turinga i problemy nierozstrzygalne
Maszyny Turinga Maszyna Turinga jest automatem ta±mowym, skª da si z ta±my (tablicy symboli) potencjalnie niesko«czonej w prawo, zakªadamy,»e w prawie wszystkich (tzn. wszystkich poza sko«czon liczb )
i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017
i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski Uniwersytet Šódzki, Wydziaª Matematyki i Informatyki UŠ piotr@fulmanski.pl http://fulmanski.pl/zajecia/prezentacje/festiwalnauki2017/festiwal_wmii_2017_
Wektory w przestrzeni
Wektory w przestrzeni Informacje pomocnicze Denicja 1. Wektorem nazywamy uporz dkowan par punktów. Pierwszy z tych punktów nazywamy pocz tkiem wektora albo punktem zaczepienia wektora, a drugi - ko«cem
przewidywania zapotrzebowania na moc elektryczn
do Wykorzystanie do na moc elektryczn Instytut Techniki Cieplnej Politechnika Warszawska Slide 1 of 20 do Coraz bardziej popularne staj si zagadnienia zwi zane z prac ¹ródªa energii elektrycznej (i cieplnej)
Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.
Relacje 1 Relacj n-argumentow nazywamy podzbiór ϱ X 1 X 2... X n. Je±li ϱ X Y jest relacj dwuargumentow (binarn ), to zamiast (x, y) ϱ piszemy xϱy. Relacj binarn okre±lon w zbiorze X nazywamy podzbiór
Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów
Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów 1 Wst p Przypomnijmy,»e komputer skªada si z procesora, pami ci, systemu wej±cia-wyj±cia oraz po- ª cze«mi dzy nimi. W procesorze mo»emy
Interpolacja Lagrange'a, bazy wielomianów
Rozdziaª 4 Interpolacja Lagrange'a, bazy wielomianów W tym rozdziale zajmiemy si interpolacj wielomianow. Zadanie interpolacji wielomianowej polega na znalezieniu wielomianu stopnia nie wi kszego od n,
WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14
WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 203/4 Spis tre±ci Kodowanie i dekodowanie 4. Kodowanie a szyfrowanie..................... 4.2 Podstawowe poj cia........................
Wst p teoretyczny do wiczenia nr 3 - Elementy kombinatoryki
Wst p teoretyczny do wiczenia nr 3 - Elementy kombinatoryki 1 Zadania na wiczenia nr 3 - Elementy kombinatoryki Zad. 1. Ile istnieje ró»nych liczb czterocyfrowych zakªadaj c,»e cyfry nie powtarzaj si a
Numeryczne zadanie wªasne
Rozdziaª 11 Numeryczne zadanie wªasne W tym rozdziale zajmiemy si symetrycznym zadaniem wªasnym, tzn. zadaniem znajdowania warto±ci i/lub wektorów wªasnych dla macierzy symetrycznej A = A T. W zadaniach
Ekstremalnie fajne równania
Ekstremalnie fajne równania ELEMENTY RACHUNKU WARIACYJNEGO Zaczniemy od ogólnych uwag nt. rachunku wariacyjnego, który jest bardzo przydatnym narz dziem mog cym posªu»y do rozwi zywania wielu problemów
XVII Warmi«sko-Mazurskie Zawody Matematyczne
1 XVII Warmi«sko-Mazurskie Zawody Matematyczne Kategoria: klasa VIII szkoªy podstawowej i III gimnazjum Olsztyn, 16 maja 2019r. Zad. 1. Udowodnij,»e dla dowolnych liczb rzeczywistych x, y, z speªniaj cych
Podziaª pracy. Cz ± II. 1 Tablica sortuj ca. Rozwi zanie
Cz ± II Podziaª pracy 1 Tablica sortuj ca Kolejka priorytetowa to struktura danych udost pniaj ca operacje wstawienia warto±ci i pobrania warto±ci minimalnej. Z kolejki liczb caªkowitych, za po±rednictwem
1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.
1 Klasy. Klasa to inaczej mówi c typ który podobnie jak struktura skªada si z ró»nych typów danych. Tworz c klas programista tworzy nowy typ danych, który mo»e by modelem rzeczywistego obiektu. 1.1 Denicja
WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14
WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 2013/14 Spis tre±ci 1 Kodowanie i dekodowanie 4 1.1 Kodowanie a szyfrowanie..................... 4 1.2 Podstawowe poj cia........................
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY
Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z wyznaczania reduktów zbioru Liczba osób realizuj cych projekt: 1-2 osoby 1. Wczytanie danych w formatach arf,
Lekcja 12 - POMOCNICY
Lekcja 12 - POMOCNICY 1 Pomocnicy Pomocnicy, jak sama nazwa wskazuje, pomagaj Baltiemu w programach wykonuj c cz ± czynno±ci. S oni szczególnie pomocni, gdy chcemy ci g polece«wykona kilka razy w programie.
Metody bioinformatyki (MBI)
Metody bioinformatyki (MBI) Wykªad 9 - mikromacierze DNA, analiza danych wielowymiarowych Robert Nowak 2016Z Metody bioinformatyki (MBI) 1/42 mikromacierze DNA Metoda badawcza, pozwalaj ca bada obecno±
Podstawy modelowania w j zyku UML
Podstawy modelowania w j zyku UML dr hab. Bo»ena Wo¹na-Szcze±niak Akademia im. Jan Dªugosza bwozna@gmail.com Wykªad 2 Zwi zki mi dzy klasami Asocjacja (ang. Associations) Uogólnienie, dziedziczenie (ang.
Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych
Janusz Adamowski METODY OBLICZENIOWE FIZYKI 1 Rozdziaª 9 RÓWNANIA ELIPTYCZNE 9.1 Zastosowanie eliptycznych równa«ró»niczkowych cz stkowych 9.1.1 Problemy z warunkami brzegowymi W przestrzeni dwuwymiarowej
Aproksymacja funkcji metod najmniejszych kwadratów
Aproksymacja funkcji metod najmniejszych kwadratów Teoria Interpolacja polega na znajdowaniu krzywej przechodz cej przez wszystkie w zªy. Zdarzaj si jednak sytuacje, w których dane te mog by obarczone
Hotel Hilberta. Zdumiewaj cy ±wiat niesko«czono±ci. Marcin Kysiak. Festiwal Nauki, 20.09.2011. Instytut Matematyki Uniwersytetu Warszawskiego
Zdumiewaj cy ±wiat niesko«czono±ci Instytut Matematyki Uniwersytetu Warszawskiego Festiwal Nauki, 20.09.2011 Nasze do±wiadczenia hotelowe Fakt oczywisty Hotel nie przyjmie nowych go±ci, je»eli wszystkie
Uczenie Wielowarstwowych Sieci Neuronów o
Plan uczenie neuronu o ci gªej funkcji aktywacji uczenie jednowarstwowej sieci neuronów o ci gªej funkcji aktywacji uczenie sieci wielowarstwowej - metoda propagacji wstecznej neuronu o ci gªej funkcji
O pewnym zadaniu olimpijskim
O pewnym zadaniu olimpijskim Michaª Seweryn, V LO w Krakowie opiekun pracy: dr Jacek Dymel Problem pocz tkowy Na drugim etapie LXII Olimpiady Matematycznej pojawiª si nast puj cy problem: Dla ka»dej liczby
Bash i algorytmy. Elwira Wachowicz. 20 lutego
Bash i algorytmy Elwira Wachowicz elwira@ifd.uni.wroc.pl 20 lutego 2012 Elwira Wachowicz (elwira@ifd.uni.wroc.pl) Bash i algorytmy 20 lutego 2012 1 / 16 Inne przydatne polecenia Polecenie Dziaªanie Przykªad
Przykªady problemów optymalizacji kombinatorycznej
Przykªady problemów optymalizacji kombinatorycznej Problem Komiwoja»era (PK) Dane: n liczba miast, n Z +, c ji, i, j {1,..., n}, i j odlegªo± mi dzy miastem i a miastem j, c ji = c ij, c ji R +. Zadanie:
Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz
Lekcja 8 - ANIMACJA 1 Polecenia Za pomoc Baltiego mo»emy tworzy animacj, tzn. sprawia by obraz na ekranie wygl daª jakby si poruszaª. Do animowania przedmiotów i tworzenia animacji posªu» nam polecenia
Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.
Wykªad jest prowadzony w oparciu o podr cznik Analiza matematyczna 2. Denicje, twierdzenia, wzory M. Gewerta i Z. Skoczylasa. Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych. Denicja Mówimy,»e funkcja
Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.
Konspekt lekcji Przedmiot: Informatyka Typ szkoły: Gimnazjum Klasa: II Nr programu nauczania: DKW-4014-87/99 Czas trwania zajęć: 90min Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia
Modele wielorównaniowe. Problem identykacji
Modele wielorównaniowe. Problem identykacji Ekonometria Szeregów Czasowych SGH Identykacja 1 / 43 Plan wykªadu 1 Wprowadzenie 2 Trzy przykªady 3 Przykªady: interpretacja 4 Warunki identykowalno±ci 5 Restrykcje
X WARMI SKO-MAZURSKIE ZAWODY MATEMATYCZNE 18 maja 2012 (szkoªy ponadgimnazjalne)
X WARMI SKO-MAZURSKIE ZAWODY MATEMATYCZNE 18 maja 2012 (szkoªy ponadgimnazjalne) Zadanie 1 Obecnie u»ywane tablice rejestracyjne wydawane s od 1 maja 2000r. Numery rejestracyjne aut s tworzone ze zbioru
Statystyka matematyczna - ZSTA LMO
Statystyka matematyczna - ZSTA LMO Šukasz Smaga Wydziaª Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza w Poznaniu Wykªad 4 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 1 / 18 Wykªad 4 - zagadnienia
Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne
Arkusz maturalny Šukasz Dawidowski Powtórki maturalne 25 kwietnia 2016r. Odwrotno±ci liczby rzeczywistej 1. 9 8 2. 0, (1) 3. 8 9 4. 0, (8) 3 4 4 4 1 jest liczba Odwrotno±ci liczby rzeczywistej 3 4 4 4
JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1
J zyki formalne i operacje na j zykach J zyki formalne s abstrakcyjnie zbiorami sªów nad alfabetem sko«czonym Σ. J zyk formalny L to opis pewnego problemu decyzyjnego: sªowa to kody instancji (wej±cia)
Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow
Plan dyskretny perceptron i jego ograniczenia inne funkcje aktywacji wielo-klasykacja przy pomocy jedno-warstwowe sieci neuronowej ograniczenia jedno-warstwowej sieci neuronowej miary ewaluacyjne dla klasykacji
Rekurencyjne struktury danych
Andrzej Jastrz bski Akademia ETI Dynamiczny przydziaª pami ci Pami, która jest przydzielana na pocz tku dziaªania procesu to: pami programu czyli instrukcje programu pami statyczna zwi zana ze zmiennymi
Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, 2012. Dawid Rasaªa Metody numeryczne 1 / 9
Metody numeryczne Wst p do metod numerycznych Dawid Rasaªa January 9, 2012 Dawid Rasaªa Metody numeryczne 1 / 9 Metody numeryczne Czym s metody numeryczne? Istota metod numerycznych Metody numeryczne s
Zastosowania matematyki
Zastosowania matematyki Monika Bartkiewicz 1 / 126 ...czy«cie dobrze i po»yczajcie niczego si nie spodziewaj c(šk. 6,34-35) Zagadnienie pobierania procentu jest tak stare jak gospodarka pieni»na. Procent
Statystyka matematyczna
Statystyka matematyczna Aleksandra Ki±lak-Malinowska akis@uwm.edu.pl http://wmii.uwm.edu.pl/ akis/ Czym zajmuje si statystyka? Statystyka zajmuje si opisywaniem i analiz zjawisk masowych otaczaj cej czªowieka
ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15
ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych
Szeregowanie zada« Przedmiot fakultatywny 15h wykªadu + 15h wicze« dr Hanna Furma«czyk. 7 pa¹dziernika 2013
Przedmiot fakultatywny 15h wykªadu + 15h wicze«7 pa¹dziernika 2013 Zasady zaliczenia 1 wiczenia (ocena): kolokwium, zadania dodatkowe (implementacje algorytmów), praca na wiczeniach. 2 Wykªad (zal): zaliczone
Lekcja 9 Liczby losowe, zmienne, staªe
Lekcja 9 Liczby losowe, zmienne, staªe Akademia im. Jana Dªugosza w Cz stochowie Liczby losowe Czasami potrzebujemy by program za nas wylosowaª liczb. U»yjemy do tego polecenia liczba losowa: Liczby losowe
ALGORYTMY SORTOWANIA DANYCH
ALGORYTMY SORTOWANIA DANYCH W zagadnieniu sortowania danych rozpatrywa b dziemy n liczb caªkowitych, b d cych pierwotnie w losowej kolejno±ci, które nale»y uporz dkowa nierosn co. Oczywi±cie sortowa mo»emy
Programowanie i struktury danych 1 / 44
Programowanie i struktury danych 1 / 44 Lista dwukierunkowa Lista dwukierunkowa to liniowa struktura danych skªadaj ca si z ci gu elementów, z których ka»dy pami ta swojego nast pnika i poprzednika. Operacje
Szeregowanie zada« Wykªad nr 5. dr Hanna Furma«czyk. 4 kwietnia 2013
Wykªad nr 5 4 kwietnia 2013 Procesory dedykowane Przypomnienie: zadania s podzielone na operacje (zadanie Z j skªada si z operacji O ij do wykonania na maszynach M i, o dªugo±ciach czasowych p ij ); zadanie
Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II.
Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II. Poni»sze zadania s wyborem zada«z kolokwiów ze Wst pu do Informatyki jakie przeprowadziªem w ci gu ostatnich lat. Marek Zawadowski Zadanie 1 Napisz
Aplikacje bazodanowe. Laboratorium 1. Dawid Poªap Aplikacje bazodanowe - laboratorium 1 Luty, 22, / 37
Aplikacje bazodanowe Laboratorium 1 Dawid Poªap Aplikacje bazodanowe - laboratorium 1 Luty, 22, 2017 1 / 37 Plan 1 Informacje wst pne 2 Przygotowanie ±rodowiska do pracy 3 Poj cie bazy danych 4 Relacyjne
Algorytmy zrandomizowane
Algorytmy zrandomizowane www.qed.pl/ai/nai2003 PLAN WYKŁADU Inne zadania optymalizacyjne grupowanie Generowanie liczb losowych Metody Monte Carlo i Las Vegas przykłady zastosowa Przeszukiwanie losowe metoda
Ukªady równa«liniowych
dr Krzysztof yjewski Mechatronika; S-I 0 in» 7 listopada 206 Ukªady równa«liniowych Informacje pomocnicze Denicja Ogólna posta ukªadu m równa«liniowych z n niewiadomymi x, x, x n, gdzie m, n N jest nast
ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15
ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski
III. CAŠKOWAIE METODAMI MOTE CARLO Janusz Adamowski 1 1 azwa metody Podstawowym zastosowaniem w zyce metody Monte Carlo (MC) jest opis zªo-»onych ukªadów zycznych o du»ej liczbie stopni swobody. Opis zªo»onych
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Wska¹niki, tablice dynamiczne wielowymiarowe
Rozdziaª 11 Wska¹niki, tablice dynamiczne wielowymiarowe 11.1 Wst p Identycznie, jak w przypadku tablic statycznych, tablica dynamiczna mo»e by tablic jedno-, dwu-, trójitd. wymiarow. Tablica dynamiczna
Materiaªy do Repetytorium z matematyki
Materiaªy do Repetytorium z matematyki 0/0 Dziaªania na liczbach wymiernych i niewymiernych wiczenie Obliczy + 4 + 4 5. ( + ) ( 4 + 4 5). ( : ) ( : 4) 4 5 6. 7. { [ 7 4 ( 0 7) ] ( } : 5) : 0 75 ( 8) (
Minimalne drzewa rozpinaj ce
y i y i drzewa Spis zagadnie«y i drzewa i lasy cykle fundamentalne i rozci cia fundamentalne wªasno±ci cykli i rozci minimalne drzewa algorytm algorytm Drzewo y i spójnego, nieskierowanego grafu prostego
4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach
4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach Baza noclegowa stanowi podstawową bazę turystyczną, warunkującą w zasadzie ruch turystyczny. Dlatego projektując nowy szlak należy ją
Proste modele o zªo»onej dynamice
Proste modele o zªo»onej dynamice czyli krótki wst p do teorii chaosu Tomasz Rodak Festiwal Nauki, Techniki i Sztuki 2018 April 17, 2018 Dyskretny model pojedynczej populacji Rozwa»my pojedyncz populacj
Programowanie wspóªbie»ne
1 Programowanie wspóªbie»ne wiczenia 5 monitory cz. 1 Zadanie 1: Stolik dwuosobowy raz jeszcze W systemie dziaªa N par procesów. Procesy z pary s nierozró»nialne. Ka»dy proces cyklicznie wykonuje wªasnesprawy,
Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow
Wprowadzenie Proponowane podr czniki T.Hastie, R.Tibshirani et al. An Introduction to Statistical Learning I.Witten et al. Data Mining S.Marsland Machine Learning J.Koronacki, J.Mielniczuk Statystyka dla
c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach
12: w sieciach Spis zagadnie«sieci przepªywowe przepªywy w sieciach ±cie»ka powi kszaj ca tw. Forda-Fulkersona Znajdowanie maksymalnego przepªywu Zastosowania przepªywów Sieci przepªywowe Sie przepªywowa
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Macierze i Wyznaczniki
Macierze i Wyznaczniki Kilka wzorów i informacji pomocniczych: Denicja 1. Tablic nast puj cej postaci a 11 a 12... a 1n a 21 a 22... a 2n A =... a m1 a m2... a mn nazywamy macierz o m wierszach i n kolumnach,
Wst p do informatyki. Systemy liczbowe. Piotr Fulma«ski. 21 pa¹dziernika 2010. Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska
Wst p do informatyki Systemy liczbowe Piotr Fulma«ski Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska 21 pa¹dziernika 2010 Spis tre±ci 1 Liczby i ich systemy 2 Rodzaje systemów liczbowych
3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka
EGZAMIN MAGISTERSKI, 26.06.2017 Biomatematyka 1. (8 punktów) Rozwój wielko±ci pewnej populacji jest opisany równaniem: dn dt = rn(t) (1 + an(t), b gdzie N(t) jest wielko±ci populacji w chwili t, natomiast
Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych
Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych Agnieszka Nowak-Brzezi«ska 11 stycznia 2010 1 Wprowadzenie Drzewa klasykacyjne 1 jako reprezentacja wiedzy o klasykacji s do± atrakcyjne
AM II /2019 (gr. 2 i 3) zadania przygotowawcze do I kolokwium
AM II.1 2018/2019 (gr. 2 i 3) zadania przygotowawcze do I kolokwium Normy w R n, iloczyn skalarny sprawd¹ czy dana funkcja jest norm sprawd¹, czy dany zbiór jest kul w jakiej± normie i oblicz norm wybranego
Edycja geometrii w Solid Edge ST
Edycja geometrii w Solid Edge ST Artykuł pt.: " Czym jest Technologia Synchroniczna a czym nie jest?" zwracał kilkukrotnie uwagę na fakt, że nie należy mylić pojęć modelowania bezpośredniego i edycji bezpośredniej.
In»ynierskie zastosowania statystyki wiczenia
Uwagi: 27012014 poprawiono kilka literówek, zwi zanych z przedziaªami ufno±ci dla wariancji i odchylenia standardowego In»ynierskie zastosowania statystyki wiczenia Przedziaªy wiarygodno±ci, testowanie