TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH
|
|
- Mateusz Nowicki
- 8 lat temu
- Przeglądów:
Transkrypt
1 TOMASZ JACH Instytut Informatyki GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH Streszczenie W tej pracy autor skupi się na gridowych metodach rozpoznawania wzorców w danych Obecnie, wykorzystuje się te metody jedynie do analizy danych przestrzennych (zwykle dwuwymiarowych, np geograficznych) Autor wykaże, że metody te można z powodzeniem zastosować również do danych tekstowych 1 Wstęp Dane typu przestrzennego są bardzo trudne w automatycznej analizie Dotychczas, podobnie jak dane tekstowe, operacje ekstrakcji i odkrywania przydatnych informacji (i powiązań pomiędzy nimi) były wykonywane przez analityków i specjalistów od drążenia danych Jednakże dzisiaj, w dobie masowego dostępu do informacji oraz znacznego wzrostowi objętości danych (oraz ich złożoności), istnieje ogromne zapotrzebowanie na komputerowe metody analizy danych Stopniowo przez lata odchodziło się od ręcznych metod eksploracji wiedzy zastępując je automatycznymi metodami komputerowymi Wzrost możliwości komputerowej analizy danych sprawia, że pozyskiwanie i przetwarzanie danych stało się znacznie efektywniejsze Dokonuje się analizy danych najróżniejszego rodzaju: od stosunkowo prostych danych z łatwymi do wykrycia powiązaniami, po złożone dane wielowymiarowe Wzrost złożoności danych powoduje znacznie większe zapotrzebowanie na moc obliczeniową oraz wymaga optymalizacji obecnie stosowanych algorytmów, a niejednokrotnie nowatorskich pomysłów na ich eksplorację 2 Pożądane cechy algorytmu grupującego Każdy algorytm grupujący powinien cechować się kilkoma właściwościami pozwalającymi na zastosowanie go w różnych polach eksploatacji Pierwszą z cech, ważną zwłaszcza przy grupowaniu danych przestrzennych, jest odpowiednio szybki czas działania Wiąże się to z niską złożonością obliczeniową danego algorytmu Dane przestrzenne są bardzo złożone, a co za tym idzie nawet kilkuprocentowy zysk wydajności w ogólnym rozrachunku powoduje wyraźne skrócenie obliczeń Algorytm grupujący winien również łatwo i skutecznie identyfikować grupy o dowolnym kształcie Wszelkie preferencje co do obiektów kulistych, prostopadłościennych lub innych
2 powodują zaburzenia wyników Najczęściej kształt grup nie jest znany przed rozpoczęciem grupowania, dlatego też zwykle nie można zakładać żadnego z rozmieszczeń obiektów w przestrzeni Grupy mogą być również zagnieżdżone w sobie, mogą występować dziury w ich wnętrzach, mogą być poskręcane, wydłużone, wklęsłe lub wypukłe Trudno również mówić o poprawnym grupowaniu w czasie gdy wartości izolowane istotnie wpływają na wynik grupowania zaburzając tym samym klasyfikację obiektów do grup W czasie działania algorytmu obiekty odstające (a więc te nienależące do żadnej grupy) powinny być odfiltrowane i nie brane pod uwagę w grupowaniu Dobra strategia grupowania powinna również być niewrażliwa na kolejność danych wejściowych Innymi słowy dla dowolnej permutacji tego samego zbioru obiektów wejściowych oraz identycznych parametrów algorytmu, otrzymywane grupy powinny być takie same Zwykle podczas wdrażania systemu nie wiadomo na ile grup powinno się podzielić dane Dlatego parametr ten nie powinien być podawany na początku działania algorytmu, a ilość grup powinna być determinowana przez sam algorytm w zależności od danych wejściowych Skalowalność to cecha pozwalająca na uruchamianie algorytmu zarówno dla danych o małym rozmiarze, jak i dla tych ogromnych zbiorów danych Ostatnią pożądaną cechą jest możliwość ustalania stopnia dokładności działania algorytmu W przypadku danych przestrzennych można posłużyć się następującym przykładem: użytkownik uruchamia system, aby ten określił obszary występowania bogactw naturalnych Algorytm grupujący odnajduje relewantne obszary i oznacza je na wizualizacji Jednak drugi użytkownik potrzebuje informacji o tym jakie bogactwa naturalne występują w danym miejscu Dlatego samo oznaczenie występuje / nie występuje jest dla niego zbyt ogólne 3 Algorytmy gridowe Powstało wiele prac odnoszących się do zagadnienia eksploracji danych przestrzennych Niektóre z nich bazują na odkrywaniu wiedzy, inne zaś na technikach klasteryzacji Algorytmy DBSCAN (Density-Based Spatial Clustering of Applications with Noise), CLARANS (Clustering Large Applications based on RANdomized Search), BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) mają poważną wadę w postaci budowy struktury wyszukiwawczej dopiero w momencie zadawania pytania do systemu Struktura ta zmienia się z każdym pytaniem i nie może zostać powtórnie wykorzystana Podnosi to znacznie złożoność czasową tych algorytmów algorytmy te muszą co najmniej raz przeskanować całą przestrzeń obiektów 31 Algorytm STING Odpowiedzią na te problemy jest algorytm STING (STatistical INformation Grid siatka wykorzystująca informacje statystyczne ) wykorzystywany do drążenia danych typu przestrzennego Dane te zostają podzielone na prostokątne komórki W zależności od potrzeb, proces ten jest wielokrotnie powtarzany dla każdej podzielonej komórki Dzięki temu w sposób automatyczny otrzymujemy hierarchiczną strukturę komórek (podejście top-down ) Każda komórka na wyższym poziomie jest dzielona na wcześniej ustaloną liczbę podkomórek Oprócz tego, dla
3 każdej z nich wyliczane są pewne informacje statystyczne używane do szybkiej odpowiedzi na pytania zadawane do systemu Zaletami takiego podejścia są: Niezależna od pytania budowa struktury wyszukiwawczej, zważywszy na fakt istnienia informacji statystycznych niezależnych od zadawanych pytań, a zależnych tylko od wartości danych Dane statystyczne są niejako sumaryczną reprezentacją danych zawartych w każdej z komórek Złożoność obliczeniowa wynosi O(K), gdzie K jest liczbą komórek w siatce na najniższym poziomie Zwykle K jest znacznie mniejsze od liczby obiektów w bazie Algorytmy wyszukiwawcze wykorzystujące to podejście są bardzo łatwe do zrównoleglenia Przy dodawaniu danych do systemu, należy tylko przeliczyć wartości statystyczne, a nie przebudowywać całą bazę 1 sza warstwa może mieć tylko jedną komórkę 1-sza wartswa (i-1)ta warstwa i-ta warstwa Rysunek 1: Hierarchiczna struktura w algorytmie STING Algorytm STING wykorzystuje do działania hierarchiczną strukturę gridową W trakcie rozwiązywania dzieli się obszar danych przestrzennych (za pomocą atrybutów go określających, np długości i szerokości geograficznej) i stosuje hierarchiczną strukturę podziału Korzeniem hierarchii będzie poziom nr 1, jego potomkowie to poziom 2, itd Łatwo zauważyć, że każda komórka na poziomie i-tym będzie się składać z sumy obszarów swoich potomków Wang, Yang oraz Muntz (Wei Wang 1997) proponują, aby każda z komórek wyższego poziomu posiadała dokładnie 4 potomków Korzeń odzwierciedla całą przestrzeń (zakłada się również dla uproszczenia, że ta jest prostokątna) Rozmiar komórek-liści jest zależny od gęstości obiektów Generalną zasadą jest wybieranie rozmiaru każdej komórki tak, aby średnia liczba obiektów w każdej komórce wahała się pomiędzy kilkoma tuzinami a kilkoma tysiącami Dodatkowo, aby
4 osiągnąć pożądaną liczbę obiektów w komórce można manipulować parametrem określającym liczbę potomków komórek wyższego rzędu Algorytm STING bardzo łatwo przystosować do wielowymiarowej przestrzeni Zwykle jest on używany do przestrzeni dwuwymiarowej, ale bardzo łatwo dokonać generalizacji struktury hierarchicznej do większej ich ilości Każda komórka jest opisywana dwoma rodzajami parametrów: zależnymi od atrybutów oraz niezależnymi od atrybutów Jedynym parametrem niezależnym od atrybutów jest liczba obiektów (punktów) w komórce Autor w swojej pracy proponuje użycie koncepcji algorytmów gridowych do grupowania danych typu tekstowego Wykorzystuje się tu klasyczne podejście gridowe polegające na partycjonowaniu nie samych obiektów, ale przestrzeni zawierającej cechy każdego z obiektów w bazie Ze względu na numeryczny charakter atrybutów danych przyjmowanych przez algorytmy gridowe należało zaproponować sposób uporania się z zamianą danych typu tekstowego na typ numeryczny Do tego celu potencjalnymi technikami są: Zamiana na postać numeryczną tj każde słowo kluczowe zamieniane na atrybut numeryczny Wady: bliskie słowa kluczowe mogą się znaleźć daleko od siebie Określenie relewancji do każdego możliwego słowa kluczowego Wady: ogromny nakład środków, niewygodna aktualizacja, sztywna struktura bazy danych Modyfikacja przestrzeni cech Takie ustawienie słów kluczowych, aby te najbliższe sobie były obok siebie Zastosowanie miary Hamminga Wady: faworyzowanie krótkich słów kluczowych, możliwe przekłamania, brak informacji o znaczeniu 32 Pierwsza modyfikacja algorytmu STING Zaproponowano następujący algorytm grupowania: 1 Wczytaj dane do bazy danych 2 Dla każdego słowa kluczowego: 1 Policz częstotliwość współwystępowania danego słowa kluczowego z wszystkimi innymi słowami kluczowymi 2 Wybierz dwa najbliższe słowa kluczowe i umieść je obok siebie 3 Zaktualizuj częstości współwystępowania wziętych słów kluczowych 3 Umieść obiekty w przestrzeni n-wymiarowej słów kluczowych 4 Zidentyfikuj gęste obszary 5 Oznacz gęste obszary najczęściej występującymi słowami kluczowymi Tak przedstawiony algorytm będzie korzystał z podejścia gridowego do wyszukiwania danych W trakcie badań zostaną przedstawione próby adaptacji algorytmu STING (głównie podejścia statystycznego) do danych tekstowych Niestety, już na etapie projektowania można zauważyć następujące trudności:
5 Atrybuty każdego obiektu to 5 słów kluczowych Wszystkie te atrybuty są typu tekstowego, tak więc każdy z nich należałoby zamienić na postać numeryczną, co prowadzi do tych samych trudności jak opisane wyżej Wyliczenie niezbędnego parametru rozkład dla danych tekstowych jest nietrywialne Wszelkie podejścia opierające się na estymowaniu rozkładu zmiennej losowej nie sprawdzają się dla danych tekstowych Wyliczenie pozostałych parametrów (min, max, średnia, odchylenie) również stanowi wyzwanie Dane w postaci tematów prac licencjackich układają się w pewne naturalne regiony (choćby porównując fakt iż każdy z promotorów zajmuje się stosunkowo wąską i spójną dziedziną dyscypliny informatyka, więc tematy przez niego prowadzone zwykle poruszają się w tym samym obszarze tematycznym), lecz regiony te są bardzo trudne do odkrycia oraz zazębiają się między sobą 321 Analiza modyfikacji W toku badań próbowano zrealizować proponowaną modyfikację Niestety, już na etapie pogłębionej analizy natrafiono na kilka znaczących problemów, które zostaną opisane poniżej Pierwszym problemem był wspomniany już brak skutecznej metody zamiany danych typu tekstowego (słów kluczowych) na dane numeryczne Poczynione starania realizujące opisane wcześniej metody nie doprowadziły do zadowalających rezultatów Problemem ważniejszym był jednak brak dobrej koncepcji umieszczania obiektów w n- wymiarowej przestrzeni Zakładając, że n wynosi 5 (ponieważ tyloma słowami kluczowymi jest opisana cała praca) należałoby umieszczać obiekty, tożsame z tytułami prac licencjackich, w 5- wymiarowej przestrzeni Proponowany algorytm zakładał partycjonowanie takiej przestrzeni w celu otrzymania dobrych jakościowo grup Przeanalizujmy jednak kontrprzykład takiego rozumowania Mamy dane obiekty opisane słowami kluczowymi: Obiekt A B C D Tabela 1: Obiekty powiązane ze słowami kluczowymi Słowa kluczowe K1, K2, K3, K4, K5 K2, K3, K4, K5, K6 K1, K2, K3, K5, K6 K3, K4, K5, K6, K7 Intuicyjnie, już na pierwszy rzut oka widać, że obiekty są do siebie dość podobne Lecz umieszczenie ich w przestrzeni 5-wymiarowej spowoduje, że to podobieństwo zostanie zagubione Mamy tu do czynienia bowiem z sytuacją, gdy takie same słowa kluczowe mogą występować na różnych pozycjach w opisie dokumentu Sprawia to, że obiekty A oraz B umieszczone w przestrzeni będą znajdowały się daleko od siebie Drugim przykładem może być umieszczanie obiektów w przestrzeni dwuwymiarowej (konkretnie w przestrzeni opisanej siatką współrzędnych geograficznych) W tym przypadku jednak zarówno długość jak i szerokość geograficzna, pomimo tego samego zbioru wartości, oznacza coś zupełnie innego i nie jest możliwa zamiana kolejności opisu jak to ma miejsce w zbiorze dokumentów
6 Autor próbował poprawić tę koncepcję przez analizę podobieństwa dokumentów bez brania pod uwagę pozycji słowa kluczowego, ale takie podejście sprowadzało się do zwykłego algorytmu hierarchicznego, np AHC, który został już zaprezentowany w pracy licencjackiej 33 Modyfikacja oparta na strukturach polarnych W toku prac wyłoniła się kolejna modyfikacja Ogólny zarys może przedstawić następujący opis algorytmu: 1 Za środek okręgu wybierz zbiór słów kluczowych podanych przez użytkownika 2 Wybierz z całej bazy danych obiekty najbardziej podobne do zadanego przez użytkownika pytania (ich zbiór oznaczmy przez R) 3 Umieść je w równych odległościach od środka okręgu Wycinki koła zawierające te obiekty będą tworzyć strukturę gridową 4 Dla każdego obiektu należącego do zbioru R sprawdź w zależności od parametru promienia wyznacz obiekty najbardziej podobne do obiektów zbioru R Umieść je w odpowiednim wycinku koła 5 Zwróć w wyniku obiektu zbioru R oraz obiekty najbardziej do nich podobne Struktura polarna pozwala na zniwelowanie problemu umieszczania takich samych słów kluczowych na różnych pozycjach w opisie dokumenty Brana jest tutaj pod uwagę jedynie całkowita zgodność słów kluczowych Autor zaimplementował system łącznie z systemem wyszukiwania opartym na algorytmie AHC (Agglomerative Hierarchical Clustering) oraz dokonał porównania wydajności oraz jakości generowanych wyników Dzięki wygenerowanej na starcie macierzy podobieństwa wydatnie skraca się czas pracy algorytmu Wadą proponowanego podejścia jest konieczność budowy struktury gridowej dla każdego nowego zadawanego pytania do systemu Autor uważa jednak, że po zastosowaniu technik optymalizacyjnych (np zapisania macierzy podobieństwa i jedynie wyborze odpowiednich wierszy) można dojść do zadowalających czasowo rezultatów Niewątpliwą zaletą przedstawionego rozwiązania jest automatyczne radzenie sobie z problemem synonimów słów kluczowych Wiadomym jest, że w opisach prac licencjackich mogą występować słowa kluczowe, które są bardzo bliskie semantycznie Automatyczna analiza słów kluczowych jest w tym przypadku bardzo trudna Dzięki dwustopniowemu procesowi grupowania oraz możliwości dostrojenia algorytmu za pomocą parametru promień możliwe jest dotarcie do tematów, które zawierają się w interesującej dla użytkownika końcowego dziedzinie, ale w swym opisie posiadają inne słowa kluczowe niż te wybrane przez użytkownika Wspomniany już wcześniej parametr promień pozwala użytkownikowi na zawężenie lub poszerzenie wyników wyszukiwania 4 Eksperymenty obliczeniowe Autor dokonał wstępnych eksperymentów obliczeniowych, których wyniki przedstawione są w tym rozdziale W każdym przypadku badana jest kompletność oraz dokładność Zamieszcza
7 się również w ramach porównania wyniki działania algorytmu AHC We wszystkich eksperymentach, jeśli nie zapisano inaczej, dobierano tak parametr promień aby zmaksymalizować dokładność kosztem kompletności Bazą do eksperymentów był przygotowany przez autora zbiór tematów prac licencjackich o liczności 360 Każdy temat był opisany 5 różnymi słowami kluczowymi wybranymi spośród ponad 400 słów kluczowych zapisanych w bazie danych 41 Słowa kluczowe z tej samej dziedziny W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik wyszukuje słowa kluczowe z tej samej dziedziny tematycznej Wyniki przedstawia Tabela 2 W tym eksperymencie starano się zmaksymalizować dokładność, nawet za cenę bardzo niskiej kompletności Tabela 5 przedstawia natomiast wyniki kompletności i dokładności dla pierwszych 5 zestawów słów kluczowych ujętych w tabeli niżej w zależności od parametru promień Tabela 2: Wyniki eksperymentalne: słowa kluczowe z tej samej dziedziny Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU 3 MAMS, Macromedia, grafika Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa 6 Sieci bezprzewodowe, sieci komputerowe, sieć lokalna, portale internetowe 7 Służba publiczna, służba zdrowia, straż pożarna, szkoła podstawowa 8 Data mining, ekstrakcja, miary podobieństwa, analiza skupień 9 Daktyloskopia, rozpoznawanie obrazu,
8 grafika 10 Linux, Windows, BSD Dokładnie jedno słowo kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda tylko jedno słowo kluczowe Wyniki przedstawia Tabela 3, w ostatniej kolumnie zawarta jest informacja jaki procent obiektów w bazie zawiera podane słowo kluczowe Tabela 3:Wyniki eksperymentalne: dokładnie jedno słowo kluczowe Lp Słowo kluczowe AHC Grid Współczynnik Kompletność Dokładność Kompletność Dokładność procentowy 1 Analiza % 2 Programowanie % 3 Multimedia % 4 Sieci komputerowe % 5 Systemy ekspertowe % 6 Zjawiska świetlne ,2% 7 Telekomunikacja % 8 Sztuczna inteligencja % 9 Medycyna % 10 Grafika % 43 Losowo wybrane słowa kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda losowo wybrane słowa kluczowe należące do diametralnie różnych dziedzin Wyniki przedstawia Tabela 4 Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 ACS, baza wiedzy, falki geodetyczne, Open GL, wersja instruktorska 2 Linux, Object Pascal, R-project, open source, V-python 3 XML, laboratorium,
9 tkanka kostna, identyfikacja, J2ME 4 Podejście liniowe, graficzna reprezentacja, ilość komórek, MCS-8, zdalny dostęp 5 Java, listy, 3D, ultra termostat, firmy 6 Java Builder, badanie, feromony, lynx, animacja 7 Opis danych, naprawa, GIS, urządzenie, warunki środowiskowe 8 Oświata, konwersja, gmina, sieci neuronowe, fakturowanie 9 Handel, implementacja, identyfikacja, RAM, feromony 10 Ilość komórek, e- biznes, samopowielanie obrazów, tabele mieszająca, uchwały Wpływ parametru promień na wyniki wyszukiwania W tym eksperymencie skupiono się na algorytmie gridowym Zbadano wpływ parametru promień (przyjmującego wartości [1;4]) na kompletność i dokładność wyszukiwania Wyniki przedstawia Tabela 5 Tabela 5: Wyniki eksperymentalne: wpływ parametru promień Lp Zbiór słów kluczowych Promień Grid Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU MAMS, Macromedia, grafika, e-learning
10 4 Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa Wnioski We wszystkich tabelach dokładność jest definiowana jako stosunek liczby wyszukanych obiektów relewantnych do liczby wszystkich wyszukanych, natomiast kompletność jako stosunek liczby wyszukanych dokumentów relewantnych do liczby wszystkich relewantnych Wyniki eksperymentów dla powiązanych słów kluczowych (Tabela 1) pozwalają stwierdzić, że algorytm gridowy ma wyższe parametry dokładności, jednocześnie osiągając niższą kompletność Ma to miejsce ze względu na fakt wyboru małej liczby dokumentów (bo tylko najbardziej podobnych) przez algorytm gridowy Algorytm AHC natomiast wybiera grupy złożone ze stosunkowo większej liczby obiektów Jak widać w dalszych eksperymentach, modyfikowanie parametru promień pozwala zniwelować przewagę AHC za cenę mniejszej dokładności W przyszłości zostaną zaimplementowane inne metody oceny wydajności algorytmów Algorytm gridowy został zoptymalizowany pod kątem uzyskania lepszej dokładności Widać tutaj jednak paradoks przy przyjętej przez autora definicji dokumentów relewantnych (tj takich dokumentów, które w swoim opisie posiadają przynajmniej jedno słowo kluczowe wybrane przez użytkownika) najlepsze rezultaty osiągnie proste przeszukiwanie liniowe Nadrzędnym celem algorytmu jest jednak znajdowanie obiektów, które są podobne do podanego przez użytkownika opisu, niekoniecznie jednak zawierającego słowa kluczowe podane przez niego na wejściu algorytmu Jednocześnie brak jest obiektywnej metody oceny jakości takiego grupowania, poza arbitralną oceną empiryczną dokonaną przez eksperta za każdym razem W trakcie badań ujawniła się ciekawa właściwość algorytmu gridowego Otóż może on zostać wykorzystany do skutecznego wyszukiwania dokumentów, które w klasycznym grupowaniu znalazłyby się w zupełnie różnych grupach (patrz Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe) Algorytm dobrze radzi sobie z losowo podanymi słowami kluczowymi, a więc można przypuszczać, że będzie odporny na błędnie podane przez użytkownika słowa kluczowe (np dzięki braku znajomości dziedziny przedmiotowej) Jak już napisano wcześniej, parametr promień może zostać użyty do sterowania procesem grupowania Z eksperymentów (Tabela 5: Wyniki eksperymentalne: wpływ parametru promień) wynika jednoznaczna zależność pomiędzy promieniem a kompletnością i dokładnością Przedmiotem dalszych badań jest ustalenie optymalnej wartości tego parametru dla procesu wyszukiwania
11 Algorytm AHC osiąga lepsze rezultaty, gdy zapytanie dotyczy bardzo dobrze rozróżnialnych i oddzielonych grup Algorytm gridowy dla tych samych danych osiąga bardzo zbliżoną dokładność, lecz jego kompletność jest znacznie niższa Warto tu jednak zauważyć, że w przypadku podania na wejściu zestawu słów kluczowych, z których choćby jedno jest spoza dziedziny całej reszty znacząco zmniejsza skuteczność wyszukiwania Algorytm gridowy jest wyraźnie odporniejszy na tego typu sytuację W toku realizacji programowej, autor postanowił wykonywać część operacji grupowania bezpośrednio na bazie danych SQL Został dzięki temu osiągnięty ogólny wzrost szybkości wyszukiwania, dzięki optymalnym mechanizmom przeszukiwania i przecinania danych zawartych w bazie danych w porównaniu z tymi samymi operacjami wykonywanymi lokalnie Dla skorelowanych słów kluczowych w 90% przypadków dokładność algorytmu gridowego była co najmniej tak samo dobra jak dla algorytmu AHC W wielu przypadkach dokładność była nawet znacząco lepsza W przypadku kompletności AHC daje znacząco lepsze rezultaty, lecz algorytm gridowy zbliża się do uzyskiwanych wyników dzięki modyfikacji parametru promień Autor planuje dalsze eksperymenty w tym zakresie Dla losowo dobranych słów kluczowych algorytm gridowy jest bezkonkurencyjny Kompletność jest lepsza o rząd wielkości, dokładność nie spada poniżej 63% (a średnio jest dużo wyższa) AHC w tym przypadku daje znacznie gorsze wyniki Bibliografia [1] Berkhin, Pavel Survey of Clustering Data Mining Techniques 2002 [2] da Fontoura Costa, Luciano, i Roberto Marcondes Cesar Jr Shape Analysis and Classification: Theory and Practice 2001 [3] Gan, Guojun, Chaoqun Ma, i Jianhong Wu Data Clustering Theory, Algorithms, and Applications 2007 [4] Halkidi, Maria, Yannis Batistakis, i Michalis Vazirgiannis Cluster validity methods: Part I ACM SIGMOD Record, 2002: [5] Jach, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów hierarchicznych Sosnowiec, 2008 [6] Kaufman, L, i P Rousseeuw Finding Groups in Data: An Introduction to Cluster Analysis John Wiley and Sons, 1990 [7] Pankowski, Tadeusz Integracja i eksploracja danych Wymiana Informacji i Interaktywne Komunikowanie Medialne 2003 [8] Stein, Benno, Sven Meyerzu-Eissen, i Frank Wissbrock On Cluster Validity and the Information Need of Users 2005 [9] Tan, P N, M Steinbach, i V Kumar Introduction to data mining Addison-Wesley, 2006 [10] U Fayyad, G P Shapiro, i P Smyth From data mining to knowledge discovery AI Magazine, 1996 [11] Wei Wang, Jiong Yang, Richard Muntz "STING : A Statistical Information Grid Approach to Spatial Data" 1997 [12] Xięski, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów niehierarchicznych Sosnowiec, 2008
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoAnaliza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoS O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Bardziej szczegółowoAlicja Marszałek Różne rodzaje baz danych
Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoProgramowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Bardziej szczegółowoMaciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoMetoda list prostych Wykład II. Agnieszka Nowak - Brzezińska
Metoda list prostych Wykład II Agnieszka Nowak - Brzezińska Wprowadzenie Przykładowa KW Inna wersja KW Wyszukiwanie informacji Metoda I 1. Przeglądamy kolejne opisy obiektów i wybieramy te, które zawierają
Bardziej szczegółowoPattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Bardziej szczegółowoAnaliza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Bardziej szczegółowoUniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Bardziej szczegółowoWykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Bardziej szczegółowoZaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
Bardziej szczegółowoRozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny
Bardziej szczegółowoLaboratorium Technologii Informacyjnych. Projektowanie Baz Danych
Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoXQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery
http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod
Bardziej szczegółowoEfekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.
Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoRozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający
Bardziej szczegółowoData mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych
Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja
Bardziej szczegółowoOSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Bardziej szczegółowoW poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
Bardziej szczegółowoMichał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska
Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoMetody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoMetody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Bardziej szczegółowoAlgorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Bardziej szczegółowoKwerenda. parametryczna, z polem wyliczeniowym, krzyżowa
Kwerenda parametryczna, z polem wyliczeniowym, krzyżowa Operatory stosowane w wyrażeniach pól wyliczeniowych Przykład: wyliczanie wartości w kwerendach W tabeli Pracownicy zapisano wartości stawki godzinowej
Bardziej szczegółowoZalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Bardziej szczegółowoProjekt i implementacja systemu wspomagania planowania w języku Prolog
Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań
Bardziej szczegółowoIndeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Bardziej szczegółowoAnaliza i projektowanie aplikacji Java
Analiza i projektowanie aplikacji Java Modele analityczne a projektowe Modele analityczne (konceptualne) pokazują dziedzinę problemu. Modele projektowe (fizyczne) pokazują system informatyczny. Utrzymanie
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoPojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Bardziej szczegółowoKryteria oceniania uczniów z informatyki w klasie II gimnazjum
Kryteria oceniania uczniów z informatyki w klasie II gimnazjum 1) Obliczenia w arkuszu kalkulacyjnym - wprowadza dane do arkusza i z pomocą wpisuje formuły, - z pomocą rozwiązuje proste zadania w arkuszu,
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej
Bardziej szczegółowoAlgorytmika i pseudoprogramowanie
Przedmiotowy system oceniania Zawód: Technik Informatyk Nr programu: 312[ 01] /T,SP/MENiS/ 2004.06.14 Przedmiot: Programowanie Strukturalne i Obiektowe Klasa: druga Dział Dopuszczający Dostateczny Dobry
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoWYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoAiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoPODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Bardziej szczegółowoWielowymiarowy model danych
Plan wykładu Wielowymiarowy model danych 1. Model danych 2. Analiza wielowymiarowa 3. Model wielowymiarowy: koncepcja wymiarów i faktów 4. Operacje modelu wielowymiarowego 5. Implementacje modelu wielowymiarowego:
Bardziej szczegółowoEgzamin gimnazjalny z matematyki 2016 analiza
Egzamin gimnazjalny z matematyki 2016 analiza Arkusz zawierał 23 zadania: 20 zamkniętych i 3 otwarte. Dominowały zadania wyboru wielokrotnego, w których uczeń wybierał jedną z podanych odpowiedzi. W pięciu
Bardziej szczegółowoWPROWADZENIE DO BAZ DANYCH
WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z
Bardziej szczegółowoStraszyński Kołodziejczyk, Paweł Straszyński. Wszelkie prawa zastrzeżone. FoamPro. Instrukcja obsługi
FoamPro Instrukcja obsługi 1 Spis treści 1 Wstęp... 3 2 Opis Programu... 4 2.1 Interfejs programu... 4 2.2 Budowa projektu... 5 2.2.1 Elementy podstawowe... 5 2.2.2 Elementy grupowe... 5 2.2.3 Połączenia
Bardziej szczegółowoK.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz
K.Pieńkosz Wprowadzenie 1 dr inż. Krzysztof Pieńkosz Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej pok. 560 A tel.: 234-78-64 e-mail: K.Pienkosz@ia.pw.edu.pl K.Pieńkosz Wprowadzenie
Bardziej szczegółowozna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych
Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoAlgorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoCzęść I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)
Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Część I Zadanie 1.1. (0 3) 3 p. za prawidłową odpowiedź w trzech wierszach. 2 p. za prawidłową odpowiedź
Bardziej szczegółowoAnna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Bibliografie czasopism naukowych Biblioteki Głównej UEK jako źródło danych dla analiz bibliometrycznych Streszczenie Przedstawiono
Bardziej szczegółowoAlgorytmy genetyczne
Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą
Bardziej szczegółowoProgramowanie dynamiczne
Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoMetoda List Łańcuchowych
Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoĆwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A
Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Zadanie do wykonania 1) Utwórz na pulpicie katalog w formacie Imię nazwisko, w którym umieść wszystkie pliki związane z
Bardziej szczegółowo4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Bardziej szczegółowoWymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.
Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie
Bardziej szczegółowoMetody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoHurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoprzetworzonego sygnału
Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego
Bardziej szczegółowoWYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III Program nauczania matematyki w gimnazjum Matematyka dla przyszłości DKW 4014 162/99 Opracowała: mgr Mariola Bagińska 1. Liczby i działania Podaje rozwinięcia
Bardziej szczegółowoTransformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Bardziej szczegółowoWykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Bardziej szczegółowoMetody Optymalizacji: Przeszukiwanie z listą tabu
Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek
Bardziej szczegółowoSystemy GIS Systemy baz danych
Systemy GIS Systemy baz danych Wykład nr 5 System baz danych Skomputeryzowany system przechowywania danych/informacji zorganizowanych w pliki Użytkownik ma do dyspozycji narzędzia do wykonywania różnych
Bardziej szczegółowoKIERUNKOWE EFEKTY KSZTAŁCENIA
KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział: Matematyki Kierunek studiów: Matematyka i Statystyka (MiS) Studia w j. polskim Stopień studiów: Pierwszy (1) Profil: Ogólnoakademicki (A) Umiejscowienie kierunku
Bardziej szczegółowoSterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
Bardziej szczegółowoPRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoAlgorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Bardziej szczegółowoAutomatyczny dobór parametrów algorytmu genetycznego
Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja
Bardziej szczegółowoBaza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.
PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!
Bardziej szczegółowoINSTRUKCJA DO ĆWICZENIA NR 1
L01 ---2014/10/17 ---10:52---page1---#1 KATEDRA MECHANIKI STOSOWANEJ Wydział Mechaniczny POLITECHNIKA LUBELSKA INSTRUKCJA DO ĆWICZENIA NR 1 PRZEDMIOT TEMAT Wybrane zagadnienia z optymalizacji elementów
Bardziej szczegółowoPrzykładowe sprawozdanie. Jan Pustelnik
Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.
Bardziej szczegółowoEGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA POZIOM ROZSZERZONY FORMUŁA OD 2015 ( NOWA MATURA ) ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1,R2 MAJ 2018 Uwaga: Akceptowane są wszystkie odpowiedzi
Bardziej szczegółowoWykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Bardziej szczegółowoTechnologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Bardziej szczegółowoWprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski
Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,
Bardziej szczegółowoWydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Bardziej szczegółowoAutostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom I: Optymalizacja. Nie panikuj!
Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień Tom I: Optymalizacja Nie panikuj! Autorzy: Iwo Błądek Konrad Miazga Oświadczamy, że w trakcie produkcji tego tutoriala nie zginęły żadne zwierzęta,
Bardziej szczegółowoOpracowanie systemu monitorowania zmian cen na rynku nieruchomości
Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Ogólne założenia planowanego projektu Firma planuje realizację projektu związanego z uruchomieniem usługi, która będzie polegała na monitorowaniu
Bardziej szczegółowoHURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Bardziej szczegółowoZapisywanie algorytmów w języku programowania
Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym
Bardziej szczegółowoBazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI
Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co
Bardziej szczegółowoAsocjacyjna reprezentacja danych i wnioskowanie
Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1
Bardziej szczegółowoWykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1
Wykład 13 Systemy Informacji Przestrzennej Systemy Informacji Przestrzennej 1 Mapa jako element Systemu Informacji Geograficznej Systemy Informacyjne Systemy Informacji przestrzennej Systemy Informacji
Bardziej szczegółowoUniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO
Bardziej szczegółowo