TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH"

Transkrypt

1 TOMASZ JACH Instytut Informatyki GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH Streszczenie W tej pracy autor skupi się na gridowych metodach rozpoznawania wzorców w danych Obecnie, wykorzystuje się te metody jedynie do analizy danych przestrzennych (zwykle dwuwymiarowych, np geograficznych) Autor wykaże, że metody te można z powodzeniem zastosować również do danych tekstowych 1 Wstęp Dane typu przestrzennego są bardzo trudne w automatycznej analizie Dotychczas, podobnie jak dane tekstowe, operacje ekstrakcji i odkrywania przydatnych informacji (i powiązań pomiędzy nimi) były wykonywane przez analityków i specjalistów od drążenia danych Jednakże dzisiaj, w dobie masowego dostępu do informacji oraz znacznego wzrostowi objętości danych (oraz ich złożoności), istnieje ogromne zapotrzebowanie na komputerowe metody analizy danych Stopniowo przez lata odchodziło się od ręcznych metod eksploracji wiedzy zastępując je automatycznymi metodami komputerowymi Wzrost możliwości komputerowej analizy danych sprawia, że pozyskiwanie i przetwarzanie danych stało się znacznie efektywniejsze Dokonuje się analizy danych najróżniejszego rodzaju: od stosunkowo prostych danych z łatwymi do wykrycia powiązaniami, po złożone dane wielowymiarowe Wzrost złożoności danych powoduje znacznie większe zapotrzebowanie na moc obliczeniową oraz wymaga optymalizacji obecnie stosowanych algorytmów, a niejednokrotnie nowatorskich pomysłów na ich eksplorację 2 Pożądane cechy algorytmu grupującego Każdy algorytm grupujący powinien cechować się kilkoma właściwościami pozwalającymi na zastosowanie go w różnych polach eksploatacji Pierwszą z cech, ważną zwłaszcza przy grupowaniu danych przestrzennych, jest odpowiednio szybki czas działania Wiąże się to z niską złożonością obliczeniową danego algorytmu Dane przestrzenne są bardzo złożone, a co za tym idzie nawet kilkuprocentowy zysk wydajności w ogólnym rozrachunku powoduje wyraźne skrócenie obliczeń Algorytm grupujący winien również łatwo i skutecznie identyfikować grupy o dowolnym kształcie Wszelkie preferencje co do obiektów kulistych, prostopadłościennych lub innych

2 powodują zaburzenia wyników Najczęściej kształt grup nie jest znany przed rozpoczęciem grupowania, dlatego też zwykle nie można zakładać żadnego z rozmieszczeń obiektów w przestrzeni Grupy mogą być również zagnieżdżone w sobie, mogą występować dziury w ich wnętrzach, mogą być poskręcane, wydłużone, wklęsłe lub wypukłe Trudno również mówić o poprawnym grupowaniu w czasie gdy wartości izolowane istotnie wpływają na wynik grupowania zaburzając tym samym klasyfikację obiektów do grup W czasie działania algorytmu obiekty odstające (a więc te nienależące do żadnej grupy) powinny być odfiltrowane i nie brane pod uwagę w grupowaniu Dobra strategia grupowania powinna również być niewrażliwa na kolejność danych wejściowych Innymi słowy dla dowolnej permutacji tego samego zbioru obiektów wejściowych oraz identycznych parametrów algorytmu, otrzymywane grupy powinny być takie same Zwykle podczas wdrażania systemu nie wiadomo na ile grup powinno się podzielić dane Dlatego parametr ten nie powinien być podawany na początku działania algorytmu, a ilość grup powinna być determinowana przez sam algorytm w zależności od danych wejściowych Skalowalność to cecha pozwalająca na uruchamianie algorytmu zarówno dla danych o małym rozmiarze, jak i dla tych ogromnych zbiorów danych Ostatnią pożądaną cechą jest możliwość ustalania stopnia dokładności działania algorytmu W przypadku danych przestrzennych można posłużyć się następującym przykładem: użytkownik uruchamia system, aby ten określił obszary występowania bogactw naturalnych Algorytm grupujący odnajduje relewantne obszary i oznacza je na wizualizacji Jednak drugi użytkownik potrzebuje informacji o tym jakie bogactwa naturalne występują w danym miejscu Dlatego samo oznaczenie występuje / nie występuje jest dla niego zbyt ogólne 3 Algorytmy gridowe Powstało wiele prac odnoszących się do zagadnienia eksploracji danych przestrzennych Niektóre z nich bazują na odkrywaniu wiedzy, inne zaś na technikach klasteryzacji Algorytmy DBSCAN (Density-Based Spatial Clustering of Applications with Noise), CLARANS (Clustering Large Applications based on RANdomized Search), BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) mają poważną wadę w postaci budowy struktury wyszukiwawczej dopiero w momencie zadawania pytania do systemu Struktura ta zmienia się z każdym pytaniem i nie może zostać powtórnie wykorzystana Podnosi to znacznie złożoność czasową tych algorytmów algorytmy te muszą co najmniej raz przeskanować całą przestrzeń obiektów 31 Algorytm STING Odpowiedzią na te problemy jest algorytm STING (STatistical INformation Grid siatka wykorzystująca informacje statystyczne ) wykorzystywany do drążenia danych typu przestrzennego Dane te zostają podzielone na prostokątne komórki W zależności od potrzeb, proces ten jest wielokrotnie powtarzany dla każdej podzielonej komórki Dzięki temu w sposób automatyczny otrzymujemy hierarchiczną strukturę komórek (podejście top-down ) Każda komórka na wyższym poziomie jest dzielona na wcześniej ustaloną liczbę podkomórek Oprócz tego, dla

3 każdej z nich wyliczane są pewne informacje statystyczne używane do szybkiej odpowiedzi na pytania zadawane do systemu Zaletami takiego podejścia są: Niezależna od pytania budowa struktury wyszukiwawczej, zważywszy na fakt istnienia informacji statystycznych niezależnych od zadawanych pytań, a zależnych tylko od wartości danych Dane statystyczne są niejako sumaryczną reprezentacją danych zawartych w każdej z komórek Złożoność obliczeniowa wynosi O(K), gdzie K jest liczbą komórek w siatce na najniższym poziomie Zwykle K jest znacznie mniejsze od liczby obiektów w bazie Algorytmy wyszukiwawcze wykorzystujące to podejście są bardzo łatwe do zrównoleglenia Przy dodawaniu danych do systemu, należy tylko przeliczyć wartości statystyczne, a nie przebudowywać całą bazę 1 sza warstwa może mieć tylko jedną komórkę 1-sza wartswa (i-1)ta warstwa i-ta warstwa Rysunek 1: Hierarchiczna struktura w algorytmie STING Algorytm STING wykorzystuje do działania hierarchiczną strukturę gridową W trakcie rozwiązywania dzieli się obszar danych przestrzennych (za pomocą atrybutów go określających, np długości i szerokości geograficznej) i stosuje hierarchiczną strukturę podziału Korzeniem hierarchii będzie poziom nr 1, jego potomkowie to poziom 2, itd Łatwo zauważyć, że każda komórka na poziomie i-tym będzie się składać z sumy obszarów swoich potomków Wang, Yang oraz Muntz (Wei Wang 1997) proponują, aby każda z komórek wyższego poziomu posiadała dokładnie 4 potomków Korzeń odzwierciedla całą przestrzeń (zakłada się również dla uproszczenia, że ta jest prostokątna) Rozmiar komórek-liści jest zależny od gęstości obiektów Generalną zasadą jest wybieranie rozmiaru każdej komórki tak, aby średnia liczba obiektów w każdej komórce wahała się pomiędzy kilkoma tuzinami a kilkoma tysiącami Dodatkowo, aby

4 osiągnąć pożądaną liczbę obiektów w komórce można manipulować parametrem określającym liczbę potomków komórek wyższego rzędu Algorytm STING bardzo łatwo przystosować do wielowymiarowej przestrzeni Zwykle jest on używany do przestrzeni dwuwymiarowej, ale bardzo łatwo dokonać generalizacji struktury hierarchicznej do większej ich ilości Każda komórka jest opisywana dwoma rodzajami parametrów: zależnymi od atrybutów oraz niezależnymi od atrybutów Jedynym parametrem niezależnym od atrybutów jest liczba obiektów (punktów) w komórce Autor w swojej pracy proponuje użycie koncepcji algorytmów gridowych do grupowania danych typu tekstowego Wykorzystuje się tu klasyczne podejście gridowe polegające na partycjonowaniu nie samych obiektów, ale przestrzeni zawierającej cechy każdego z obiektów w bazie Ze względu na numeryczny charakter atrybutów danych przyjmowanych przez algorytmy gridowe należało zaproponować sposób uporania się z zamianą danych typu tekstowego na typ numeryczny Do tego celu potencjalnymi technikami są: Zamiana na postać numeryczną tj każde słowo kluczowe zamieniane na atrybut numeryczny Wady: bliskie słowa kluczowe mogą się znaleźć daleko od siebie Określenie relewancji do każdego możliwego słowa kluczowego Wady: ogromny nakład środków, niewygodna aktualizacja, sztywna struktura bazy danych Modyfikacja przestrzeni cech Takie ustawienie słów kluczowych, aby te najbliższe sobie były obok siebie Zastosowanie miary Hamminga Wady: faworyzowanie krótkich słów kluczowych, możliwe przekłamania, brak informacji o znaczeniu 32 Pierwsza modyfikacja algorytmu STING Zaproponowano następujący algorytm grupowania: 1 Wczytaj dane do bazy danych 2 Dla każdego słowa kluczowego: 1 Policz częstotliwość współwystępowania danego słowa kluczowego z wszystkimi innymi słowami kluczowymi 2 Wybierz dwa najbliższe słowa kluczowe i umieść je obok siebie 3 Zaktualizuj częstości współwystępowania wziętych słów kluczowych 3 Umieść obiekty w przestrzeni n-wymiarowej słów kluczowych 4 Zidentyfikuj gęste obszary 5 Oznacz gęste obszary najczęściej występującymi słowami kluczowymi Tak przedstawiony algorytm będzie korzystał z podejścia gridowego do wyszukiwania danych W trakcie badań zostaną przedstawione próby adaptacji algorytmu STING (głównie podejścia statystycznego) do danych tekstowych Niestety, już na etapie projektowania można zauważyć następujące trudności:

5 Atrybuty każdego obiektu to 5 słów kluczowych Wszystkie te atrybuty są typu tekstowego, tak więc każdy z nich należałoby zamienić na postać numeryczną, co prowadzi do tych samych trudności jak opisane wyżej Wyliczenie niezbędnego parametru rozkład dla danych tekstowych jest nietrywialne Wszelkie podejścia opierające się na estymowaniu rozkładu zmiennej losowej nie sprawdzają się dla danych tekstowych Wyliczenie pozostałych parametrów (min, max, średnia, odchylenie) również stanowi wyzwanie Dane w postaci tematów prac licencjackich układają się w pewne naturalne regiony (choćby porównując fakt iż każdy z promotorów zajmuje się stosunkowo wąską i spójną dziedziną dyscypliny informatyka, więc tematy przez niego prowadzone zwykle poruszają się w tym samym obszarze tematycznym), lecz regiony te są bardzo trudne do odkrycia oraz zazębiają się między sobą 321 Analiza modyfikacji W toku badań próbowano zrealizować proponowaną modyfikację Niestety, już na etapie pogłębionej analizy natrafiono na kilka znaczących problemów, które zostaną opisane poniżej Pierwszym problemem był wspomniany już brak skutecznej metody zamiany danych typu tekstowego (słów kluczowych) na dane numeryczne Poczynione starania realizujące opisane wcześniej metody nie doprowadziły do zadowalających rezultatów Problemem ważniejszym był jednak brak dobrej koncepcji umieszczania obiektów w n- wymiarowej przestrzeni Zakładając, że n wynosi 5 (ponieważ tyloma słowami kluczowymi jest opisana cała praca) należałoby umieszczać obiekty, tożsame z tytułami prac licencjackich, w 5- wymiarowej przestrzeni Proponowany algorytm zakładał partycjonowanie takiej przestrzeni w celu otrzymania dobrych jakościowo grup Przeanalizujmy jednak kontrprzykład takiego rozumowania Mamy dane obiekty opisane słowami kluczowymi: Obiekt A B C D Tabela 1: Obiekty powiązane ze słowami kluczowymi Słowa kluczowe K1, K2, K3, K4, K5 K2, K3, K4, K5, K6 K1, K2, K3, K5, K6 K3, K4, K5, K6, K7 Intuicyjnie, już na pierwszy rzut oka widać, że obiekty są do siebie dość podobne Lecz umieszczenie ich w przestrzeni 5-wymiarowej spowoduje, że to podobieństwo zostanie zagubione Mamy tu do czynienia bowiem z sytuacją, gdy takie same słowa kluczowe mogą występować na różnych pozycjach w opisie dokumentu Sprawia to, że obiekty A oraz B umieszczone w przestrzeni będą znajdowały się daleko od siebie Drugim przykładem może być umieszczanie obiektów w przestrzeni dwuwymiarowej (konkretnie w przestrzeni opisanej siatką współrzędnych geograficznych) W tym przypadku jednak zarówno długość jak i szerokość geograficzna, pomimo tego samego zbioru wartości, oznacza coś zupełnie innego i nie jest możliwa zamiana kolejności opisu jak to ma miejsce w zbiorze dokumentów

6 Autor próbował poprawić tę koncepcję przez analizę podobieństwa dokumentów bez brania pod uwagę pozycji słowa kluczowego, ale takie podejście sprowadzało się do zwykłego algorytmu hierarchicznego, np AHC, który został już zaprezentowany w pracy licencjackiej 33 Modyfikacja oparta na strukturach polarnych W toku prac wyłoniła się kolejna modyfikacja Ogólny zarys może przedstawić następujący opis algorytmu: 1 Za środek okręgu wybierz zbiór słów kluczowych podanych przez użytkownika 2 Wybierz z całej bazy danych obiekty najbardziej podobne do zadanego przez użytkownika pytania (ich zbiór oznaczmy przez R) 3 Umieść je w równych odległościach od środka okręgu Wycinki koła zawierające te obiekty będą tworzyć strukturę gridową 4 Dla każdego obiektu należącego do zbioru R sprawdź w zależności od parametru promienia wyznacz obiekty najbardziej podobne do obiektów zbioru R Umieść je w odpowiednim wycinku koła 5 Zwróć w wyniku obiektu zbioru R oraz obiekty najbardziej do nich podobne Struktura polarna pozwala na zniwelowanie problemu umieszczania takich samych słów kluczowych na różnych pozycjach w opisie dokumenty Brana jest tutaj pod uwagę jedynie całkowita zgodność słów kluczowych Autor zaimplementował system łącznie z systemem wyszukiwania opartym na algorytmie AHC (Agglomerative Hierarchical Clustering) oraz dokonał porównania wydajności oraz jakości generowanych wyników Dzięki wygenerowanej na starcie macierzy podobieństwa wydatnie skraca się czas pracy algorytmu Wadą proponowanego podejścia jest konieczność budowy struktury gridowej dla każdego nowego zadawanego pytania do systemu Autor uważa jednak, że po zastosowaniu technik optymalizacyjnych (np zapisania macierzy podobieństwa i jedynie wyborze odpowiednich wierszy) można dojść do zadowalających czasowo rezultatów Niewątpliwą zaletą przedstawionego rozwiązania jest automatyczne radzenie sobie z problemem synonimów słów kluczowych Wiadomym jest, że w opisach prac licencjackich mogą występować słowa kluczowe, które są bardzo bliskie semantycznie Automatyczna analiza słów kluczowych jest w tym przypadku bardzo trudna Dzięki dwustopniowemu procesowi grupowania oraz możliwości dostrojenia algorytmu za pomocą parametru promień możliwe jest dotarcie do tematów, które zawierają się w interesującej dla użytkownika końcowego dziedzinie, ale w swym opisie posiadają inne słowa kluczowe niż te wybrane przez użytkownika Wspomniany już wcześniej parametr promień pozwala użytkownikowi na zawężenie lub poszerzenie wyników wyszukiwania 4 Eksperymenty obliczeniowe Autor dokonał wstępnych eksperymentów obliczeniowych, których wyniki przedstawione są w tym rozdziale W każdym przypadku badana jest kompletność oraz dokładność Zamieszcza

7 się również w ramach porównania wyniki działania algorytmu AHC We wszystkich eksperymentach, jeśli nie zapisano inaczej, dobierano tak parametr promień aby zmaksymalizować dokładność kosztem kompletności Bazą do eksperymentów był przygotowany przez autora zbiór tematów prac licencjackich o liczności 360 Każdy temat był opisany 5 różnymi słowami kluczowymi wybranymi spośród ponad 400 słów kluczowych zapisanych w bazie danych 41 Słowa kluczowe z tej samej dziedziny W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik wyszukuje słowa kluczowe z tej samej dziedziny tematycznej Wyniki przedstawia Tabela 2 W tym eksperymencie starano się zmaksymalizować dokładność, nawet za cenę bardzo niskiej kompletności Tabela 5 przedstawia natomiast wyniki kompletności i dokładności dla pierwszych 5 zestawów słów kluczowych ujętych w tabeli niżej w zależności od parametru promień Tabela 2: Wyniki eksperymentalne: słowa kluczowe z tej samej dziedziny Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU 3 MAMS, Macromedia, grafika Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa 6 Sieci bezprzewodowe, sieci komputerowe, sieć lokalna, portale internetowe 7 Służba publiczna, służba zdrowia, straż pożarna, szkoła podstawowa 8 Data mining, ekstrakcja, miary podobieństwa, analiza skupień 9 Daktyloskopia, rozpoznawanie obrazu,

8 grafika 10 Linux, Windows, BSD Dokładnie jedno słowo kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda tylko jedno słowo kluczowe Wyniki przedstawia Tabela 3, w ostatniej kolumnie zawarta jest informacja jaki procent obiektów w bazie zawiera podane słowo kluczowe Tabela 3:Wyniki eksperymentalne: dokładnie jedno słowo kluczowe Lp Słowo kluczowe AHC Grid Współczynnik Kompletność Dokładność Kompletność Dokładność procentowy 1 Analiza % 2 Programowanie % 3 Multimedia % 4 Sieci komputerowe % 5 Systemy ekspertowe % 6 Zjawiska świetlne ,2% 7 Telekomunikacja % 8 Sztuczna inteligencja % 9 Medycyna % 10 Grafika % 43 Losowo wybrane słowa kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda losowo wybrane słowa kluczowe należące do diametralnie różnych dziedzin Wyniki przedstawia Tabela 4 Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 ACS, baza wiedzy, falki geodetyczne, Open GL, wersja instruktorska 2 Linux, Object Pascal, R-project, open source, V-python 3 XML, laboratorium,

9 tkanka kostna, identyfikacja, J2ME 4 Podejście liniowe, graficzna reprezentacja, ilość komórek, MCS-8, zdalny dostęp 5 Java, listy, 3D, ultra termostat, firmy 6 Java Builder, badanie, feromony, lynx, animacja 7 Opis danych, naprawa, GIS, urządzenie, warunki środowiskowe 8 Oświata, konwersja, gmina, sieci neuronowe, fakturowanie 9 Handel, implementacja, identyfikacja, RAM, feromony 10 Ilość komórek, e- biznes, samopowielanie obrazów, tabele mieszająca, uchwały Wpływ parametru promień na wyniki wyszukiwania W tym eksperymencie skupiono się na algorytmie gridowym Zbadano wpływ parametru promień (przyjmującego wartości [1;4]) na kompletność i dokładność wyszukiwania Wyniki przedstawia Tabela 5 Tabela 5: Wyniki eksperymentalne: wpływ parametru promień Lp Zbiór słów kluczowych Promień Grid Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU MAMS, Macromedia, grafika, e-learning

10 4 Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa Wnioski We wszystkich tabelach dokładność jest definiowana jako stosunek liczby wyszukanych obiektów relewantnych do liczby wszystkich wyszukanych, natomiast kompletność jako stosunek liczby wyszukanych dokumentów relewantnych do liczby wszystkich relewantnych Wyniki eksperymentów dla powiązanych słów kluczowych (Tabela 1) pozwalają stwierdzić, że algorytm gridowy ma wyższe parametry dokładności, jednocześnie osiągając niższą kompletność Ma to miejsce ze względu na fakt wyboru małej liczby dokumentów (bo tylko najbardziej podobnych) przez algorytm gridowy Algorytm AHC natomiast wybiera grupy złożone ze stosunkowo większej liczby obiektów Jak widać w dalszych eksperymentach, modyfikowanie parametru promień pozwala zniwelować przewagę AHC za cenę mniejszej dokładności W przyszłości zostaną zaimplementowane inne metody oceny wydajności algorytmów Algorytm gridowy został zoptymalizowany pod kątem uzyskania lepszej dokładności Widać tutaj jednak paradoks przy przyjętej przez autora definicji dokumentów relewantnych (tj takich dokumentów, które w swoim opisie posiadają przynajmniej jedno słowo kluczowe wybrane przez użytkownika) najlepsze rezultaty osiągnie proste przeszukiwanie liniowe Nadrzędnym celem algorytmu jest jednak znajdowanie obiektów, które są podobne do podanego przez użytkownika opisu, niekoniecznie jednak zawierającego słowa kluczowe podane przez niego na wejściu algorytmu Jednocześnie brak jest obiektywnej metody oceny jakości takiego grupowania, poza arbitralną oceną empiryczną dokonaną przez eksperta za każdym razem W trakcie badań ujawniła się ciekawa właściwość algorytmu gridowego Otóż może on zostać wykorzystany do skutecznego wyszukiwania dokumentów, które w klasycznym grupowaniu znalazłyby się w zupełnie różnych grupach (patrz Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe) Algorytm dobrze radzi sobie z losowo podanymi słowami kluczowymi, a więc można przypuszczać, że będzie odporny na błędnie podane przez użytkownika słowa kluczowe (np dzięki braku znajomości dziedziny przedmiotowej) Jak już napisano wcześniej, parametr promień może zostać użyty do sterowania procesem grupowania Z eksperymentów (Tabela 5: Wyniki eksperymentalne: wpływ parametru promień) wynika jednoznaczna zależność pomiędzy promieniem a kompletnością i dokładnością Przedmiotem dalszych badań jest ustalenie optymalnej wartości tego parametru dla procesu wyszukiwania

11 Algorytm AHC osiąga lepsze rezultaty, gdy zapytanie dotyczy bardzo dobrze rozróżnialnych i oddzielonych grup Algorytm gridowy dla tych samych danych osiąga bardzo zbliżoną dokładność, lecz jego kompletność jest znacznie niższa Warto tu jednak zauważyć, że w przypadku podania na wejściu zestawu słów kluczowych, z których choćby jedno jest spoza dziedziny całej reszty znacząco zmniejsza skuteczność wyszukiwania Algorytm gridowy jest wyraźnie odporniejszy na tego typu sytuację W toku realizacji programowej, autor postanowił wykonywać część operacji grupowania bezpośrednio na bazie danych SQL Został dzięki temu osiągnięty ogólny wzrost szybkości wyszukiwania, dzięki optymalnym mechanizmom przeszukiwania i przecinania danych zawartych w bazie danych w porównaniu z tymi samymi operacjami wykonywanymi lokalnie Dla skorelowanych słów kluczowych w 90% przypadków dokładność algorytmu gridowego była co najmniej tak samo dobra jak dla algorytmu AHC W wielu przypadkach dokładność była nawet znacząco lepsza W przypadku kompletności AHC daje znacząco lepsze rezultaty, lecz algorytm gridowy zbliża się do uzyskiwanych wyników dzięki modyfikacji parametru promień Autor planuje dalsze eksperymenty w tym zakresie Dla losowo dobranych słów kluczowych algorytm gridowy jest bezkonkurencyjny Kompletność jest lepsza o rząd wielkości, dokładność nie spada poniżej 63% (a średnio jest dużo wyższa) AHC w tym przypadku daje znacznie gorsze wyniki Bibliografia [1] Berkhin, Pavel Survey of Clustering Data Mining Techniques 2002 [2] da Fontoura Costa, Luciano, i Roberto Marcondes Cesar Jr Shape Analysis and Classification: Theory and Practice 2001 [3] Gan, Guojun, Chaoqun Ma, i Jianhong Wu Data Clustering Theory, Algorithms, and Applications 2007 [4] Halkidi, Maria, Yannis Batistakis, i Michalis Vazirgiannis Cluster validity methods: Part I ACM SIGMOD Record, 2002: [5] Jach, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów hierarchicznych Sosnowiec, 2008 [6] Kaufman, L, i P Rousseeuw Finding Groups in Data: An Introduction to Cluster Analysis John Wiley and Sons, 1990 [7] Pankowski, Tadeusz Integracja i eksploracja danych Wymiana Informacji i Interaktywne Komunikowanie Medialne 2003 [8] Stein, Benno, Sven Meyerzu-Eissen, i Frank Wissbrock On Cluster Validity and the Information Need of Users 2005 [9] Tan, P N, M Steinbach, i V Kumar Introduction to data mining Addison-Wesley, 2006 [10] U Fayyad, G P Shapiro, i P Smyth From data mining to knowledge discovery AI Magazine, 1996 [11] Wei Wang, Jiong Yang, Richard Muntz "STING : A Statistical Information Grid Approach to Spatial Data" 1997 [12] Xięski, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów niehierarchicznych Sosnowiec, 2008

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska Metoda list prostych Wykład II Agnieszka Nowak - Brzezińska Wprowadzenie Przykładowa KW Inna wersja KW Wyszukiwanie informacji Metoda I 1. Przeglądamy kolejne opisy obiektów i wybieramy te, które zawierają

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej. Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

W poszukiwaniu sensu w świecie widzialnym

W poszukiwaniu sensu w świecie widzialnym W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały

Bardziej szczegółowo

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Kwerenda. parametryczna, z polem wyliczeniowym, krzyżowa

Kwerenda. parametryczna, z polem wyliczeniowym, krzyżowa Kwerenda parametryczna, z polem wyliczeniowym, krzyżowa Operatory stosowane w wyrażeniach pól wyliczeniowych Przykład: wyliczanie wartości w kwerendach W tabeli Pracownicy zapisano wartości stawki godzinowej

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Projekt i implementacja systemu wspomagania planowania w języku Prolog Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

Analiza i projektowanie aplikacji Java

Analiza i projektowanie aplikacji Java Analiza i projektowanie aplikacji Java Modele analityczne a projektowe Modele analityczne (konceptualne) pokazują dziedzinę problemu. Modele projektowe (fizyczne) pokazują system informatyczny. Utrzymanie

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Pojęcie bazy danych. Funkcje i możliwości.

Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór

Bardziej szczegółowo

Kryteria oceniania uczniów z informatyki w klasie II gimnazjum

Kryteria oceniania uczniów z informatyki w klasie II gimnazjum Kryteria oceniania uczniów z informatyki w klasie II gimnazjum 1) Obliczenia w arkuszu kalkulacyjnym - wprowadza dane do arkusza i z pomocą wpisuje formuły, - z pomocą rozwiązuje proste zadania w arkuszu,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej

Bardziej szczegółowo

Algorytmika i pseudoprogramowanie

Algorytmika i pseudoprogramowanie Przedmiotowy system oceniania Zawód: Technik Informatyk Nr programu: 312[ 01] /T,SP/MENiS/ 2004.06.14 Przedmiot: Programowanie Strukturalne i Obiektowe Klasa: druga Dział Dopuszczający Dostateczny Dobry

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

AiSD zadanie trzecie

AiSD zadanie trzecie AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Wielowymiarowy model danych

Wielowymiarowy model danych Plan wykładu Wielowymiarowy model danych 1. Model danych 2. Analiza wielowymiarowa 3. Model wielowymiarowy: koncepcja wymiarów i faktów 4. Operacje modelu wielowymiarowego 5. Implementacje modelu wielowymiarowego:

Bardziej szczegółowo

Egzamin gimnazjalny z matematyki 2016 analiza

Egzamin gimnazjalny z matematyki 2016 analiza Egzamin gimnazjalny z matematyki 2016 analiza Arkusz zawierał 23 zadania: 20 zamkniętych i 3 otwarte. Dominowały zadania wyboru wielokrotnego, w których uczeń wybierał jedną z podanych odpowiedzi. W pięciu

Bardziej szczegółowo

WPROWADZENIE DO BAZ DANYCH

WPROWADZENIE DO BAZ DANYCH WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z

Bardziej szczegółowo

Straszyński Kołodziejczyk, Paweł Straszyński. Wszelkie prawa zastrzeżone. FoamPro. Instrukcja obsługi

Straszyński Kołodziejczyk, Paweł Straszyński. Wszelkie prawa zastrzeżone.  FoamPro. Instrukcja obsługi FoamPro Instrukcja obsługi 1 Spis treści 1 Wstęp... 3 2 Opis Programu... 4 2.1 Interfejs programu... 4 2.2 Budowa projektu... 5 2.2.1 Elementy podstawowe... 5 2.2.2 Elementy grupowe... 5 2.2.3 Połączenia

Bardziej szczegółowo

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz K.Pieńkosz Wprowadzenie 1 dr inż. Krzysztof Pieńkosz Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej pok. 560 A tel.: 234-78-64 e-mail: K.Pienkosz@ia.pw.edu.pl K.Pieńkosz Wprowadzenie

Bardziej szczegółowo

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3) Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Część I Zadanie 1.1. (0 3) 3 p. za prawidłową odpowiedź w trzech wierszach. 2 p. za prawidłową odpowiedź

Bardziej szczegółowo

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Bibliografie czasopism naukowych Biblioteki Głównej UEK jako źródło danych dla analiz bibliometrycznych Streszczenie Przedstawiono

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Programowanie dynamiczne

Programowanie dynamiczne Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Metoda List Łańcuchowych

Metoda List Łańcuchowych Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Zadanie do wykonania 1) Utwórz na pulpicie katalog w formacie Imię nazwisko, w którym umieść wszystkie pliki związane z

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

przetworzonego sygnału

przetworzonego sygnału Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III Program nauczania matematyki w gimnazjum Matematyka dla przyszłości DKW 4014 162/99 Opracowała: mgr Mariola Bagińska 1. Liczby i działania Podaje rozwinięcia

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Metody Optymalizacji: Przeszukiwanie z listą tabu

Metody Optymalizacji: Przeszukiwanie z listą tabu Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek

Bardziej szczegółowo

Systemy GIS Systemy baz danych

Systemy GIS Systemy baz danych Systemy GIS Systemy baz danych Wykład nr 5 System baz danych Skomputeryzowany system przechowywania danych/informacji zorganizowanych w pliki Użytkownik ma do dyspozycji narzędzia do wykonywania różnych

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział: Matematyki Kierunek studiów: Matematyka i Statystyka (MiS) Studia w j. polskim Stopień studiów: Pierwszy (1) Profil: Ogólnoakademicki (A) Umiejscowienie kierunku

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

Automatyczny dobór parametrów algorytmu genetycznego

Automatyczny dobór parametrów algorytmu genetycznego Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja

Bardziej szczegółowo

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny. PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!

Bardziej szczegółowo

INSTRUKCJA DO ĆWICZENIA NR 1

INSTRUKCJA DO ĆWICZENIA NR 1 L01 ---2014/10/17 ---10:52---page1---#1 KATEDRA MECHANIKI STOSOWANEJ Wydział Mechaniczny POLITECHNIKA LUBELSKA INSTRUKCJA DO ĆWICZENIA NR 1 PRZEDMIOT TEMAT Wybrane zagadnienia z optymalizacji elementów

Bardziej szczegółowo

Przykładowe sprawozdanie. Jan Pustelnik

Przykładowe sprawozdanie. Jan Pustelnik Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.

Bardziej szczegółowo

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA POZIOM ROZSZERZONY FORMUŁA OD 2015 ( NOWA MATURA ) ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1,R2 MAJ 2018 Uwaga: Akceptowane są wszystkie odpowiedzi

Bardziej szczegółowo

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne

Bardziej szczegółowo

Technologie informacyjne - wykład 12 -

Technologie informacyjne - wykład 12 - Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom I: Optymalizacja. Nie panikuj!

Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom I: Optymalizacja. Nie panikuj! Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień Tom I: Optymalizacja Nie panikuj! Autorzy: Iwo Błądek Konrad Miazga Oświadczamy, że w trakcie produkcji tego tutoriala nie zginęły żadne zwierzęta,

Bardziej szczegółowo

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Ogólne założenia planowanego projektu Firma planuje realizację projektu związanego z uruchomieniem usługi, która będzie polegała na monitorowaniu

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Zapisywanie algorytmów w języku programowania

Zapisywanie algorytmów w języku programowania Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym

Bardziej szczegółowo

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co

Bardziej szczegółowo

Asocjacyjna reprezentacja danych i wnioskowanie

Asocjacyjna reprezentacja danych i wnioskowanie Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1

Bardziej szczegółowo

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1 Wykład 13 Systemy Informacji Przestrzennej Systemy Informacji Przestrzennej 1 Mapa jako element Systemu Informacji Geograficznej Systemy Informacyjne Systemy Informacji przestrzennej Systemy Informacji

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO

Bardziej szczegółowo