TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH"

Transkrypt

1 TOMASZ JACH Instytut Informatyki GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH Streszczenie W tej pracy autor skupi się na gridowych metodach rozpoznawania wzorców w danych Obecnie, wykorzystuje się te metody jedynie do analizy danych przestrzennych (zwykle dwuwymiarowych, np geograficznych) Autor wykaże, że metody te można z powodzeniem zastosować również do danych tekstowych 1 Wstęp Dane typu przestrzennego są bardzo trudne w automatycznej analizie Dotychczas, podobnie jak dane tekstowe, operacje ekstrakcji i odkrywania przydatnych informacji (i powiązań pomiędzy nimi) były wykonywane przez analityków i specjalistów od drążenia danych Jednakże dzisiaj, w dobie masowego dostępu do informacji oraz znacznego wzrostowi objętości danych (oraz ich złożoności), istnieje ogromne zapotrzebowanie na komputerowe metody analizy danych Stopniowo przez lata odchodziło się od ręcznych metod eksploracji wiedzy zastępując je automatycznymi metodami komputerowymi Wzrost możliwości komputerowej analizy danych sprawia, że pozyskiwanie i przetwarzanie danych stało się znacznie efektywniejsze Dokonuje się analizy danych najróżniejszego rodzaju: od stosunkowo prostych danych z łatwymi do wykrycia powiązaniami, po złożone dane wielowymiarowe Wzrost złożoności danych powoduje znacznie większe zapotrzebowanie na moc obliczeniową oraz wymaga optymalizacji obecnie stosowanych algorytmów, a niejednokrotnie nowatorskich pomysłów na ich eksplorację 2 Pożądane cechy algorytmu grupującego Każdy algorytm grupujący powinien cechować się kilkoma właściwościami pozwalającymi na zastosowanie go w różnych polach eksploatacji Pierwszą z cech, ważną zwłaszcza przy grupowaniu danych przestrzennych, jest odpowiednio szybki czas działania Wiąże się to z niską złożonością obliczeniową danego algorytmu Dane przestrzenne są bardzo złożone, a co za tym idzie nawet kilkuprocentowy zysk wydajności w ogólnym rozrachunku powoduje wyraźne skrócenie obliczeń Algorytm grupujący winien również łatwo i skutecznie identyfikować grupy o dowolnym kształcie Wszelkie preferencje co do obiektów kulistych, prostopadłościennych lub innych

2 powodują zaburzenia wyników Najczęściej kształt grup nie jest znany przed rozpoczęciem grupowania, dlatego też zwykle nie można zakładać żadnego z rozmieszczeń obiektów w przestrzeni Grupy mogą być również zagnieżdżone w sobie, mogą występować dziury w ich wnętrzach, mogą być poskręcane, wydłużone, wklęsłe lub wypukłe Trudno również mówić o poprawnym grupowaniu w czasie gdy wartości izolowane istotnie wpływają na wynik grupowania zaburzając tym samym klasyfikację obiektów do grup W czasie działania algorytmu obiekty odstające (a więc te nienależące do żadnej grupy) powinny być odfiltrowane i nie brane pod uwagę w grupowaniu Dobra strategia grupowania powinna również być niewrażliwa na kolejność danych wejściowych Innymi słowy dla dowolnej permutacji tego samego zbioru obiektów wejściowych oraz identycznych parametrów algorytmu, otrzymywane grupy powinny być takie same Zwykle podczas wdrażania systemu nie wiadomo na ile grup powinno się podzielić dane Dlatego parametr ten nie powinien być podawany na początku działania algorytmu, a ilość grup powinna być determinowana przez sam algorytm w zależności od danych wejściowych Skalowalność to cecha pozwalająca na uruchamianie algorytmu zarówno dla danych o małym rozmiarze, jak i dla tych ogromnych zbiorów danych Ostatnią pożądaną cechą jest możliwość ustalania stopnia dokładności działania algorytmu W przypadku danych przestrzennych można posłużyć się następującym przykładem: użytkownik uruchamia system, aby ten określił obszary występowania bogactw naturalnych Algorytm grupujący odnajduje relewantne obszary i oznacza je na wizualizacji Jednak drugi użytkownik potrzebuje informacji o tym jakie bogactwa naturalne występują w danym miejscu Dlatego samo oznaczenie występuje / nie występuje jest dla niego zbyt ogólne 3 Algorytmy gridowe Powstało wiele prac odnoszących się do zagadnienia eksploracji danych przestrzennych Niektóre z nich bazują na odkrywaniu wiedzy, inne zaś na technikach klasteryzacji Algorytmy DBSCAN (Density-Based Spatial Clustering of Applications with Noise), CLARANS (Clustering Large Applications based on RANdomized Search), BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) mają poważną wadę w postaci budowy struktury wyszukiwawczej dopiero w momencie zadawania pytania do systemu Struktura ta zmienia się z każdym pytaniem i nie może zostać powtórnie wykorzystana Podnosi to znacznie złożoność czasową tych algorytmów algorytmy te muszą co najmniej raz przeskanować całą przestrzeń obiektów 31 Algorytm STING Odpowiedzią na te problemy jest algorytm STING (STatistical INformation Grid siatka wykorzystująca informacje statystyczne ) wykorzystywany do drążenia danych typu przestrzennego Dane te zostają podzielone na prostokątne komórki W zależności od potrzeb, proces ten jest wielokrotnie powtarzany dla każdej podzielonej komórki Dzięki temu w sposób automatyczny otrzymujemy hierarchiczną strukturę komórek (podejście top-down ) Każda komórka na wyższym poziomie jest dzielona na wcześniej ustaloną liczbę podkomórek Oprócz tego, dla

3 każdej z nich wyliczane są pewne informacje statystyczne używane do szybkiej odpowiedzi na pytania zadawane do systemu Zaletami takiego podejścia są: Niezależna od pytania budowa struktury wyszukiwawczej, zważywszy na fakt istnienia informacji statystycznych niezależnych od zadawanych pytań, a zależnych tylko od wartości danych Dane statystyczne są niejako sumaryczną reprezentacją danych zawartych w każdej z komórek Złożoność obliczeniowa wynosi O(K), gdzie K jest liczbą komórek w siatce na najniższym poziomie Zwykle K jest znacznie mniejsze od liczby obiektów w bazie Algorytmy wyszukiwawcze wykorzystujące to podejście są bardzo łatwe do zrównoleglenia Przy dodawaniu danych do systemu, należy tylko przeliczyć wartości statystyczne, a nie przebudowywać całą bazę 1 sza warstwa może mieć tylko jedną komórkę 1-sza wartswa (i-1)ta warstwa i-ta warstwa Rysunek 1: Hierarchiczna struktura w algorytmie STING Algorytm STING wykorzystuje do działania hierarchiczną strukturę gridową W trakcie rozwiązywania dzieli się obszar danych przestrzennych (za pomocą atrybutów go określających, np długości i szerokości geograficznej) i stosuje hierarchiczną strukturę podziału Korzeniem hierarchii będzie poziom nr 1, jego potomkowie to poziom 2, itd Łatwo zauważyć, że każda komórka na poziomie i-tym będzie się składać z sumy obszarów swoich potomków Wang, Yang oraz Muntz (Wei Wang 1997) proponują, aby każda z komórek wyższego poziomu posiadała dokładnie 4 potomków Korzeń odzwierciedla całą przestrzeń (zakłada się również dla uproszczenia, że ta jest prostokątna) Rozmiar komórek-liści jest zależny od gęstości obiektów Generalną zasadą jest wybieranie rozmiaru każdej komórki tak, aby średnia liczba obiektów w każdej komórce wahała się pomiędzy kilkoma tuzinami a kilkoma tysiącami Dodatkowo, aby

4 osiągnąć pożądaną liczbę obiektów w komórce można manipulować parametrem określającym liczbę potomków komórek wyższego rzędu Algorytm STING bardzo łatwo przystosować do wielowymiarowej przestrzeni Zwykle jest on używany do przestrzeni dwuwymiarowej, ale bardzo łatwo dokonać generalizacji struktury hierarchicznej do większej ich ilości Każda komórka jest opisywana dwoma rodzajami parametrów: zależnymi od atrybutów oraz niezależnymi od atrybutów Jedynym parametrem niezależnym od atrybutów jest liczba obiektów (punktów) w komórce Autor w swojej pracy proponuje użycie koncepcji algorytmów gridowych do grupowania danych typu tekstowego Wykorzystuje się tu klasyczne podejście gridowe polegające na partycjonowaniu nie samych obiektów, ale przestrzeni zawierającej cechy każdego z obiektów w bazie Ze względu na numeryczny charakter atrybutów danych przyjmowanych przez algorytmy gridowe należało zaproponować sposób uporania się z zamianą danych typu tekstowego na typ numeryczny Do tego celu potencjalnymi technikami są: Zamiana na postać numeryczną tj każde słowo kluczowe zamieniane na atrybut numeryczny Wady: bliskie słowa kluczowe mogą się znaleźć daleko od siebie Określenie relewancji do każdego możliwego słowa kluczowego Wady: ogromny nakład środków, niewygodna aktualizacja, sztywna struktura bazy danych Modyfikacja przestrzeni cech Takie ustawienie słów kluczowych, aby te najbliższe sobie były obok siebie Zastosowanie miary Hamminga Wady: faworyzowanie krótkich słów kluczowych, możliwe przekłamania, brak informacji o znaczeniu 32 Pierwsza modyfikacja algorytmu STING Zaproponowano następujący algorytm grupowania: 1 Wczytaj dane do bazy danych 2 Dla każdego słowa kluczowego: 1 Policz częstotliwość współwystępowania danego słowa kluczowego z wszystkimi innymi słowami kluczowymi 2 Wybierz dwa najbliższe słowa kluczowe i umieść je obok siebie 3 Zaktualizuj częstości współwystępowania wziętych słów kluczowych 3 Umieść obiekty w przestrzeni n-wymiarowej słów kluczowych 4 Zidentyfikuj gęste obszary 5 Oznacz gęste obszary najczęściej występującymi słowami kluczowymi Tak przedstawiony algorytm będzie korzystał z podejścia gridowego do wyszukiwania danych W trakcie badań zostaną przedstawione próby adaptacji algorytmu STING (głównie podejścia statystycznego) do danych tekstowych Niestety, już na etapie projektowania można zauważyć następujące trudności:

5 Atrybuty każdego obiektu to 5 słów kluczowych Wszystkie te atrybuty są typu tekstowego, tak więc każdy z nich należałoby zamienić na postać numeryczną, co prowadzi do tych samych trudności jak opisane wyżej Wyliczenie niezbędnego parametru rozkład dla danych tekstowych jest nietrywialne Wszelkie podejścia opierające się na estymowaniu rozkładu zmiennej losowej nie sprawdzają się dla danych tekstowych Wyliczenie pozostałych parametrów (min, max, średnia, odchylenie) również stanowi wyzwanie Dane w postaci tematów prac licencjackich układają się w pewne naturalne regiony (choćby porównując fakt iż każdy z promotorów zajmuje się stosunkowo wąską i spójną dziedziną dyscypliny informatyka, więc tematy przez niego prowadzone zwykle poruszają się w tym samym obszarze tematycznym), lecz regiony te są bardzo trudne do odkrycia oraz zazębiają się między sobą 321 Analiza modyfikacji W toku badań próbowano zrealizować proponowaną modyfikację Niestety, już na etapie pogłębionej analizy natrafiono na kilka znaczących problemów, które zostaną opisane poniżej Pierwszym problemem był wspomniany już brak skutecznej metody zamiany danych typu tekstowego (słów kluczowych) na dane numeryczne Poczynione starania realizujące opisane wcześniej metody nie doprowadziły do zadowalających rezultatów Problemem ważniejszym był jednak brak dobrej koncepcji umieszczania obiektów w n- wymiarowej przestrzeni Zakładając, że n wynosi 5 (ponieważ tyloma słowami kluczowymi jest opisana cała praca) należałoby umieszczać obiekty, tożsame z tytułami prac licencjackich, w 5- wymiarowej przestrzeni Proponowany algorytm zakładał partycjonowanie takiej przestrzeni w celu otrzymania dobrych jakościowo grup Przeanalizujmy jednak kontrprzykład takiego rozumowania Mamy dane obiekty opisane słowami kluczowymi: Obiekt A B C D Tabela 1: Obiekty powiązane ze słowami kluczowymi Słowa kluczowe K1, K2, K3, K4, K5 K2, K3, K4, K5, K6 K1, K2, K3, K5, K6 K3, K4, K5, K6, K7 Intuicyjnie, już na pierwszy rzut oka widać, że obiekty są do siebie dość podobne Lecz umieszczenie ich w przestrzeni 5-wymiarowej spowoduje, że to podobieństwo zostanie zagubione Mamy tu do czynienia bowiem z sytuacją, gdy takie same słowa kluczowe mogą występować na różnych pozycjach w opisie dokumentu Sprawia to, że obiekty A oraz B umieszczone w przestrzeni będą znajdowały się daleko od siebie Drugim przykładem może być umieszczanie obiektów w przestrzeni dwuwymiarowej (konkretnie w przestrzeni opisanej siatką współrzędnych geograficznych) W tym przypadku jednak zarówno długość jak i szerokość geograficzna, pomimo tego samego zbioru wartości, oznacza coś zupełnie innego i nie jest możliwa zamiana kolejności opisu jak to ma miejsce w zbiorze dokumentów

6 Autor próbował poprawić tę koncepcję przez analizę podobieństwa dokumentów bez brania pod uwagę pozycji słowa kluczowego, ale takie podejście sprowadzało się do zwykłego algorytmu hierarchicznego, np AHC, który został już zaprezentowany w pracy licencjackiej 33 Modyfikacja oparta na strukturach polarnych W toku prac wyłoniła się kolejna modyfikacja Ogólny zarys może przedstawić następujący opis algorytmu: 1 Za środek okręgu wybierz zbiór słów kluczowych podanych przez użytkownika 2 Wybierz z całej bazy danych obiekty najbardziej podobne do zadanego przez użytkownika pytania (ich zbiór oznaczmy przez R) 3 Umieść je w równych odległościach od środka okręgu Wycinki koła zawierające te obiekty będą tworzyć strukturę gridową 4 Dla każdego obiektu należącego do zbioru R sprawdź w zależności od parametru promienia wyznacz obiekty najbardziej podobne do obiektów zbioru R Umieść je w odpowiednim wycinku koła 5 Zwróć w wyniku obiektu zbioru R oraz obiekty najbardziej do nich podobne Struktura polarna pozwala na zniwelowanie problemu umieszczania takich samych słów kluczowych na różnych pozycjach w opisie dokumenty Brana jest tutaj pod uwagę jedynie całkowita zgodność słów kluczowych Autor zaimplementował system łącznie z systemem wyszukiwania opartym na algorytmie AHC (Agglomerative Hierarchical Clustering) oraz dokonał porównania wydajności oraz jakości generowanych wyników Dzięki wygenerowanej na starcie macierzy podobieństwa wydatnie skraca się czas pracy algorytmu Wadą proponowanego podejścia jest konieczność budowy struktury gridowej dla każdego nowego zadawanego pytania do systemu Autor uważa jednak, że po zastosowaniu technik optymalizacyjnych (np zapisania macierzy podobieństwa i jedynie wyborze odpowiednich wierszy) można dojść do zadowalających czasowo rezultatów Niewątpliwą zaletą przedstawionego rozwiązania jest automatyczne radzenie sobie z problemem synonimów słów kluczowych Wiadomym jest, że w opisach prac licencjackich mogą występować słowa kluczowe, które są bardzo bliskie semantycznie Automatyczna analiza słów kluczowych jest w tym przypadku bardzo trudna Dzięki dwustopniowemu procesowi grupowania oraz możliwości dostrojenia algorytmu za pomocą parametru promień możliwe jest dotarcie do tematów, które zawierają się w interesującej dla użytkownika końcowego dziedzinie, ale w swym opisie posiadają inne słowa kluczowe niż te wybrane przez użytkownika Wspomniany już wcześniej parametr promień pozwala użytkownikowi na zawężenie lub poszerzenie wyników wyszukiwania 4 Eksperymenty obliczeniowe Autor dokonał wstępnych eksperymentów obliczeniowych, których wyniki przedstawione są w tym rozdziale W każdym przypadku badana jest kompletność oraz dokładność Zamieszcza

7 się również w ramach porównania wyniki działania algorytmu AHC We wszystkich eksperymentach, jeśli nie zapisano inaczej, dobierano tak parametr promień aby zmaksymalizować dokładność kosztem kompletności Bazą do eksperymentów był przygotowany przez autora zbiór tematów prac licencjackich o liczności 360 Każdy temat był opisany 5 różnymi słowami kluczowymi wybranymi spośród ponad 400 słów kluczowych zapisanych w bazie danych 41 Słowa kluczowe z tej samej dziedziny W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik wyszukuje słowa kluczowe z tej samej dziedziny tematycznej Wyniki przedstawia Tabela 2 W tym eksperymencie starano się zmaksymalizować dokładność, nawet za cenę bardzo niskiej kompletności Tabela 5 przedstawia natomiast wyniki kompletności i dokładności dla pierwszych 5 zestawów słów kluczowych ujętych w tabeli niżej w zależności od parametru promień Tabela 2: Wyniki eksperymentalne: słowa kluczowe z tej samej dziedziny Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU 3 MAMS, Macromedia, grafika Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa 6 Sieci bezprzewodowe, sieci komputerowe, sieć lokalna, portale internetowe 7 Służba publiczna, służba zdrowia, straż pożarna, szkoła podstawowa 8 Data mining, ekstrakcja, miary podobieństwa, analiza skupień 9 Daktyloskopia, rozpoznawanie obrazu,

8 grafika 10 Linux, Windows, BSD Dokładnie jedno słowo kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda tylko jedno słowo kluczowe Wyniki przedstawia Tabela 3, w ostatniej kolumnie zawarta jest informacja jaki procent obiektów w bazie zawiera podane słowo kluczowe Tabela 3:Wyniki eksperymentalne: dokładnie jedno słowo kluczowe Lp Słowo kluczowe AHC Grid Współczynnik Kompletność Dokładność Kompletność Dokładność procentowy 1 Analiza % 2 Programowanie % 3 Multimedia % 4 Sieci komputerowe % 5 Systemy ekspertowe % 6 Zjawiska świetlne ,2% 7 Telekomunikacja % 8 Sztuczna inteligencja % 9 Medycyna % 10 Grafika % 43 Losowo wybrane słowa kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda losowo wybrane słowa kluczowe należące do diametralnie różnych dziedzin Wyniki przedstawia Tabela 4 Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 ACS, baza wiedzy, falki geodetyczne, Open GL, wersja instruktorska 2 Linux, Object Pascal, R-project, open source, V-python 3 XML, laboratorium,

9 tkanka kostna, identyfikacja, J2ME 4 Podejście liniowe, graficzna reprezentacja, ilość komórek, MCS-8, zdalny dostęp 5 Java, listy, 3D, ultra termostat, firmy 6 Java Builder, badanie, feromony, lynx, animacja 7 Opis danych, naprawa, GIS, urządzenie, warunki środowiskowe 8 Oświata, konwersja, gmina, sieci neuronowe, fakturowanie 9 Handel, implementacja, identyfikacja, RAM, feromony 10 Ilość komórek, e- biznes, samopowielanie obrazów, tabele mieszająca, uchwały Wpływ parametru promień na wyniki wyszukiwania W tym eksperymencie skupiono się na algorytmie gridowym Zbadano wpływ parametru promień (przyjmującego wartości [1;4]) na kompletność i dokładność wyszukiwania Wyniki przedstawia Tabela 5 Tabela 5: Wyniki eksperymentalne: wpływ parametru promień Lp Zbiór słów kluczowych Promień Grid Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU MAMS, Macromedia, grafika, e-learning

10 4 Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa Wnioski We wszystkich tabelach dokładność jest definiowana jako stosunek liczby wyszukanych obiektów relewantnych do liczby wszystkich wyszukanych, natomiast kompletność jako stosunek liczby wyszukanych dokumentów relewantnych do liczby wszystkich relewantnych Wyniki eksperymentów dla powiązanych słów kluczowych (Tabela 1) pozwalają stwierdzić, że algorytm gridowy ma wyższe parametry dokładności, jednocześnie osiągając niższą kompletność Ma to miejsce ze względu na fakt wyboru małej liczby dokumentów (bo tylko najbardziej podobnych) przez algorytm gridowy Algorytm AHC natomiast wybiera grupy złożone ze stosunkowo większej liczby obiektów Jak widać w dalszych eksperymentach, modyfikowanie parametru promień pozwala zniwelować przewagę AHC za cenę mniejszej dokładności W przyszłości zostaną zaimplementowane inne metody oceny wydajności algorytmów Algorytm gridowy został zoptymalizowany pod kątem uzyskania lepszej dokładności Widać tutaj jednak paradoks przy przyjętej przez autora definicji dokumentów relewantnych (tj takich dokumentów, które w swoim opisie posiadają przynajmniej jedno słowo kluczowe wybrane przez użytkownika) najlepsze rezultaty osiągnie proste przeszukiwanie liniowe Nadrzędnym celem algorytmu jest jednak znajdowanie obiektów, które są podobne do podanego przez użytkownika opisu, niekoniecznie jednak zawierającego słowa kluczowe podane przez niego na wejściu algorytmu Jednocześnie brak jest obiektywnej metody oceny jakości takiego grupowania, poza arbitralną oceną empiryczną dokonaną przez eksperta za każdym razem W trakcie badań ujawniła się ciekawa właściwość algorytmu gridowego Otóż może on zostać wykorzystany do skutecznego wyszukiwania dokumentów, które w klasycznym grupowaniu znalazłyby się w zupełnie różnych grupach (patrz Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe) Algorytm dobrze radzi sobie z losowo podanymi słowami kluczowymi, a więc można przypuszczać, że będzie odporny na błędnie podane przez użytkownika słowa kluczowe (np dzięki braku znajomości dziedziny przedmiotowej) Jak już napisano wcześniej, parametr promień może zostać użyty do sterowania procesem grupowania Z eksperymentów (Tabela 5: Wyniki eksperymentalne: wpływ parametru promień) wynika jednoznaczna zależność pomiędzy promieniem a kompletnością i dokładnością Przedmiotem dalszych badań jest ustalenie optymalnej wartości tego parametru dla procesu wyszukiwania

11 Algorytm AHC osiąga lepsze rezultaty, gdy zapytanie dotyczy bardzo dobrze rozróżnialnych i oddzielonych grup Algorytm gridowy dla tych samych danych osiąga bardzo zbliżoną dokładność, lecz jego kompletność jest znacznie niższa Warto tu jednak zauważyć, że w przypadku podania na wejściu zestawu słów kluczowych, z których choćby jedno jest spoza dziedziny całej reszty znacząco zmniejsza skuteczność wyszukiwania Algorytm gridowy jest wyraźnie odporniejszy na tego typu sytuację W toku realizacji programowej, autor postanowił wykonywać część operacji grupowania bezpośrednio na bazie danych SQL Został dzięki temu osiągnięty ogólny wzrost szybkości wyszukiwania, dzięki optymalnym mechanizmom przeszukiwania i przecinania danych zawartych w bazie danych w porównaniu z tymi samymi operacjami wykonywanymi lokalnie Dla skorelowanych słów kluczowych w 90% przypadków dokładność algorytmu gridowego była co najmniej tak samo dobra jak dla algorytmu AHC W wielu przypadkach dokładność była nawet znacząco lepsza W przypadku kompletności AHC daje znacząco lepsze rezultaty, lecz algorytm gridowy zbliża się do uzyskiwanych wyników dzięki modyfikacji parametru promień Autor planuje dalsze eksperymenty w tym zakresie Dla losowo dobranych słów kluczowych algorytm gridowy jest bezkonkurencyjny Kompletność jest lepsza o rząd wielkości, dokładność nie spada poniżej 63% (a średnio jest dużo wyższa) AHC w tym przypadku daje znacznie gorsze wyniki Bibliografia [1] Berkhin, Pavel Survey of Clustering Data Mining Techniques 2002 [2] da Fontoura Costa, Luciano, i Roberto Marcondes Cesar Jr Shape Analysis and Classification: Theory and Practice 2001 [3] Gan, Guojun, Chaoqun Ma, i Jianhong Wu Data Clustering Theory, Algorithms, and Applications 2007 [4] Halkidi, Maria, Yannis Batistakis, i Michalis Vazirgiannis Cluster validity methods: Part I ACM SIGMOD Record, 2002: [5] Jach, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów hierarchicznych Sosnowiec, 2008 [6] Kaufman, L, i P Rousseeuw Finding Groups in Data: An Introduction to Cluster Analysis John Wiley and Sons, 1990 [7] Pankowski, Tadeusz Integracja i eksploracja danych Wymiana Informacji i Interaktywne Komunikowanie Medialne 2003 [8] Stein, Benno, Sven Meyerzu-Eissen, i Frank Wissbrock On Cluster Validity and the Information Need of Users 2005 [9] Tan, P N, M Steinbach, i V Kumar Introduction to data mining Addison-Wesley, 2006 [10] U Fayyad, G P Shapiro, i P Smyth From data mining to knowledge discovery AI Magazine, 1996 [11] Wei Wang, Jiong Yang, Richard Muntz "STING : A Statistical Information Grid Approach to Spatial Data" 1997 [12] Xięski, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów niehierarchicznych Sosnowiec, 2008

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Analiza i projektowanie aplikacji Java

Analiza i projektowanie aplikacji Java Analiza i projektowanie aplikacji Java Modele analityczne a projektowe Modele analityczne (konceptualne) pokazują dziedzinę problemu. Modele projektowe (fizyczne) pokazują system informatyczny. Utrzymanie

Bardziej szczegółowo

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości

Bardziej szczegółowo

Kryteria oceniania uczniów z informatyki w klasie II gimnazjum

Kryteria oceniania uczniów z informatyki w klasie II gimnazjum Kryteria oceniania uczniów z informatyki w klasie II gimnazjum 1) Obliczenia w arkuszu kalkulacyjnym - wprowadza dane do arkusza i z pomocą wpisuje formuły, - z pomocą rozwiązuje proste zadania w arkuszu,

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Algorytmika i pseudoprogramowanie

Algorytmika i pseudoprogramowanie Przedmiotowy system oceniania Zawód: Technik Informatyk Nr programu: 312[ 01] /T,SP/MENiS/ 2004.06.14 Przedmiot: Programowanie Strukturalne i Obiektowe Klasa: druga Dział Dopuszczający Dostateczny Dobry

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1 Wykład 13 Systemy Informacji Przestrzennej Systemy Informacji Przestrzennej 1 Mapa jako element Systemu Informacji Geograficznej Systemy Informacyjne Systemy Informacji przestrzennej Systemy Informacji

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie

Bardziej szczegółowo

Automatyczny dobór parametrów algorytmu genetycznego

Automatyczny dobór parametrów algorytmu genetycznego Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja

Bardziej szczegółowo

Algorytmy zrandomizowane

Algorytmy zrandomizowane Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik

Bardziej szczegółowo

Egzamin gimnazjalny z matematyki 2016 analiza

Egzamin gimnazjalny z matematyki 2016 analiza Egzamin gimnazjalny z matematyki 2016 analiza Arkusz zawierał 23 zadania: 20 zamkniętych i 3 otwarte. Dominowały zadania wyboru wielokrotnego, w których uczeń wybierał jedną z podanych odpowiedzi. W pięciu

Bardziej szczegółowo

Programowanie dynamiczne

Programowanie dynamiczne Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny. PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!

Bardziej szczegółowo

Wielowymiarowy model danych

Wielowymiarowy model danych Plan wykładu Wielowymiarowy model danych 1. Model danych 2. Analiza wielowymiarowa 3. Model wielowymiarowy: koncepcja wymiarów i faktów 4. Operacje modelu wielowymiarowego 5. Implementacje modelu wielowymiarowego:

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III Program nauczania matematyki w gimnazjum Matematyka dla przyszłości DKW 4014 162/99 Opracowała: mgr Mariola Bagińska 1. Liczby i działania Podaje rozwinięcia

Bardziej szczegółowo

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Zadanie do wykonania 1) Utwórz na pulpicie katalog w formacie Imię nazwisko, w którym umieść wszystkie pliki związane z

Bardziej szczegółowo

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

1. Umieść kursor w miejscu, w którym ma być wprowadzony ozdobny napis. 2. Na karcie Wstawianie w grupie Tekst kliknij przycisk WordArt.

1. Umieść kursor w miejscu, w którym ma być wprowadzony ozdobny napis. 2. Na karcie Wstawianie w grupie Tekst kliknij przycisk WordArt. Grafika w dokumencie Wprowadzanie ozdobnych napisów WordArt Do tworzenia efektownych, ozdobnych napisów służy obiekt WordArt. Aby wstawić do dokumentu obiekt WordArt: 1. Umieść kursor w miejscu, w którym

Bardziej szczegółowo

Systemy GIS Systemy baz danych

Systemy GIS Systemy baz danych Systemy GIS Systemy baz danych Wykład nr 5 System baz danych Skomputeryzowany system przechowywania danych/informacji zorganizowanych w pliki Użytkownik ma do dyspozycji narzędzia do wykonywania różnych

Bardziej szczegółowo

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx 1. WPROWADZENIE Program AutoCAD ma wielu użytkowników i zajmuje znaczące miejsce w graficznym

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz K.Pieńkosz Wprowadzenie 1 dr inż. Krzysztof Pieńkosz Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej pok. 560 A tel.: 234-78-64 e-mail: K.Pienkosz@ia.pw.edu.pl K.Pieńkosz Wprowadzenie

Bardziej szczegółowo

Raport dotyczący przeprowadzonych zmian w aplikacji

Raport dotyczący przeprowadzonych zmian w aplikacji Łukasz Dobrodziej Warszawa, 8.01.2011 Jakub Madkowiak Raport dotyczący przeprowadzonych zmian w aplikacji Optymalizacja wydajnościowa Operacjami wykazującymi znaczący czas wykonywania się są grupowe operacje

Bardziej szczegółowo

Metoda List Łańcuchowych

Metoda List Łańcuchowych Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Zapisywanie algorytmów w języku programowania

Zapisywanie algorytmów w języku programowania Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym

Bardziej szczegółowo

Metody Optymalizacji: Przeszukiwanie z listą tabu

Metody Optymalizacji: Przeszukiwanie z listą tabu Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek

Bardziej szczegółowo

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa). Algorytmy definicja, cechy, złożoność. Algorytmy napotykamy wszędzie, gdziekolwiek się zwrócimy. Rządzą one wieloma codziennymi czynnościami, jak np. wymiana przedziurawionej dętki, montowanie szafy z

Bardziej szczegółowo

KARTA MODUŁU KSZTAŁCENIA

KARTA MODUŁU KSZTAŁCENIA KARTA MODUŁU KSZTAŁCENIA I. Informacje ogólne 1 Nazwa modułu kształcenia Sztuczna inteligencja 2 Nazwa jednostki prowadzącej moduł Instytut Informatyki, Zakład Informatyki Stosowanej 3 Kod modułu (wypełnia

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Szczegółowy opis przedmiotu zamówienia

Szczegółowy opis przedmiotu zamówienia ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów

Bardziej szczegółowo

Metodologia badań psychologicznych

Metodologia badań psychologicznych Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania

Bardziej szczegółowo

Programowanie obiektowe - 1.

Programowanie obiektowe - 1. Programowanie obiektowe - 1 Mariusz.Masewicz@cs.put.poznan.pl Programowanie obiektowe Programowanie obiektowe (ang. object-oriented programming) to metodologia tworzenia programów komputerowych, która

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Modelowanie krzywych i powierzchni

Modelowanie krzywych i powierzchni 3 Modelowanie krzywych i powierzchni Modelowanie powierzchniowe jest kolejną metodą po modelowaniu bryłowym sposobem tworzenia części. Jest to też sposób budowy elementu bardziej skomplikowany i wymagający

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: Zasada podstawowa: Wykorzystujemy możliwie najmniej skomplikowaną formę wykresu, jeżeli to możliwe unikamy wykresów 3D (zaciemnianie treści), uwaga na kolory

Bardziej szczegółowo

Modyfikacja algorytmów retransmisji protokołu TCP.

Modyfikacja algorytmów retransmisji protokołu TCP. Modyfikacja algorytmów retransmisji protokołu TCP. Student Adam Markowski Promotor dr hab. Michał Grabowski Cel pracy Celem pracy było przetestowanie i sprawdzenie przydatności modyfikacji klasycznego

Bardziej szczegółowo

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30 Zał. nr 4 do ZW 33/01 WYDZIAŁ INFORMATYKI I ZĄRZADZANIA KARTA PRZEDMIOTU Nazwa w języku polskim: Wprowadzenie do SQL Nazwa w języku angielskim: Introduction to SQL Kierunek studiów (jeśli dotyczy): Zarządzanie

Bardziej szczegółowo

Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne.

Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne. Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne. I rok nauki 1 godzina, II rok nauki 1 godzina tygodniowo (łącznie 68 godz). Podstawa prawna: Ustawa

Bardziej szczegółowo

Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny. Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH

Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny. Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH Motywacja Dlaczego my zajmujemy się oświetleniem? Wymiana infrastruktury

Bardziej szczegółowo

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.) Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. godz. = 76 godz.) I. Funkcja i jej własności.4godz. II. Przekształcenia wykresów funkcji...9 godz. III. Funkcja

Bardziej szczegółowo

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis

Bardziej szczegółowo

Technologie informacyjne - wykład 12 -

Technologie informacyjne - wykład 12 - Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski

Bardziej szczegółowo

Struktury Danych i Złożoność Obliczeniowa

Struktury Danych i Złożoność Obliczeniowa Struktury Danych i Złożoność Obliczeniowa Zajęcia 2 Algorytmy wyszukiwania, sortowania i selekcji Sortowanie bąbelkowe Jedna z prostszych metod sortowania, sortowanie w miejscu? Sortowanie bąbelkowe Pierwsze

Bardziej szczegółowo

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby

Bardziej szczegółowo

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Algorytmy i struktury danych, C3

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Algorytmy i struktury danych, C3 KARTA PRZEDMIOTU 1. Informacje ogólne Nazwa przedmiotu i kod (wg planu studiów): Nazwa przedmiotu (j. ang.): Kierunek studiów: Specjalność/specjalizacja: Poziom kształcenia: Profil kształcenia: Forma studiów:

Bardziej szczegółowo

Monitoring procesów z wykorzystaniem systemu ADONIS

Monitoring procesów z wykorzystaniem systemu ADONIS Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management

Bardziej szczegółowo

Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka

Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka Test kwalifikacyjny obejmuje weryfikację efektów kształcenia oznaczonych kolorem szarym, efektów: K_W4 (!), K_W11-12, K_W15-16,

Bardziej szczegółowo

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III Przedmiotowe Zasady Oceniania z matematyki są zgodne z Wewnątrzszkolnym Ocenianiem GIMNAZJUM IM. JANA PAWŁA II W BOGUSZYCACH 1/8 ZASADY OCENIANIA:

Bardziej szczegółowo

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM SZKOŁA GŁÓWNA HANDLOWA w Warszawie STUDIUM MAGISTERSKIE Kierunek: Metody ilościowe w ekonomii i systemy informacyjne Karol Walędzik Nr albumu: 26353 Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem

Bardziej szczegółowo

OfficeObjects e-forms

OfficeObjects e-forms OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji

Bardziej szczegółowo

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Krzysztof Kadowski. PL-E3579, PL-EA0312, Krzysztof Kadowski PL-E3579, PL-EA0312, kadowski@jkk.edu.pl Bazą danych nazywamy zbiór informacji w postaci tabel oraz narzędzi stosowanych do gromadzenia, przekształcania oraz wyszukiwania danych. Baza

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA Symbol Efekty kształcenia dla kierunku studiów INFORMATYKA, specjalność: 1) Sieciowe systemy informatyczne. 2) Bazy danych Absolwent studiów I stopnia kierunku Informatyka WIEDZA Ma wiedzę z matematyki

Bardziej szczegółowo

KARTA PRZEDMIOTU. Algorytmy i struktury danych, C4

KARTA PRZEDMIOTU. Algorytmy i struktury danych, C4 KARTA PRZEDMIOTU 1. Informacje ogólne Nazwa przedmiotu i kod (wg planu studiów): Nazwa przedmiotu (j. ang.): Kierunek studiów: Specjalność/specjalizacja: Poziom kształcenia: Profil kształcenia: Forma studiów:

Bardziej szczegółowo

Analiza i wizualizacja danych Data analysis and visualization

Analiza i wizualizacja danych Data analysis and visualization KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

RAPORT PO SPRAWDZIANIE SZÓSTOKLASISTY

RAPORT PO SPRAWDZIANIE SZÓSTOKLASISTY Szkoła Podstawowa nr 2 im. Jana Kochanowskiego RAPORT PO SPRAWDZIANIE SZÓSTOKLASISTY Lublin, 2016 r. 1 Wstęp 5 kwietnia 2016 roku uczniowie klas VI napisali sprawdzian szóstoklasisty. Składał się on z

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury

Bardziej szczegółowo

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu SI w procesach przepływu i porządkowania informacji Paweł Buchwald Wyższa Szkoła Biznesu Początki SI John MC Carthy prekursor SI Alan Thuring pomysłodawca testu na określenie inteligencji maszyn Powolny

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

QUERY język zapytań do tworzenia raportów w AS/400

QUERY język zapytań do tworzenia raportów w AS/400 QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora

Bardziej szczegółowo

Plan nauczania informatyki Opracował: mgr Daniel Starego

Plan nauczania informatyki Opracował: mgr Daniel Starego Obowiązuje od roku szkolnego 000/00 Plan nauczania informatyki Opracował: mgr Daniel Starego Szkoła podstawowa klasy IV VI Dział, tematyka L. godz. I rok II rok. TECHNIKA KOMPUTEROWA W ŻYCIU CZŁOWIEKA

Bardziej szczegółowo