TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "TOMASZ JACH GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH"

Transkrypt

1 TOMASZ JACH Instytut Informatyki GRIDOWE ALGORYTMY GRUPOWANIA W GRUPOWANIU DANYCH TEKSTOWYCH Streszczenie W tej pracy autor skupi się na gridowych metodach rozpoznawania wzorców w danych Obecnie, wykorzystuje się te metody jedynie do analizy danych przestrzennych (zwykle dwuwymiarowych, np geograficznych) Autor wykaże, że metody te można z powodzeniem zastosować również do danych tekstowych 1 Wstęp Dane typu przestrzennego są bardzo trudne w automatycznej analizie Dotychczas, podobnie jak dane tekstowe, operacje ekstrakcji i odkrywania przydatnych informacji (i powiązań pomiędzy nimi) były wykonywane przez analityków i specjalistów od drążenia danych Jednakże dzisiaj, w dobie masowego dostępu do informacji oraz znacznego wzrostowi objętości danych (oraz ich złożoności), istnieje ogromne zapotrzebowanie na komputerowe metody analizy danych Stopniowo przez lata odchodziło się od ręcznych metod eksploracji wiedzy zastępując je automatycznymi metodami komputerowymi Wzrost możliwości komputerowej analizy danych sprawia, że pozyskiwanie i przetwarzanie danych stało się znacznie efektywniejsze Dokonuje się analizy danych najróżniejszego rodzaju: od stosunkowo prostych danych z łatwymi do wykrycia powiązaniami, po złożone dane wielowymiarowe Wzrost złożoności danych powoduje znacznie większe zapotrzebowanie na moc obliczeniową oraz wymaga optymalizacji obecnie stosowanych algorytmów, a niejednokrotnie nowatorskich pomysłów na ich eksplorację 2 Pożądane cechy algorytmu grupującego Każdy algorytm grupujący powinien cechować się kilkoma właściwościami pozwalającymi na zastosowanie go w różnych polach eksploatacji Pierwszą z cech, ważną zwłaszcza przy grupowaniu danych przestrzennych, jest odpowiednio szybki czas działania Wiąże się to z niską złożonością obliczeniową danego algorytmu Dane przestrzenne są bardzo złożone, a co za tym idzie nawet kilkuprocentowy zysk wydajności w ogólnym rozrachunku powoduje wyraźne skrócenie obliczeń Algorytm grupujący winien również łatwo i skutecznie identyfikować grupy o dowolnym kształcie Wszelkie preferencje co do obiektów kulistych, prostopadłościennych lub innych

2 powodują zaburzenia wyników Najczęściej kształt grup nie jest znany przed rozpoczęciem grupowania, dlatego też zwykle nie można zakładać żadnego z rozmieszczeń obiektów w przestrzeni Grupy mogą być również zagnieżdżone w sobie, mogą występować dziury w ich wnętrzach, mogą być poskręcane, wydłużone, wklęsłe lub wypukłe Trudno również mówić o poprawnym grupowaniu w czasie gdy wartości izolowane istotnie wpływają na wynik grupowania zaburzając tym samym klasyfikację obiektów do grup W czasie działania algorytmu obiekty odstające (a więc te nienależące do żadnej grupy) powinny być odfiltrowane i nie brane pod uwagę w grupowaniu Dobra strategia grupowania powinna również być niewrażliwa na kolejność danych wejściowych Innymi słowy dla dowolnej permutacji tego samego zbioru obiektów wejściowych oraz identycznych parametrów algorytmu, otrzymywane grupy powinny być takie same Zwykle podczas wdrażania systemu nie wiadomo na ile grup powinno się podzielić dane Dlatego parametr ten nie powinien być podawany na początku działania algorytmu, a ilość grup powinna być determinowana przez sam algorytm w zależności od danych wejściowych Skalowalność to cecha pozwalająca na uruchamianie algorytmu zarówno dla danych o małym rozmiarze, jak i dla tych ogromnych zbiorów danych Ostatnią pożądaną cechą jest możliwość ustalania stopnia dokładności działania algorytmu W przypadku danych przestrzennych można posłużyć się następującym przykładem: użytkownik uruchamia system, aby ten określił obszary występowania bogactw naturalnych Algorytm grupujący odnajduje relewantne obszary i oznacza je na wizualizacji Jednak drugi użytkownik potrzebuje informacji o tym jakie bogactwa naturalne występują w danym miejscu Dlatego samo oznaczenie występuje / nie występuje jest dla niego zbyt ogólne 3 Algorytmy gridowe Powstało wiele prac odnoszących się do zagadnienia eksploracji danych przestrzennych Niektóre z nich bazują na odkrywaniu wiedzy, inne zaś na technikach klasteryzacji Algorytmy DBSCAN (Density-Based Spatial Clustering of Applications with Noise), CLARANS (Clustering Large Applications based on RANdomized Search), BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) mają poważną wadę w postaci budowy struktury wyszukiwawczej dopiero w momencie zadawania pytania do systemu Struktura ta zmienia się z każdym pytaniem i nie może zostać powtórnie wykorzystana Podnosi to znacznie złożoność czasową tych algorytmów algorytmy te muszą co najmniej raz przeskanować całą przestrzeń obiektów 31 Algorytm STING Odpowiedzią na te problemy jest algorytm STING (STatistical INformation Grid siatka wykorzystująca informacje statystyczne ) wykorzystywany do drążenia danych typu przestrzennego Dane te zostają podzielone na prostokątne komórki W zależności od potrzeb, proces ten jest wielokrotnie powtarzany dla każdej podzielonej komórki Dzięki temu w sposób automatyczny otrzymujemy hierarchiczną strukturę komórek (podejście top-down ) Każda komórka na wyższym poziomie jest dzielona na wcześniej ustaloną liczbę podkomórek Oprócz tego, dla

3 każdej z nich wyliczane są pewne informacje statystyczne używane do szybkiej odpowiedzi na pytania zadawane do systemu Zaletami takiego podejścia są: Niezależna od pytania budowa struktury wyszukiwawczej, zważywszy na fakt istnienia informacji statystycznych niezależnych od zadawanych pytań, a zależnych tylko od wartości danych Dane statystyczne są niejako sumaryczną reprezentacją danych zawartych w każdej z komórek Złożoność obliczeniowa wynosi O(K), gdzie K jest liczbą komórek w siatce na najniższym poziomie Zwykle K jest znacznie mniejsze od liczby obiektów w bazie Algorytmy wyszukiwawcze wykorzystujące to podejście są bardzo łatwe do zrównoleglenia Przy dodawaniu danych do systemu, należy tylko przeliczyć wartości statystyczne, a nie przebudowywać całą bazę 1 sza warstwa może mieć tylko jedną komórkę 1-sza wartswa (i-1)ta warstwa i-ta warstwa Rysunek 1: Hierarchiczna struktura w algorytmie STING Algorytm STING wykorzystuje do działania hierarchiczną strukturę gridową W trakcie rozwiązywania dzieli się obszar danych przestrzennych (za pomocą atrybutów go określających, np długości i szerokości geograficznej) i stosuje hierarchiczną strukturę podziału Korzeniem hierarchii będzie poziom nr 1, jego potomkowie to poziom 2, itd Łatwo zauważyć, że każda komórka na poziomie i-tym będzie się składać z sumy obszarów swoich potomków Wang, Yang oraz Muntz (Wei Wang 1997) proponują, aby każda z komórek wyższego poziomu posiadała dokładnie 4 potomków Korzeń odzwierciedla całą przestrzeń (zakłada się również dla uproszczenia, że ta jest prostokątna) Rozmiar komórek-liści jest zależny od gęstości obiektów Generalną zasadą jest wybieranie rozmiaru każdej komórki tak, aby średnia liczba obiektów w każdej komórce wahała się pomiędzy kilkoma tuzinami a kilkoma tysiącami Dodatkowo, aby

4 osiągnąć pożądaną liczbę obiektów w komórce można manipulować parametrem określającym liczbę potomków komórek wyższego rzędu Algorytm STING bardzo łatwo przystosować do wielowymiarowej przestrzeni Zwykle jest on używany do przestrzeni dwuwymiarowej, ale bardzo łatwo dokonać generalizacji struktury hierarchicznej do większej ich ilości Każda komórka jest opisywana dwoma rodzajami parametrów: zależnymi od atrybutów oraz niezależnymi od atrybutów Jedynym parametrem niezależnym od atrybutów jest liczba obiektów (punktów) w komórce Autor w swojej pracy proponuje użycie koncepcji algorytmów gridowych do grupowania danych typu tekstowego Wykorzystuje się tu klasyczne podejście gridowe polegające na partycjonowaniu nie samych obiektów, ale przestrzeni zawierającej cechy każdego z obiektów w bazie Ze względu na numeryczny charakter atrybutów danych przyjmowanych przez algorytmy gridowe należało zaproponować sposób uporania się z zamianą danych typu tekstowego na typ numeryczny Do tego celu potencjalnymi technikami są: Zamiana na postać numeryczną tj każde słowo kluczowe zamieniane na atrybut numeryczny Wady: bliskie słowa kluczowe mogą się znaleźć daleko od siebie Określenie relewancji do każdego możliwego słowa kluczowego Wady: ogromny nakład środków, niewygodna aktualizacja, sztywna struktura bazy danych Modyfikacja przestrzeni cech Takie ustawienie słów kluczowych, aby te najbliższe sobie były obok siebie Zastosowanie miary Hamminga Wady: faworyzowanie krótkich słów kluczowych, możliwe przekłamania, brak informacji o znaczeniu 32 Pierwsza modyfikacja algorytmu STING Zaproponowano następujący algorytm grupowania: 1 Wczytaj dane do bazy danych 2 Dla każdego słowa kluczowego: 1 Policz częstotliwość współwystępowania danego słowa kluczowego z wszystkimi innymi słowami kluczowymi 2 Wybierz dwa najbliższe słowa kluczowe i umieść je obok siebie 3 Zaktualizuj częstości współwystępowania wziętych słów kluczowych 3 Umieść obiekty w przestrzeni n-wymiarowej słów kluczowych 4 Zidentyfikuj gęste obszary 5 Oznacz gęste obszary najczęściej występującymi słowami kluczowymi Tak przedstawiony algorytm będzie korzystał z podejścia gridowego do wyszukiwania danych W trakcie badań zostaną przedstawione próby adaptacji algorytmu STING (głównie podejścia statystycznego) do danych tekstowych Niestety, już na etapie projektowania można zauważyć następujące trudności:

5 Atrybuty każdego obiektu to 5 słów kluczowych Wszystkie te atrybuty są typu tekstowego, tak więc każdy z nich należałoby zamienić na postać numeryczną, co prowadzi do tych samych trudności jak opisane wyżej Wyliczenie niezbędnego parametru rozkład dla danych tekstowych jest nietrywialne Wszelkie podejścia opierające się na estymowaniu rozkładu zmiennej losowej nie sprawdzają się dla danych tekstowych Wyliczenie pozostałych parametrów (min, max, średnia, odchylenie) również stanowi wyzwanie Dane w postaci tematów prac licencjackich układają się w pewne naturalne regiony (choćby porównując fakt iż każdy z promotorów zajmuje się stosunkowo wąską i spójną dziedziną dyscypliny informatyka, więc tematy przez niego prowadzone zwykle poruszają się w tym samym obszarze tematycznym), lecz regiony te są bardzo trudne do odkrycia oraz zazębiają się między sobą 321 Analiza modyfikacji W toku badań próbowano zrealizować proponowaną modyfikację Niestety, już na etapie pogłębionej analizy natrafiono na kilka znaczących problemów, które zostaną opisane poniżej Pierwszym problemem był wspomniany już brak skutecznej metody zamiany danych typu tekstowego (słów kluczowych) na dane numeryczne Poczynione starania realizujące opisane wcześniej metody nie doprowadziły do zadowalających rezultatów Problemem ważniejszym był jednak brak dobrej koncepcji umieszczania obiektów w n- wymiarowej przestrzeni Zakładając, że n wynosi 5 (ponieważ tyloma słowami kluczowymi jest opisana cała praca) należałoby umieszczać obiekty, tożsame z tytułami prac licencjackich, w 5- wymiarowej przestrzeni Proponowany algorytm zakładał partycjonowanie takiej przestrzeni w celu otrzymania dobrych jakościowo grup Przeanalizujmy jednak kontrprzykład takiego rozumowania Mamy dane obiekty opisane słowami kluczowymi: Obiekt A B C D Tabela 1: Obiekty powiązane ze słowami kluczowymi Słowa kluczowe K1, K2, K3, K4, K5 K2, K3, K4, K5, K6 K1, K2, K3, K5, K6 K3, K4, K5, K6, K7 Intuicyjnie, już na pierwszy rzut oka widać, że obiekty są do siebie dość podobne Lecz umieszczenie ich w przestrzeni 5-wymiarowej spowoduje, że to podobieństwo zostanie zagubione Mamy tu do czynienia bowiem z sytuacją, gdy takie same słowa kluczowe mogą występować na różnych pozycjach w opisie dokumentu Sprawia to, że obiekty A oraz B umieszczone w przestrzeni będą znajdowały się daleko od siebie Drugim przykładem może być umieszczanie obiektów w przestrzeni dwuwymiarowej (konkretnie w przestrzeni opisanej siatką współrzędnych geograficznych) W tym przypadku jednak zarówno długość jak i szerokość geograficzna, pomimo tego samego zbioru wartości, oznacza coś zupełnie innego i nie jest możliwa zamiana kolejności opisu jak to ma miejsce w zbiorze dokumentów

6 Autor próbował poprawić tę koncepcję przez analizę podobieństwa dokumentów bez brania pod uwagę pozycji słowa kluczowego, ale takie podejście sprowadzało się do zwykłego algorytmu hierarchicznego, np AHC, który został już zaprezentowany w pracy licencjackiej 33 Modyfikacja oparta na strukturach polarnych W toku prac wyłoniła się kolejna modyfikacja Ogólny zarys może przedstawić następujący opis algorytmu: 1 Za środek okręgu wybierz zbiór słów kluczowych podanych przez użytkownika 2 Wybierz z całej bazy danych obiekty najbardziej podobne do zadanego przez użytkownika pytania (ich zbiór oznaczmy przez R) 3 Umieść je w równych odległościach od środka okręgu Wycinki koła zawierające te obiekty będą tworzyć strukturę gridową 4 Dla każdego obiektu należącego do zbioru R sprawdź w zależności od parametru promienia wyznacz obiekty najbardziej podobne do obiektów zbioru R Umieść je w odpowiednim wycinku koła 5 Zwróć w wyniku obiektu zbioru R oraz obiekty najbardziej do nich podobne Struktura polarna pozwala na zniwelowanie problemu umieszczania takich samych słów kluczowych na różnych pozycjach w opisie dokumenty Brana jest tutaj pod uwagę jedynie całkowita zgodność słów kluczowych Autor zaimplementował system łącznie z systemem wyszukiwania opartym na algorytmie AHC (Agglomerative Hierarchical Clustering) oraz dokonał porównania wydajności oraz jakości generowanych wyników Dzięki wygenerowanej na starcie macierzy podobieństwa wydatnie skraca się czas pracy algorytmu Wadą proponowanego podejścia jest konieczność budowy struktury gridowej dla każdego nowego zadawanego pytania do systemu Autor uważa jednak, że po zastosowaniu technik optymalizacyjnych (np zapisania macierzy podobieństwa i jedynie wyborze odpowiednich wierszy) można dojść do zadowalających czasowo rezultatów Niewątpliwą zaletą przedstawionego rozwiązania jest automatyczne radzenie sobie z problemem synonimów słów kluczowych Wiadomym jest, że w opisach prac licencjackich mogą występować słowa kluczowe, które są bardzo bliskie semantycznie Automatyczna analiza słów kluczowych jest w tym przypadku bardzo trudna Dzięki dwustopniowemu procesowi grupowania oraz możliwości dostrojenia algorytmu za pomocą parametru promień możliwe jest dotarcie do tematów, które zawierają się w interesującej dla użytkownika końcowego dziedzinie, ale w swym opisie posiadają inne słowa kluczowe niż te wybrane przez użytkownika Wspomniany już wcześniej parametr promień pozwala użytkownikowi na zawężenie lub poszerzenie wyników wyszukiwania 4 Eksperymenty obliczeniowe Autor dokonał wstępnych eksperymentów obliczeniowych, których wyniki przedstawione są w tym rozdziale W każdym przypadku badana jest kompletność oraz dokładność Zamieszcza

7 się również w ramach porównania wyniki działania algorytmu AHC We wszystkich eksperymentach, jeśli nie zapisano inaczej, dobierano tak parametr promień aby zmaksymalizować dokładność kosztem kompletności Bazą do eksperymentów był przygotowany przez autora zbiór tematów prac licencjackich o liczności 360 Każdy temat był opisany 5 różnymi słowami kluczowymi wybranymi spośród ponad 400 słów kluczowych zapisanych w bazie danych 41 Słowa kluczowe z tej samej dziedziny W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik wyszukuje słowa kluczowe z tej samej dziedziny tematycznej Wyniki przedstawia Tabela 2 W tym eksperymencie starano się zmaksymalizować dokładność, nawet za cenę bardzo niskiej kompletności Tabela 5 przedstawia natomiast wyniki kompletności i dokładności dla pierwszych 5 zestawów słów kluczowych ujętych w tabeli niżej w zależności od parametru promień Tabela 2: Wyniki eksperymentalne: słowa kluczowe z tej samej dziedziny Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU 3 MAMS, Macromedia, grafika Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa 6 Sieci bezprzewodowe, sieci komputerowe, sieć lokalna, portale internetowe 7 Służba publiczna, służba zdrowia, straż pożarna, szkoła podstawowa 8 Data mining, ekstrakcja, miary podobieństwa, analiza skupień 9 Daktyloskopia, rozpoznawanie obrazu,

8 grafika 10 Linux, Windows, BSD Dokładnie jedno słowo kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda tylko jedno słowo kluczowe Wyniki przedstawia Tabela 3, w ostatniej kolumnie zawarta jest informacja jaki procent obiektów w bazie zawiera podane słowo kluczowe Tabela 3:Wyniki eksperymentalne: dokładnie jedno słowo kluczowe Lp Słowo kluczowe AHC Grid Współczynnik Kompletność Dokładność Kompletność Dokładność procentowy 1 Analiza % 2 Programowanie % 3 Multimedia % 4 Sieci komputerowe % 5 Systemy ekspertowe % 6 Zjawiska świetlne ,2% 7 Telekomunikacja % 8 Sztuczna inteligencja % 9 Medycyna % 10 Grafika % 43 Losowo wybrane słowa kluczowe W tym eksperymencie postanowiono sprawdzić jak zachowa się system, gdy użytkownik poda losowo wybrane słowa kluczowe należące do diametralnie różnych dziedzin Wyniki przedstawia Tabela 4 Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe Lp Zbiór słów kluczowych AHC Grid Kompletność Dokładność Kompletność Dokładność 1 ACS, baza wiedzy, falki geodetyczne, Open GL, wersja instruktorska 2 Linux, Object Pascal, R-project, open source, V-python 3 XML, laboratorium,

9 tkanka kostna, identyfikacja, J2ME 4 Podejście liniowe, graficzna reprezentacja, ilość komórek, MCS-8, zdalny dostęp 5 Java, listy, 3D, ultra termostat, firmy 6 Java Builder, badanie, feromony, lynx, animacja 7 Opis danych, naprawa, GIS, urządzenie, warunki środowiskowe 8 Oświata, konwersja, gmina, sieci neuronowe, fakturowanie 9 Handel, implementacja, identyfikacja, RAM, feromony 10 Ilość komórek, e- biznes, samopowielanie obrazów, tabele mieszająca, uchwały Wpływ parametru promień na wyniki wyszukiwania W tym eksperymencie skupiono się na algorytmie gridowym Zbadano wpływ parametru promień (przyjmującego wartości [1;4]) na kompletność i dokładność wyszukiwania Wyniki przedstawia Tabela 5 Tabela 5: Wyniki eksperymentalne: wpływ parametru promień Lp Zbiór słów kluczowych Promień Grid Kompletność Dokładność 1 Programowanie, C++, Pascal, Java, NET Programowanie, mrowisko, systemy mrowiskowe, ACS, lista TABU MAMS, Macromedia, grafika, e-learning

10 4 Logika, matematyka, szacowanie wzorów funkcji, edytor funkcji 5 Systemy ekspertowe, wspomaganie decyzji, wspomaganie, drzewa Wnioski We wszystkich tabelach dokładność jest definiowana jako stosunek liczby wyszukanych obiektów relewantnych do liczby wszystkich wyszukanych, natomiast kompletność jako stosunek liczby wyszukanych dokumentów relewantnych do liczby wszystkich relewantnych Wyniki eksperymentów dla powiązanych słów kluczowych (Tabela 1) pozwalają stwierdzić, że algorytm gridowy ma wyższe parametry dokładności, jednocześnie osiągając niższą kompletność Ma to miejsce ze względu na fakt wyboru małej liczby dokumentów (bo tylko najbardziej podobnych) przez algorytm gridowy Algorytm AHC natomiast wybiera grupy złożone ze stosunkowo większej liczby obiektów Jak widać w dalszych eksperymentach, modyfikowanie parametru promień pozwala zniwelować przewagę AHC za cenę mniejszej dokładności W przyszłości zostaną zaimplementowane inne metody oceny wydajności algorytmów Algorytm gridowy został zoptymalizowany pod kątem uzyskania lepszej dokładności Widać tutaj jednak paradoks przy przyjętej przez autora definicji dokumentów relewantnych (tj takich dokumentów, które w swoim opisie posiadają przynajmniej jedno słowo kluczowe wybrane przez użytkownika) najlepsze rezultaty osiągnie proste przeszukiwanie liniowe Nadrzędnym celem algorytmu jest jednak znajdowanie obiektów, które są podobne do podanego przez użytkownika opisu, niekoniecznie jednak zawierającego słowa kluczowe podane przez niego na wejściu algorytmu Jednocześnie brak jest obiektywnej metody oceny jakości takiego grupowania, poza arbitralną oceną empiryczną dokonaną przez eksperta za każdym razem W trakcie badań ujawniła się ciekawa właściwość algorytmu gridowego Otóż może on zostać wykorzystany do skutecznego wyszukiwania dokumentów, które w klasycznym grupowaniu znalazłyby się w zupełnie różnych grupach (patrz Tabela 4:Wyniki eksperymentalne: losowo wybrane słowa kluczowe) Algorytm dobrze radzi sobie z losowo podanymi słowami kluczowymi, a więc można przypuszczać, że będzie odporny na błędnie podane przez użytkownika słowa kluczowe (np dzięki braku znajomości dziedziny przedmiotowej) Jak już napisano wcześniej, parametr promień może zostać użyty do sterowania procesem grupowania Z eksperymentów (Tabela 5: Wyniki eksperymentalne: wpływ parametru promień) wynika jednoznaczna zależność pomiędzy promieniem a kompletnością i dokładnością Przedmiotem dalszych badań jest ustalenie optymalnej wartości tego parametru dla procesu wyszukiwania

11 Algorytm AHC osiąga lepsze rezultaty, gdy zapytanie dotyczy bardzo dobrze rozróżnialnych i oddzielonych grup Algorytm gridowy dla tych samych danych osiąga bardzo zbliżoną dokładność, lecz jego kompletność jest znacznie niższa Warto tu jednak zauważyć, że w przypadku podania na wejściu zestawu słów kluczowych, z których choćby jedno jest spoza dziedziny całej reszty znacząco zmniejsza skuteczność wyszukiwania Algorytm gridowy jest wyraźnie odporniejszy na tego typu sytuację W toku realizacji programowej, autor postanowił wykonywać część operacji grupowania bezpośrednio na bazie danych SQL Został dzięki temu osiągnięty ogólny wzrost szybkości wyszukiwania, dzięki optymalnym mechanizmom przeszukiwania i przecinania danych zawartych w bazie danych w porównaniu z tymi samymi operacjami wykonywanymi lokalnie Dla skorelowanych słów kluczowych w 90% przypadków dokładność algorytmu gridowego była co najmniej tak samo dobra jak dla algorytmu AHC W wielu przypadkach dokładność była nawet znacząco lepsza W przypadku kompletności AHC daje znacząco lepsze rezultaty, lecz algorytm gridowy zbliża się do uzyskiwanych wyników dzięki modyfikacji parametru promień Autor planuje dalsze eksperymenty w tym zakresie Dla losowo dobranych słów kluczowych algorytm gridowy jest bezkonkurencyjny Kompletność jest lepsza o rząd wielkości, dokładność nie spada poniżej 63% (a średnio jest dużo wyższa) AHC w tym przypadku daje znacznie gorsze wyniki Bibliografia [1] Berkhin, Pavel Survey of Clustering Data Mining Techniques 2002 [2] da Fontoura Costa, Luciano, i Roberto Marcondes Cesar Jr Shape Analysis and Classification: Theory and Practice 2001 [3] Gan, Guojun, Chaoqun Ma, i Jianhong Wu Data Clustering Theory, Algorithms, and Applications 2007 [4] Halkidi, Maria, Yannis Batistakis, i Michalis Vazirgiannis Cluster validity methods: Part I ACM SIGMOD Record, 2002: [5] Jach, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów hierarchicznych Sosnowiec, 2008 [6] Kaufman, L, i P Rousseeuw Finding Groups in Data: An Introduction to Cluster Analysis John Wiley and Sons, 1990 [7] Pankowski, Tadeusz Integracja i eksploracja danych Wymiana Informacji i Interaktywne Komunikowanie Medialne 2003 [8] Stein, Benno, Sven Meyerzu-Eissen, i Frank Wissbrock On Cluster Validity and the Information Need of Users 2005 [9] Tan, P N, M Steinbach, i V Kumar Introduction to data mining Addison-Wesley, 2006 [10] U Fayyad, G P Shapiro, i P Smyth From data mining to knowledge discovery AI Magazine, 1996 [11] Wei Wang, Jiong Yang, Richard Muntz "STING : A Statistical Information Grid Approach to Spatial Data" 1997 [12] Xięski, Tomasz Grupowanie jako metoda eksploracji wiedzy w systemach wsomagania decyzji Analiza algorytmów niehierarchicznych Sosnowiec, 2008

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Analiza i projektowanie aplikacji Java

Analiza i projektowanie aplikacji Java Analiza i projektowanie aplikacji Java Modele analityczne a projektowe Modele analityczne (konceptualne) pokazują dziedzinę problemu. Modele projektowe (fizyczne) pokazują system informatyczny. Utrzymanie

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Wielowymiarowy model danych

Wielowymiarowy model danych Plan wykładu Wielowymiarowy model danych 1. Model danych 2. Analiza wielowymiarowa 3. Model wielowymiarowy: koncepcja wymiarów i faktów 4. Operacje modelu wielowymiarowego 5. Implementacje modelu wielowymiarowego:

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1 Wykład 13 Systemy Informacji Przestrzennej Systemy Informacji Przestrzennej 1 Mapa jako element Systemu Informacji Geograficznej Systemy Informacyjne Systemy Informacji przestrzennej Systemy Informacji

Bardziej szczegółowo

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

Automatyczny dobór parametrów algorytmu genetycznego

Automatyczny dobór parametrów algorytmu genetycznego Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Zadanie do wykonania 1) Utwórz na pulpicie katalog w formacie Imię nazwisko, w którym umieść wszystkie pliki związane z

Bardziej szczegółowo

Systemy GIS Systemy baz danych

Systemy GIS Systemy baz danych Systemy GIS Systemy baz danych Wykład nr 5 System baz danych Skomputeryzowany system przechowywania danych/informacji zorganizowanych w pliki Użytkownik ma do dyspozycji narzędzia do wykonywania różnych

Bardziej szczegółowo

Monitoring procesów z wykorzystaniem systemu ADONIS

Monitoring procesów z wykorzystaniem systemu ADONIS Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz K.Pieńkosz Wprowadzenie 1 dr inż. Krzysztof Pieńkosz Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej pok. 560 A tel.: 234-78-64 e-mail: K.Pienkosz@ia.pw.edu.pl K.Pieńkosz Wprowadzenie

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

Raport dotyczący przeprowadzonych zmian w aplikacji

Raport dotyczący przeprowadzonych zmian w aplikacji Łukasz Dobrodziej Warszawa, 8.01.2011 Jakub Madkowiak Raport dotyczący przeprowadzonych zmian w aplikacji Optymalizacja wydajnościowa Operacjami wykazującymi znaczący czas wykonywania się są grupowe operacje

Bardziej szczegółowo

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III

PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III PRZEDMIOTOWE ZASADY OCENIANIA Z MATEMATYKI W KLASIE III Przedmiotowe Zasady Oceniania z matematyki są zgodne z Wewnątrzszkolnym Ocenianiem GIMNAZJUM IM. JANA PAWŁA II W BOGUSZYCACH 1/8 ZASADY OCENIANIA:

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.) Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. godz. = 76 godz.) I. Funkcja i jej własności.4godz. II. Przekształcenia wykresów funkcji...9 godz. III. Funkcja

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Rozkład materiału nauczania z przedmiotu INFORMATYKA. dla gimnazjum

Rozkład materiału nauczania z przedmiotu INFORMATYKA. dla gimnazjum Rozkład materiału nauczania z przedmiotu INFORMATYKA dla gimnazjum (wykonany w oparciu o program nauczania nr DKW 4014-87/99) Ilość godzin: 72 jednostki lekcyjne w dwuletnim cyklu nauczania Organizacja

Bardziej szczegółowo

Definicja i funkcje Systemów Informacji Geograficznej

Definicja i funkcje Systemów Informacji Geograficznej Definicja i funkcje Systemów Informacji Geograficznej Mateusz Malinowski Anna Krakowiak-Bal Kraków 17 marca 2014 r. Systemy Informacji Geograficznej są traktowane jako zautomatyzowana sieć funkcji, czyli

Bardziej szczegółowo

QUERY język zapytań do tworzenia raportów w AS/400

QUERY język zapytań do tworzenia raportów w AS/400 QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne.

Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne. Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne. I rok nauki 1 godzina, II rok nauki 1 godzina tygodniowo (łącznie 68 godz). Podstawa prawna: Ustawa

Bardziej szczegółowo

Co, kto, kiedy, jak, gdzie? Metadane. Metodyka opracowania i stosowania metadanych w Polsce

Co, kto, kiedy, jak, gdzie? Metadane. Metodyka opracowania i stosowania metadanych w Polsce Metodyka opracowania i stosowania metadanych w Polsce Adam Iwaniak Szkolenie w Luboradzy, ZCPWZ, 12-13.02.2009r. Metadane Metadane sumaryczny opis lub charakterystyka zbioru danych. Odpowiedź na pytania:

Bardziej szczegółowo

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka

Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka Test kwalifikacyjny obejmuje weryfikację efektów kształcenia oznaczonych kolorem szarym, efektów: K_W4 (!), K_W11-12, K_W15-16,

Bardziej szczegółowo

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby

Bardziej szczegółowo

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM SZKOŁA GŁÓWNA HANDLOWA w Warszawie STUDIUM MAGISTERSKIE Kierunek: Metody ilościowe w ekonomii i systemy informacyjne Karol Walędzik Nr albumu: 26353 Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem

Bardziej szczegółowo

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1 Rozdział 6 Data Mining w doborze parametrów układu testującego urządzenia EAZ 1 Streszczenie. W rozdziale został zaproponowany sposób doboru parametrów układu testującego urządzenia elektroenergetycznej

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis

Bardziej szczegółowo

Zastosowanie Geobazy w analizie przestrzennej. Jarosław Jasiewicz IPIG Wojciech Jaszczyk MPU

Zastosowanie Geobazy w analizie przestrzennej. Jarosław Jasiewicz IPIG Wojciech Jaszczyk MPU Zastosowanie Geobazy w analizie przestrzennej Jarosław Jasiewicz IPIG Wojciech Jaszczyk MPU Co to jest geobaza? Geobaza (ang. Geodatabase) to geograficzna baza danych, umoŝliwia przechowywanie danych geograficznych

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

KARTA MODUŁU KSZTAŁCENIA

KARTA MODUŁU KSZTAŁCENIA KARTA MODUŁU KSZTAŁCENIA I. Informacje ogólne 1 Nazwa modułu kształcenia Sztuczna inteligencja 2 Nazwa jednostki prowadzącej moduł Instytut Informatyki, Zakład Informatyki Stosowanej 3 Kod modułu (wypełnia

Bardziej szczegółowo

Modele symulacyjne PyroSim/FDS z wykorzystaniem rysunków CAD

Modele symulacyjne PyroSim/FDS z wykorzystaniem rysunków CAD Modele symulacyjne PyroSim/FDS z wykorzystaniem rysunków CAD Wstęp Obecnie praktycznie każdy z projektów budowlanych, jak i instalacyjnych, jest tworzony z wykorzystaniem rysunków wspomaganych komputerowo.

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE I UCZNIÓW Ocena celujący bardzo dobry dobry dostateczny dopuszczający Zakres wiadomości wykraczający dopełniający rozszerzający podstawowy

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Systemy baz danych w zarządzaniu przedsiębiorstwem W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Proces zarządzania danymi Zarządzanie danymi obejmuje czynności: gromadzenie

Bardziej szczegółowo

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika Rozkład materiału do zajęć z informatyki realizowanych według podręcznika E. Gurbiel, G. Hardt-Olejniczak, E. Kołczyk, H. Krupicka, M.M. Sysło Informatyka, nowe wydanie z 007 roku Poniżej przedstawiamy

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Macierze - obliczanie wyznacznika macierzy z użyciem permutacji

Macierze - obliczanie wyznacznika macierzy z użyciem permutacji Macierze - obliczanie wyznacznika macierzy z użyciem permutacji I LO im. F. Ceynowy w Świeciu Radosław Rudnicki joix@mat.uni.torun.pl 17.03.2009 r. Typeset by FoilTEX Streszczenie Celem wykładu jest wprowadzenie

Bardziej szczegółowo

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx 1. WPROWADZENIE Program AutoCAD ma wielu użytkowników i zajmuje znaczące miejsce w graficznym

Bardziej szczegółowo

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30 Zał. nr 4 do ZW 33/01 WYDZIAŁ INFORMATYKI I ZĄRZADZANIA KARTA PRZEDMIOTU Nazwa w języku polskim: Wprowadzenie do SQL Nazwa w języku angielskim: Introduction to SQL Kierunek studiów (jeśli dotyczy): Zarządzanie

Bardziej szczegółowo

Modyfikacja algorytmów retransmisji protokołu TCP.

Modyfikacja algorytmów retransmisji protokołu TCP. Modyfikacja algorytmów retransmisji protokołu TCP. Student Adam Markowski Promotor dr hab. Michał Grabowski Cel pracy Celem pracy było przetestowanie i sprawdzenie przydatności modyfikacji klasycznego

Bardziej szczegółowo

z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej

z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej ROZPORZĄDZENIE Projekt z dnia 18.06.15 r. MINISTRA ADMINISTRACJI I CYFRYZACJI 1) z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej Na podstawie art. 19 ust. 1 pkt 7

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Wymagania z informatyki na poszczególne oceny przy realizacji programu i podręcznika Informatyka wyd. Operon dla klasy II.

Wymagania z informatyki na poszczególne oceny przy realizacji programu i podręcznika Informatyka wyd. Operon dla klasy II. Wymagania z informatyki na poszczególne oceny przy realizacji programu i podręcznika Informatyka wyd. Operon dla klasy II. Dział I O higienie pracy, komputerze, sieciach komputerowych i Internecie - zna

Bardziej szczegółowo

Technologia informacyjna

Technologia informacyjna Technologia informacyjna Pracownia nr 9 (studia stacjonarne) - 05.12.2008 - Rok akademicki 2008/2009 2/16 Bazy danych - Plan zajęć Podstawowe pojęcia: baza danych, system zarządzania bazą danych tabela,

Bardziej szczegółowo

Wymagania edukacyjne na ocenę z informatyki KLASA III

Wymagania edukacyjne na ocenę z informatyki KLASA III Wymagania edukacyjne na ocenę z informatyki KLASA III 0. Logo [6 godz.] PODSTAWA PROGRAMOWA: Rozwiązywanie problemów i podejmowanie decyzji z wykorzystaniem komputera, stosowanie podejścia algorytmicznego.

Bardziej szczegółowo

Wymagania edukacyjne na poszczególne oceny z informatyki w gimnazjum klasa III Rok szkolny 2015/16

Wymagania edukacyjne na poszczególne oceny z informatyki w gimnazjum klasa III Rok szkolny 2015/16 Wymagania edukacyjne na poszczególne oceny z informatyki w gimnazjum klasa III Rok szkolny 2015/16 Internet i sieci Temat lekcji Wymagania programowe 6 5 4 3 2 1 Sieci komputerowe. Rodzaje sieci, topologie,

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok

Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory tekstu i grafiki 6 4 Arkusz kalkulacyjny 7 4

Bardziej szczegółowo

PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM

PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory

Bardziej szczegółowo

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu SI w procesach przepływu i porządkowania informacji Paweł Buchwald Wyższa Szkoła Biznesu Początki SI John MC Carthy prekursor SI Alan Thuring pomysłodawca testu na określenie inteligencji maszyn Powolny

Bardziej szczegółowo

Przestrzenne bazy danych. Definicja i cechy przestrzennych baz danych

Przestrzenne bazy danych. Definicja i cechy przestrzennych baz danych Przestrzenne bazy danych Definicja i cechy przestrzennych baz danych Zakres wykładów Wstęp do przestrzennych baz danych Typy geometryczne Funkcje geometryczne Modelowanie danych Metody rozwiązywania problemów

Bardziej szczegółowo

Baza danych. Modele danych

Baza danych. Modele danych Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych

Bardziej szczegółowo

Sprzętowo wspomagane metody klasyfikacji danych

Sprzętowo wspomagane metody klasyfikacji danych Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności

Bardziej szczegółowo

Część I Rozpoczęcie pracy z usługami Reporting Services

Część I Rozpoczęcie pracy z usługami Reporting Services Spis treści Podziękowania... xi Wprowadzenie... xiii Część I Rozpoczęcie pracy z usługami Reporting Services 1 Wprowadzenie do usług Reporting Services... 3 Platforma raportowania... 3 Cykl życia raportu...

Bardziej szczegółowo

BAZY DANYCH wprowadzenie. Opracował: dr inż. Piotr Suchomski

BAZY DANYCH wprowadzenie. Opracował: dr inż. Piotr Suchomski BAZY DANYCH wprowadzenie Opracował: dr inż. Piotr Suchomski Prowadzący Katedra Systemów Multimedialnych dr inż. Piotr Suchomski (e-mail: pietka@sound.eti.pg.gda.pl) (pok. 730) dr inż. Andrzej Leśnicki

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

Wykrywanie nietypowości w danych rzeczywistych

Wykrywanie nietypowości w danych rzeczywistych Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny. Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH

Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny. Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH Motywacja Dlaczego my zajmujemy się oświetleniem? Wymiana infrastruktury

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu

Bardziej szczegółowo

KONCEPCJA WYKORZYSTANIA TECHNOLOGII APPLET- JAVA W TWORZENIU

KONCEPCJA WYKORZYSTANIA TECHNOLOGII APPLET- JAVA W TWORZENIU KONCEPCJA WYKORZYSTANIA TECHNOLOGII APPLET- JAVA W TWORZENIU TORINGU PRZEMIESZCZA I ICH WIZUALIZACJI NA MAPIE CYFROWEJ 05-130 Zegrze, ul. Warszawska 22A Appletu przy projektowaniu i tworzeniu systemu Applet-

Bardziej szczegółowo

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów

Bardziej szczegółowo

Proces technologiczny. 1. Zastosowanie cech technologicznych w systemach CAPP

Proces technologiczny. 1. Zastosowanie cech technologicznych w systemach CAPP Pobożniak Janusz, Dr inż. Politechnika Krakowska, Wydział Mechaniczny e-mail: pobozniak@mech.pk.edu.pl Pozyskiwanie danych niegeometrycznych na użytek projektowania procesów technologicznych obróbki za

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

WYMAGANIA EDUKACYJN KRYTERIA OCENY Z MATEMATYKI W KLASIE II GIMNAZJUM

WYMAGANIA EDUKACYJN KRYTERIA OCENY Z MATEMATYKI W KLASIE II GIMNAZJUM Na ocenę dopuszczającą uczeń umie : WYMAGANIA EDUKACYJN KRYTERIA OCENY Z MATEMATYKI W KLASIE II GIMNAZJUM stosować cztery podstawowe działania na liczbach wymiernych, zna kolejność wykonywania działań

Bardziej szczegółowo

Algorytm SAT. Marek Zając 2012. Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora.

Algorytm SAT. Marek Zając 2012. Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora. Marek Zając 2012 Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora. Spis treści 1. Wprowadzenie... 3 1.1 Czym jest SAT?... 3 1.2 Figury wypukłe...

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

Modelowanie i Programowanie Obiektowe

Modelowanie i Programowanie Obiektowe Modelowanie i Programowanie Obiektowe Wykład I: Wstęp 20 październik 2012 Programowanie obiektowe Metodyka wytwarzania oprogramowania Metodyka Metodyka ustandaryzowane dla wybranego obszaru podejście do

Bardziej szczegółowo

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego

Bardziej szczegółowo