1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu

Wielkość: px
Rozpocząć pokaz od strony:

Download "1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu"

Transkrypt

1 1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu Dendrogram obrazuje powiązania między klastrami. Liście obiekty Korzeń wynik grupowania Linia odcinająca pokazuje, w którym momencie dzielone są grupy. Centroid środek klastra. Wyznaczany jako średnia arytmetyczna odległości. Patrząc na dendrogram od dołu: Punkty B i C są najbliżej, więc są połączone na dendrogramie najniżej. Potem łączone są punkty D i E oraz F i G. Kolejną parą do połączenia jest punkt A i istniejący już klaster (BC). W tym momencie dochodzimy do przerywanej linii, która oznacza tutaj tylko pewien podział na klastry - na tym poziomie są one trzy (bo trzy pionowe linie przecina pozioma kreskowana): (ABC), (DE) i (FG). Dalej jak będziemy złączać to najbliższe są klastry (FG) i (DE), które są dalej łączone i na końcu pozostałe klastry (ABC) i (DEFG) są łączone w jeden zbiór. 2. Omów jak zaimplementować rozumienie znaczenia pojęć na komputerze np: Dodanie metadanych do danych Wymień sposoby redukcji wymiarów (3) i opisz jeden wybrany. (w02.ppt - slajd 24) selekcja o wybór podzbioru cech o filtrowanie oryginalnego zbioru cech funkcja częstości występuje w największej liczbie dokumentów

2 pozostawienie tylko częstych termów, występujących w określonej liczbie dokumentów ocena zysku informacyjnego - promowanie termów, których rozkład znacząco wyróżnia klasę ekstrakcja cech z tekstu o eliminacja synonimów, wieloznaczności o synonimy - zastępowanie zbliżonych termnów sztucznymi cechami - transformacja tezaurusowa o polisemia o klasteryzacja - grupowanie termów na podstawie przyjętej miary podobieństwa o PCA, SVD LSI - automatyczne wyrażanie oryginalnych danych w postaci nowych, zredukowanych cech stemming i Stop listy pozwalają zredukować nawet do 40% oryginalną reprezentacją danych. używane mogą być również do określenia języka 4. Budowa wyszukiwarki internetowej (w06.ppt - slajd 25-29) moduł crawler o Crawler, BOT, pełzacz, pająk o Sieć www to nie tylko strony html: grafika, dokumenty tekstowe, bazy, aplikacje o Przeszukiwanie zasobów sieci w celu pozyskania nowych stron i uaktualnienia już pozyskanych. Częstość aktualizacji zależy od typu strony np.: wiadomości co godzinę, typowo raz na miesiąc o W zależności od typu pająka do bazy trafiają różne cechy dokumentów: tekst, słowa kluczowe, linki, tytuł o Pijawki leech pozyskujące dane z bazy danych o Zbliżony wykładniczemu rozrost linków uzyskanych z pobranych stron o Wydajność dobra gdy ~ 25 stron / sekundę o Normalizacja URL Małe / wielkie litery Usuwanie odnośników, kotwic, ~,.., portów o Google BOT Dodane strony poprzez google.com/addurl.html Focused crawl, po linkach Fresh crawl częsty, Deep Crawl ilościowy o Istniejące pająki do własnego użycia moduł baza/ indexer - Wspomaga działanie procesu wyszukiwania o Indeks dokumentów pozyskanych przez clawrer o Wymagania na szybkość przeszukiwania ogromnej kolekcji zmieniających się dokumentów o Analiza dokumentu: Identyfikacja języka Lematyzacja, stemming Usunięcie stopwords Utworzenie indeksu słów występujących w dokumencie Utworzenie miar częstotliwości słów, wag Ewentualne rozszerzenia: zastąpienia synonimów, wyrazów ogólnych o Analiza dokumentów: Utworzenie słownika Indeksu odwróconego wyrażenia - dokumenty kompresja

3 moduł analizator zapytań / o Odpowiedzialny za komunikację między zapytaniem użytkownika a zbiorem dokumentów o Działanie: Rozbija zapytanie na tokeny Parsowanie rozróżnienie termów i operatorów Usunięcie stop words Analiza słów : częstotliwościowa, synonimy, stemming, ustalenie wagi Utworzenie zapytania wewnątrz systemowa reprezentacja Dopasowanie wyrażeń z dokumentów moduł wyszukiwania o Dopasowywanie dokumentów do zapytania i prezentacja wyników Analizator rozkłada pytanie Z użyciem algorytmu dopasowującego i indeksera wyznaczony zostaje podzbiór stron spełniających zapytanie Utworzenie rankingu stron Prezentacja wyników o W rzeczywistych zastosowaniach dopasowanie odbywa się do odwróconego indeksu, a nie samych stron o Dopasowanie zależy od przyjętego algorytmu opartego o miarę podobieństwa 5. Opisać algorytm PCA, jego zasadę działania i do czego służy. (w03.ppt - slajd 9-15) sposób identyfikacji wzorców w danych i wyrażenia danych w sposób uwidaczniający ich różnice i podobieństwa transformacja z n-wymiarowego do innej przestrzeni tak by obcięcie danych wejściowych w nowym systemie współrzędnych powodowało najmniejszy błąd kwadratowy - najmniejszą stratę informacji. PCA znajduje liniową transformację, która w optymalny sposób rzutuje punkty na mniej wymiarową przestrzeń tak, że błąd projekcji (suma kwadratów odległości) jest najmniejsza zastosowania

4 o kompresja o określenie czynników rozróżniających za pomocą liniowych kombinacji oryginalnych danych celem jest zwykle redukcja wymiarów przez odrzucenie współrzędnych odpowiadających mniejszym wartościom lub też poszukiwanie nowych współrzędnych przykład: osoba => [wzrost, wada, wiek, dochód, powierzchnia mieszkania] chcemy przedstawić w 3 wymiarach osoba => [wielkość {wzrost, waga}, zamożność {dochód, powierzchnia mieszkania}, wiek] Algorytm: utworzenie macierzy danych n*n gdzie kolumny są cechami obliczenie macierzy korelacji wyznaczenie wektorów i wartości własnych macierzy korelacji uporządkowanie wektorów włąsnych wg wartości własnych wybranie czynników - wektorów własnych zbudowanie amcierzy transformacji jako iloczyn czynników i macierzy danych 6. Opisać słownik WordNet i jego strukturę. (w05.ppt) Leksykograficzny słownik języka angielskiego obecnie w wersji 3.0 o rzeczowników słów sensów o czasowników o przymiotników o przysłówków Razem słowa pogrupowane są w zbiory synonimów znaczenie pojedynczego słowa jest przez definicje, zbiór słów oraz określone przez jego pozycję w stosunku do innych słów w większej strukturze - graf powiązań słów Przykład koń: o Zwierze horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) o przyrząd ćwiczenia horse, gymnastic horse -- (a padded gymnastic apparatus on legs) o figura szachowa knight, horse -- (a chessman shaped to resemble the head of a horse; can move two squares horizontally and one vertically (or vice versa) Polisemia wielo znaczenie słów w zależności od kontekstu ranny : zraniony/poranny Synonimy wyrazy równoważne lub zbliżone znaczeniowo Pliki z rozszerzeniem.dat zawierają informacje o relacjach SYSNET Każda linia odpowiada jednej relacji i składa się z aktualnego przesunięcia w bajtach, dwubitowego identyfikatora pliku zawierającego daną relację, ciągu par (kategoria semantyczna jak w plikach.idx, słowo), liczby połączeń tej relacji z innymi. Na końcu linii występuje znak po którym może wystąpić definicja i przykładowe zdania dotyczące relacji. Pliki z rozszerzeniem.exc pozwalają odnaleźć podstawową formę słów, które posiadają nieregularne końcówki Pliki z rozszerzeniem.vrb zawierają zdania ilustrujące przykładowe użycie czasowników Wszystkie pliki są w postaci tekstowej Bardziej po polsku:

5 Wordnet to słownik wyrazów bliskoznacznych, opis relacji semantycznych między wyrazami, źródło definicji znaczeń, hierarchia pojęć - wszystko to składa się na leksykalną bazę wiedzy. Oryginalny WordNet dla języka angielskiego, konstruowany od ponad 20 lat na Uniwersytecie Princeton, użyczył nazwy i struktury wielu takim bazom wiedzy dla innych języków. Bardzo liczne są komercyjne i badawcze zastosowania wordnetów w informatyce i inżynierii oprogramowania, nade wszystko w sztucznej inteligencji i zwłaszcza w przetwarzaniu języków. (Należy odnotować, że są one niemal zawsze swobodnie dostępne dla naukowców i projektantów systemów.) 7. Policzyć odległości cosinusową i euklidesową dla podanych zdań. (w02.ppt - slajd 14) - 8. Opisać implikację/twierdzenia Gödla (w01.ppt - slajd 9) (1931) = twierdzenie o niezupełności + o niedowodliwości niesprzeczności dowolny system formalny jest albo zupełny albo spójny nie posiada tych dwóch cech jednocześnie. Można orzekać o prawdziwości wszystkich zdań takiego systemu, jednak wówczas istnieje w systemie pewne prawdziwe zdanie P, którego zaprzeczenie ~P również jest prawdziwe. Tym samym system albo jest sprzeczny wewnętrznie, albo system nie musi być sprzeczny, lecz wówczas istnieją zdania, których prawdziwości nie da się wywieść z aksjomatów i twierdzeń rozważanego systemu formalnego. Istnieją prawdziwe zdania systemu S które nie są twierdzeniami tego systemu (nie dają się wywieść z aksjomatów). Nie da się dowieść, w ramach systemu formalnego jego niesprzeczności. Trzeba systemu wyższego rzędu i tak w nieskończoność. 9. Precyzja i zwrot (w92.ppt - slajd 37) Są to miary oceny w klasyfikacji tekstów. prezycja 1/3 zwrot 1/2

6 10. VSM vector space model Reprezentacja częstości wystąpień słów Ważenie termów nie wszystkie są jednakowo istotne Algebraiczny model reprezentacji dokumentów tekstowych. Stosowany do filtrowania informacji, wyszukiwania informacji, indeksowania i rankingów. Dokumenty reprezentowane są jako wektory: Każda miara odpowiada oddzielnemu termowi. Jeżeli występuje on w dokumencie, jego wartość jest niezerowa. Wyznaczono kilka sposobów obliczania tych wartości. Jednym z nich jest tf-idf. Określenie czym jest term, zależy od aplikacji. Zazwyczaj to pojedyncze słowa, słowa kluczowe bądź dłuższe frazy. Jeśli słowa zostały oznaczone jako term, wymiarowość wektora to liczba słów w słowniku. Zalety w stosunku do modelu Standard Boolean: prosty model oparty na algebrze liniowej wagi termów nie binarne umożliwia obliczenie stopnia podobieństwa między zapytaniami i dokumentami umożliwia rankingowanie dokumentów według ich znaczenia umożliwia częsciowe dopasowanie 11. Dla dokumentów d1: "Ala ma kota" d2: "tomek ma psa w domu" reprezentowanych poprzez częstości słów wyznacz podobieństwa z użyciem miary cosinusowej dla zapytania Q "kto ma kota w domu" Tutaj nie brakuje cechy kto w słowniku? < Ala, ma, kota, Tomek, psa, w, domu> D1 = < 1, 1, 1, 0, 0, 0, 0> D2 = < 0, 1, 0, 1, 1, 1, 1> Q = < 0, 1, 1, 0, 0, 1, 1>

7 Q*d1 = 2 Q*d2 = 3 Q = sqrt(4) = 2 d1 = sqrt(3) d2 = sqrt(5) sim(d1, q) = 1/sqrt(3) sim(d2, q) = 3/(2*sqrt(5)) 12. Miara kosinusowa dwoch zdan dla czestotliwosci globalnej wystapienia slow: Shipment of silver was in a silver truck, Package of silver was in a plane "Jako wag użyj globalnej częstości wystąpień poszczególnych terminów". Mam rozumieć to tak, że biorę pod uwagę wystąpienia w obu dokumentach? Jak tak to widziałbym to tak. Mamy następujące dokumenty: d1: Delivery of silver arrived in silver truck d2: Shipment of silver arrived in a plane Liczba wszystkich wyrazów: 14 Statystyka globalnych wystąpień słów: Delivery: 1 of: 2 silver: 3 arrived : 2 in: 2 truck: 1 shipment: 1 a: 1 plane: 1 Więc prawdopodobieństwa dla poszczególnych słów mają się nastjępująco: Delivery: 1/14 of: 2/14 silver: 3/14 arrived : 2/14 in: 2/14 truck: 1/14 shipment: 1/14 a: 1/14 plane: 1/14 (Dla uproszczenia rachunków zostawiam 14 w mianowniku) Wektory dla konkretnych dokumentów wyglądają następująco (iloczyn liczby słów w dokumencie * prawdopodobieństwo): d1 = [1 * 1/14,1 * 2/14, 2 * 3/14, 1 * 2/14, 1 * 2/14, 1 * 1/14, 0 * 1/14, 0 * 1/14, 0 * 1/14] = [1/14, 2/14, 6/14, 2/14, 2/14, 1/14, 0, 0, 0]

8 d2 = [0 * 1/14, 1 * 2/14, 1 * 3/14, 1 * 2/14, 1 * 2/14, 0 * 1/14, 1 * 1/14, 1 * 1/14, 1 * 1/14] = [0, 2/14, 3/14, 2/14, 2/14, 0, 1/14, 1/14, 1/14] Odlegość kosinusowa, a tym samym stopień podobieństwa obu dokumentów wyraża się wzorem: sim(d1, d2) = sum(d1 * d2)/[sqrt(sum(d1^2)) * sqrt(sum(d2^2))] sum(d1 * d2) = 0 + 4/14^2 + 18/14^2 + 4/14^2 + 4/14^ = 30/14^2 = 30/14^2 sqrt(sum(d1^2)) = sqrt(1/14^2 + 4/14^2 + 36/14^2 + 4/14^2 + 4/14^2 + 1/14^2) = sqrt(50/14^2) = sqrt(50)/14 sqrt(sum(d2^2) = sqrt(0 + 4/14^2 + 9/14^2 + 4/14^2 + 4/14^ /14^2 + 1/14^2 + 1/14^2) = sqrt(24/14^2) sim(d1, d2) = 30/14^2 : [sqrt(50) * sqrt(24) / 14^2] = 30/sqrt(50*24) = 30/sqrt(25*2*4*6)= 30/[5 * 2 sqrt(3 * 4)] = 30/[20 sqrt(3)]= 3/2sqrt(3) = 3sqrt(3)/6 = sqrt(3)/2 = 87% 13. Oblicz odległość eklidesową/cosunusową zdań: Package of silver arrived in a silver truck. Shipment of silver arrived by plane. "Jako wag użyj lokalnej częstości wystąpień poszczególnych terminów". Mam rozumieć to tak, że biorę pod uwagę wystąpienia per dokument? Jak tak to widziałbym to tak. Mamy następujące dokumenty: d1: Delivery of silver arrived in silver truck d2: Shipment of silver arrived in a plane Liczba wyrazów per dokument: 7 Statystyka lokalnych wystąpień słów dla d1: Delivery: 1/7 of: 1/7 silver: 2/7 arrived : 1/7 in: 1/7 truck: 1/7 shipment: 0 a: 0 plane: 0 Statystyka lokalnych wystąpień słów dla d2: Delivery: 0 of: 1/7 silver: 1/7 arrived : 1/7 in: 1/7 truck: 0 shipment: 1/7 a: 1/7 plane: 1/7

9 Wektory dla konkretnych dokumentów wyglądają następująco (iloczyn liczby słów w dokumencie * prawdopodobieństwo): d1 = [1 * 1/7, 1 * 1/7, 2 * 2/7, 1 * 1/7, 1 * 1/7, 1* 1/7, 0,0,0] = [1/7, 1/7, 4/7, 1/7, 1/7, 1/7, 0,0,0] d2 = [0 * 0, 1 * 1/7, 1 * 1/7, 1 * 1/7, 1 * 1/7, 0, 1 * 1/7,1 * 1/7,1 * 1/7] = [0, 1/7, 1/7, 1/7, 1/7, 0, 1/7,1/7,1/7] Odlegość euklidesowa, a tym samym stopień podobieństwa obu dokumentów wyraża się wzorem: sim(d1, d2) = sqrt([sum(d1 - d2)^2]) = sqrt(1/7^ /7^ /7^2 + 1/7^2 + 1/7^2 + 1/7^2) = sqrt(14)/7 = 53% 14. Wyznacz prawdopodobieństwo dokumentów używając metryki Euklidesowej. Jako wagi użyj lokalnej częstości wystąpień poszczególnych termów: Delivery of silver arrived in silver truck. Shipment of silver arrived in a plane. patrz Do czego wykorzystywane jest ukryte indeksowanie semantyczne. Opisz procedurę jego realizacji. - dopasowanie znaczeń - synonimy (różne słowa odnoszące się do tego samego znaczenia) - polisemia (słowa mające wiele znaczeń) - eliminacja szumu - daje nam dobry model do badania powiązań między dokumentami poprzez termy - pozwala na określenie, które termy są faktycznie istotne dla zapytania - pozwala wyszukiwać koncepcje bardziej niż słowa - pozwala wydobyć dokumenty odpowiadające na pytanie użytkownika nawet jeśli pytanie i dokument nie współdzielą termów Procedura: - utworzenie macierzy reprezentacji dokumentów za pomocą częstotliwości termów - obliczenie SVD - obcięcie SVD do zredukowanej k-wymiarowej przestrzeni LSI, dzięki czemu uzyskujemy reprezentację semantyczną (eliminacja mało istotnych term) - podobieństwa w zredukowanej przestrzeni: - term - term - term - dokument - dokument - dokument 18. Opisz sposób klasyfikacji wykorzystywany w klasyfikatorze Bayesowskim. Dlaczego nazywany jest on naiwnym? Klasyfikacja polega na tym, że mamy zbiór słów w, gdzie każde słowo w_i ma określone prawdopodobieństwo przynależności do każdej klasy C_j. Klasyfikacja Bayesowska określa przynależność tekstu T do każdej klasy C_j. Maksymalna wartość przynależności tekstu T do klasy C kwalifikuje dany tekst do tej właśnie klasy. Czy dobrze rozumuje? Ktoś może to potwierdzić? A jeżeli nie to czy jest ktoś w stanie w bardziej przystępnej formie to przedstawić? Tego typu klasyfikatory są naiwne, ponieważ naiwnie zakładają niezależność słów.

10 19. Opisz algorytm klasteryzacji metodą gestosci. 20. Opisz znane ci metody klasteryzacji dokumentów. Bisecting K-Means, dzielenie początkowo jednego klastra na coraz mniejsze grupy - duże klastry dzielone są na dwa mniejsze. Proces ten iteracyjnie jest powtarzany, aż do uzyskania określonej liczby klastrów. Algorytm: 1. Wybierz klaster do podziału 2. Bisekcja: znajdź dwa klastry przy pomocy K-Means 3. Powtarzaj krok 2 zadaną ilość razy i wybierz podział dając największe podobieństwo 4. GOTO 1 UNTIL zadana iloś klastrów Wybór klastra: najliczniejszy lub posiadający najmniejsze podobieństwo w nim obiektów. Poza tym inne: K-Means, Fuzzy K-Means, Hierarchiczna klasteryzacja (pytanie niżej), metodą gęstości (pytanie wyżej) 21. Opisz znane ci metody klasteryzacji hierarchicznej. W odróżnieniu od algorytmów partycjonujących w wyniku są nie rozłączne grupy, a hierarchia zagnieżdżonych klastrów. Nie wymagają podania a priori liczby grup. Prezentacja dendrogram obrazujący powiązania między klastrami. Liście - obiekty, korzeń - wynik grupowania.

11 Dwa podejścia: Agglomerative skupiające: pojedyncze obiekty są klastrami i w kolejnych krokach łączy się dwie grupy aż do uzyskania jednego klastra. Divisives dzielące: zaczynamy od podziału zakładającego że wszystkie obiekty należą do jednej grupy i dzielimy aż każdy obiekt będzie osobnym klastrem. Np. Algorytm SC Johnson a 22. System informatyczny zawierał 130 dokumentów, spośród których dla pewnego zapytania istotnych było 27. Wyznacz wartość precyzji i zwrot dla danego zapytani wiedząc, że system zwrócił 23 dokumentów z czego 19 było istotnych z punktu użytkownika. Zgodnie z pytaniem 9 wyżej: relevant: 27 found:23 found&relevant:19 precyzja: 19/23 zwrot: 19/27 1.Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu Omów jak zaimplementować rozumienie znaczenia pojęć na komputerze Wymień sposoby redukcji wymiarów (3) i opisz jeden wybrany Budowa wyszukiwarki internetowej Opisać algorytm PCA, jego zasadę działania i do czego służy Opisać słownik WordNet i jego strukturę Policzyć odległości cosinusową i euklidesową dla podanych zdań Opisać implikację/twierdzenia Gödla Precyzja i zwrot VSM vector space model Dla dokumentów d1: "Ala ma kota" d2: "tomek ma psa w domu" reprezentowanych poprzez częstości słów wyznacz podobieństwa z użyciem miary cosinusowej dla zapytania Q "kto ma kota w domu" Miara kosinusowa dwoch zdan dla czestotliwosci globalnej wystapienia slow: Shipment of silver was in a silver truck, Package of silver was in a plane Oblicz odległość eklidesową/cosunusową zdań: Package of silver arrived in a silver truck. Shipment of silver arrived by plane Do czego wykorzystywane jest ukryte indeksowanie semantyczne. Opisz procedurę jego realizacji Opisz sposób klasyfikacji wykorzystywany w klasyfikatorze Bayesowskim. Dlaczego nazywany jest on naiwnym Opisz algorytm klasteryzacji metodą gestosci Opisz znane ci metody klasteryzacji dokumentów Opisz znane ci metody klasteryzacji hierarchicznej System informatyczny zawierał 130 dokumentów, spośród których dla pewnego zapytania istotnych było 27. Wyznacz wartość precyzji i zwrot dla danego zapytani wiedząc, że system zwrócił 23 dokumentów z czego 19 było istotnych z punktu użytkownika -11

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie danych. Wprowadzenie. Przykłady Grupowanie danych str. 1 Wprowadzenie Celem procesu grupowania jest podział zbioru obiektów, fizycznych lub abstrakcyjnych, na klasy obiektów o podobnych cechach, nazywane klastrami lub skupieniami Klaster

Bardziej szczegółowo

Pobieranie i przetwarzanie treści stron WWW

Pobieranie i przetwarzanie treści stron WWW Eksploracja zasobów internetowych Wykład 2 Pobieranie i przetwarzanie treści stron WWW mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Jedną z funkcji silników wyszukiwania danych, a właściwie ich modułów

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

Wyszukiwanie tekstów

Wyszukiwanie tekstów Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły

Bardziej szczegółowo

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów WYKŁAD 1 Analiza obrazu Wyznaczanie parametrów ruchu obiektów Cel analizy obrazu: przedstawienie każdego z poszczególnych obiektów danego obrazu w postaci wektora cech dla przeprowadzenia procesu rozpoznania

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene 2..22 Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene Dominika Puzio Indeks Podstawy: dokument Dokument: jednostka danych, pojedynczy element na liście wyników wyszukiwania,

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów

Bardziej szczegółowo

Programowanie dynamiczne

Programowanie dynamiczne Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

0.1 Pierścienie wielomianów

0.1 Pierścienie wielomianów 0.1 Pierścienie wielomianów Zadanie 1. Znaleźć w pierścieniu Z 5 [X] drugi wielomian określający tę samą funkcję, co wielomian X 2 X + 1. (Odp. np. X 5 + X 2 2X + 1). Zadanie 2. Znaleźć sumę i iloczyn

Bardziej szczegółowo

Wstęp do przetwarzania języka naturalnego

Wstęp do przetwarzania języka naturalnego Wstęp do przetwarzania języka naturalnego Wykład 9 Wektoryzacja dokumentów i podstawowe miary podobieństwa Wojciech Czarnecki 17 grudnia 2013 Section 1 Przypomnienie Bag of words model Podejście Przypomnienie

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik DOPUSZCZAJĄCY DOSTATECZNY DOBRY BARDZO DOBRY LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej. rozumie rozszerzenie

Bardziej szczegółowo

Bazy dokumentów tekstowych

Bazy dokumentów tekstowych Bazy dokumentów tekstowych Bazy dokumentów tekstowych Dziedzina zastosowań Automatyzacja bibliotek Elektroniczne encyklopedie Bazy aktów prawnych i patentów Szukanie informacji w Internecie Dokumenty tekstowe

Bardziej szczegółowo

Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych

Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych ZESPÓŁ SZKÓŁ HANDLOWO-EKONOMICZNYCH IM. MIKOŁAJA KOPERNIKA W BIAŁYMSTOKU Pakiet edukacyjny do nauki przedmiotów ścisłych i kształtowania postaw przedsiębiorczych Mój przedmiot matematyka spis scenariuszy

Bardziej szczegółowo

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki 1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm Rozdział 5 Macierze Funkcję, która każdej parze liczb naturalnych (i,j) (i = 1,,n;j = 1,,m) przyporządkowuje dokładnie jedną liczbę a ij F, gdzie F = R lub F = C, nazywamy macierzą (rzeczywistą, gdy F

Bardziej szczegółowo

Minimalizacja form boolowskich

Minimalizacja form boolowskich Sławomir Kulesza Technika cyfrowa Minimalizacja form boolowskich Wykład dla studentów III roku Informatyki Wersja 1.0, 05/10/2010 Minimalizacja form boolowskich Minimalizacja proces przekształcania form

Bardziej szczegółowo

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<< INTERNETOWYCH. Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON BYDGOSZCZ OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ

Bardziej szczegółowo

1. Napisz program, który wyświetli Twoje dane jako napis Witaj, Imię Nazwisko. 2. Napisz program, który wyświetli wizytówkę postaci:

1. Napisz program, który wyświetli Twoje dane jako napis Witaj, Imię Nazwisko. 2. Napisz program, który wyświetli wizytówkę postaci: 1. Napisz program, który wyświetli Twoje dane jako napis Witaj, Imię Nazwisko. 2. Napisz program, który wyświetli wizytówkę postaci: * Jan Kowalski * * ul. Zana 31 * 3. Zadeklaruj zmienne przechowujące

Bardziej szczegółowo

Algorytmy sortujące i wyszukujące

Algorytmy sortujące i wyszukujące Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

Matematyczne Podstawy Informatyki

Matematyczne Podstawy Informatyki Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Informacje podstawowe 1. Konsultacje: pokój

Bardziej szczegółowo

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA:

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA: WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA: zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie zaznaczać liczbę wymierną na osi liczbowej umie

Bardziej szczegółowo

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1 Eksploracja tekstu Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu Eksploracja tekstu wykład 1 Tematem wykładu są zagadnienia związane z eksploracją tekstu. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Arytmetyka komputera. Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka. Opracował: Kamil Kowalski klasa III TI

Arytmetyka komputera. Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka. Opracował: Kamil Kowalski klasa III TI Arytmetyka komputera Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka Opracował: Kamil Kowalski klasa III TI Spis treści 1. Jednostki informacyjne 2. Systemy liczbowe 2.1. System

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Uczeń: -podaje przykłady ciągów liczbowych skończonych i nieskończonych oraz rysuje wykresy ciągów

Uczeń: -podaje przykłady ciągów liczbowych skończonych i nieskończonych oraz rysuje wykresy ciągów Wymagania edukacyjne PRZEDMIOT: Matematyka KLASA: III Th ZAKRES: zakres podstawowy Poziom wymagań Lp. Dział programu Konieczny-K Podstawowy-P Rozszerzający-R Dopełniający-D Uczeń: 1. Ciągi liczbowe. -zna

Bardziej szczegółowo

Wykład z Technologii Informacyjnych. Piotr Mika

Wykład z Technologii Informacyjnych. Piotr Mika Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE DRUGIEJ LICEUM

WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE DRUGIEJ LICEUM Potęgi, pierwiastki i logarytmy 23 h DZIAŁ PROGRAMOWY JEDNOSTKA LEKCYJNA Matematyka z plusem dla szkoły ponadgimnazjalnej 1 WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE DRUGIEJ LICEUM POZIOMY WYMAGAŃ EDUKACYJNYCH:

Bardziej szczegółowo

POZYCJONOWANIE STRONY SKLEPU

POZYCJONOWANIE STRONY SKLEPU . Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON LEGNICA POZYCJONOWANIE STRONY SKLEPU >>>WIĘCEJ

Bardziej szczegółowo

Programowanie strukturalne. Opis ogólny programu w Turbo Pascalu

Programowanie strukturalne. Opis ogólny programu w Turbo Pascalu Programowanie strukturalne Opis ogólny programu w Turbo Pascalu STRUKTURA PROGRAMU W TURBO PASCALU Program nazwa; } nagłówek programu uses nazwy modułów; } blok deklaracji modułów const } blok deklaracji

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI SPIS TREŚCI WSTĘP.................................................................. 8 1. LICZBY RZECZYWISTE Teoria............................................................ 11 Rozgrzewka 1.....................................................

Bardziej szczegółowo

Wymagania kl. 3. Zakres podstawowy i rozszerzony

Wymagania kl. 3. Zakres podstawowy i rozszerzony Wymagania kl. 3 Zakres podstawowy i rozszerzony Temat lekcji Zakres treści Osiągnięcia ucznia 1. RACHUNEK PRAWDOPODOBIEŃSTWA 1. Reguła mnożenia reguła mnożenia ilustracja zbioru wyników doświadczenia za

Bardziej szczegółowo

PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ

PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ L.p. 1. Liczby rzeczywiste 2. Wyrażenia algebraiczne bada, czy wynik obliczeń jest liczbą

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

1. Liczby naturalne, podzielność, silnie, reszty z dzielenia

1. Liczby naturalne, podzielność, silnie, reszty z dzielenia 1. Liczby naturalne, podzielność, silnie, reszty z dzielenia kwadratów i sześcianów przez małe liczby, cechy podzielności przez 2, 4, 8, 5, 25, 125, 3, 9. 26 września 2009 r. Uwaga: Przyjmujemy, że 0 nie

Bardziej szczegółowo

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie

Bardziej szczegółowo

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do Techniki Cyfrowej... Teoria automatów Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

R n = {(x 1, x 2,..., x n ): x i R, i {1,2,...,n} },

R n = {(x 1, x 2,..., x n ): x i R, i {1,2,...,n} }, nazywa- Definicja 1. Przestrzenią liniową R n my zbiór wektorów R n = {(x 1, x 2,..., x n ): x i R, i {1,2,...,n} }, z określonymi działaniami dodawania wektorów i mnożenia wektorów przez liczby rzeczywiste.

Bardziej szczegółowo

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne: Prosto do matury klasa d Rok szkolny 014/015 WYMAGANIA EDUKACYJNE Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające (D) i wykraczające

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

1.1. Rachunek zdań: alternatywa, koniunkcja, implikacja i równoważność zdań oraz ich zaprzeczenia.

1.1. Rachunek zdań: alternatywa, koniunkcja, implikacja i równoważność zdań oraz ich zaprzeczenia. 1. Elementy logiki i algebry zbiorów 1.1. Rachunek zdań: alternatywa, koniunkcja, implikacja i równoważność zdań oraz ich zaprzeczenia. Funkcje zdaniowe. Zdania z kwantyfikatorami oraz ich zaprzeczenia.

Bardziej szczegółowo

Badanie struktury sieci WWW

Badanie struktury sieci WWW Eksploracja zasobów internetowych Wykład 1 Badanie struktury sieci WWW mgr inż. Maciej Kopczyński Białystok 214 Rys historyczny Idea sieci Web stworzona została w 1989 przez Tima BernersaLee z CERN jako

Bardziej szczegółowo

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl Coraz większa ilość danych obrazowych How much information, University of California Berkeley, 2002: przyrost zdjęć rentgenowskich to 17,2 PB rocznie

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY I GIMNAZJUM

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY I GIMNAZJUM WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY I GIMNAZJUM LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie zaznaczać liczbę

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Języki formalne i automaty Ćwiczenia 6

Języki formalne i automaty Ćwiczenia 6 Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended

Bardziej szczegółowo

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.) Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. godz. = 76 godz.) I. Funkcja i jej własności.4godz. II. Przekształcenia wykresów funkcji...9 godz. III. Funkcja

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

2 Arytmetyka. d r 2 r + d r 1 2 r 1...d d 0 2 0,

2 Arytmetyka. d r 2 r + d r 1 2 r 1...d d 0 2 0, 2 Arytmetyka Niech b = d r d r 1 d 1 d 0 będzie zapisem liczby w systemie dwójkowym Zamiana zapisu liczby b na system dziesiętny odbywa się poprzez wykonanie dodawania d r 2 r + d r 1 2 r 1 d 1 2 1 + d

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III Program nauczania matematyki w gimnazjum Matematyka dla przyszłości DKW 4014 162/99 Opracowała: mgr Mariola Bagińska 1. Liczby i działania Podaje rozwinięcia

Bardziej szczegółowo

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński Obliczenia Naukowe Wykład 12: Zagadnienia na egzamin Bartek Wilczyński 6.6.2016 Tematy do powtórki Arytmetyka komputerów Jak wygląda reprezentacja liczb w arytmetyce komputerowej w zapisie cecha+mantysa

Bardziej szczegółowo

V. WYMAGANIA EGZAMINACYJNE

V. WYMAGANIA EGZAMINACYJNE V. WYMAGANIA EGZAMINACYJNE Standardy wymagań egzaminacyjnych Zdający posiada umiejętności w zakresie: POZIOM PODSTAWOWY POZIOM ROZSZERZONY 1. wykorzystania i tworzenia informacji: interpretuje tekst matematyczny

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Zajęcia nr 1 (1h) Dwumian Newtona. Indukcja. Zajęcia nr 2 i 3 (4h) Trygonometria

Zajęcia nr 1 (1h) Dwumian Newtona. Indukcja. Zajęcia nr 2 i 3 (4h) Trygonometria Technologia Chemiczna 008/09 Zajęcia wyrównawcze. Pokazać, że: ( )( ) n k k l = ( n l )( n l k l Zajęcia nr (h) Dwumian Newtona. Indukcja. ). Rozwiązać ( ) ( równanie: ) n n a) = 0 b) 3 ( ) n 3. Znaleźć

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Linki sponsorowane. Docieraj do milionów nowych klientów! Grzegorz Kordeczka WebDoctor.pl

Linki sponsorowane. Docieraj do milionów nowych klientów! Grzegorz Kordeczka WebDoctor.pl Linki sponsorowane Docieraj do milionów nowych klientów! Grzegorz Kordeczka WebDoctor.pl Liczba Polaków codziennie odwiedzających Google Procent internautów w Polsce korzystających z wyszukiwarki Google

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak Wyszukiwanie boolowskie i strukturalne Adam Srebniak Wyszukiwanie boolowskie W wyszukiwaniu boolowskim zapytanie traktowane jest jako zdanie logiczne. Zwracane są dokumenty, dla których to zdanie jest

Bardziej szczegółowo

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

Praca kontrolna z matematyki nr 1 Liceum Ogólnokształcące dla Dorosłych Semestr 5 Rok szkolny 2014/2015

Praca kontrolna z matematyki nr 1 Liceum Ogólnokształcące dla Dorosłych Semestr 5 Rok szkolny 2014/2015 Praca kontrolna z matematyki nr 1 Liceum Ogólnokształcące dla Dorosłych Semestr 5 Rok szkolny 2014/2015 2 6 + 3 1. Oblicz 3. 3 x 1 3x 2. Rozwiąż nierówność > x. 2 3 3. Funkcja f przyporządkowuje każdej

Bardziej szczegółowo