1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu

Transkrypt

1 1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu Dendrogram obrazuje powiązania między klastrami. Liście obiekty Korzeń wynik grupowania Linia odcinająca pokazuje, w którym momencie dzielone są grupy. Centroid środek klastra. Wyznaczany jako średnia arytmetyczna odległości. Patrząc na dendrogram od dołu: Punkty B i C są najbliżej, więc są połączone na dendrogramie najniżej. Potem łączone są punkty D i E oraz F i G. Kolejną parą do połączenia jest punkt A i istniejący już klaster (BC). W tym momencie dochodzimy do przerywanej linii, która oznacza tutaj tylko pewien podział na klastry - na tym poziomie są one trzy (bo trzy pionowe linie przecina pozioma kreskowana): (ABC), (DE) i (FG). Dalej jak będziemy złączać to najbliższe są klastry (FG) i (DE), które są dalej łączone i na końcu pozostałe klastry (ABC) i (DEFG) są łączone w jeden zbiór. 2. Omów jak zaimplementować rozumienie znaczenia pojęć na komputerze np: Dodanie metadanych do danych Wymień sposoby redukcji wymiarów (3) i opisz jeden wybrany. (w02.ppt - slajd 24) selekcja o wybór podzbioru cech o filtrowanie oryginalnego zbioru cech funkcja częstości występuje w największej liczbie dokumentów

2 pozostawienie tylko częstych termów, występujących w określonej liczbie dokumentów ocena zysku informacyjnego - promowanie termów, których rozkład znacząco wyróżnia klasę ekstrakcja cech z tekstu o eliminacja synonimów, wieloznaczności o synonimy - zastępowanie zbliżonych termnów sztucznymi cechami - transformacja tezaurusowa o polisemia o klasteryzacja - grupowanie termów na podstawie przyjętej miary podobieństwa o PCA, SVD LSI - automatyczne wyrażanie oryginalnych danych w postaci nowych, zredukowanych cech stemming i Stop listy pozwalają zredukować nawet do 40% oryginalną reprezentacją danych. używane mogą być również do określenia języka 4. Budowa wyszukiwarki internetowej (w06.ppt - slajd 25-29) moduł crawler o Crawler, BOT, pełzacz, pająk o Sieć www to nie tylko strony html: grafika, dokumenty tekstowe, bazy, aplikacje o Przeszukiwanie zasobów sieci w celu pozyskania nowych stron i uaktualnienia już pozyskanych. Częstość aktualizacji zależy od typu strony np.: wiadomości co godzinę, typowo raz na miesiąc o W zależności od typu pająka do bazy trafiają różne cechy dokumentów: tekst, słowa kluczowe, linki, tytuł o Pijawki leech pozyskujące dane z bazy danych o Zbliżony wykładniczemu rozrost linków uzyskanych z pobranych stron o Wydajność dobra gdy ~ 25 stron / sekundę o Normalizacja URL Małe / wielkie litery Usuwanie odnośników, kotwic, ~,.., portów o Google BOT Dodane strony poprzez google.com/addurl.html Focused crawl, po linkach Fresh crawl częsty, Deep Crawl ilościowy o Istniejące pająki do własnego użycia moduł baza/ indexer - Wspomaga działanie procesu wyszukiwania o Indeks dokumentów pozyskanych przez clawrer o Wymagania na szybkość przeszukiwania ogromnej kolekcji zmieniających się dokumentów o Analiza dokumentu: Identyfikacja języka Lematyzacja, stemming Usunięcie stopwords Utworzenie indeksu słów występujących w dokumencie Utworzenie miar częstotliwości słów, wag Ewentualne rozszerzenia: zastąpienia synonimów, wyrazów ogólnych o Analiza dokumentów: Utworzenie słownika Indeksu odwróconego wyrażenia - dokumenty kompresja

3 moduł analizator zapytań / o Odpowiedzialny za komunikację między zapytaniem użytkownika a zbiorem dokumentów o Działanie: Rozbija zapytanie na tokeny Parsowanie rozróżnienie termów i operatorów Usunięcie stop words Analiza słów : częstotliwościowa, synonimy, stemming, ustalenie wagi Utworzenie zapytania wewnątrz systemowa reprezentacja Dopasowanie wyrażeń z dokumentów moduł wyszukiwania o Dopasowywanie dokumentów do zapytania i prezentacja wyników Analizator rozkłada pytanie Z użyciem algorytmu dopasowującego i indeksera wyznaczony zostaje podzbiór stron spełniających zapytanie Utworzenie rankingu stron Prezentacja wyników o W rzeczywistych zastosowaniach dopasowanie odbywa się do odwróconego indeksu, a nie samych stron o Dopasowanie zależy od przyjętego algorytmu opartego o miarę podobieństwa 5. Opisać algorytm PCA, jego zasadę działania i do czego służy. (w03.ppt - slajd 9-15) sposób identyfikacji wzorców w danych i wyrażenia danych w sposób uwidaczniający ich różnice i podobieństwa transformacja z n-wymiarowego do innej przestrzeni tak by obcięcie danych wejściowych w nowym systemie współrzędnych powodowało najmniejszy błąd kwadratowy - najmniejszą stratę informacji. PCA znajduje liniową transformację, która w optymalny sposób rzutuje punkty na mniej wymiarową przestrzeń tak, że błąd projekcji (suma kwadratów odległości) jest najmniejsza zastosowania

4 o kompresja o określenie czynników rozróżniających za pomocą liniowych kombinacji oryginalnych danych celem jest zwykle redukcja wymiarów przez odrzucenie współrzędnych odpowiadających mniejszym wartościom lub też poszukiwanie nowych współrzędnych przykład: osoba => [wzrost, wada, wiek, dochód, powierzchnia mieszkania] chcemy przedstawić w 3 wymiarach osoba => [wielkość {wzrost, waga}, zamożność {dochód, powierzchnia mieszkania}, wiek] Algorytm: utworzenie macierzy danych n*n gdzie kolumny są cechami obliczenie macierzy korelacji wyznaczenie wektorów i wartości własnych macierzy korelacji uporządkowanie wektorów włąsnych wg wartości własnych wybranie czynników - wektorów własnych zbudowanie amcierzy transformacji jako iloczyn czynników i macierzy danych 6. Opisać słownik WordNet i jego strukturę. (w05.ppt) Leksykograficzny słownik języka angielskiego obecnie w wersji 3.0 o rzeczowników słów sensów o czasowników o przymiotników o przysłówków Razem słowa pogrupowane są w zbiory synonimów znaczenie pojedynczego słowa jest przez definicje, zbiór słów oraz określone przez jego pozycję w stosunku do innych słów w większej strukturze - graf powiązań słów Przykład koń: o Zwierze horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) o przyrząd ćwiczenia horse, gymnastic horse -- (a padded gymnastic apparatus on legs) o figura szachowa knight, horse -- (a chessman shaped to resemble the head of a horse; can move two squares horizontally and one vertically (or vice versa) Polisemia wielo znaczenie słów w zależności od kontekstu ranny : zraniony/poranny Synonimy wyrazy równoważne lub zbliżone znaczeniowo Pliki z rozszerzeniem.dat zawierają informacje o relacjach SYSNET Każda linia odpowiada jednej relacji i składa się z aktualnego przesunięcia w bajtach, dwubitowego identyfikatora pliku zawierającego daną relację, ciągu par (kategoria semantyczna jak w plikach.idx, słowo), liczby połączeń tej relacji z innymi. Na końcu linii występuje znak po którym może wystąpić definicja i przykładowe zdania dotyczące relacji. Pliki z rozszerzeniem.exc pozwalają odnaleźć podstawową formę słów, które posiadają nieregularne końcówki Pliki z rozszerzeniem.vrb zawierają zdania ilustrujące przykładowe użycie czasowników Wszystkie pliki są w postaci tekstowej Bardziej po polsku:

5 Wordnet to słownik wyrazów bliskoznacznych, opis relacji semantycznych między wyrazami, źródło definicji znaczeń, hierarchia pojęć - wszystko to składa się na leksykalną bazę wiedzy. Oryginalny WordNet dla języka angielskiego, konstruowany od ponad 20 lat na Uniwersytecie Princeton, użyczył nazwy i struktury wielu takim bazom wiedzy dla innych języków. Bardzo liczne są komercyjne i badawcze zastosowania wordnetów w informatyce i inżynierii oprogramowania, nade wszystko w sztucznej inteligencji i zwłaszcza w przetwarzaniu języków. (Należy odnotować, że są one niemal zawsze swobodnie dostępne dla naukowców i projektantów systemów.) 7. Policzyć odległości cosinusową i euklidesową dla podanych zdań. (w02.ppt - slajd 14) - 8. Opisać implikację/twierdzenia Gödla (w01.ppt - slajd 9) (1931) = twierdzenie o niezupełności + o niedowodliwości niesprzeczności dowolny system formalny jest albo zupełny albo spójny nie posiada tych dwóch cech jednocześnie. Można orzekać o prawdziwości wszystkich zdań takiego systemu, jednak wówczas istnieje w systemie pewne prawdziwe zdanie P, którego zaprzeczenie ~P również jest prawdziwe. Tym samym system albo jest sprzeczny wewnętrznie, albo system nie musi być sprzeczny, lecz wówczas istnieją zdania, których prawdziwości nie da się wywieść z aksjomatów i twierdzeń rozważanego systemu formalnego. Istnieją prawdziwe zdania systemu S które nie są twierdzeniami tego systemu (nie dają się wywieść z aksjomatów). Nie da się dowieść, w ramach systemu formalnego jego niesprzeczności. Trzeba systemu wyższego rzędu i tak w nieskończoność. 9. Precyzja i zwrot (w92.ppt - slajd 37) Są to miary oceny w klasyfikacji tekstów. prezycja 1/3 zwrot 1/2

6 10. VSM vector space model Reprezentacja częstości wystąpień słów Ważenie termów nie wszystkie są jednakowo istotne Algebraiczny model reprezentacji dokumentów tekstowych. Stosowany do filtrowania informacji, wyszukiwania informacji, indeksowania i rankingów. Dokumenty reprezentowane są jako wektory: Każda miara odpowiada oddzielnemu termowi. Jeżeli występuje on w dokumencie, jego wartość jest niezerowa. Wyznaczono kilka sposobów obliczania tych wartości. Jednym z nich jest tf-idf. Określenie czym jest term, zależy od aplikacji. Zazwyczaj to pojedyncze słowa, słowa kluczowe bądź dłuższe frazy. Jeśli słowa zostały oznaczone jako term, wymiarowość wektora to liczba słów w słowniku. Zalety w stosunku do modelu Standard Boolean: prosty model oparty na algebrze liniowej wagi termów nie binarne umożliwia obliczenie stopnia podobieństwa między zapytaniami i dokumentami umożliwia rankingowanie dokumentów według ich znaczenia umożliwia częsciowe dopasowanie 11. Dla dokumentów d1: "Ala ma kota" d2: "tomek ma psa w domu" reprezentowanych poprzez częstości słów wyznacz podobieństwa z użyciem miary cosinusowej dla zapytania Q "kto ma kota w domu" Tutaj nie brakuje cechy kto w słowniku? < Ala, ma, kota, Tomek, psa, w, domu> D1 = < 1, 1, 1, 0, 0, 0, 0> D2 = < 0, 1, 0, 1, 1, 1, 1> Q = < 0, 1, 1, 0, 0, 1, 1>

7 Q*d1 = 2 Q*d2 = 3 Q = sqrt(4) = 2 d1 = sqrt(3) d2 = sqrt(5) sim(d1, q) = 1/sqrt(3) sim(d2, q) = 3/(2*sqrt(5)) 12. Miara kosinusowa dwoch zdan dla czestotliwosci globalnej wystapienia slow: Shipment of silver was in a silver truck, Package of silver was in a plane "Jako wag użyj globalnej częstości wystąpień poszczególnych terminów". Mam rozumieć to tak, że biorę pod uwagę wystąpienia w obu dokumentach? Jak tak to widziałbym to tak. Mamy następujące dokumenty: d1: Delivery of silver arrived in silver truck d2: Shipment of silver arrived in a plane Liczba wszystkich wyrazów: 14 Statystyka globalnych wystąpień słów: Delivery: 1 of: 2 silver: 3 arrived : 2 in: 2 truck: 1 shipment: 1 a: 1 plane: 1 Więc prawdopodobieństwa dla poszczególnych słów mają się nastjępująco: Delivery: 1/14 of: 2/14 silver: 3/14 arrived : 2/14 in: 2/14 truck: 1/14 shipment: 1/14 a: 1/14 plane: 1/14 (Dla uproszczenia rachunków zostawiam 14 w mianowniku) Wektory dla konkretnych dokumentów wyglądają następująco (iloczyn liczby słów w dokumencie * prawdopodobieństwo): d1 = [1 * 1/14,1 * 2/14, 2 * 3/14, 1 * 2/14, 1 * 2/14, 1 * 1/14, 0 * 1/14, 0 * 1/14, 0 * 1/14] = [1/14, 2/14, 6/14, 2/14, 2/14, 1/14, 0, 0, 0]

8 d2 = [0 * 1/14, 1 * 2/14, 1 * 3/14, 1 * 2/14, 1 * 2/14, 0 * 1/14, 1 * 1/14, 1 * 1/14, 1 * 1/14] = [0, 2/14, 3/14, 2/14, 2/14, 0, 1/14, 1/14, 1/14] Odlegość kosinusowa, a tym samym stopień podobieństwa obu dokumentów wyraża się wzorem: sim(d1, d2) = sum(d1 * d2)/[sqrt(sum(d1^2)) * sqrt(sum(d2^2))] sum(d1 * d2) = 0 + 4/14^2 + 18/14^2 + 4/14^2 + 4/14^ = 30/14^2 = 30/14^2 sqrt(sum(d1^2)) = sqrt(1/14^2 + 4/14^2 + 36/14^2 + 4/14^2 + 4/14^2 + 1/14^2) = sqrt(50/14^2) = sqrt(50)/14 sqrt(sum(d2^2) = sqrt(0 + 4/14^2 + 9/14^2 + 4/14^2 + 4/14^ /14^2 + 1/14^2 + 1/14^2) = sqrt(24/14^2) sim(d1, d2) = 30/14^2 : [sqrt(50) * sqrt(24) / 14^2] = 30/sqrt(50*24) = 30/sqrt(25*2*4*6)= 30/[5 * 2 sqrt(3 * 4)] = 30/[20 sqrt(3)]= 3/2sqrt(3) = 3sqrt(3)/6 = sqrt(3)/2 = 87% 13. Oblicz odległość eklidesową/cosunusową zdań: Package of silver arrived in a silver truck. Shipment of silver arrived by plane. "Jako wag użyj lokalnej częstości wystąpień poszczególnych terminów". Mam rozumieć to tak, że biorę pod uwagę wystąpienia per dokument? Jak tak to widziałbym to tak. Mamy następujące dokumenty: d1: Delivery of silver arrived in silver truck d2: Shipment of silver arrived in a plane Liczba wyrazów per dokument: 7 Statystyka lokalnych wystąpień słów dla d1: Delivery: 1/7 of: 1/7 silver: 2/7 arrived : 1/7 in: 1/7 truck: 1/7 shipment: 0 a: 0 plane: 0 Statystyka lokalnych wystąpień słów dla d2: Delivery: 0 of: 1/7 silver: 1/7 arrived : 1/7 in: 1/7 truck: 0 shipment: 1/7 a: 1/7 plane: 1/7

9 Wektory dla konkretnych dokumentów wyglądają następująco (iloczyn liczby słów w dokumencie * prawdopodobieństwo): d1 = [1 * 1/7, 1 * 1/7, 2 * 2/7, 1 * 1/7, 1 * 1/7, 1* 1/7, 0,0,0] = [1/7, 1/7, 4/7, 1/7, 1/7, 1/7, 0,0,0] d2 = [0 * 0, 1 * 1/7, 1 * 1/7, 1 * 1/7, 1 * 1/7, 0, 1 * 1/7,1 * 1/7,1 * 1/7] = [0, 1/7, 1/7, 1/7, 1/7, 0, 1/7,1/7,1/7] Odlegość euklidesowa, a tym samym stopień podobieństwa obu dokumentów wyraża się wzorem: sim(d1, d2) = sqrt([sum(d1 - d2)^2]) = sqrt(1/7^ /7^ /7^2 + 1/7^2 + 1/7^2 + 1/7^2) = sqrt(14)/7 = 53% 14. Wyznacz prawdopodobieństwo dokumentów używając metryki Euklidesowej. Jako wagi użyj lokalnej częstości wystąpień poszczególnych termów: Delivery of silver arrived in silver truck. Shipment of silver arrived in a plane. patrz Do czego wykorzystywane jest ukryte indeksowanie semantyczne. Opisz procedurę jego realizacji. - dopasowanie znaczeń - synonimy (różne słowa odnoszące się do tego samego znaczenia) - polisemia (słowa mające wiele znaczeń) - eliminacja szumu - daje nam dobry model do badania powiązań między dokumentami poprzez termy - pozwala na określenie, które termy są faktycznie istotne dla zapytania - pozwala wyszukiwać koncepcje bardziej niż słowa - pozwala wydobyć dokumenty odpowiadające na pytanie użytkownika nawet jeśli pytanie i dokument nie współdzielą termów Procedura: - utworzenie macierzy reprezentacji dokumentów za pomocą częstotliwości termów - obliczenie SVD - obcięcie SVD do zredukowanej k-wymiarowej przestrzeni LSI, dzięki czemu uzyskujemy reprezentację semantyczną (eliminacja mało istotnych term) - podobieństwa w zredukowanej przestrzeni: - term - term - term - dokument - dokument - dokument 18. Opisz sposób klasyfikacji wykorzystywany w klasyfikatorze Bayesowskim. Dlaczego nazywany jest on naiwnym? Klasyfikacja polega na tym, że mamy zbiór słów w, gdzie każde słowo w_i ma określone prawdopodobieństwo przynależności do każdej klasy C_j. Klasyfikacja Bayesowska określa przynależność tekstu T do każdej klasy C_j. Maksymalna wartość przynależności tekstu T do klasy C kwalifikuje dany tekst do tej właśnie klasy. Czy dobrze rozumuje? Ktoś może to potwierdzić? A jeżeli nie to czy jest ktoś w stanie w bardziej przystępnej formie to przedstawić? Tego typu klasyfikatory są naiwne, ponieważ naiwnie zakładają niezależność słów.

10 19. Opisz algorytm klasteryzacji metodą gestosci. 20. Opisz znane ci metody klasteryzacji dokumentów. Bisecting K-Means, dzielenie początkowo jednego klastra na coraz mniejsze grupy - duże klastry dzielone są na dwa mniejsze. Proces ten iteracyjnie jest powtarzany, aż do uzyskania określonej liczby klastrów. Algorytm: 1. Wybierz klaster do podziału 2. Bisekcja: znajdź dwa klastry przy pomocy K-Means 3. Powtarzaj krok 2 zadaną ilość razy i wybierz podział dając największe podobieństwo 4. GOTO 1 UNTIL zadana iloś klastrów Wybór klastra: najliczniejszy lub posiadający najmniejsze podobieństwo w nim obiektów. Poza tym inne: K-Means, Fuzzy K-Means, Hierarchiczna klasteryzacja (pytanie niżej), metodą gęstości (pytanie wyżej) 21. Opisz znane ci metody klasteryzacji hierarchicznej. W odróżnieniu od algorytmów partycjonujących w wyniku są nie rozłączne grupy, a hierarchia zagnieżdżonych klastrów. Nie wymagają podania a priori liczby grup. Prezentacja dendrogram obrazujący powiązania między klastrami. Liście - obiekty, korzeń - wynik grupowania.

11 Dwa podejścia: Agglomerative skupiające: pojedyncze obiekty są klastrami i w kolejnych krokach łączy się dwie grupy aż do uzyskania jednego klastra. Divisives dzielące: zaczynamy od podziału zakładającego że wszystkie obiekty należą do jednej grupy i dzielimy aż każdy obiekt będzie osobnym klastrem. Np. Algorytm SC Johnson a 22. System informatyczny zawierał 130 dokumentów, spośród których dla pewnego zapytania istotnych było 27. Wyznacz wartość precyzji i zwrot dla danego zapytani wiedząc, że system zwrócił 23 dokumentów z czego 19 było istotnych z punktu użytkownika. Zgodnie z pytaniem 9 wyżej: relevant: 27 found:23 found&relevant:19 precyzja: 19/23 zwrot: 19/27 1.Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu Omów jak zaimplementować rozumienie znaczenia pojęć na komputerze Wymień sposoby redukcji wymiarów (3) i opisz jeden wybrany Budowa wyszukiwarki internetowej Opisać algorytm PCA, jego zasadę działania i do czego służy Opisać słownik WordNet i jego strukturę Policzyć odległości cosinusową i euklidesową dla podanych zdań Opisać implikację/twierdzenia Gödla Precyzja i zwrot VSM vector space model Dla dokumentów d1: "Ala ma kota" d2: "tomek ma psa w domu" reprezentowanych poprzez częstości słów wyznacz podobieństwa z użyciem miary cosinusowej dla zapytania Q "kto ma kota w domu" Miara kosinusowa dwoch zdan dla czestotliwosci globalnej wystapienia slow: Shipment of silver was in a silver truck, Package of silver was in a plane Oblicz odległość eklidesową/cosunusową zdań: Package of silver arrived in a silver truck. Shipment of silver arrived by plane Do czego wykorzystywane jest ukryte indeksowanie semantyczne. Opisz procedurę jego realizacji Opisz sposób klasyfikacji wykorzystywany w klasyfikatorze Bayesowskim. Dlaczego nazywany jest on naiwnym Opisz algorytm klasteryzacji metodą gestosci Opisz znane ci metody klasteryzacji dokumentów Opisz znane ci metody klasteryzacji hierarchicznej System informatyczny zawierał 130 dokumentów, spośród których dla pewnego zapytania istotnych było 27. Wyznacz wartość precyzji i zwrot dla danego zapytani wiedząc, że system zwrócił 23 dokumentów z czego 19 było istotnych z punktu użytkownika -11