Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene
|
|
- Krzysztof Marszałek
- 7 lat temu
- Przeglądów:
Transkrypt
1 2..22 Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene Dominika Puzio
2 Indeks
3 Podstawy: dokument Dokument: jednostka danych, pojedynczy element na liście wyników wyszukiwania, to co chcemy wyszukiwać ( strona www, artykuł, post, dobro konsumpcyjne ) dokument id: content: Ala ma kota pole 3
4 Podstawy: indeks Indeks: repozytorium, w którym silnik wyszukiwawczy przechowuje dane, zorganizowane w taki sposób, aby dało się w nich szybko wyszukiwać id: content: Ala ma kota id:2 content: Ola ma psa id:3 content: Ala lubi psa 4
5 Indeks odwrócony doc content: content: Ala Ala ma ma kota kota doc2 content: content: Ola Ola ma ma psa psa doc3 content: content: Ala Ala lubi lubi psa psa ala 3 ma 2 kota ola 2 psa 2 3 lubi 3 5
6 Indeks: budowanie doc content: content: Ala Ala ma ma kota kota content:ala 3 doc2 content: content: Ola Ola ma ma psa psa doc3 content: content: Ala Ala lubi lubi psa psa content:kota content:ma content:lubi content:ma 3 2 content:ola content:ma 2 2 content:psa content:ola 2 content:psa 2 3 6
7 Indeks: słownik content:ala 3 content:kota słownik content:lubi 3 content:ma 2 content:ola 2 content:psa 2 3 termy listy id dokumentów 7
8 Indeks: słownik doc id: id: content:ala ma ma kota kota content:ala 3 content:kota doc2 id:2 id:2 content:ola ma ma psa psa doc3 id:3 id:3 content:ala lubi lubi psa psa content:lubi 3 content:ma 2 content:ola 2 content:psa 2 3 id: id:2 2 id:3 3 8
9 Indeks: przebieg wyszukiwania QUERY: [content: ala] content:ala 3 QUERY: [content: ala OR content: kota] content:ala 3 content:kota OR 3 QUERY: [content: ala AND content: kota] content:ala 3 content:kota AND 9
10 Indeks: oglądamy słownik Luke czytnik indeksów Lucene
11 Algorytm scoringu (czyli dlaczego kot jest ważniejszy niż pies)
12 Vector Space Model i trochę historii historycznie: idea użycia komputerów do poszukiwania informacji pojawiła się w 945 roku ( pierwsze silniki wyszukiwawcze (akademickie) lata 5' pierwsze wielkoskalowe silniki wyszukiwawcze, gotowe do użytku komercyjnego lata 7' Vector Space Model: algebraiczny model dokumentu tekstowego, opracowany i pierwszy raz użyty w latach 6' na Cornell University jako część systemu SMART (System for the Mechanical Analysis and Retrieval of Text) jednej z pierwszych tekstowych wyszukiwarek Vector Space Ranking: algorytm scoringu oparty o Vector Space Model 2
13 Informacje zawarte w słowniku content:ala 3 content:kota content:lubi 3 content:ma 2 content:ola 2 dokument : zawiera słowo ala dokument 2: nie zawiera słowa ala dokument 3: zawiera słowo ala content:psa 2 3 3
14 Alternatywny zapis słownika doc doc2 doc3 content:ala content:kota content:lubi content:ma content:ola content:psa Indeks macierzowy 4
15 Vector Space Model: wektor dokumentu doc doc2 doc3 ala kota doc3 lubi doc2 ma doc ola psa ala kota lubi ma ola psa wektor dokumentu wektor dokumentu doc w przestrzeni doc słów 5
16 Vector Space Model: waga słów doc ala kota lubi ma ola psa Założenie Vector Space Model: informacja o tym, że słowo wystąpiło w dokumencie (lub nie) nie jest wystarczająca. Model bierze pod uwagę również to, że: im więcej wystąpień słowa w dokumencie, tym wyżej powinien być na liście wyników nie wszystkie słowa są jednakowo ważne 6
17 Vector Space Model: waga słów Wartością współrzędnej słowa s w dokumencie d jest waga w s, d obliczana na podstawie liczby wystąpień słowa s w dokumencie d i wartości informacyjnej słowa s. doc w ala,doc w kota,doc w lubi,doc w ma,doc w ola,doc w psa,doc ala kota lubi ma ola psa 7
18 Vector Space Model Krok : każde słowo w dokumencie dostaje wagę zależną od liczby wystąpień słowa w dokumencie i wartości informacyjnej słowa bierzemy pod uwagę liczbę wystąpień poszukiwanego słowa w dokumencie - im więcej razy słowo z zapytania wystąpiło w dokumencie, tym wyższy score dla dokumentu dla każdego słowa w dokumencie mamy liczbę: tf s, d (term frequency) = liczba wystąpień słowa s w dokumencie d dla każdego słowa w dokumencie wyznaczamy wagę wg. wzoru: w s, d = log tf s, d dlatf s,d w przeciwnym wypadku 8
19 Vector Space Model Dlaczego logarytm? w s,d = log tf s, d dlatf s,d w przeciwnym wypadku żeby nie mieć zależności wprost (dokument zawierający słowo razy, nie jest razy lepszy od tego, który zawiera je raz) Dlaczego +log? żeby słowo, które wystąpiło w dokumencie raz, nie otrzymało wagi ( log = ) Dlaczego osobno przypadek, kiedy tf s, d =? dlatego, że log = -ꝏ 9
20 Vector Space Model Krok : każde słowo w dokumencie dostaje wagę zależną od liczby wystąpień słowa w dokumencie i wartości informacyjnej słowa bierzemy pod uwagę liczbę wystąpień poszukiwanego słowa w całym indeksie im rzadsze słowo, tym więcej informacji niesie i dokument je zawierający powinien mieć wyższy score dla każdego słowa w dokumencie mamy liczbę: df s (document frequency) = liczba dokumentów w indeksie zawierających słowo s dla każdego słowa w dokumencie wyznaczamy tzw. inverse document frrequency: idf s =log N df s N - liczba wszystkich dokumentów w indeksie 2
21 Vector Space Model Krok : każde słowo w dokumencie dostaje wagę zależną od tf i idf dla każdego słowa w dokumencie wyznaczamy wagę: w s, d = log tf s,d log N df s waga jest wyznaczana podczas indeksowania i zapisywana w indeksie Przykład: doc doc2 doc3 ala tf ala, doc = tf ala,doc3 = tf ala,doc2 = N = 3 df ala = 2 w ala,doc =w ala, doc3 = log log 3 2,58 w ala,doc2 = log 3 2 = 2
22 Vector Space Model Krok 2: każdy dokument przedstawiamy jako wektor w przestrzeni słów doc w ala,doc w kota,doc w lubi,doc w ma,doc w ola,doc w psa,doc ala kota lubi ma ola psa doc: Ala ma kota doc [,58,58,58 ] ala kota lubi ma ola psa 22
23 Vector Space Model Krok 2: każdy dokument przedstawiamy jako wektor w przestrzeni słów doc: Ala ma kota doc2: Ola ma psa doc3: Ala lubi psa doc [,58,58,58 ] doc2 [,58,58,58 ] doc3 [,58,58,58 ] ala kota lubi ma ola psa 23
24 Vector Space Model (Ranking) Krok 3: zapytanie przedstawiamy jako wektor w przestrzeni słów z: kota i psa z [,58,58 ] ala kota lubi ma ola psa 24
25 Vector Space Model (Ranking) Krok 4: liczymy odległość pomiędzy wektorem zapytania a wektorem dokumentu odległość Euklidesowa nie jest dobra: a b a b d a, b = a, b = d a, b = a, b = 25
26 Vector Space Model (Ranking) Krok 4: liczymy odległość pomiędzy wektorem zapytania a wektorem dokumentu jako miary odległości można użyć kąta między wektorami ale obliczanie kąta jest trudne (π!) zamiast samego kąta można policzyć jego cosinus: cos = cos9 = cos a, b = a b a b = i i a i 2 a i b i i b i 2 cosinus kąta między wektorami = odległość cosinusowa wektorów 26
27 Vector Space Model (Ranking). każde słowo w dokumencie dostaje wagę zależną od liczby wystąpień słowa w dokumencie i wartości informacyjnej słowa 2. każdy dokument przedstawiamy jako wektor w przestrzeni słów 3. zapytanie przedstawiamy jako wektor w przestrzeni słów 4. liczymy odległości cosinusowe pomiędzy wektorem zapytania a wektorami dokumentów 5. sortujemy dokumenty malejąco według odległości ich wektorów od wektora zapytania uproszczony wzór na score dokumentu: score q,d = s q s q d log tf s, q idf s log tf s, d idf s log tf s, q idf s 2 s d log tf s,d idf s 2 27
28 Vector Space Model w praktyce gdzie: scoring Lucene: score q,d = q d q querynorm q tf t,d idf 2 t boost s norm t, d t q querynorm(q) - czynnik normalizujący (stała), wprowadzony aby dało się porównać wyniki różnych typów zapytań, nie ma wpływu na pozycję dokumentu na liście tf zmodyfikowane term frequency idf zmodyfikowane inverse document frequency boost(s) dodatkowa waga słowa (termu) ustawiana w treści zapytania norm(t, d) norma dokumentu, liczba obliczana w trakcie indeksowania i zapisywana w indeksie: boost(d) dodatkowa waga dokumentu, ustawiana w czasie indeksowania field - długość pola (liczba słów) tf t, d := tf t,d N idf t := log df norm t,d =boost d boost field field boost(field) dodatkowa waga pola, ustawiana w czasie indeksowania 28
29 Vector Space Model w praktyce normy dokumentów 29
30 Vector Space Model w praktyce wartości tf dla każdego termu słownik + df dla każdego termu 3
31 Zasoby wiedzy Lucene Wiki: Luke Java User List: M. McCandless, E. Hatcher, O. Gospodnetić Lucene in Action, Second Edition Lucid Works: C.D. Manning, P. Raghavan, H. Schutze Introduction to Information Retrieval 3
Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych
Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące
Bardziej szczegółowoWyszukiwanie dokumentów/informacji
Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie
Bardziej szczegółowoWstęp do przetwarzania języka naturalnego
Wstęp do przetwarzania języka naturalnego Wykład 9 Wektoryzacja dokumentów i podstawowe miary podobieństwa Wojciech Czarnecki 17 grudnia 2013 Section 1 Przypomnienie Bag of words model Podejście Przypomnienie
Bardziej szczegółowoIndeksowanie full text search w chmurze
Prezentacja przygotowana dla: 5. Konferencja MIC w Poznaniu, 16.06.20111 Lucene.NET Indeksowanie full text search w chmurze K2 i Windows Azure dlaczego dla nas to możliwe? 1. Mamy unikalne połącznie kompetencji
Bardziej szczegółowoWyszukiwanie tekstów
Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły
Bardziej szczegółowoWydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Bardziej szczegółowoArchitektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster
Architektury Usług Internetowych laboratorium nr 6: Wyszukiwanie usług w systemie BeesyCluster Jakub Kuryłowicz, dr inż. Paweł Czarnul jakub.kurylowicz@eti.pg.gda.pl, pczarnul@eti.pg.gda.pl Katedra Architektury
Bardziej szczegółowoMetody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Bardziej szczegółowoBazy dokumentów tekstowych
Bazy dokumentów tekstowych Bazy dokumentów tekstowych Dziedzina zastosowań Automatyzacja bibliotek Elektroniczne encyklopedie Bazy aktów prawnych i patentów Szukanie informacji w Internecie Dokumenty tekstowe
Bardziej szczegółowoInteraktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Bardziej szczegółowo27.03.2014 Warszawa. Indeksowanietreściwteoriipraktyce. warsztaty
27.03.2014 Warszawa Indeksowanietreściwteoriipraktyce warsztaty Rosnąca liczba informacji cyfrowej uniemożliwia osobiste zapoznanie się z każdym ważnym czy chociażby przydatnym dokumentem. W celu ułatwienia
Bardziej szczegółowoWyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search
Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search Irmina Masłowska irmina.maslowska@cs.put.poznan.pl www.cs.put.poznan.pl/imaslowska/wipi/ Document representation Document representation
Bardziej szczegółowoZastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski
Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL Łukasz Degórski LT4eL Language Technology for e-learning Wykorzystanie narzędzi językowych oraz technik sieci
Bardziej szczegółowoEksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1
Eksploracja tekstu Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu Eksploracja tekstu wykład 1 Tematem wykładu są zagadnienia związane z eksploracją tekstu. Rozpoczniemy od krótkiego wprowadzenia
Bardziej szczegółowoWyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search
Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search dr hab. inż. Miłosz Kadziński dr inż. Irmina Masłowska {milosz.kadzinski, irmina.maslowska}@cs.put.poznan.pl Document representation
Bardziej szczegółowoEKSPLORACJA ZASOBÓW INTERNETU LAB 1 - MIŁOSZ KADZIŃSKI LABORATORIUM WSTĘPNE WYSZUKIWANIE INFORMACJI TEKSTOWYCH WEDŁUG PODOBIEŃSTWA
EKSPLORACJA ZASOBÓW INTERNETU LAB 1 - MIŁOSZ KADZIŃSKI LABORATORIUM WSTĘPNE WYSZUKIWANIE INFORMACJI TEKSTOWYCH WEDŁUG PODOBIEŃSTWA 1. Dane kontaktowe Miłosz Kadziński (milosz.kadzinski@cs.put.poznan.pl,
Bardziej szczegółowo19 Własności iloczynu skalarnego: norma, kąt i odległość
19 Własności iloczynu skalarnego: norma, kąt i odległość Załóżmy, że V jest przestrzenią liniową z iloczynem skalarnym.,.. Definicja 19.1 Normą (długością) wektora v V nazywamy liczbę v = v, v. Uwaga 1
Bardziej szczegółowo1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu
1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu Dendrogram obrazuje powiązania między klastrami. Liście obiekty Korzeń wynik grupowania Linia odcinająca pokazuje, w którym momencie
Bardziej szczegółowoPrzetwarzanie języka w praktyce. przykładzie problemu rozstrzygania wieloznaczności
, na przykładzie problemu rozstrzygania wieloznaczności Aleksander Pohl http://apohllo.pl Katedra Informatyki, Akademia Górniczo-Hutnicza SFI 8. marca 2008 Plan prezentacji Określenie celu Wymagania Ferret
Bardziej szczegółowoECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0
ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy
Bardziej szczegółowoForma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoWyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Bardziej szczegółowoTematy próbnego pisemnego egzaminu dojrzałości z matematyki
Tematy próbnego pisemnego egzaminu dojrzałości z matematyki Zadanie Rozwiąż nierówność: [ +log 0, ( x- )] + [ +log 0, ( x- )] + [ +log 0, ( x- )] ++ + [ + log 0, ( x- )] Zadanie Odcinek AB, gdzie A = (,
Bardziej szczegółowoNumeryczne rozwiązywanie równań i układów równań
Lekcja Strona z 2 Numeryczne rozwiązywanie równań i układów równań Rozwiązywanie pojedynczego równania - funkcja root Do rozwiązywania jednego równania z jedną niewiadomą służy funkcja root(f(z), z), gdzie:
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering
Bardziej szczegółowobaton OR mars 282,000,000 241,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE
WYSZUKIWANIE BOOLOWSKIE Wyszukiwanie boolowskie jest rozszerzeniem wyszukiwania prostego (opartego o słowa kluczowe) o operatory logiczne: AND, OR, NOT oraz ich kombinację. Większośd modeli wyszukiwania
Bardziej szczegółowoEnergia potencjalna pola elektrostatycznego ładunku punktowego
Energia potencjalna pola elektrostatycznego ładunku punktowego Wszystkie rysunki i animacje zaczerpnięto ze strony http://web.mit.edu/8.02t/www/802teal3d/visualizations/electrostatics/index.htm. Tekst
Bardziej szczegółowoEksploracja złożonych typów danych Text i Web Mining
Eksploracja złożonych typów danych Text i Web Mining Jerzy Stefanowski Instytut Informatyki Politechniki Poznańskiej Wykład AiED, Poznań 2002 Co będzie? Eksploracja danych tekstowych Wyszukiwanie informacji
Bardziej szczegółowoPOMOC. 1. Wybór Katalogu
Bibliografia Regionalna obejmuje książki i czasopisma lokalne zawierające wszelkie wiadomości na temat Woli. Gromadzone informacje dotyczą najczęściej takich zagadnień jak życie społeczne, inwestycje,
Bardziej szczegółowoECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0
ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy
Bardziej szczegółowoText mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Bardziej szczegółowoKodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Bardziej szczegółowoopisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje nazwy tabel lub widoków warunek (wybieranie wierszy)
Zapytania SQL. Polecenie SELECT jest używane do pobierania danych z bazy danych (z tabel lub widoków). Struktura polecenia SELECT SELECT FROM WHERE opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje
Bardziej szczegółowoTechnologie wyszukiwania pełnotekstowego
Kod szkolenia: Tytuł szkolenia: FULLTEXT Technologie wyszukiwania pełnotekstowego Dni: 3 Opis: Adresaci szkolenia: Szkolenie adresowane jest do osób zainteresowanych funkcjonalnością wyszukiwania pełnotekstowego
Bardziej szczegółowoPlan wynikowy. Klasa III Technikum ekonomiczne. Kształcenie ogólne w zakresie rozszerzonym
Plan wynikowy lasa III Technikum ekonomiczne. ształcenie ogólne w zakresie rozszerzonym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania
Bardziej szczegółowoSPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Bardziej szczegółowoHybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym
Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym Paweł Szołtysek 09 listopada 2009 1/46 metod metod 2/46 metod 199 stron, 2 cytowania własne 7rozdziałów Promotor: NT Nguyen 3/46 metod
Bardziej szczegółowoAlgorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski
Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów Adam Żychowski Definicja problemu dwóch graczy: P 1 (minimalizator) oraz P 2 (maksymalizator) S 1, S 2 zbiory strategii graczy
Bardziej szczegółowoOPTYMALIZACJA SCHEMATU WAŻENIA TERMINÓW DLA MODELU WEKTOROWEGO TERM FREQUENCY OPTIMIZATION FOR THE VECTOR SPACE MODEL
ARTUR IEWIAROWSKI * OPTYMALIZACJA SCHEMATU WAŻEIA TERMIÓW DLA MODELU WEKTOROWEGO TERM FREQUECY OPTIMIZATIO FOR THE VECTOR SPACE MODEL Streszczenie Abstract Artykuł opisuje wybrane metody ważenia terminów
Bardziej szczegółowoNowy wymiar jakości danych w ubezpieczeniach. Wojciech Partyka
Nowy wymiar jakości danych w ubezpieczeniach Wojciech Partyka Znaczenie jakości danych Wymiana danych z podmiotami zewnętrznymi Integracja systemów informatycznych Zapewnienie możliwości uczestniczenia
Bardziej szczegółowoAktualizacja baz danych systemu qs-stat
Aktualizacja baz danych systemu qs-stat Copyright 2003 Q-DAS GmbH Eisleber Str. 2 D - 69469 Weinheim Tel.: ++49/6201/3941-0 Fax: ++49/6201/3941-24 E-Mail: q-das@q-das.de Internet: http://www.q-das.de Hotline:
Bardziej szczegółowoSystemy Wspomagania Decyzji
Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie
Bardziej szczegółowoMultiwyszukiwarka EBSCO Discovery Service - przewodnik
Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Główną Uniwersytetu Medycznego w Poznaniu. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i
Bardziej szczegółowoWymagania na egzamin poprawkowy z matematyki w roku szkolnym 2018/2019 klasa 1 TLog
Wymagania na egzamin poprawkowy z matematyki w roku szkolnym 2018/2019 klasa 1 TLog Podstawowa wiedza zawiera się w pisemnych sprawdzianach które odbyły się w ciągu całego roku szkolnego. Umiejętność rozwiązywania
Bardziej szczegółowoINTERPOLACJA I APROKSYMACJA FUNKCJI
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Wprowadzenie Na czym polega interpolacja? Interpolacja polega
Bardziej szczegółowoInformatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS cz.3
Wyższa Szkoła Ekologii i Zarządzania Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS cz.3 Slajd 1 Excel Slajd 2 Adresy względne i bezwzględne Jedną z najważniejszych spraw jest tzw. adresacja. Mówiliśmy
Bardziej szczegółowoRównania prostych i krzywych; współrzędne punktu
Równania prostych i krzywych; współrzędne punktu Zad 1: Na paraboli o równaniu y = 1 x znajdź punkt P leŝący najbliŝej prostej o równaniu x + y = 0 Napisz równanie stycznej do tej paraboli, poprowadzonej
Bardziej szczegółowoWymagania programowe na poszczególne oceny. Klasa 2. Potęgi o wykładnikach naturalnych i całkowitych. Poziom wymagań edukacyjnych:
Wymagania programowe na poszczególne oceny Poziom wymagań edukacyjnych: K konieczny (ocena dopuszczająca) P podstawowy (ocena dostateczna) R rozszerzający (ocena dobra) D dopełniający (ocena bardzo dobra)
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoObliczenia iteracyjne
Lekcja Strona z Obliczenia iteracyjne Zmienne iteracyjne (wyliczeniowe) Obliczenia iteracyjne wymagają zdefiniowania specjalnej zmiennej nazywanej iteracyjną lub wyliczeniową. Zmienną iteracyjną od zwykłej
Bardziej szczegółowoWYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY I GIMNAZJUM
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY I GIMNAZJUM LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie zaznaczać liczbę
Bardziej szczegółowoSzukanie rozwiązań funkcji uwikłanych (równań nieliniowych)
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości
Bardziej szczegółowoCo wylicza Jasnopis? Bartosz Broda
Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:
Bardziej szczegółowoDZIAŁ I: LICZBY I DZIAŁANIA Ocena dostateczna. Ocena dobra. Ocena bardzo dobra (1+2) (1+2+3+4) Uczeń: (1+2+3) Uczeń: określone warunki
MATEMATYKA KLASA I I PÓŁROCZE -wyróżnia liczby naturalne, całkowite, wymierne -zna kolejność wykonywania działań -rozumie poszerzenie osi liczbowej na liczby ujemne -porównuje liczby wymierne -zaznacza
Bardziej szczegółowoPobieranie i przetwarzanie treści stron WWW
Eksploracja zasobów internetowych Wykład 2 Pobieranie i przetwarzanie treści stron WWW mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Jedną z funkcji silników wyszukiwania danych, a właściwie ich modułów
Bardziej szczegółowoROZWIĄZANIA DO ZADAŃ
TURNIRJ MATEMATYCZNY ELIPSA dla klas LO ROZWIĄZANIA DO ZADAŃ Zadanie. (2 pkt.) Dla jakich wartości parametru m (m R), część wspólna przedziałów A = (, m m i B = 2m 2, + ) jest zbiorem pustym? / Jeśli A
Bardziej szczegółowoIndeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Bardziej szczegółowoRozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów.
Rozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów. Plan wykładu: 1. Wyznaczanie pojedynczych pierwiastków rzeczywistych równań nieliniowych metodami a) połowienia (bisekcji)
Bardziej szczegółowoEGZAMIN MATURALNY Z MATEMATYKI
Miejsce na naklejkę z kodem szkoły dysleksja MMA-R1_1P-07 EGZAMIN MATURALNY Z MATEMATYKI POZIOM ROZSZERZONY Czas pracy 180 minut Instrukcja dla zdającego 1 Sprawdź, czy arkusz egzaminacyjny zawiera 15
Bardziej szczegółowoWYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY W KLASIE I GIMNAZJUM
WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY W KLASIE I GIMNAZJUM NA OCENĘ DOPUSZCZJĄCĄ UCZEN: zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie
Bardziej szczegółowoZastosowania obliczeń inteligentnych do wyszukiwania w obrazowych bazach danych
Zastosowania obliczeń inteligentnych do wyszukiwania w obrazowych bazach danych Tatiana Jaworska Jaworska@ibspan.waw.pl www.ibspan.waw.pl/~jaworska Istniejące systemy - Google Istniejące systemy - Google
Bardziej szczegółowoRÓWNANIA NIELINIOWE Maciej Patan
RÓWNANIA NIELINIOWE Maciej Patan Uniwersytet Zielonogórski Przykład 1 Prędkość v spadającego spadochroniarza wyraża się zależnością v = mg ( 1 e c t) m c gdzie g = 9.81 m/s 2. Dla współczynnika oporu c
Bardziej szczegółowoInformatyka wspomaga przedmioty ścisłe w szkole
Informatyka wspomaga przedmioty ścisłe w szkole Prezentuje : Dorota Roman - Jurdzińska W arkuszu I na obu poziomach występują dwa zadania związane z algorytmiką: Arkusz I bez komputera analiza algorytmów,
Bardziej szczegółowoAlgorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Bardziej szczegółowoRozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych
Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych Piotr Modliński Wydział Geodezji i Kartografii PW 13 stycznia 2012 P. Modliński, GiK PW Rozw.
Bardziej szczegółowoWykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Bardziej szczegółowoJęzyki formalne i automaty Ćwiczenia 6
Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoWymagania edukacyjne z matematyki Klasa I. LICZBY I DZIAŁANIA Dopuszczający (K) Dostateczny (P) Dobry (R) bardzo dobry (D) Celujący (W) Uczeń:
zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie porównywać liczby wymierne umie zaznaczać liczbę wymierną na osi liczbowej umie zamieniać ułamek
Bardziej szczegółowoExcel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013
26 lutego 2013 Ćwiczenia 1-2 Częste błędy i problemy: 1 jeżeli użyjemy niewłaściwego znaku dziesiętnego Excel potraktuje liczbę jak tekst - aby uniknać takich sytuacji używaj klawiatury numerycznej, 2
Bardziej szczegółowoZadania z algebry liniowej Iloczyn skalarny, przestrzenie euklidesowe
Zadania z algebry liniowej Iloczyn skalarny, przestrzenie euklidesowe Definicja 1 (Iloczyn skalarny). Niech V będzie rzeczywistą przestrzenią liniową. Iloczynem skalarnym w przestrzeni V nazywamy funkcję
Bardziej szczegółowoWprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze
Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze Polsko-Japońska Wyższa Szkoła Technik Komputerowych Katedra Informatyki Stosowanej Spis treści Spis treści 1 Wektory
Bardziej szczegółowoZAGADNIENIA PROGRAMOWE I WYMAGANIA EDUKACYJNE DO TESTU PRZYROSTU KOMPETENCJI Z MATEMATYKI DLA UCZNIA KLASY II
ZAGADNIENIA PROGRAMOWE I WYMAGANIA EDUKACYJNE DO TESTU PRZYROSTU KOMPETENCJI Z MATEMATYKI DLA UCZNIA KLASY II POZIOM ROZSZERZONY Równania i nierówności z wartością bezwzględną. rozwiązuje równania i nierówności
Bardziej szczegółowoREPREZENTACJA I WYSZUKIWANIE DOKUMENTÓW TEKSTOWYCH W BAZACH DANYCH
STUDIA INFORMATICA 2009 Volume 30 Number 2A (83) Jakub CIEŚLEWICZ, Adam PELIKANT Politechnika Łódzka, Instytut Mechatroniki i Systemów Informatycznych REPREZENTACJA I WYSZUKIWANIE DOKUMENTÓW TEKSTOWYCH
Bardziej szczegółowowykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK 1 2 3 Pamięć zewnętrzna Pamięć zewnętrzna organizacja plikowa. Pamięć operacyjna organizacja blokowa. 4 Bufory bazy danych. STRUKTURA PROSTA
Bardziej szczegółowoSieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski
Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe
Bardziej szczegółowoKryteria oceniania z zakresu klasy pierwszej opracowane w oparciu o program Matematyki z plusem dla Gimnazjum
Kryteria oceniania z zakresu klasy pierwszej opracowane w oparciu o program Matematyki z plusem dla Gimnazjum DZIAŁ 1. LICZBY I DZIAŁANIA HASŁO PROGRAMOWE WIADOMOŚCI I UMIEJĘTNOŚCI PODSTAWOWE WIADOMOŚCI
Bardziej szczegółowoDZIAŁ 1. LICZBY I DZIAŁANIA
DZIAŁ 1. LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie porównywać liczby wymierne umie zaznaczać liczbę wymierną na osi
Bardziej szczegółowo83 Przekształcanie wykresów funkcji (cd.) 3
Zakres podstawowy Zakres rozszerzony dział temat godz. dział temat godz,. KLASA 1 (3 godziny tygodniowo) - 90 godzin KLASA 1 (5 godzin tygodniowo) - 150 godzin I Zbiory Zbiory i działania na zbiorach 2
Bardziej szczegółowoMatematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładu 8 Interpolacja Interpolacja polega na budowaniu tzw. funkcji interpolujących ϕ(x) na podstawie zadanych
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoMetody numeryczne w przykładach
Metody numeryczne w przykładach Bartosz Ziemkiewicz Wydział Matematyki i Informatyki UMK, Toruń Regionalne Koło Matematyczne 8 kwietnia 2010 r. Bartosz Ziemkiewicz (WMiI UMK) Metody numeryczne w przykładach
Bardziej szczegółowoKLUCZ PUNKTOWANIA ODPOWIEDZI
Egzamin maturalny maj 009 MATEMATYKA POZIOM ROZSZERZONY KLUCZ PUNKTOWANIA ODPOWIEDZI Zadanie. a) Wiadomości i rozumienie Matematyka poziom rozszerzony Wykorzystanie pojęcia wartości argumentu i wartości
Bardziej szczegółowoPlan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym
Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń
Bardziej szczegółowoKARTOTEKA ZAGADNIENIOWA Pedagogicznej Biblioteki Wojewódzkiej w Słupsku Krok po kroku. Jolanta Janonis, Pedagogiczna Biblioteka Wojewódzka w Słupsku
KARTOTEKA ZAGADNIENIOWA Pedagogicznej Biblioteki Wojewódzkiej w Słupsku Krok po kroku Jolanta Janonis, Pedagogiczna Biblioteka Wojewódzka w Słupsku Wartość i społeczna użyteczność działalności informacyjnej
Bardziej szczegółowoPodstawy Informatyki. Sprawność algorytmów
Podstawy Informatyki Sprawność algorytmów Sprawność algorytmów Kryteria oceny oszczędności Miara złożoności rozmiaru pamięci (złożoność pamięciowa): Liczba zmiennych + liczba i rozmiar struktur danych
Bardziej szczegółowoSTRONA DO WSTAWIENIA: STR_TYT\MEPGI1_001tyt.pdf
STRONA DO WSTAWIENIA: STR_TYT\MEPGI1_001tyt.pdf STRONA DO WSTAWIENIA: STR_RED\MEPGI1_002red.pdf Spis treści Od autorek (s. 7) 1. Statystyka (s. 9) 1.1. Wędrówki po krajach Unii Europejskiej. Wyszukiwanie
Bardziej szczegółowoPętlaforwOctave. Roman Putanowicz 13 kwietnia 2008
PętlaforwOctave Roman Putanowicz kwietnia 008 Zakresyioperator : Zakresy(ang. ranges) są wygodnym sposobem definiowania wektorów reprezentujących ciągi arytmetyczne, czyli ciągi w których różnica pomiędzy
Bardziej szczegółowoAdministracja i programowanie pod Microsoft SQL Server 2000
Administracja i programowanie pod Paweł Rajba pawel@ii.uni.wroc.pl http://www.kursy24.eu/ Zawartość modułu 9 Optymalizacja zapytań Pobieranie planu wykonania Indeksy i wydajność - 1 - Zadania optymalizatora
Bardziej szczegółowoMultiwyszukiwarka EBSCO Discovery Service przewodnik
Multiwyszukiwarka EBSCO Discovery Service to narzędzie zapewniające łatwy i skuteczny dostęp do wszystkich źródeł elektronicznych Biblioteki Uczelnianej (prenumerowanych i Open Access) za pośrednictwem
Bardziej szczegółowoocena dopuszczająca ( K)
Szczegółowe wymaganiach edukacyjnych niezbędnych do uzyskania poszczególnych śródrocznych i rocznych ocen klasyfikacyjnych z matematyki w klasie I na podstawie programu nauczania Matematyka z plusem ocena
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoInformatyka A. Algorytmy
Informatyka A Algorytmy Spis algorytmów 1 Algorytm Euklidesa....................................... 2 2 Rozszerzony algorytm Euklidesa................................ 2 3 Wyszukiwanie min w tablicy..................................
Bardziej szczegółowoĆwiczenie Wyznaczanie tras sumarycznych dla adresów IPv4 i IPv6
Ćwiczenie Wyznaczanie tras sumarycznych dla adresów IPv4 i IPv6 Topologia Tabela adresów Podsieć Adres IPv4 Adres IPv6 HQ LAN1 192.168.64.0/23 2001:DB8:ACAD:E::/64 HQ LAN2 192.168.66.0/23 2001:DB8:ACAD:F::/64
Bardziej szczegółowoWymagania edukacyjne z matematyki dla klasy I gimnazjum wg programu Matematyka z plusem
Wymagania edukacyjne z matematyki dla klasy I gimnazjum wg programu Matematyka z plusem pojęcie liczby naturalnej, całkowitej, wymiernej rozszerzenie osi liczbowej na liczby ujemne sposób i potrzebę zaokrąglania
Bardziej szczegółowoRozkład łatwości zadań
Klasa 2a średnia klasy: 9.40 pkt średnia szkoły: 10.26 pkt średnia ogólnopolska: 9.55 pkt Rozkład łatwości zadań 1 0.9 0.8 0.7 0.6 łatwość 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7a 7b 8 9 10 11 12 13 Numer
Bardziej szczegółowoMetoda list prostych Wykład II. Agnieszka Nowak - Brzezińska
Metoda list prostych Wykład II Agnieszka Nowak - Brzezińska Wprowadzenie Przykładowa KW Inna wersja KW Wyszukiwanie informacji Metoda I 1. Przeglądamy kolejne opisy obiektów i wybieramy te, które zawierają
Bardziej szczegółowo