Eksploracja złożonych typów danych Text i Web Mining

Wielkość: px
Rozpocząć pokaz od strony:

Download "Eksploracja złożonych typów danych Text i Web Mining"

Transkrypt

1 Eksploracja złożonych typów danych Text i Web Mining Jerzy Stefanowski Instytut Informatyki Politechniki Poznańskiej Wykład AiED, Poznań 2002 Co będzie? Eksploracja danych tekstowych Wyszukiwanie informacji w tekstowych bazach danych Automatyczne przetwarzanie tekstów Web-mining klasyfikacja zadań Wyszukiwanie informacji w Internecie Podsumowanie Text a Web mining Text mining: Analiza i automatyczne przetwarzanie informacji przechowywanych w zbiorach dokumentów i tekstowych bazach danych; dokumenty z różnych źródeł i w różnych formatach Efektywne wyszukiwanie informacji w tekstowych bazach danych (ang. Information Retrieval) Web mining: Poszukiwanie i pozyskiwanie informacji z zasobów WWW, lecz także: analiza struktury powiązań zasobów WWW analiza sposobu korzystania z WWW przez użytkowników 1

2 Eksploracja tekstowych baz danych - motywacje Znacząca ilość informacji dostępna w postaci różnego rodzaju dokumentów, np.: artykuły, wiadomości, czasopisma, książki, biblioteki elektroniczne, e, news, zasoby WWW Dane tego typu nie są ustrukturalizowane lub ustrukturalizowane w niewielkim stopniu Rozmiary danych tekstowych rosną gwałtownie Problemy z wyszukiwaniem właściwej informacji Wyszukiwanie informacji (Information Retrieval) dziedzina rozwijana równolegle z typowymi bazami danych związana jest z organizacją i wyszukiwaniem informacji z bardzo dużej liczby dokumentów Typowe zadanie: znajdź właściwe dokumenty na podstawie zapytania użytkownika wyspecyfikowanego jako słowa kluczowe lub przykład dokumentu Różnice z systemami zarządzania baz danych (DBMS): DBMS obejmują dobrze zdefiniowane i ustrukturalizowane dane; Podstawowe zagadnienie efektywne przetwarzanie zapytań, zarządzanie transakcjami czy złożonymi obiektami, aktualizacja, itp. IR nieustrukturalizowane informacje, inne spojrzenie na zapytania; poszukiwanie przybliżone, automatyczna indeksacja termami słowami kluczowymi Tekstowe bazy danych modele i techniki indeksacji Model podstawowy: Dokument jest reprezentowany jako ciąg znaków, zbiór słów kluczowych (identyfikatorów, termów w modelu statystycznym) lub jako jednostki leksykalne Bezpośrednie przetwarzanie całego dokumentu (ciągu znaków) nie jest stosowane Reprezentacja za pomocą pojedynczych termów jest najbardziej popularna (tzw. wektory słów) Duże znaczenie doboru właściwych termów i automatycznej indeksacja dokumentów 2

3 Zapytania w tekstowych bazach danych Zapytanie jest wyrażeniem zbudowanym ze słów kluczowych (termów) połączonych operatorami: np. tea or coffee, car and repair shop, DBMS but_not Oracle W najprostszym modelu zwraca się dokument zawierający lub opisany słowami kluczowymi Ograniczenia modelu słów kluczowych: Synonimy: słowo T nie pojawia się w dokumencie, pomimo że dokument jest ściśle związany z dziedziną lub słowem kluczowym T. Wielosynonimy: to samo słowo ma różne znaczenie w zależności od kontekstu jego użycia, np. mining. Inny typ zapytań: similarity-based retrieval znajdź podobne dokumenty na podstawie stopnia zgodności z termami charakteryzującymi dokumenty. Schemat działania systemu wyszukiwawczego Zapytanie Analiza formalna Charakterystyka wyszukiwawcza zapytania Obliczanie podobieństwa Indeksowane dokumenty Indekser dokumentów Baza dokumentów Odszukane podobne dokumenty Automatyczna indeksacja dokumentów Indeksowanie polega na przypisaniu dokumentowi zbioru identyfikatorów, słów kluczowych charakteryzujących temat lub przedmiot dokumentu i wyrażeniu ich w odpowiednim języku informacyjno-wyszukującym Indeksowanie manualne (eksperci) vs. automatyczne kontrolowane stosowanie odpowiednich słowników, list terminologicznych obiektywne i nieobiektywne identyfikatory tekstów 3

4 Struktura tekstów naukowych Struktura dokumentów WWW <html> <head> <meta http-equiv="content-type" content="text/html; charset=iso "> <meta name="subject" content="strona osobista Jerzego Stefanowskiego"> <meta name="author" content="jerzy Stefanowski"> <meta name="description" content="this page contains main information on machine learning, knowledge discovery and data mining. The process of knowledge discovery from databases is discussed. Basic methods of discovering various knowledge representations are presented....> <meta name="keywords" content="sztuczna inteligencja, artificial inteligence,...> <title>jerzy Stefanowski's Knowledge Discovery Page</title> <!-- stefan.html, November 29,2001 Jerzy Stefanowski--> </head>... Identyfikatory tekstów Obiektywne identyfikatory to np.: nazwiska autorów, tytuł pracy, miejsce wydania, nazwa wydawcy, data publikacji, długość, liczba stron, bibliograficzne dane katalogowe. Inne identyfikatory dotyczą przedmiotu i zawartości tekstu wybór i stopień ich użyteczności jest różnie realizowany 4

5 Miary oceny systemów wyszukiwania informacji Dokładność (Precision, P) określa stopień, w jakim odnalezione dokumenty pasują do zapytania P = [ Re levant Re trieved] [ Retrieved] Kompletność (Recall, R) określa jaka część dokumentów pasujących do zapytania została odnaleziona [ Relevant Retrieved] R = [ Relevant] [Retrieved] zbiór odnalezionych dokumentów, [Relevant] zbiór dokumentów pasujących do zapytania Indeksacja pojedynczych termów Podstawowe założenie: Częstotliwość występowania różnych słów w tekście jest związana z ważnością tych słów dla reprezentacji treści Prosty schemat indeksacji: Oblicz Freq ji częstość termu T j w dokumencie D i Oblicz całkowitą częstość termu w zbiorze dokumentów TotalFre j = Σ i Freq ji dla i = 1,2,..., n. Uporządkować termy według całkowitej częstości Wyeliminować termy o zbyt wysokiej i zbyt niskiej częstości Pozostałe termy użyć jako termy indeksujące Wady tego podejścia? Analiza języka naturalnego, podział na termy, cd. Stop listy: Słowa pospolite często występujące w różnych dokumentach, a nie mające znaczenia dla treści tekstu. W języki angielskim np. a, the, and, at, for, no, not, of, there, to, with... analiza gramatyczna dostarcza stop-lists, głównie dla języka angielskiego. Stop listy różnią się dla specjalizowanych zbiorów dokumentów, np. teksty prawne: article lub paragraph. Analiza tzw. language corpus. Lematyzacja (ang. steming): Słowa są zbudowane jako syntaktyczne warianty pewnego podstawowego podsłowa, rdzenia tzw. tematu; np. słowa play, playing, plays, played, player posiadają wspólny temat play Analiza tematów dobrze rozwinięta dla języka angielskiego, np. algorytm PorterStemmer. W innych językach potrzebne bardziej specjalizowane podejścia, problemy w języku polskim. Potrzeba automatycznego rozpoznawania języka dokumentu. Stosowanie tzw. tezaurusów dla zastępowania niektórych słów szczegółowych terminami ogólniejszymi (np. WordNet) 5

6 Schemat doboru termów Bardziej praktyczny schemat indeksacji: 1. Zidentyfikuj pojedyncze słowa w tekście. 2. Wyeliminuj popularne słowa za pomocą stop list. 3. Użyj lematyzacji dla ograniczenia pozostałych słów do ich podstawowych tematów. 4. Dla wszystkich pozostałych termów T j w każdym dokumencie D i oblicz częstość tf ij jako liczbę wystąpień T j w D i. 5. Wybrać progową częstość T, i przypisać każdemu dokumentowi D i wszystkie termy T j dla których tf ij > T. Czy to jest wystarczające? Miary oceny termów Schematy indeksacji oparte na termach z wysoką częstością są dogodne ze względu na miarę kompletności. Dla miary precyzji dogodne dla indeksacji - tylko jeżeli częste termy występują nierównomiernie w zbiorze dokumentów. Precyzja jest raczej wyższa dla termów rzadko występujących w zbiorze dokumentów! Wykorzystuje się miarę df j liczba dokumentów w zbiorze N dokumentów, w których występuję term T j. Oblicza się tzw. odwrotną częstotliwość idf j = log(n/ df j ). Połączenie obu elementów indeksujących tf ij idf j spełnia oczekiwania wobec precyzji i kompletności wyszukiwania informacji. Wskaźnik ważności termu - tzw. waga termu: w ij = tf ij log(n/ df j ). Automatyczne indeksowanie Blueprint 1. Zidentyfikuj pojedyncze słowa w tekście. 2. Wyeliminuj popularne słowa za pomocą stop list. 3. Użyj lematyzacji dla ograniczenia pozostałych słów do ich podstawowych tematów. 4. Dla wszystkich pozostałych termów T j w każdym dokumencie D i oblicz współczynnik wagi termu w ij = tf ij log(n/ df j ). 5. Przypisz każdemu dokumentowi D i jego reprezentację za pomocą zbioru termów T, i wag im odpowiadającym w ij : D i {T 1, w i1 ;T 2, w i1 ;...; T t, w it } Więcej książka G. Salton Automatic Text Processing. 6

7 Wektorowy model przestrzeni termów Zbiór N dokumentów jest opisany za pomocą zbioru t termów indeksujących (ozn. T i ) Każdy dokument (zapytanie) D r (Q j ) jest reprezentowany jako wektor w t wymiarowej przestrzeni R t. j-ta składowa wektora, tzw. waga, jest liczbą wyrażającą związek (ważność) termu T i z danym dokumentu. 0 brak wystąpienia lub znaczenia termu w dokumencie, może być różnie obliczana. Zbiór dokumentów reprezentowany w przestrzeni wektorowej jako macierz (term-document matrix). T1 T2 L Tt D1 a11 a12 L a1t D2 a21 a22 L a2t M M M M M D N a N1 a N 2 L a Nt Ważenie termów / słów wagi jak dane słowo, lub term, jest charakterystyczne dla dokumentu? wiele różnych form: binarna w ij =1 lub w ij =0 częstość wystąpień - w ij =tf ij (t j ) tfidf (Salton) w ij =tf ij (t j )log(n/df ij (t j )) rola lematyzacji w procesie obliczania wag rola stop words w procesie obliczania wag macierz term-document (A) kolumny dokumenty wiersze słowa / termy Przykład macierz A 0.58 A = Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński 7

8 Obliczanie podobieństwa Dokument D r =(a r1,a r2,...,a rt ) Zapytanie Qj=(q j1,q j2,...,q jt ) Podobieństwo wektorów x i y mierzone jako iloczyn x y = x y cosα Jeżeli termy są nieskorelowane T i T i = 1 to t sim( D r, Q j ) = k = 1a rk q jk sim( D Q ) = r j t k = 1a rk q jk 2 = 1 = 1 t t k ( a rk ) k ( q jk ) 2 miara kosinusowa mierzy kąt między wektorami; jest znormalizowana <-1,1> i niezależna od wielkości dokumentów oraz liczby przypisanych im termów Pojęcie bliskości w macierzy A jesteśmy zainteresowani kątem jaki tworzą między sobą wektory dokumentów Identyczny kąt dokumenty są złożone z identycznych słów dokumenty są podobne T t a j q a i= ijq 1 i cosθ j = = a t t j q a q i= 1 ij i= 1 i d j Θ q Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński Przykład, c.d. ( ) T qˆ = 0.58 r = T 0.81 = T Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński 8

9 Redukcja wymiaru danych Trudności w przetwarzaniu, indeksowaniu i przeszukiwaniu wielu dokumentów opisanych bardzo dużą liczbą termów Potrzeba redukcji wymiaru danych tekstowych: Latent Sematic Indexing Podobne dokumenty mają podobne częstości słów. Macierz czestości dokumentów i termów należy transformować (SVD singular value decomposition) do postaci iloczynu trzech macierzy A,S,B, gdzie A i B mają ortogonalne kolumny a S jest macierzą diagonalną; Uwzględnia się tylko k [100,300] największych wartości S, tworząc nową macierz X rzędu k najbliższą oryginalnej macierzy Stosowane także inne algorytmy, np. grupowania lub SOM Dekompozycja SVD pomijając szczegóły matematyczne kolumny macierzy U tworzą ortogonalną bazę w przestrzeni kolumn macierzy A wektory te wykazują podobieństwo do tematów obecnych w A = A = U Σ T V Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński Przykład Lingo 0.65 U = P = Zakładamy, że r A = 2 (tzn, pod uwagę brane są dwa pierwsze wektory kolumnowe macierzy U). Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński 9

10 Typowe zadania w Text - Mining Wyszukiwanie dokumentów Znajdź p dokumentów najbliższych zapytaniu Q Określ podobieństwo dwóch dokumentów Rangowanie ważności różnych dokumentów Grupowanie (poszukiwanie klasyfikacji) dokumentów Algorytmy grupowania, zwłaszcza hierarchiczne, wykorzystujące termy Także grupowanie dokumentów na podstawie podobieństw wynikających ze wspólnych autorów, źródła pochodzenia Automatycznie klasyfikowanie dokumentów Analiza powiązań zależności między jednostkami tekstu Analiza dokumentów WWW lub XML WWW: Stan aktualny Ogromna baza informacji, lecz nieustrukturalizowane, niejednorodne i rozproszone środowisko; Gwałtownie i dynamicznie rozwijające się zasoby: średnio 1 nowy serwer co 2 godziny 5 milionów stron WWW w milionów w mld dokumentów w 2001 Szybka dezaktualizacja wskaźników i opisów Potrzeba lepszych narzędzi odkrywania wiedzy o zawartości i zasobach. Hosts Internet growth Sep-69 Sep-72 Sep-75 Sep-78 Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 The Asilomar Report urges the database research community to contribute in deploying new technologies for resource and information retrieval from the World-Wide Web. WWW: Wyzwania Przykład wzrostu danych: Yahoo! (Kohavi2000) Obsługuje ponad 680 milion żądań stron dziennie. Dane w Web log data narastają w tempie do 6GB/h! Olbrzymie zasoby informacji: artykuły, czasopisma (Elsievier), wiadomości (CNN), sklepy internetowe (Amazon), usługi finansowe (banki, giełda) podróże i usługi turystyczne WWW gigantyczny zbiór dokumentów, także zawierający informacje o powiązaniach (hyper-links); informacje o dostępie i sposobie użycia zasobów 10

11 Web Mining Klasyfikacja zadań Web Mining Web Content Mining Web Structure Mining Web Usage Mining Web Page Content Mining Search Result Mining General Access Pattern Tracking Customized Usage Tracking wg. J.Han, Data mining Web-mining: Wyszukiwanie informacji w serwisach WWW Internet olbrzymia ilość informacji, lecz gdzie i jak znaleźć to co Nas interesuje? Różnego rodzaju serwisy wspomagające wyszukiwanie: Multiwyszukiwarki Pojedyncze wyszukiwarki pokrywają mała cześć zasobów; Wyszukiwarki udzielają różnych odpowiedzi na te same zapytanie Multiwyszukiwarki (metawyszukiwarki) kierują te same zapytanie jednocześnie do kilku wyszukiwarek 11

12 Prezentacja wyników Interfejs większości wyszukiwarek udostępnia rankingową listę dokumentów Dokumenty opisane podstawowymi informacjami: adres URL, tytuł dokumentu, streszczenie lub opis dokumentu, data/rozmiar.., tzw. ranking Ranking dokumentów jest przygotowywany: dynamicznie podobieństwo między zapytaniem a dokumentem statycznie (przygotowany off-line): opinie redaktorów, popularność, zawartość informacyjna, PageRank, lokalizacja,... Ograniczenia list rankingowych Idea grupowania wyników zapytań Ranked-list presentation Grouping engine (post-search clustering) Salsa:foods Salsa:dance inne kategorie Więcej: www-idss.cs.put.poznan.pl/carrot 12

13 Grupowanie odpowiedzi na zapytania Co dalej? Obecne narzędzia ograniczone do przetwarzania informacji tekstowych. Wyszukiwarki do przetwarzania informacji multimedialnych!? Możemy zapytać : Kogo przedstawia to zdjęcie? Lub poprosić : Odnajdź podobne Gdzie szukać dalej? Książki G. Salton: Automatic Text Processing. J. Han, M. Kamber: Data mining. M. Kłopotek: Inteligentne wyszukiwarki internetowe. Internet (spójrz tam na podkatalog publications) Inne wiele, np

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

O szukaniu sensu w stogu siana

O szukaniu sensu w stogu siana O szukaniu sensu w stogu siana Algorytmy grupowania wyników z wyszukiwarek internetowych i propozycje ich ulepszenia przy wykorzystaniu wiedzy lingwistycznej. Dawid Weiss Instytut Informatyki Politechnika

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Wyszukiwanie dokumentów/informacji

Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie

Bardziej szczegółowo

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1 Eksploracja tekstu Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu Eksploracja tekstu wykład 1 Tematem wykładu są zagadnienia związane z eksploracją tekstu. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Multiwyszukiwarka EBSCO Discovery Service przewodnik Multiwyszukiwarka EBSCO Discovery Service to narzędzie zapewniające łatwy i skuteczny dostęp do wszystkich źródeł elektronicznych Biblioteki Uczelnianej (prenumerowanych i Open Access) za pośrednictwem

Bardziej szczegółowo

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Bibliografie czasopism naukowych Biblioteki Głównej UEK jako źródło danych dla analiz bibliometrycznych Streszczenie Przedstawiono

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Główną Uniwersytetu Medycznego w Poznaniu. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Uniwersytetu Jagiellońskiego. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i w jednym miejscu.

Bardziej szczegółowo

Machine Learning. KISIM, WIMiIP, AGH

Machine Learning. KISIM, WIMiIP, AGH Machine Learning KISIM, WIMiIP, AGH 1 Machine Learning Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu

Bardziej szczegółowo

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene 2..22 Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene Dominika Puzio Indeks Podstawy: dokument Dokument: jednostka danych, pojedynczy element na liście wyników wyszukiwania,

Bardziej szczegółowo

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla Biblioteka cyfrowa jako otwarte, internetowe repozytorium publikacji Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe Biblioteka cyfrowa Podstawowe

Bardziej szczegółowo

Wyszukiwanie tekstów

Wyszukiwanie tekstów Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły

Bardziej szczegółowo

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS

Bardziej szczegółowo

Metody indeksowania dokumentów tekstowych

Metody indeksowania dokumentów tekstowych Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Tomasz Grześ. Systemy zarządzania treścią

Tomasz Grześ. Systemy zarządzania treścią Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search Irmina Masłowska irmina.maslowska@cs.put.poznan.pl www.cs.put.poznan.pl/imaslowska/wipi/ Document representation Document representation

Bardziej szczegółowo

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe

Bardziej szczegółowo

Wstęp do przetwarzania języka naturalnego

Wstęp do przetwarzania języka naturalnego Wstęp do przetwarzania języka naturalnego Wykład 9 Wektoryzacja dokumentów i podstawowe miary podobieństwa Wojciech Czarnecki 17 grudnia 2013 Section 1 Przypomnienie Bag of words model Podejście Przypomnienie

Bardziej szczegółowo

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Jak Nas widzą, tak Nas piszą Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Warszawa Maj 2013 Plan prezentacji 1. Stan informacji naukowej w zakresie nauk technicznych w Polsce 2. Koncepcja systemu

Bardziej szczegółowo

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB IX Krajowe Forum Informacji Naukowej i Technicznej Zakopane wrzesień 2007 Biblioteka CIOP-PIB Biblioteka CIOP-PIB

Bardziej szczegółowo

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search dr hab. inż. Miłosz Kadziński dr inż. Irmina Masłowska {milosz.kadzinski, irmina.maslowska}@cs.put.poznan.pl Document representation

Bardziej szczegółowo

Odkrywanie niewidzialnych zasobów sieci

Odkrywanie niewidzialnych zasobów sieci Odkrywanie niewidzialnych zasobów sieci Lidia Derfert-Wolf Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy II seminarium z cyklu INFOBROKER: Wyszukiwanie i przetwarzanie cyfrowych

Bardziej szczegółowo

Bazy dokumentów tekstowych

Bazy dokumentów tekstowych Bazy dokumentów tekstowych Bazy dokumentów tekstowych Dziedzina zastosowań Automatyzacja bibliotek Elektroniczne encyklopedie Bazy aktów prawnych i patentów Szukanie informacji w Internecie Dokumenty tekstowe

Bardziej szczegółowo

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik Wyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Uniwersytetu w Białymstoku oraz katalogu Biblioteki. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo

Bardziej szczegółowo

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można jednak wyróżnić 3 główne elementy, które brane są pod uwagę:

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Ekran Wyszukiwania Podstawowego w multiwyszukiwarce EBSCO Discovery Service zapewnia dostęp poprzez jedno okienko wyszukiwawcze na platformie EBSCOhost do wszystkich zasobów biblioteki. Na ekranie do wyszukiwania

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka EDS daje możliwość przeszukania większości baz udostępnianych przez Bibliotekę Uniwersytetu Warszawskiego oraz katalogu Biblioteki. Odnajdziesz publikacje na potrzebny Ci temat szybko,

Bardziej szczegółowo

WPROWADZENIE DO BAZ DANYCH

WPROWADZENIE DO BAZ DANYCH WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

EBSCO Discovery Service - przewodnik

EBSCO Discovery Service - przewodnik Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka... 1 O multiwyszukiwarce... 2 Przeszukiwane źródła... 2 Jak rozpocząć korzystanie?... 2 Wyszukiwanie zaawansowane... 3 Zawężanie

Bardziej szczegółowo

Specjalnościowy Obowiązkowy Polski Semestr VI

Specjalnościowy Obowiązkowy Polski Semestr VI KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE

Bardziej szczegółowo

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite Tomasz Boiński: 1 Pozycjonowanie stron i zastosowanie mod_rewrite Pozycjonowanie stron Promocja strony odbywa się poprzez umiejscowienie jej jak najwyżej w wynikach wyszukiwania Wyszukiwarki indeksują

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury

Bardziej szczegółowo

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii

Bardziej szczegółowo

METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH

METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH Indeksowanie, Indeks Inwersyjny Grupowanie, Pliki Podpisu Daniel Halikowski METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH Zasoby sieci Internet to miliardy plików zlokalizowanych na całym

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38 Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

Baza PEDAGOG narzędziem edukacji informacyjnej w bibliotece

Baza PEDAGOG narzędziem edukacji informacyjnej w bibliotece Baza PEDAGOG narzędziem edukacji informacyjnej w bibliotece akademickiej Danuta Szewczyk-Kłos Biblioteka Główna Uniwersytetu Opolskiego Bibliograficzne bazy danych i ich rola w rozwoju nauki Biblioteka

Bardziej szczegółowo

Internetowa strategia marketingowa

Internetowa strategia marketingowa Strategie Marketingowe Marketing Internetowy dr Grzegorz Szymański Internetowa strategia marketingowa Pozycjonowanie Jest to jedna z najskuteczniejszych i najtańszych metod reklamy w Internecie. Skuteczne

Bardziej szczegółowo

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia. Załącznik nr 4 do zarządzenia nr 12 Rektora UJ z 15 lutego 2012 r. Sylabus modułu kształcenia na studiach wyższych Nazwa Wydziału Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia Wydział Matematyki

Bardziej szczegółowo

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie danych. Wprowadzenie. Przykłady Grupowanie danych str. 1 Wprowadzenie Celem procesu grupowania jest podział zbioru obiektów, fizycznych lub abstrakcyjnych, na klasy obiektów o podobnych cechach, nazywane klastrami lub skupieniami Klaster

Bardziej szczegółowo

Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym

Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym Paweł Szołtysek 09 listopada 2009 1/46 metod metod 2/46 metod 199 stron, 2 cytowania własne 7rozdziałów Promotor: NT Nguyen 3/46 metod

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka daje moŝliwość przeszukania większości baz udostępnianych na UW oraz katalogu Bibliotek UW. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i w jednym miejscu. Jak rozpocząć

Bardziej szczegółowo

Baza danych. Modele danych

Baza danych. Modele danych Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych

Bardziej szczegółowo

Eksploracja Zasobów Internetu

Eksploracja Zasobów Internetu Wykład: dr inż. Irmina Masłowska Laboratoria: dr hab. inż. Miłosz Kadziński {irmina.maslowska,milosz.kadzinski}@cs.put.poznan.pl CO TO JEST INTERNET? >> Internet stał się z dnia na dzień ogólnoświatową

Bardziej szczegółowo

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE Instytut Badań Literackich PAN Pracownia Bibliografii Bieżącej w Poznaniu dr Zyta Szymańska, Beata Domosławska, Maciej Matysiak (Advis) POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE PLAN WYSTĄPIENIA

Bardziej szczegółowo

Indeksowanie full text search w chmurze

Indeksowanie full text search w chmurze Prezentacja przygotowana dla: 5. Konferencja MIC w Poznaniu, 16.06.20111 Lucene.NET Indeksowanie full text search w chmurze K2 i Windows Azure dlaczego dla nas to możliwe? 1. Mamy unikalne połącznie kompetencji

Bardziej szczegółowo

Biblioteka Wirtualnej Nauki

Biblioteka Wirtualnej Nauki Biblioteka Wirtualnej Nauki BAZA EBSCO EBSCO Publishing oferuje użytkownikom w Polsce dostęp online do pakietu podstawowego baz danych w ramach projektu Electronic Information for Libraries Direct eifl

Bardziej szczegółowo

Eksploracja Zasobów Internetu

Eksploracja Zasobów Internetu document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,

Bardziej szczegółowo

Wyszukiwanie w Katalogu Bibliotek PW za pomocą multiwyszukiwarki Primo

Wyszukiwanie w Katalogu Bibliotek PW za pomocą multiwyszukiwarki Primo Wyszukiwanie w Katalogu Bibliotek PW za pomocą multiwyszukiwarki Primo Aby znaleźć potrzebne książki i czasopisma, skorzystaj ze wspólnego katalogu Biblioteki Głównej, jej filii oraz większości bibliotek

Bardziej szczegółowo

Informatyka wspomaga przedmioty ścisłe w szkole

Informatyka wspomaga przedmioty ścisłe w szkole Informatyka wspomaga przedmioty ścisłe w szkole Prezentuje : Dorota Roman - Jurdzińska W arkuszu I na obu poziomach występują dwa zadania związane z algorytmiką: Arkusz I bez komputera analiza algorytmów,

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000 Bazy Danych LITERATURA C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000 J. D. Ullman, Systemy baz danych, WNT - W-wa, 1998 J. D. Ullman, J. Widom, Podstawowy

Bardziej szczegółowo

Biblioteka Wirtualnej Nauki

Biblioteka Wirtualnej Nauki Biblioteka Wirtualnej Nauki BAZA SCOPUS Scopus jest największą na świecie bibliograficzną bazą abstraktów i cytowań recenzowanej literatury naukowej, wyposażoną w narzędzia bibliometryczne do śledzenia,

Bardziej szczegółowo

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska kazienko@pwr.wroc.pl Dlaczego eksploracja danych w serwisach internetowych? Kanały

Bardziej szczegółowo

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne Izabela Swoboda Uniwersytet Śląski Instytut Bibliotekoznawstwa i Informacji Naukowej Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Bardziej szczegółowo

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak Wyszukiwanie boolowskie i strukturalne Adam Srebniak Wyszukiwanie boolowskie W wyszukiwaniu boolowskim zapytanie traktowane jest jako zdanie logiczne. Zwracane są dokumenty, dla których to zdanie jest

Bardziej szczegółowo

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

PRZESTRZENNE BAZY DANYCH WYKŁAD 2 PRZESTRZENNE BAZY DANYCH WYKŁAD 2 Baza danych to zbiór plików, które fizycznie przechowują dane oraz system, który nimi zarządza (DBMS, ang. Database Management System). Zadaniem DBMS jest prawidłowe przechowywanie

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach

Bardziej szczegółowo

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2 Internet, jako ocean informacji Technologia Informacyjna Lekcja 2 Internet INTERNET jest rozległą siecią połączeń, między ogromną liczbą mniejszych sieci komputerowych na całym świecie. Jest wszechstronnym

Bardziej szczegółowo

Pobieranie i przetwarzanie treści stron WWW

Pobieranie i przetwarzanie treści stron WWW Eksploracja zasobów internetowych Wykład 2 Pobieranie i przetwarzanie treści stron WWW mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Jedną z funkcji silników wyszukiwania danych, a właściwie ich modułów

Bardziej szczegółowo

Czytelnik w bibliotece cyfrowej

Czytelnik w bibliotece cyfrowej Czytelnik w bibliotece cyfrowej Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe IV Warsztaty Biblioteki Cyfrowe Poznań, 2007 Do czego służy Aplikacja Czytelnika? Udostępnianie zasobów cyfrowych

Bardziej szczegółowo

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.

Bardziej szczegółowo

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Systemy baz danych w zarządzaniu przedsiębiorstwem W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Proces zarządzania danymi Zarządzanie danymi obejmuje czynności: gromadzenie

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 W celu zwiększenia indeksowania i przeszukiwania publikacji autorskich przez naukowe wyszukiwarki internetowe, należy

Bardziej szczegółowo

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik Multiwyszukiwarka daje moŝliwość przeszukania większości baz udostępnianych na UW oraz katalogu Bibliotek UW. Odnajdziesz publikacje na potrzebny Ci temat szybko, łatwo i w jednym miejscu. Jak rozpocząć

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka Instytut Informacji Naukowej i Bibliologii Uniwersytet

Bardziej szczegółowo

Podstawowe zagadnienia pozyskiwania wiedzy w Internecie

Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Zeszyty Naukowe nr 798 Uniwersytetu Ekonomicznego w Krakowie 2009 Katedra Systemów Obliczeniowych Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Streszczenie. Szybki rozwój Internetu w ostatnim

Bardziej szczegółowo

Jak przetrwać w "wieku informacji"? [sieciowej]

Jak przetrwać w wieku informacji? [sieciowej] II Forum Wiedzy Interdyscyplinarnej im. J. J. Śniadeckich Bydgoszcz - Żnin, 28-29.04.2004 Jak przetrwać w "wieku informacji"? [sieciowej] Żyć i działać we współczesnym świecie to znaczy korzystać z informacji

Bardziej szczegółowo

Full Text Search. Study Group Tomasz Libera

Full Text Search. Study Group Tomasz Libera Full Text Search Study Group 70-461 Tomasz Libera BIO SQL Server Developer Członek Zarządu Stowarzyszenia PLSSUG Założyciel i lider krakowskiego oddziału Organizator i prelegent konferencji SQLDay, SQL

Bardziej szczegółowo

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Nazwa biblioteki (w języku oryginalnym) National Library of Scotland Biblioteka Narodowa Szkocji

Nazwa biblioteki (w języku oryginalnym) National Library of Scotland Biblioteka Narodowa Szkocji 1 Nazwa biblioteki (w języku oryginalnym) National Library of Scotland Biblioteka Narodowa Szkocji http://www.nls.uk/digitallibrary/index.html 1. Zawartość The National Library of Scotland jest największą

Bardziej szczegółowo

Wyszukiwanie informacji

Wyszukiwanie informacji Wyszukiwanie informacji jak dobrze pytad Google? - podstawowe zasady formułowania dobrych zapytao - narzędzia Google dla ukrytego internetu - przygotował Marek Skibicki Podstawowe zapytanie Możemy poszukiwad

Bardziej szczegółowo

Przeszukiwanie zasobów bibliotecznych za pomocą multiwyszukiwarki Primo

Przeszukiwanie zasobów bibliotecznych za pomocą multiwyszukiwarki Primo Przeszukiwanie zasobów bibliotecznych za pomocą multiwyszukiwarki Primo Serwis zintegrowanego wyszukiwania, który umożliwia jednoczesne przeszukiwanie wielu zasobów informacyjnych, m.in. czasopism i książek

Bardziej szczegółowo

Metadane. Przykry obowiązek czy przydatny zasób?

Metadane. Przykry obowiązek czy przydatny zasób? Metadane Przykry obowiązek czy przydatny zasób? A D A M I W A N I A K Administracja publiczna a ustawa o Infrastrukturze Informacji Przestrzennej, Kielce, 13-14 października 2011 r. Problem nadmiaru informacji

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa , semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu

Bardziej szczegółowo

Publikacje z zakresu bezpiecznego funkcjonowania człowieka w środowisku pracy z lat jako obraz prowadzonych badań

Publikacje z zakresu bezpiecznego funkcjonowania człowieka w środowisku pracy z lat jako obraz prowadzonych badań Publikacje z zakresu bezpiecznego funkcjonowania człowieka w środowisku pracy z lat 1950-2010 jako obraz prowadzonych badań Publications in the field of safety in the working environment in 1950-2010 as

Bardziej szczegółowo